PLINK 二进制文件格式简介
PLINK 二进制文件格式简介¶
本文档介绍 PLINK 中常见的三种文件格式
.bed,.bim,.fam,它们是全基因组关联分析(GWAS)中最常见的数据结构。
🧬 为什么有这三种文件?¶
PLINK 为了提高处理效率,将数据按功能拆分成三类文件:
| 文件 | 功能 | 格式 | 是否可读 |
|---|---|---|---|
.bed | 存储个体的基因型矩阵(binary genotype data) | 二进制 | 否 ❌ |
.bim | 存储每个 SNP 的注释信息 | 文本 | 是 ✅ |
.fam | 存储每个个体的基本信息 | 文本 | 是 ✅ |
这样设计的优点是: - 快速读取和存储大规模数据 - 不同部分可以独立修改和更新 - 提高分析效率
🧾 .bed 文件:基因型矩阵(二进制)¶
- 主数据文件,存储所有个体在所有 SNP 上的基因型(如 AA、AG、GG)
- 使用 2-bit 编码,每个位点压缩为 2 比特
- 存储顺序是 SNP × 样本
- 文件不可直接读取,需要用 PLINK 或其他程序转换为
.ped格式
💡
.bed文件需与.bim和.fam配合使用,单独使用无意义。
📄 .bim 文件:SNP 注释信息(文本)¶
- 每一行是一个 SNP(一个位点)
- 共 6 列,无标题
| 列号 | 含义 |
|---|---|
| 1 | 染色体编号(Chromosome) |
| 2 | SNP ID(rs号) |
| 3 | 遗传距离(Genetic distance,一般为0) |
| 4 | 物理位置(Position,单位:bp) |
| 5 | 等位基因1(通常为参考等位基因) |
| 6 | 等位基因2(通常为替代表型) |
示例:
1 rs12345 0 1234567 A G 1 rs67890 0 2345678 C T
👤 .fam 文件:个体信息(文本)¶
- 每一行是一个样本(个体)
- 共 6 列,无标题
| 列号 | 含义 |
|---|---|
| 1 | 家系 ID(FID) |
| 2 | 个体 ID(IID) |
| 3 | 父亲 ID |
| 4 | 母亲 ID |
| 5 | 性别(1=男,2=女,0=未知) |
| 6 | 表型(如疾病状态,1=control, 2=case;或是连续型性状) |
示例:
FID001 IND001 0 0 1 2 FID002 IND002 0 0 2 1
🧪 三个文件如何配合使用?¶
.bed 文件中存储了所有基因型信息,而 .bim 提供 SNP 的注释信息,.fam 则提供个体的表型和性别信息。三者通过 相同行和列的顺序 来关联。
可使用以下命令将二进制格式转为可读格式:
plink --bfile your_data --recode --out output_prefix