📁 PLINK 二进制文件格式简介(.bed, .bim, .fam)
📁 PLINK 二进制文件格式简介(.bed, .bim, .fam)¶
本文档介绍 PLINK 中常见的三种文件格式
.bed
,.bim
,.fam
,它们是全基因组关联分析(GWAS)中最常见的数据结构。
🧬 为什么有这三种文件?¶
PLINK 为了提高处理效率,将数据按功能拆分成三类文件:
文件 | 功能 | 格式 | 是否可读 |
---|---|---|---|
.bed | 存储个体的基因型矩阵(binary genotype data) | 二进制 | 否 ❌ |
.bim | 存储每个 SNP 的注释信息 | 文本 | 是 ✅ |
.fam | 存储每个个体的基本信息 | 文本 | 是 ✅ |
这样设计的优点是: - 快速读取和存储大规模数据 - 不同部分可以独立修改和更新 - 提高分析效率
🧾 .bed
文件:基因型矩阵(二进制)¶
- 主数据文件,存储所有个体在所有 SNP 上的基因型(如 AA、AG、GG)
- 使用 2-bit 编码,每个位点压缩为 2 比特
- 存储顺序是 SNP × 样本
- 文件不可直接读取,需要用 PLINK 或其他程序转换为
.ped
格式
💡
.bed
文件需与.bim
和.fam
配合使用,单独使用无意义。
📄 .bim
文件:SNP 注释信息(文本)¶
- 每一行是一个 SNP(一个位点)
- 共 6 列,无标题
列号 | 含义 |
---|---|
1 | 染色体编号(Chromosome) |
2 | SNP ID(rs号) |
3 | 遗传距离(Genetic distance,一般为0) |
4 | 物理位置(Position,单位:bp) |
5 | 等位基因1(通常为参考等位基因) |
6 | 等位基因2(通常为替代表型) |
示例:
1 rs12345 0 1234567 A G 1 rs67890 0 2345678 C T
👤 .fam
文件:个体信息(文本)¶
- 每一行是一个样本(个体)
- 共 6 列,无标题
列号 | 含义 |
---|---|
1 | 家系 ID(FID) |
2 | 个体 ID(IID) |
3 | 父亲 ID |
4 | 母亲 ID |
5 | 性别(1=男,2=女,0=未知) |
6 | 表型(如疾病状态,1=control, 2=case;或是连续型性状) |
示例:
FID001 IND001 0 0 1 2 FID002 IND002 0 0 2 1
🧪 三个文件如何配合使用?¶
.bed
文件中存储了所有基因型信息,而 .bim
提供 SNP 的注释信息,.fam
则提供个体的表型和性别信息。三者通过 相同行和列的顺序 来关联。
可使用以下命令将二进制格式转为可读格式:
plink --bfile your_data --recode --out output_prefix
最后更新: 2025-06-07