跳转至

📁 PLINK 二进制文件格式简介(.bed, .bim, .fam)

本文档介绍 PLINK 中常见的三种文件格式 .bed, .bim, .fam,它们是全基因组关联分析(GWAS)中最常见的数据结构。


🧬 为什么有这三种文件?

PLINK 为了提高处理效率,将数据按功能拆分成三类文件:

文件 功能 格式 是否可读
.bed 存储个体的基因型矩阵(binary genotype data) 二进制 否 ❌
.bim 存储每个 SNP 的注释信息 文本 是 ✅
.fam 存储每个个体的基本信息 文本 是 ✅

这样设计的优点是: - 快速读取和存储大规模数据 - 不同部分可以独立修改和更新 - 提高分析效率


🧾 .bed 文件:基因型矩阵(二进制)

  • 主数据文件,存储所有个体在所有 SNP 上的基因型(如 AA、AG、GG)
  • 使用 2-bit 编码,每个位点压缩为 2 比特
  • 存储顺序是 SNP × 样本
  • 文件不可直接读取,需要用 PLINK 或其他程序转换为 .ped 格式

💡 .bed 文件需与 .bim.fam 配合使用,单独使用无意义。


📄 .bim 文件:SNP 注释信息(文本)

  • 每一行是一个 SNP(一个位点)
  • 共 6 列,无标题
列号 含义
1 染色体编号(Chromosome)
2 SNP ID(rs号)
3 遗传距离(Genetic distance,一般为0)
4 物理位置(Position,单位:bp)
5 等位基因1(通常为参考等位基因)
6 等位基因2(通常为替代表型)

示例:

1 rs12345 0 1234567 A G 1 rs67890 0 2345678 C T


👤 .fam 文件:个体信息(文本)

  • 每一行是一个样本(个体)
  • 共 6 列,无标题
列号 含义
1 家系 ID(FID)
2 个体 ID(IID)
3 父亲 ID
4 母亲 ID
5 性别(1=男,2=女,0=未知)
6 表型(如疾病状态,1=control, 2=case;或是连续型性状)

示例:

FID001 IND001 0 0 1 2 FID002 IND002 0 0 2 1


🧪 三个文件如何配合使用?

.bed 文件中存储了所有基因型信息,而 .bim 提供 SNP 的注释信息,.fam 则提供个体的表型和性别信息。三者通过 相同行和列的顺序 来关联。

            BED: 基因型矩阵(个体 × SNP)
           ┌──────────────┐
FAM (个体) │ A1 A2 B1 B2… │
           └──────────────┘
           BIM (SNP信息)

可使用以下命令将二进制格式转为可读格式:

plink --bfile your_data --recode --out output_prefix


最后更新: 2025-06-07