Home

ゲノムアセンブリの A-statistic

ほとんど自分用メモ。Myers, E. W. A Whole-Genome Assembly of Drosophila. Science 287, 2196–2204 (2000) にある “A-statistic” について。

  • Given: ゲノム長 GG bp
  • Given: (途切れていない) リードの総数 NN
  • Given: 長さ ll bp で kk 個のリードからなるコンティグ cc
  • Def: コンティグ cc の「重複度」rNr\in\mathbb{N} (= その配列がゲノム中に何回現れるか = リピートのコピー何個をまとめたものか、を表す値)

このとき、p(kr):=p(k\vert r):=「コンティグ cckk 個のリードから構成される確率」=「ll bp の区間 (×r\times r 個) 内で kk 個のリードが開始する確率」は、

p(kr)=Poisson(k;lrNG)=1k!(lrNG)kexp(lrNG)\begin{aligned} p(k\vert r)&={\rm Poisson}\left(k;\frac{lrN}{G}\right) \\ &=\frac{1}{k!}\left(\frac{lrN}{G}\right)^k\exp\left(-\frac{lrN}{G}\right) \end{aligned}

となる。そしてこれをもとに、重複度 1 の場合 (= ユニーク配列) と 2 の場合 (= リピート配列; コピー数が 3 以上の場合もこちらの方が近くなる) の log オッズ比

logp(kr=1)p(kr=2)=lNGlogeklog2\log\frac{p(k\vert r=1)}{p(k\vert r=2)}= \frac{lN}{G}\log e-k\log 2

の値が 10 以上なら、その ll bp の区間 (= コンティグ) はユニークであるとする、という話。これはコンティグが全体としてリピートっぽいかどうかの判定なので、アセンブリの “正しさ” はまた別問題となる (A-statistic の値が小さくてもアセンブリが正しいこともあるし、大きくてもミスアセンブリがあることもある)。