ほとんど自分用メモ。Myers, E. W. A Whole-Genome Assembly of Drosophila. Science 287, 2196–2204 (2000) にある “A-statistic” について。
- Given: ゲノム長 bp
- Given: (途切れていない) リードの総数
- Given: 長さ bp で 個のリードからなるコンティグ
- Def: コンティグ の「重複度」 (= その配列がゲノム中に何回現れるか = リピートのコピー何個をまとめたものか、を表す値)
このとき、「コンティグ が 個のリードから構成される確率」=「 bp の区間 ( 個) 内で 個のリードが開始する確率」は、
となる。そしてこれをもとに、重複度 1 の場合 (= ユニーク配列) と 2 の場合 (= リピート配列; コピー数が 3 以上の場合もこちらの方が近くなる) の log オッズ比
の値が 10 以上なら、その bp の区間 (= コンティグ) はユニークであるとする、という話。これはコンティグが全体としてリピートっぽいかどうかの判定なので、アセンブリの “正しさ” はまた別問題となる (A-statistic の値が小さくてもアセンブリが正しいこともあるし、大きくてもミスアセンブリがあることもある)。