次世代シーケンサーのお話を聞いてきました
5月14日にIPABセミナーで「次世代シーケンサー大量データ処理の現状」と題して発表があったので聞いてきました。
今回はその時のメモです。
Personal Genome
それぞれの人が自分のゲノムを読めるようになる
→疾患リスクの予測
生活習慣病=遺伝的背景+生活習慣
病気の遺伝的要因(SNP等以外)
→比較的広範囲でゲノムが変化している場合がある[1]
次世代シーケンサー
特徴:
1〜2週間で数億本、5TB以上のデータ(画像データ含む)が出てくる
1本あたりは数十〜100b
PacBioのシーケンサーが出てきたら従来のshort readはいらなくなる?
→エラーレートがどの程度かによってうまくマッピング等ができるかわからないので詳細待ち
現状の問題点
Linuxがうまく使えなくて解析できない
データが出てきすぎていて放置されているデータがすでに出てきている
BITSが提供している解析時に使用するマシンの構成(例)
OS:Linudx
CPU:Quad Core x2または4
メモリ:64GB~256GB
HDD 10TB~
大体500万〜(クラスターではない)
今後はより大量かつ高速なストレージが必要
データ解析の流れ
素のデータ(画像データ)
↓(1次解析)画像解析 ベースコール
配列
↓(2次解析) マッピング アセンブリ SNPコール
マッピング結果
アセンブリ
↓(3次解析)アノテーション finishing
アノテーションDB
ドラフトゲノム
シーケンサーが出すデータの大部分は画像データ(画像は圧縮などされずに生データがほとんど)
1〜2週間サイクルでTBオーダーのデータが出力される
外付けHDDに移動していることが多い
2次解析
マッピング(BWA等を使用)→並列化されやすい
アセンブリ(Velvet等)→並列化しにくい(最後にまとめるという作業があるため)
2次解析ではBWAを使うことが多い
→次の解析に持ち込みやすい形式で出力してくれるため
データ解析の本番は3次解析
シーケンサー的にはコスト面などからも十分Personal Genomeということができる時代になってきている
今回のお話でも、やっぱり一番の問題点はシーケンサーで読み取ったデータをどうやって保存しておくかが問題になっているらしい。
参考文献
[1]Ashley, E. A., Butte, A. J., Wheeler, M. T., Chen, R., Klein, T. E., Dewey, F. E., et al. (2010). Clinical assessment incorporating a personal genome. The Lancet, 375