Hightlight.js-9.15.6

2018年4月1日 星期日

[NGS] 以seqtk對raw reads取樣,降低coverage

安裝seqtk

工具seqtk (https://github.com/lh3/seqtk)

可以用conda直接安裝:
conda install seqtk

取出序列

評估paired raw reads每一邊需要取出的reads數量:(基因體大小 x 需要的倍率/定序長度)/2

假設基因體大小是5M,需要的覆蓋率是100倍,需要取出的reads為:(5,000,000x100/126)2,大約是 2,000,000

以seed 100 取出2,000,000條raw reads,同一個樣本F跟R的seed要用一樣,取出來的raw reads才會是paired,原始序列可以是gz壓縮檔:

seqtk sample -s100 raw-reads_R1.fastq.gz 2000000 > subsample-raw-reads_R1.fastq
seqtk sample -s100 raw-reads_R2.fastq.gz 2000000 > subsample-raw-reads_R2.fastq