安裝seqtk
工具seqtk (https://github.com/lh3/seqtk)
可以用conda直接安裝:
conda install seqtk
取出序列
評估paired raw reads每一邊需要取出的reads數量:(基因體大小 x 需要的倍率/定序長度)/2假設基因體大小是5M,需要的覆蓋率是100倍,需要取出的reads為:(5,000,000x100/126)2,大約是 2,000,000
以seed 100 取出2,000,000條raw reads,同一個樣本F跟R的seed要用一樣,取出來的raw reads才會是paired,原始序列可以是gz壓縮檔:
seqtk sample -s100 raw-reads_R1.fastq.gz 2000000 > subsample-raw-reads_R1.fastq
seqtk sample -s100 raw-reads_R2.fastq.gz 2000000 > subsample-raw-reads_R2.fastq