Bioinformatics (生物資訊)在DNA研究部份,sequence assembly最重要的一環,其中最困難的就是de novo assembly,因此發展了許多演算法與軟體。
SOAPdenovo為SOAP(Short Oligonucleotide Analysis Package)相關應用程式中,用來進行de novo assembly的工具,其演算法為de bruijn,專門處理short-read(Illumina Genome Analyzer,IGA)。
Home page: http://soap.genomics.org.cn/soapdenovo.html
其他相關參考:
介紹超級詳細的網頁:[生物資訊實驗室]
SOAPdenovo有三個相關tools
-
Correction tool http://soap.genomics.org.cn/down/correction.tar.gz
Correction tool是利用quality score和k-mer frequency對pair-end reads做修正的動作,將Correction tool解開後會包含4支程式,主要會用到的有KmerFreq、Corrector和merge_pair.pl這三支程式 。
KmerFreq就是在統計所有K-mer出現的次數。
Corrector利用KmerFreq統計出來的K-mer frequency將read上不正確的核甘酸做修正。merge_pair是要將兩個分散的fasta檔案做合併,通常pair-end兩端的reads會存在兩個不同的檔案,而在做完Corrector後,有些reads可能會因為quality過低或太多N而被砍掉,所以兩端的reads個數可能會不一樣多(有些reads因為被刪除而變成single-end),但是SOAPdenovo又無法處理這樣的情形(會有Floating Point Exception),這時候merge_pair會將兩端都完整的paired-end取出來之外,還會把剩下的single-end reads存到另一個檔案中。
- GapCloser http://soap.genomics.org.cn/down/GapCloser.tar.gz
留言列表