Bioinformatics (生物資訊)在DNA研究部份,sequence assembly最重要的一環,其中最困難的就是de novo assembly,因此發展了許多演算法與軟體。

SOAPdenovo為SOAP(Short Oligonucleotide Analysis Package)相關應用程式中,用來進行de novo assembly的工具,其演算法為de bruijn,專門處理short-read(Illumina Genome Analyzer,IGA)。

Home page: http://soap.genomics.org.cn/soapdenovo.html

其他相關參考:

介紹超級詳細的網頁:[生物資訊實驗室]

SOAPdenovo有三個相關tools

  1. Correction tool是利用quality score和k-mer frequency對pair-end reads做修正的動作,將Correction tool解開後會包含4支程式,主要會用到的有KmerFreq、Corrector和merge_pair.pl這三支程式 。

    KmerFreq就是在統計所有K-mer出現的次數。

    Corrector利用KmerFreq統計出來的K-mer frequency將read上不正確的核甘酸做修正。

    merge_pair是要將兩個分散的fasta檔案做合併,通常pair-end兩端的reads會存在兩個不同的檔案,而在做完Corrector後,有些reads可能會因為quality過低或太多N而被砍掉,所以兩端的reads個數可能會不一樣多(有些reads因為被刪除而變成single-end),但是SOAPdenovo又無法處理這樣的情形(會有Floating Point Exception),這時候merge_pair會將兩端都完整的paired-end取出來之外,還會把剩下的single-end reads存到另一個檔案中。

  2. GapCloser http://soap.genomics.org.cn/down/GapCloser.tar.gz
 
另外,對於SOAPdenovo最重要的configure檔,如果不知道該怎麼寫,有這個網頁:SOAPdenovo.config自動生成腳本,所以提供的程式碼,很有用。
 
目前正在試跑階段,只有用SOAPdenovo跑assembly,正在研究mate-paired和paired-end一起跑的configure file。
 

2012/07/02
soapdenovo的結果應該還要再加上GapClose才能算是最後的結果,因為有paper指出,soapdenovo + GapCloser才是最好的結果
arrow
arrow
    全站熱搜

    老余 發表在 痞客邦 留言(0) 人氣()