Clumpify.sh (from BBMap): Remove PCR Duplicates

软件简介

clumpify.sh实际上是BBMap工具中的一个脚本,本来的作用是去除重复序列。在宏基因组数据处理中,经常用于二代数据(经PCR建库)后的去除PCR重复。

去除PCR重复这本事是一件挺具有争议性的话题。首先,决定你到底需不需要做这一步的一个最重要的因素是要去调查清楚你的测序建库方法到底是不是PCR-free的,如果不是,才有做这一步的意义。另外,有相关的分析表明,PCR duplicates的数量实际上是一个概率问题,因为它本身就是同一片段(的PCR产物)被反复测到的结果(参考)。实际上,我看了很多文献(的材料方法)中也并没有单独提到需要做去PCR重复这件事。

参数列表

-in1, -in2: Paired-end reads to be deduplicated
-out1, -out2: Output file paths

常用命令

1
2
3
4
5
6
/path/to/bbmap/clumpify.sh \
-in1=/path/to/clean_R1.fq \
-in2=/path/to/clean_R2.fq \
-out1=/path/to/dedupe_R1.fq \
-out2=/path/to/dedupe_R2.fq \
dedupe=t

相关参考链接

  1. https://www.biostars.org/p/347514/
  2. https://www.cureffi.org/2012/12/11/how-pcr-duplicates-arise-in-next-generation-sequencing/
  3. https://jgi.doe.gov/data-and-tools/software-tools/bbtools/bb-tools-user-guide/clumpify-guide/
  4. https://jgi.doe.gov/data-and-tools/software-tools/bbtools/bb-tools-user-guide/dedupe-guide/

Clumpify.sh (from BBMap): Remove PCR Duplicates
https://emmettpeng.github.io/2024/01/30/clumpify/
Author
Emmett Peng
Posted on
January 30, 2024
Licensed under