目前三代测序主要为PacBio公司的SMRT测序技术和Oxford Nanopore Technology的纳米孔测序技术。相比于第一代和第二代测序技术,三代测序技术最为核心的特点就是单分子和长读长。第三代测序下机数据以fast5 (本质上为HDF5格式)格式存储。

HDF5的文件组织:一个HDF5文件就是一个由两种基本数据对象(groups and datasets)存放多种科学数据的容器:

图片.png

  • HDF5 group:包含0个或多个HDF5对象以及支持元数据(metadata)的一个群组结构。
  • HDF5 dataset:数据元素的一个多维数组以及支持元数据(metadata)。

图片.png

(一) 安装anaconda(或 minianaconda)

网上很多教程,此处省略…

(二) 通过conda安装poretools

  1. 创建虚拟环境
1
conda create -p ~/envs/poretools
  1. 检索bioconda中收录的poretools版本信息
1
conda search poretools
  1. 根据检索结果,确定下载的版本
1
conda install -p ~/envs/poretools poretools=0.6.0
  1. 使用之间,激活该虚拟环境
1
2
3
conda activate ~/envs/poretools
# 推出激活命令为:
conda deactivate ~/envs/poretools

(三) 使用教程

  1. 提取FASTQ格式序列
1
2
3
poretools fastq test.fast5
#批量提取
poretools fastq *.fast5
  1. 提取FASTA格式序列
1
poretools fasta test.fast5
  1. 绘制电信号曲线
1
poretools squiggle test.fast5

图片.png

  1. 其他测序指标统计,参照官方资料

参考资料

https://poretools.readthedocs.io/en/latest/content/examples.html#poretools-fastq