基因组资源


hg38/hg19/mm10/mm9基因组资源已经整合到我们的服务器中

/150T/zhangqf/GenomeAnnotation

1. 目录文件组织

                [zhangqf8@loginview02 Genome]$ tree -L 2
                .
                ├── chain                           # Chain文件:基因组版本转换
                │   ├── hg18ToHg19.over.chain.gz
                │   ├── hg18ToHg38.over.chain.gz
                │   ├── hg19ToHg17.over.chain.gz
                │   ├── hg19ToHg18.over.chain.gz
                │   ├── hg19ToHg38.over.chain.gz
                │   ├── hg38ToHg19.over.chain.gz
                │   ├── mm10ToMm9.over.chain.gz
                │   └── mm9ToMm10.over.chain.gz
                ├── Gencode                        # Gencode 注释文件、转录组文件、基因组坐标/转录本坐标注释文件
                │   ├── GRCh37.gtf                      # GTF注释文件
                │   ├── GRCh38.gtf
                │   ├── GRCm37.gtf
                │   ├── GRCm38.gtf
                │   ├── hg19.genomeCoor.bed             # 基因组坐标注释
                │   ├── hg19_longestCDS_mRNA.fa         # protein_coding基因中最长CDS的mRNA集合转录组
                │   ├── hg19_longest_RNA.fa             # 所有基因中最长RNA集合转录组
                │   ├── hg19.transCoor.bed              # 转录本坐标注释
                │   ├── hg19_transcriptome.fa           # 全转录组
                │   ├── hg38.genomeCoor.bed
                │   ├── hg38_longestCDS_mRNA.fa
                │   ├── hg38_longest_RNA.fa
                │   ├── hg38.transCoor.bed
                │   ├── hg38_transcriptome.fa
                │   ├── mm10.genomeCoor.bed
                │   ├── mm10_longestCDS_mRNA.fa
                │   ├── mm10_longest_RNA.fa
                │   ├── mm10.transCoor.bed
                │   ├── mm10_transcriptome.fa
                │   ├── mm9.genomeCoor.bed
                │   ├── mm9_longestCDS_mRNA.fa
                │   ├── mm9_longest_RNA.fa
                │   ├── mm9.transCoor.bed
                │   └── mm9_transcriptome.fa
                ├── genome                          # 基因组
                │   ├── GRCh37.p13.genome.fa            # hg19基因组
                │   ├── GRCh37.p13.genome.fa.fai
                │   ├── GRCh38.p10.genome.fa            # hg38基因组
                │   ├── GRCh38.p10.genome.fa.fai
                │   ├── GRCm38.p5.genome.fa             # mm10基因组
                │   ├── GRCm38.p5.genome.fa.fai
                │   ├── NCBIM37.genome.fa               # mm9基因组
                │   └── NCBIM37.genome.fa.fai
                ├── INDEX                           # 索引
                │   ├── Bowtie2                         # Bowtie索引
                │   └── STAR                            # STAR索引
                ├── NCBI                            # NCBI 注释文件、转录组文件、基因组坐标/转录本坐标注释文件
                │   ├── GRCh37.gff3                     # GFF3注释文件
                │   ├── GRCh38.gff3
                │   ├── GRCm38.gff3
                │   ├── hg19.genomeCoor.bed             # 基因组坐标注释
                │   ├── hg19_longestCDS_mRNA.fa         # protein_coding基因中最长CDS的mRNA集合转录组
                │   ├── hg19_longest_RNA.fa             # 所有基因中最长RNA集合转录组
                │   ├── hg19.transCoor.bed              # 转录本坐标注释
                │   ├── hg19_transcriptome.fa           # 全转录组
                │   ├── hg38.genomeCoor.bed
                │   ├── hg38_longestCDS_mRNA.fa
                │   ├── hg38_longest_RNA.fa
                │   ├── hg38.transCoor.bed
                │   ├── hg38_transcriptome.fa
                │   ├── mm10.genomeCoor.bed
                │   ├── mm10_longestCDS_mRNA.fa
                │   ├── mm10_longest_RNA.fa
                │   ├── mm10.transCoor.bed
                │   └── mm10_transcriptome.fa
                ├── refSeq_gencode                  # refSeqID-GencodeID 转换文件
                │   ├── hg19.RefSeq
                │   ├── hg38.RefSeq
                │   ├── mm10.RefSeq
                │   └── mm9.RefSeq
                ├── rRNA                            # rRNA序列文件
                │   ├── human_all_rRNA.fa               # 18S/28S/5S/5.8S/12S/16S + SILVA数据库
                │   ├── mouse_all_rRNA.fa               # 18S/28S/5S/5.8S/12S/16S + SILVA数据库
                │   └── reame
                └── size                            # 基因组size文件*
                ├── hg19.genome.size
                ├── hg38.genome.size
                ├── mm10.genome.size
                └── mm9.genome.size
            
* 基因组size文件可用GenomeAnnotation/INDEX/STAR/[hg38|hg19|mm9|mm10]/genome/chrNameLength.txt代替

2. 注释文件

2.1 NCBI注释

NCBI refSeq提供GFF3的注释文件,在目录NCBI下,但是不提供mm9的注释。它的注释文件格式如下:

NC_000001.11    RefSeq          region  1       248956422       .       +       .       ID=id0;Dbxref=taxon:9606;Name=1;chromosome=1;gbkey=Src;genome=chromosome;mol_type=genomic DNA
NC_000001.11    BestRefSeq      gene    11874   14409   .       +       .       ID=gene0;Dbxref=GeneID:100287102,HGNC:HGNC:37102;Name=DDX11L1;description=DEAD/H-box helicase 11 like 1;gbkey=Gene;gene=DDX11L1;gene_biotype=misc_RNA;pseudo=true
NC_000001.11    BestRefSeq      transcript      11874   14409   .       +       .       ID=rna0;Parent=gene0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;Name=NR_046018.2;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11    BestRefSeq      exon    11874   12227   .       +       .       ID=id1;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11    BestRefSeq      exon    12613   12721   .       +       .       ID=id2;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11    BestRefSeq      exon    13221   14409   .       +       .       ID=id3;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
                

refSeq的GFF3注释文件有如下特点:

  1. refSeq推荐使用染色体的ID(NC_000001.11)来代替chr1
  2. refSeq没有类似于Ensembl一样的ENSG统一的基因ID,它的基因ID用一串数字表示:Dbxref=GeneID:100287102
  3. refSeq的大多数转录本提供ID: Genbank:NR_046018.2,但这个ID在GFF3文件不是唯一的,两条染色体上的转录本可能有相同的ID
  4. 第三列有如下的字段:cDNA_match、CDS、C_gene_segment、D_gene_segment、D_loop、exon、gene、J_gene_segment、match、mRNA、ncRNA、primary_transcript、region、repeat_region、rRNA、transcript、tRNA、V_gene_segment
    • region表示一条染色体或scaffold;
    • transcript一般表示misc_RNA;
    • primary_transcript表示miRNA前体;
    • ncRNA包含了除tRNA/rRNA以外所有的ncRNA(包括miRNA和lncRNA);
    • mRNA表示编码蛋白的转录本;
    • 每一个转录本都有对应的基因,绝大部分转录本都有ID,每一个转录本都有exon

Gene Structure
图1. 经典的基因结构

2.2 Gencode注释

Gencode提供GTF/GFF3注释文件,在目录Gencode下。它的注释文件格式如下:

chr1    HAVANA  gene    11869   14409   .       +       .       gene_id "ENSG00000223972.5"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; level 2; havana_gene "OTTHUMG00000000961.2";
chr1    HAVANA  transcript      11869   14409   .       +       .       gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-002"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    HAVANA  exon    11869   12227   .       +       .       gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-002"; exon_number 1; exon_id "ENSE00002234944.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    HAVANA  exon    12613   12721   .       +       .       gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-002"; exon_number 2; exon_id "ENSE00003582793.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    HAVANA  exon    13221   14409   .       +       .       gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-002"; exon_number 3; exon_id "ENSE00002312635.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
                

Gencode的GTF注释文件有如下特点:

  1. 染色体ID统一使用chr1/chr2/chr3...chrX/chrY/chrM等标记(scaffold除外)
  2. Gencode的基因ID统一以ENSG(小鼠:ENSMUSG)开头:ENSG00000223972.5。没有重复
  3. Gencode的转录本ID统一以ENST(小鼠:ENSMUST)开头:ENST00000456328.2。没有重复
  4. 第三列有如下的字段:CDS、exon、gene、Selenocysteine、start_codon、stop_codon、transcript、UTR
    • 如图1所示,gene由exon组成,exon间隔区即intron
    • 如果转录本是一个mRNA,则会有CDS、start_codon、stop_codon、UTR(可能有)
    • 每一条转录本都以transcript字段开头
  5. Gencode对于转录本分类尤其详细,转录本的类型如下:
    3prime_overlapping_ncRNA
    antisense
    bidirectional_promoter_lncRNA
    IG_C_gene
    IG_C_pseudogene
    IG_D_gene
    IG_J_gene
    IG_J_pseudogene
    IG_pseudogene
    IG_V_gene
    IG_V_pseudogene
    lincRNA
    macro_lncRNA
    miRNA
    misc_RNA
    Mt_rRNA
    Mt_tRNA
    non_coding
    nonsense_mediated_decay
    non_stop_decay
    polymorphic_pseudogene
    processed_pseudogene
    processed_transcript
    protein_coding
    pseudogene
    retained_intron
    ribozyme
    rRNA
    scaRNA
    scRNA
    sense_intronic
    sense_overlapping
    snoRNA
    snRNA
    sRNA
    TEC
    transcribed_processed_pseudogene
    transcribed_unitary_pseudogene
    transcribed_unprocessed_pseudogene
    TR_C_gene
    TR_D_gene
    TR_J_gene
    TR_J_pseudogene
    TR_V_gene
    TR_V_pseudogene
    unitary_pseudogene
    unprocessed_pseudogene
    vaultRNA
                                
    目前我们所用的分类方法如下,以供参考:
    def gene_type(raw_type):
        valid_gene_type = ('pseudogene', 'snoRNA', 'snRNA', 'miRNA', 'misc_RNA', 'rRNA')
        #lncRNA_class = ('antisense','lincRNA','processed_transcript','sense_intronic','TEC','sense_overlapping')
        lncRNA_class = ('3prime_overlapping_ncrna','antisense','lincRNA','non_coding','sense_intronic','sense_overlapping','processed_transcript')
        if raw_type in valid_gene_type: return raw_type;
        if re.match('.*pseudogene',raw_type): return 'pseudogene';
        if raw_type == 'protein_coding': return 'mRNA';
        if raw_type in lncRNA_class: return 'lncRNA';
        return 'other'
    

2.3 基因组坐标注释

基因组坐标注释文件的格式为organism.genomeCoor.bed,organism可以为hg38/hg19/mm9/mm10。

chr1    11869   14409   +       DDX11L1=ENSG00000223972.5       ENST00000456328.2       processed_transcript    11869-12227,12613-12721,13221-14409
chr1    12010   13670   +       DDX11L1=ENSG00000223972.5       ENST00000450305.2       transcribed_unprocessed_pseudogene      12010-12057,12179-12227,12613-12697,12975-13052,13221-13374,13453-13670
chr1    14404   29570   -       WASH7P=ENSG00000227232.5        ENST00000488147.1       unprocessed_pseudogene  29534-29570,24738-24891,18268-18366,17915-18061,17606-17742,17233-17368,16858-17055,16607-16765,15796-15947,15005-15038,14404-14501
chr1    17369   17436   -       MIR6859-1=ENSG00000278267.1     ENST00000619216.1       miRNA   17369-17436
chr1    29554   31097   +       MIR1302-2HG=ENSG00000243485.5   ENST00000473358.1       lincRNA 29554-30039,30564-30667,30976-31097
        
含义 注意

2.4 转录本坐标注释

转录本坐标注释文件的格式为organism.transCoor.bed,organism可以为hg38/hg19/mm9/mm10。

ENST00000456328.2       DDX11L1=ENSG00000223972.5       processed_transcript    1657    1-359,360-468,469-1657
ENST00000450305.2       DDX11L1=ENSG00000223972.5       transcribed_unprocessed_pseudogene      632     1-48,49-97,98-182,183-260,261-414,415-632
ENST00000488147.1       WASH7P=ENSG00000227232.5        unprocessed_pseudogene  1351    1-37,38-191,192-290,291-437,438-574,575-710,711-908,909-1067,1068-1219,1220-1253,1254-1351
ENST00000619216.1       MIR6859-1=ENSG00000278267.1     miRNA   68      1-68
        
含义

3. 转录组

3.1 最长CDS的mRNA转录组

命名格式

organism_longestCDS_mRNA.fa

序列头组合

转录本ID;基因ID;基因名 转录本长

序列来源

提取带有mRNA基因中最长的isoform构成的集合

>ENST00000376874.8;ENSG00000188026.12;RILPL1 3932
CTCGGGAGCAGCTCCGGGCCGAGCCGGGCGCCCAGACCCCGGGCCCGCACACCCCGCGCCGCCGCCCGTG
CCCGCGCCCGCGCCCGCCGCCCGCTGCCCGCTGCGCCCTCGCCCCAGCGCCCGCTGAGCGCGCCCGCCCG
CGGCCCAGGCTGGGCCCGGCCGGCCCGGCCCTCGACAGCGGCAAGTTTGGGAGTTGCACGAGTTTGCGGG
                

3.2 基因最长RNA转录组

命名格式

organism_longest_RNA.fa

序列头组合

转录本ID;基因ID;基因名 转录本长

序列来源

提取各个基因最长的isoform构成的集合

>ENST00000484765.2;ENSG00000242268.2;LINC02082 710
GAGAATTGCTTGAACCCTGGAGGCGGAGGTTGCCGTGAGCTAACATTGCGCCCCTACACTCCAGCCTGCC
AACAGAGCAAGACTCCGTCTCAAAAATAAAAAAAGGATCTACTTTTGAGAATACTGTCATTGGTTGATAA
AATACAGCAGAAACTTGTGAAGAAGCTATTTTCCATATTCACCTGGCATGTTTGGAGATGATTGCCATCA
            

3.3 全转录组

命名格式

organism_transcriptome.fa

序列头组合

转录本ID chromosome(strand):exons

序列来源

所有转录本

>ENST00000622302.2      KI270879.1(+):267287-267420,267785-267961
GAGCTGTTTCCGTTCCTCTGCCCGCCATGCCGTTCCTAGAGCTGCACACGAATTTCCCCG
CCAACCGAGTGCCCGCGGGGCTGGAGAAACGGCTGTGCGCCGTCGCTGCCTCCATCTTGG
GCAAACCTGCAGACCTTGTGAACGTGACGGTACGGCCGGGCCTGGCCAGGGCGCTGAGCG
            

4. rRNA

human和mouse的文件中都包含了典型的human/mouse的rRNA以及来源于SILVA数据库的其他rRNA。

4.1 典型rRNA

Organism 5S 5.8S 18S 28S 12S 16S
human 121 156 1871 5035 954 1559
mouse 121 157 1870 4730 955 1582

4.2 SILVA数据库RNA

Organism Numbers Longest Shortest
human 112 3670 338
mouse 49 4730 380

5. 基因组

version file name chromosome scaffold
hg19 GRCh37.p13.genome.fa 25 272
hg38 GRCh38.p10.genome.fa 25 530
mm9 NCBIM37.genome.fa 22 189
mm10 GRCm38.p5.genome.fa 22 85

6. RefSeq-Gencode ID转换

version file name Items
hg19 hg19.RefSeq 41124
hg38 hg38.RefSeq 59187
mm9 mm9.RefSeq 2546
mm10 mm10.RefSeq 34295

7. Chain基因组版本转换文件

[zhangqf8@loginview02 chain]$ tree .
.
├── hg18ToHg19.over.chain.gz
├── hg18ToHg38.over.chain.gz
├── hg19ToHg17.over.chain.gz
├── hg19ToHg18.over.chain.gz
├── hg19ToHg38.over.chain.gz
├── hg38ToHg19.over.chain.gz
├── mm10ToMm9.over.chain.gz
└── mm9ToMm10.over.chain.gz
        

CrossMap.py可以进行基因组转换:CrossMap.py bed hg19ToHg38.over.chain.gz input_bed_file output_file

8. 基因组Size文件

收录了hg19/hg38/mm9/mm10的size文件,建议使用STAR Index下的chrNameLength.txt文件,因为一些Scaffold不包含在这个文件中。

bedtools genomecov [OPTIONS] -i bed/gff/vcf -g size

9. 序列索引

9.1 Bowtie2/STAR 序列索引

├── Bowtie2                         # Bowtie2索引
│   ├── hg19                            # hg19索引
│   │   ├── Gencode_transcriptome           # Gencode转录组
│   │   ├── genome                          # 基因组:包括Scaffold
│   │   └── NCBI_transcriptome              # refSeq转录组
│   ├── hg38                        # hg38索引
│   │   ├── Gencode_transcriptome
│   │   ├── genome
│   │   └── NCBI_transcriptome
│   ├── hg_rRNA                     # human rRNA索引
│   ├── mm10                        # mm10索引
│   │   ├── Gencode_transcriptome
│   │   ├── genome
│   │   └── NCBI_transcriptome
│   ├── mm9                         # mm9索引
│   │   ├── Gencode_transcriptome
│   │   └── genome
│   └── mm_rRNA                     # mouse rRNA索引
└── STAR                            # STAR索引
├── hg19
│   ├── Gencode_transcriptome
│   ├── genome
│   └── NCBI_transcriptome
├── hg38
│   ├── Gencode_transcriptome
│   ├── genome
│   └── NCBI_transcriptome
├── hg_rRNA
├── mm10
│   ├── Gencode_transcriptome
│   ├── genome
│   └── NCBI_transcriptome
├── mm9
│   ├── Gencode_transcriptome
│   └── genome
└── mm_rRNA
        

9.2 基因组索引

Bowtie2和STAR都为hg19/hg38/mm9/mm10构建了基因组索引,目录在GenomeAnnotation/INDEX/[Bowtie2|STAR]/[hg38|hg19|mm9|mm10]/genome下。每一个目录下都有一个对应的build.sh文件是构建索引的命令。

STAR的构建参数为:

FA=/Share/home/zhangqf8/lipan/Genome/genome/GRCh38.p10.genome.fa
INDEX=/Share/home/zhangqf8/lipan/Genome/INDEX/STAR/hg38/genome
bsub -q Z-HNODE \
    -J 李盼_${INDEX##*/} \
    -e ${INDEX}/${INDEX##*/}_error \
    -o ${INDEX}/${INDEX##*/}_log \
    -n 16 \
    STAR \
        --runMode genomeGenerate \
        --runThreadN 16 \
        --genomeDir $INDEX \
        --genomeFastaFiles $FA

Bowtie2的构建参数为:

FA=/Share/home/zhangqf8/lipan/Genome/genome/GRCh38.p10.genome.fa
INDEX=/Share/home/zhangqf8/lipan/Genome/INDEX/Bowtie2/hg38/genome/hg38
bsub -q Z-HNODE \
    -J 李盼_${INDEX##*/} \
    -e ${INDEX}_error \
    -o ${INDEX}_log \
    -n 16 \
    bowtie2-build -f --threads 16 $FA $INDEX

9.3 转录组索引

已经为Gencode/refSeq的hg19/hg18/mm9/mm10各自构建了Bowtie2/STAR三套索引:longest_RNA/longest_CDS_mRNA/transcriptome。索引在目录GenomeAnnotation/INDEX/[STAR|Bowtie2]/[hg38|hg19|mm9|mm10]/[Gencode_transcriptome|NCBI_transcriptome]/[longest_RNA|longest_CDS_mRNA|transcriptome]下。

Bowtie2的构建参数为:

SAMPLE=mm9
FA=/Share/home/zhangqf8/lipan/Genome/Gencode/${SAMPLE}_transcriptome.fa
INDEX=/Share/home/zhangqf8/lipan/Genome/INDEX/Bowtie2/${SAMPLE}/transcriptome/whole_transcriptome/${SAMPLE}
bsub -q Z-HNODE \
    -J 李盼_${INDEX##*/} \
    -e ${INDEX}_error \
    -o ${INDEX}_log \
    -n 16 \
    bowtie2-build -f --threads 16 $FA $INDEX

STAR的构建参数为:

SAMPLE=mm9
FA=/Share/home/zhangqf8/lipan/Genome/Gencode/${SAMPLE}_transcriptome.fa
INDEX=/Share/home/zhangqf8/lipan/Genome/INDEX/STAR/${SAMPLE}/transcriptome/whole_transcriptome
cd $INDEX
bsub -q Z-ZQF \
    -J 李盼_${INDEX##*/} \
    -e ${INDEX}/${INDEX##*/}_error \
    -o ${INDEX}/${INDEX##*/}_log \
    -n 16 \
    STAR \
        --runMode genomeGenerate \
        --runThreadN 16 \
        --genomeSAindexNbases 13 \
        --genomeDir $INDEX \
        --genomeFastaFiles $FA \
        --genomeChrBinNbits 11

9.4 rRNA索引

GenomeAnnotation/rRNA下的human_all_rRNA.famouse_all_rRNA.fa构建了STAR、Bowtie2的索引。目录在GenomeAnnotation/INDEX/[Bowtie2|STAR]/[hg_rRNA|mm_rRNA]

STAR的构建参数为:

FA=/Share/home/zhangqf8/lipan/Genome/rRNA/mouse_all_rRNA.fa
INDEX=/Share/home/zhangqf8/lipan/Genome/INDEX/STAR/mm_rRNA
bsub -q Z-HNODE \
    -J 李盼_${INDEX##*/} \
    -e ${INDEX}/${INDEX##*/}_error \
    -o ${INDEX}/${INDEX##*/}_log \
    -n 16 \
    STAR \
        --runMode genomeGenerate \
        --runThreadN 16 \
        --genomeSAindexNbases 8 \
        --genomeDir $INDEX \
        --genomeFastaFiles $FA

Bowtie2的构建参数为:

FA=/Share/home/zhangqf8/lipan/Genome/rRNA/human_all_rRNA.fa
INDEX=/Share/home/zhangqf8/lipan/Genome/INDEX/Bowtie2/hg_rRNA/hg_rRNA
bsub -q Z-HNODE \
    -J 李盼_hg_rRNA \
    -e ${INDEX}_error \
    -o ${INDEX}_log \
    -n 16 \
    bowtie2-build -f --threads 16 $FA $INDEX