# Taxonomic Classification, Decontamination and Filtering

In [10]:
wd = '/home/lfloerl/cloud/lfloerl/Microterroir/artifacts/16S'
%cd $wd 

/home/lfloerl/cloud/lfloerl/Microterroir/artifacts/16S


In [11]:
%env TMPDIR=/scratch/lfloerl/tmpdata

env: TMPDIR=/scratch/lfloerl/tmpdata


In [12]:
import pandas as pd 
from bs4 import BeautifulSoup
import os
import json
import matplotlib.pyplot as plt

# QIIME 2
import qiime2 as q2
from qiime2 import (Artifact,
                    Metadata)
from qiime2.plugins import (demux,
                            #feature_table as qft,
                            taxa as q2t,)
from qiime2.plugins.feature_table.methods import (merge_seqs, merge, filter_seqs, filter_samples, filter_features) 
from qiime2.plugins.quality_control.methods import filter_reads
from qiime2.plugins.feature_table.methods import filter_seqs
import qiime2.plugins.feature_classifier.actions as feature_classifier_actions
import qiime2.plugins.taxa.actions as taxa_actions
import qiime2.plugins.metadata.actions as metadata_actions
from qiime2.plugins.fragment_insertion.methods import sepp
from qiime2.plugins.quality_control.pipelines import decontam_identify_batches
from qiime2.plugins.quality_control.methods import decontam_remove, decontam_identify

from qiime2 import Visualization
%matplotlib inline

## Classify Features



In [8]:
%%bash 

qiime feature-classifier classify-sklearn \
    --i-reads /home/lfloerl/cloud/lfloerl/Microterroir/artifacts/16S/bac-dada2-single/dada-rep-seqs-220-ee4-fa4.qza \
    --i-classifier /home/lfloerl/public/Data/Databases/QIIME2/SILVA/silva-138-99-nb-diverse-weighted-classifier.qza \
    --p-n-jobs 1 \
    --o-classification taxonomy.qza

qiime metadata tabulate --m-input-file taxonomy.qza --o-visualization taxonomy.qzv

Saved FeatureData[Taxonomy] to: taxonomy.qza
Saved Visualization to: taxonomy.qzv


In [9]:
Visualization.load('taxonomy.qzv')

## Quality Control: Decontam 

try decontam considering the concentrations and with default parameters

In [None]:
%%bash

qiime quality-control decontam-identify \
    --i-table /home/lfloerl/cloud/lfloerl/Microterroir/artifacts/16S/bac-dada2-single/dada-table-220-ee4-fa4.qza \
    --m-metadata-file /home/lfloerl/microterroir/Microbiome/Metadata/16S_md.tsv \
    --p-method 'combined' \
    --p-freq-concentration-column "Bacterial conc. (ng/uL)" \
    --p-prev-control-column "CTRL" \
    --p-prev-control-indicator "NegCtrl" \
    --o-decontam-scores decontam_scores.qza \

# histogram 
qiime quality-control decontam-score-viz \
--i-decontam-scores decontam_scores.qza \
--i-table /home/lfloerl/cloud/lfloerl/Microterroir/artifacts/16S/bac-dada2-single/dada-table-220-ee4-fa4.qza \
--o-visualization decontam_histogram.qzv

# actually remove the contaminations 
qiime quality-control decontam-remove \
    --i-decontam-scores decontam_scores.qza \
    --i-table /home/lfloerl/cloud/lfloerl/Microterroir/artifacts/16S/bac-dada2-single/dada-table-220-ee4-fa4.qza \
    --i-rep-seqs /home/lfloerl/cloud/lfloerl/Microterroir/artifacts/16S/bac-dada2-single/dada-rep-seqs-220-ee4-fa4.qza \
    --o-filtered-table decontam-table.qza \
    --o-filtered-rep-seqs decontam-rep-seqs.qza

qiime feature-table summarize --i-table decontam-table.qza --o-visualization decontam-table.qzv

Saved FeatureData[DecontamScore] to: decontam_scores.qza


In [118]:
Visualization.load('decontam_histogram.qzv')

In [121]:
Visualization.load('decontam-table.qzv')

In [None]:
# check it out 
decontam_table = q2.Artifact.load('decontam-table.qza')
taxonomy = q2.Artifact.load('taxonomy.qza')

taxa_bar_plots_viz, = taxa_actions.barplot(table=decontam_table, taxonomy=taxonomy)
taxa_bar_plots_viz.save('taxa_barplot_decontam-table.qzv')

Let's see how many reads we actually loose due to host contamination!

# Filter out non-target seqs


In [12]:
taxonomy = q2.Artifact.load('taxonomy.qza')
decontam_table = q2.Artifact.load('decontam-table.qza')
md = q2.Metadata.load('/home/lfloerl/microterroir/Microbiome/Metadata/16S_md.tsv')

In [14]:
exclude_terms = 'mitochondria,chloroplast,Eukaryota,Archaea'
#exclude_terms = 'mitochondria,chloroplast,Alcaligenaceae,Caulobacteraceae,Comamonadaceae,Eukaryota,Pedobacter,Escherichia-Shigella,Archaea'

In [15]:
taxa_filtered_table, = q2t.actions.filter_table(
                                table=decontam_table, 
                                taxonomy=taxonomy,
                                exclude=exclude_terms)

phylum_filtered_table, = q2t.actions.filter_table(
                                table=taxa_filtered_table,
                                taxonomy=taxonomy,
                                include='p__')

feature_filtered_table, = filter_samples(
                                table=phylum_filtered_table,
                                min_features=10)

# filter the table to only contain samples listed in the metadata (remove ctrls and PNA test)
md_filtered_table, = filter_samples(table=feature_filtered_table,
                                metadata=md)

taxa_filtered_table.save('chloroplast_mitochondria_filtered_table.qza')
phylum_filtered_table.save('phylum_filtered_table.qza')
feature_filtered_table.save('feature_filtered_table.qza')
md_filtered_table.save('taxa_filtered_table.qza')

'taxa_filtered_table.qza'

In [16]:
!qiime feature-table summarize --i-table chloroplast_mitochondria_filtered_table.qza --o-visualization chloroplast_mitochondria_filtered_table.qzv
!qiime feature-table summarize --i-table phylum_filtered_table.qza --o-visualization phylum_filtered_table.qzv
!qiime feature-table summarize --i-table feature_filtered_table.qza --o-visualization feature_filtered_table.qzv
!qiime feature-table summarize --i-table taxa_filtered_table.qza --o-visualization taxa_filtered_table.qzv

[32mSaved Visualization to: chloroplast_mitochondria_filtered_table.qzv[0m
[0m[32mSaved Visualization to: phylum_filtered_table.qzv[0m
[0m[32mSaved Visualization to: feature_filtered_table.qzv[0m
[0m[32mSaved Visualization to: taxa_filtered_table.qzv[0m
[0m

In [17]:
# decontam table 
Visualization.load('decontam-table.qzv')

In [18]:
Visualization.load('chloroplast_mitochondria_filtered_table.qzv')

In [19]:
Visualization.load('phylum_filtered_table.qzv')

In [20]:
Visualization.load('feature_filtered_table.qzv')

In [21]:
Visualization.load('taxa_filtered_table.qzv')

## Filter rep seqs by filtered FeatureTable

In [5]:
!ls 

16S-demux-paired-end.qza		     decontam-table.qzv
16S-demux-paired-end.qzv		     feature_filtered_table.qza
bac-dada2				     feature_filtered_table.qzv
bac-dada2-single			     phylum_filtered_table.qza
chloroplast_mitochondria_filtered_table.qza  phylum_filtered_table.qzv
chloroplast_mitochondria_filtered_table.qzv  plant-surface.qza
decontam_histogram.qzv			     taxa_filtered_table.qza
decontam-rep-seqs.qza			     taxa_filtered_table.qzv
decontam_scores.qza			     taxonomy.qza
decontam-table.qza			     taxonomy.qzv


In [6]:
seqs = q2.Artifact.load('/home/lfloerl/cloud/lfloerl/Microterroir/artifacts/16S/bac-dada2-single/dada-rep-seqs-220-ee4-fa4.qza')
taxa_filtered_table = Artifact.load('taxa_filtered_table.qza')

filtered_rep_seqs, = filter_seqs(data=seqs, table=taxa_filtered_table)
filtered_rep_seqs.save('filtered_rep_seqs.qza')

'filtered_rep_seqs.qza'

## Taxa Barplot

In [25]:
taxonomy = q2.Artifact.load('taxonomy.qza')
filtered_table = q2.Artifact.load('taxa_filtered_table.qza')

In [26]:
taxa_bar_plots_viz, = taxa_actions.barplot(
    table=filtered_table,
    taxonomy=taxonomy)
taxa_bar_plots_viz.save('taxa_barplot_filtered.qzv')

'taxa_barplot_filtered.qzv'

In [3]:
Visualization.load('taxa_barplot_filtered.qzv')

## Phylogenetic Tree

In [7]:
%%bash 

qiime phylogeny align-to-tree-mafft-fasttree \
  --i-sequences filtered_rep_seqs.qza \
  --p-n-threads 'auto' \
  --o-alignment aligned-rep-seqs.qza \
  --o-masked-alignment masked-aligned-rep-seqs.qza \
  --o-tree unrooted-tree.qza \
  --o-rooted-tree rooted-tree.qza

Saved FeatureData[AlignedSequence] to: aligned-rep-seqs.qza
Saved FeatureData[AlignedSequence] to: masked-aligned-rep-seqs.qza
Saved Phylogeny[Unrooted] to: unrooted-tree.qza
Saved Phylogeny[Rooted] to: rooted-tree.qza


# Check how many samples/reads per project

In [13]:
md_df = md.to_dataframe()
samples_df = md_df[md_df['CTRL'] == 'Sample']
project_counts = samples_df['Project'].value_counts()
project_counts

Project
Lavaux                  595
SoilColonialization     115
NOT-USE                 106
Valais                   85
SamplingBenchmarking     84
BotrytizedWine           78
WINE                     38
Name: count, dtype: int64

In [14]:
project_counts = md_df['Project'].value_counts()
project_counts

Project
Lavaux                  615
SoilColonialization     120
NOT-USE                 107
BotrytizedWine           90
Valais                   86
SamplingBenchmarking     86
WINE                     40
PNA-test                  8
Name: count, dtype: int64

In [20]:
%%bash 

mkdir projects

qiime feature-table filter-samples \
  --i-table phylum_filtered_table.qza \
  --m-metadata-file /home/lfloerl/microterroir/Microbiome/Metadata/16S_md.tsv \
  --p-where "[Project]='WINE' AND [CTRL]='Sample'" \
  --o-filtered-table projects/WINE_filtered_table.qza
  
qiime feature-table filter-samples \
  --i-table phylum_filtered_table.qza \
  --m-metadata-file /home/lfloerl/microterroir/Microbiome/Metadata/16S_md.tsv \
  --p-where "[Project]='BotrytizedWine' AND [CTRL]='Sample'" \
  --o-filtered-table projects/BotrytizedWine_filtered_table.qza
  
qiime feature-table filter-samples \
  --i-table phylum_filtered_table.qza \
  --m-metadata-file /home/lfloerl/microterroir/Microbiome/Metadata/16S_md.tsv \
  --p-where "[Project]='Lavaux' AND [CTRL]='Sample'" \
  --o-filtered-table projects/Lavaux_filtered_table.qza

qiime feature-table filter-samples \
  --i-table phylum_filtered_table.qza \
  --m-metadata-file /home/lfloerl/microterroir/Microbiome/Metadata/16S_md.tsv \
  --p-where "[Project]='SoilColonialization' AND [CTRL]='Sample'" \
  --o-filtered-table projects/SoilColonialization_filtered_table.qza

qiime feature-table filter-samples \
  --i-table phylum_filtered_table.qza \
  --m-metadata-file /home/lfloerl/microterroir/Microbiome/Metadata/16S_md.tsv \
  --p-where "[Project]='SamplingBenchmarking' AND [CTRL]='Sample'" \
  --o-filtered-table projects/SamplingBenchmarking_filtered_table.qza

qiime feature-table filter-samples \
  --i-table phylum_filtered_table.qza \
  --m-metadata-file /home/lfloerl/microterroir/Microbiome/Metadata/16S_md.tsv \
  --p-where "[Project]='Valais' AND [CTRL]='Sample'" \
  --o-filtered-table projects/Valais_filtered_table.qza

qiime feature-table filter-samples \
  --i-table phylum_filtered_table.qza \
  --m-metadata-file /home/lfloerl/microterroir/Microbiome/Metadata/16S_md.tsv \
  --p-where "[Project]='PNA-test'" \
  --o-filtered-table projects/PNA-test_filtered_table.qza

qiime feature-table summarize --i-table projects/WINE_filtered_table.qza --o-visualization projects/WINE_filtered_table.qzv
qiime feature-table summarize --i-table projects/BotrytizedWine_filtered_table.qza --o-visualization projects/BotrytizedWine_filtered_table.qzv
qiime feature-table summarize --i-table projects/Lavaux_filtered_table.qza --o-visualization projects/Lavaux_filtered_table.qzv
qiime feature-table summarize --i-table projects/SoilColonialization_filtered_table.qza --o-visualization projects/SoilColonialization_filtered_table.qzv
qiime feature-table summarize --i-table projects/SamplingBenchmarking_filtered_table.qza --o-visualization projects/SamplingBenchmarking_filtered_table.qzv
qiime feature-table summarize --i-table projects/Valais_filtered_table.qza --o-visualization projects/Valais_filtered_table.qzv
qiime feature-table summarize --i-table projects/PNA-test_filtered_table.qza --o-visualization projects/PNA-test_filtered_table.qzv

Saved FeatureTable[Frequency] to: projects/WINE_filtered_table.qza
Saved FeatureTable[Frequency] to: projects/BotrytizedWine_filtered_table.qza
Saved FeatureTable[Frequency] to: projects/Lavaux_filtered_table.qza
Saved FeatureTable[Frequency] to: projects/SoilColonialization_filtered_table.qza
Saved FeatureTable[Frequency] to: projects/SamplingBenchmarking_filtered_table.qza
Saved FeatureTable[Frequency] to: projects/Valais_filtered_table.qza
Saved FeatureTable[Frequency] to: projects/PNA-test_filtered_table.qza
Saved Visualization to: projects/WINE_filtered_table.qzv
Saved Visualization to: projects/BotrytizedWine_filtered_table.qzv
Saved Visualization to: projects/Lavaux_filtered_table.qzv
Saved Visualization to: projects/SoilColonialization_filtered_table.qzv
Saved Visualization to: projects/SamplingBenchmarking_filtered_table.qzv
Saved Visualization to: projects/Valais_filtered_table.qzv
Saved Visualization to: projects/PNA-test_filtered_table.qzv


In [21]:
Visualization.load('phylum_filtered_table.qzv')

In [22]:
Visualization.load('projects/WINE_filtered_table.qzv')

In [23]:
Visualization.load('projects/BotrytizedWine_filtered_table.qzv')

In [14]:
Visualization.load('projects/Lavaux_filtered_table.qzv')

In [25]:
Visualization.load('projects/SoilColonialization_filtered_table.qzv')

In [26]:
Visualization.load('projects/SamplingBenchmarking_filtered_table.qzv')

In [13]:
Visualization.load('projects/Valais_filtered_table.qzv')

In [28]:
Visualization.load('projects/PNA-test_filtered_table.qzv')

# Check how many samples/reads per sample type in Lavaux

In [7]:
#!mkdir lavaux

In [5]:
md = q2.Metadata.load('/home/lfloerl/microterroir/Microbiome/Metadata/16S_lavaux.tsv')

md_df = md.to_dataframe()
sample_type_counts = md_df['sample type'].value_counts()
sample_type_counts

sample type
must        356
Post-AF      56
soil         55
leaf         53
bark         33
Post-MLF     22
MV-must      20
Name: count, dtype: int64

In [8]:
table = Artifact.load('projects/Lavaux_filtered_table.qza')

# berry samples 
must_filtered_table, = filter_samples(table=table, metadata=md, where="[sample type]='must'")
must_filtered_table.save('lavaux/must_filtered_table.qza')
!qiime feature-table summarize --i-table lavaux/must_filtered_table.qza --o-visualization lavaux/must_filtered_table.qzv

# microvinification samples 
mv_filtered_table, = filter_samples(table=table, metadata=md, 
                                    where="[sample type]='Post-AF' OR [sample type]='Post-MLF' OR [sample type]='MV-must'")
mv_filtered_table.save('lavaux/mv_filtered_table.qza')
!qiime feature-table summarize --i-table lavaux/mv_filtered_table.qza --o-visualization lavaux/mv_filtered_table.qzv

# soil samples 
soil_filtered_table, = filter_samples(table=table, metadata=md, where="[sample type]='soil'")
soil_filtered_table.save('lavaux/soil_filtered_table.qza')
!qiime feature-table summarize --i-table lavaux/soil_filtered_table.qza --o-visualization lavaux/soil_filtered_table.qzv

# leaf samples 
leaf_filtered_table, = filter_samples(table=table, metadata=md, where="[sample type]='leaf'")
leaf_filtered_table.save('lavaux/leaf_filtered_table.qza')
!qiime feature-table summarize --i-table lavaux/leaf_filtered_table.qza --o-visualization lavaux/leaf_filtered_table.qzv

# bark samples 
bark_filtered_table, = filter_samples(table=table, metadata=md, where="[sample type]='bark'")
bark_filtered_table.save('lavaux/bark_filtered_table.qza')
!qiime feature-table summarize --i-table lavaux/bark_filtered_table.qza --o-visualization lavaux/bark_filtered_table.qzv

 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan na

[32mSaved Visualization to: lavaux/must_filtered_table.qzv[0m
[0m

 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan na

[32mSaved Visualization to: lavaux/mv_filtered_table.qzv[0m
[0m

 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan na

[32mSaved Visualization to: lavaux/soil_filtered_table.qzv[0m
[0m

 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan na

[32mSaved Visualization to: lavaux/leaf_filtered_table.qzv[0m
[0m

 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan na

[32mSaved Visualization to: lavaux/bark_filtered_table.qzv[0m
[0m

In [4]:
Visualization.load('lavaux/must_filtered_table.qzv')

In [10]:
Visualization.load('lavaux/mv_filtered_table.qzv')

In [9]:
Visualization.load('lavaux/soil_filtered_table.qzv')

In [12]:
Visualization.load('lavaux/leaf_filtered_table.qzv')

In [8]:
Visualization.load('lavaux/bark_filtered_table.qzv')