##### IFB Virtual Machine Configuration

* `rootDir` points to Jupyter Home Directory
* `projectDir` points to the Git project, holds the *tsv* file
* `libDir` points to Git project python library with files names `go.py  stat_utils.py  uniprot.py`
* `dataDir` points to shared data folder with uniprot and GO files

In [1]:
import sys

rootDir = "//ifb/data/mydatalocal"
projectDir = rootDir + "/VDBscratch"
libDir = projectDir + "/lib"
dataDir= "/ifb/data/public/teachdata/m2binf_ucbl/data" 

sys.path.append(libDir)

In [2]:
import pandas, uniprot, go
import numpy as np
from stat_utils import computeORA_BKG

#%load_ext autoreload
#%autoreload 2

In [3]:
%matplotlib nbagg
import matplotlib.pyplot as plt

## Jeux de données
* Experimental dataset as TSV
* Go ontology as [owl](http://www.obofoundry.org/ontology/go.html)
* Uniprot entries as XML files

## Objectifs
1. Lire et traiter des données d'entrée avec [PANDAS](https://pandas.pydata.org/)

2. Représenter la distribution empirique des "fold-change" (**FC**)

3. Evaluer un seuil de **FDR** 5%, with normal approximation
    1. Proposer une function qui à un seuil de faux-positif retourne une valeur de **FDC**
    2. Proposer une fonction qui appelle la précedente et retourne, en plus, une représentation graphique

4. Analyse de l'enrichissement en pathway Gene Ontology
    1. Arbre des termes d'ontologie.
        * Visualisation de l'arbre complet
    2. Modélisation hypergéometrique des fréquence attendues des termes GO
        * Les protéines très abondantes présentent-elles des termes GO en quantité remarquable ?
        * Les protéines peu abondantes présentent-elles des termes GO en quantité remarquable ?
    3. Visualisation de l'arbre avec style des noeuds rendant compte des protéines qu'ils annotent
 
5. Volcano plot
    1. Scatter-Plot **FC** vs **LOG10 Adj.P-val**
    2. Colorer les protéines très/peu abondantes
    3. ipyWidget slider FDR permettant de changer les seuils "d'abondance" 
    
6. Volcano Plot présentant les pathways
    1. ipyWidget Slider
    2. Coloration des points pour les protéines annotées par ce pathway 

## Conclusion
* Compare wt/mutant conditions


## Ressources
https://www.bioconductor.org/help/course-materials/2015/SeattleApr2015/E_GeneSetEnrichment.html

https://matplotlib.org/gallery.html#




## Format des données expérimentales

Le terme *SA*, désigne le ratio de (**S**ur) **A**bondance pour une protéines entre deux experiences.
Les valeurs de **SA** sont stockées dans la colonne ```Log2 Corrected Abundance Ratio```. Un "ratio" négatif indique qu'une protéine est moins présente dans l'experience considéré par rapport à une experience de référence.

* La condition experimentale de référence est un milieu de croissance bactérienne
* La condition experimentale testée est un milieu riche en Tétracycline 



# Première exploration des données

### Lecture des valeurs experimentales
Charger ```TCL_wt1.tsv``` dans une [dataframe pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).
* Retirer les lignes présentant des aberrations numériques

##### [Comment filtrer des lignes Pandas](https://cmdlinetips.com/2018/02/how-to-subset-pandas-dataframe-based-on-values-of-a-column/)

In [4]:
import pandas
df=pandas.read_csv(projectDir + "/TCL_wt1.tsv", delimiter ="\t")
df.head()

Unnamed: 0,Accession,Description,Gene Symbol,Corrected Abundance ratio (1.53),Log2 Corrected Abundance Ratio,Abundance Ratio Adj. P-Value: (127. T3 Tc WT) / (126. T0 WT),LOG10 Adj.P-val
0,P75936,Basal-body rod modification protein FlgD OS=Es...,flgD,0.075816993,-3.721334942,5.5e-05,4.260067469
1,P76231,Uncharacterized protein YeaC OS=Escherichia co...,yeaC,0.092810458,-3.429568818,0.000351,3.45462743
2,P0A8S9,Flagellar transcriptional regulator FlhD OS=Es...,flhD,0.102614379,-3.284695189,2.7e-05,4.571899347
3,P0CE48,Elongation factor Tu 2 OS=Escherichia coli (st...,tufB,#VALEUR!,#VALEUR!,,#VALEUR!
4,P05706,PTS system glucitol/sorbitol-specific EIIA com...,srlB,0.108496732,-3.204276506,0.019963,1.699767669


In [5]:
dfClean = df[ (df['Log2 Corrected Abundance Ratio'] != '#VALEUR!') & (df['LOG10 Adj.P-val'] != '#VALEUR!')]
dfClean = dfClean.copy()
dfClean.loc[:,'Log2 Corrected Abundance Ratio'] = dfClean.loc[:,'Log2 Corrected Abundance Ratio'].astype(float)
dfClean.head()

Unnamed: 0,Accession,Description,Gene Symbol,Corrected Abundance ratio (1.53),Log2 Corrected Abundance Ratio,Abundance Ratio Adj. P-Value: (127. T3 Tc WT) / (126. T0 WT),LOG10 Adj.P-val
0,P75936,Basal-body rod modification protein FlgD OS=Es...,flgD,0.075816993,-3.721335,5.5e-05,4.260067469
1,P76231,Uncharacterized protein YeaC OS=Escherichia co...,yeaC,0.092810458,-3.429569,0.000351,3.45462743
2,P0A8S9,Flagellar transcriptional regulator FlhD OS=Es...,flhD,0.102614379,-3.284695,2.7e-05,4.571899347
4,P05706,PTS system glucitol/sorbitol-specific EIIA com...,srlB,0.108496732,-3.204277,0.019963,1.699767669
5,P29744,Flagellar hook-associated protein 3 OS=Escheri...,flgL,0.124183007,-3.00946,0.036746,1.434786589


### Visualisation de la distribution empirique
Représenter la distribution des **SA** de l'experience.
* [matplotlib histogramme](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.hist.html)
* Réaliser un grid plot avec 4 histogrammes présentant chacun un nombre de catégories différent.
* Créer la fonction qui produit l'histogramme à partir d'une DataFrame pandas. 
```python 
    def empirical(data:pandas.Series, bins:Number) -> (fig,ax, bars)
```
* Cete fonction retourne les objets figure et Axes et les valeurs des catégories de l'histogramme. 
##### [API des colonnes pandas](https://pandas.pydata.org/pandas-docs/version/0.24/reference/series.html)

#### Pour aller plus loin
Réaliser une Kernel Density Estimation sur un histogramme matplotlib doit être fait à l'aide du package scipy.
Heureusement le package seaborn propose une macro pour cela.

`seaborn.kdeplot(np.array(data), bw=0.5)`
* implémenter ce graphique dans une fonction 
```python 
    def empiricalKDE(data:pandas.Series, bins:Number, bandwidth:Number) -> (fig,ax)
```

In [6]:
d = dfClean['Log2 Corrected Abundance Ratio'].tolist()
    
# Plot histogram
nBins = [15, 50, 100, 500]
fig, axes = plt.subplots(nrows=2, ncols=2)

fig.set_size_inches(9,5)
# To iterate over all items in a multidimensional numpy array, use the `flat` attribute
for n, ax in zip(nBins, axes.flat):
    ax.hist(d, bins=n)
    ax.set( title= 'n = ' + str(n) )

<IPython.core.display.Javascript object>

In [10]:
#import matplotlib
#%matplotlib inline
# By default matplotlib is inline,
# graphic is shown without need fot plt.show

def empirical(data, n=50, density=False):
    d = data['Log2 Corrected Abundance Ratio'].tolist()
    fig, ax = plt.subplots()
    bars = ax.hist(d, bins=n,density=density, color='#4682B4', alpha=0.6)
    ax.set_ylabel('Number of proteins')
    ax.set_xlabel('Log2 Corrected Abundance Ratio')
    return fig, ax, bars

In [11]:

f,a,b = empirical(dfClean)

<IPython.core.display.Javascript object>

### Distribution théorique attendue
Entre deux experiences, les quantités d'une protéine non affectée par le changement de conditions devraient-elles être strictement identiques ?

Proposer une distribution théorique des **SA** des protéines **non affectées** par le changement de conditions.
 * Calculer les paramètres de cette distribution à partir de l'échantillon
 * Représenter ces paramètres par des lignes verticales sur l'histogramme précedent

Implémenter une fonction qui prend un échantillon et **dessine** la distribution théorique et empirique. Elle utilisera la fonction ```empirical()```

```python 
    def empiricalAndTheoric(data:pandas.Series)
```

## Example pour démarrer
Superposition de la distrubtion empirique et de la densité théorique d'une gaussienne

In [14]:
from scipy.stats import norm

arr = np.random.randn(1000)
fig, ax = plt.subplots()

result = ax.hist(arr)
ax.set_xlim((min(arr), max(arr)))

mean = np.mean(arr)
variance = np.var(arr)
sigma = np.sqrt(variance)
x = np.linspace(min(arr), max(arr), 100)
dx = result[1][1] - result[1][0]
scale = len(arr)*dx
ax.plot(x, norm.pdf(x, mean, sigma)*scale)

print(f"The array returned by plt.hist holds histogramme coordinates\n{result}")

<IPython.core.display.Javascript object>

The array returned by plt.hist holds histogramme coordinates
(array([  6.,  17.,  48., 145., 221., 266., 206.,  63.,  21.,   7.]), array([-3.32089013, -2.66947403, -2.01805793, -1.36664183, -0.71522573,
       -0.06380963,  0.58760647,  1.23902257,  1.89043867,  2.54185477,
        3.19327087]), <a list of 10 Patch objects>)


In [15]:
from scipy.stats import norm

def empiricalAndTheoric(data:pandas.Series):
    fig, axis, bins = empirical(data)

    d = dfClean['Log2 Corrected Abundance Ratio'].tolist()

    xmin, xmax = axis.get_xlim()

    #Extract normal density parameter from sample
    mu = np.mean(d)
    print(f"mu:{mu}, xmin:{xmin}, xmax:{xmax}")
    variance = np.var(d)
    std = np.sqrt(variance)
    #Equivalently
    #mu, std = norm.fit(d)

    # Surface totale des histogrammes
    # largeur d'une barre * nombre total d'observation
    tot = np.sum(bins[0])
    dx = bins[1][1] - bins[1][0]

    #100 equidistant points from xmin to xmax
    x = np.linspace(min(d), max, 100)
    p = norm.pdf(x, mu, std)
    scale = tot * dx

    p = p * scale
    axis.plot(x, p,'-g')
    
    axis.axvline(x=mu, color='b')
    axis.axvline(x=mu + 2 * std, color='b', linestyle='--')
    axis.axvline(x=mu - 2 * std, color='b', linestyle='--')
    return fig, axis, (mu,std), bins, scale

fig, axis, (mu,std), bins, scale = empiricalAndTheoric(dfClean)

<IPython.core.display.Javascript object>

mu:-0.6388959864474286, xmin:-3.9497229134499996, xmax:1.0748124584499998


### Seuil de significativité
Comment déterminer un seuil de *SA* au delà duquel seulement 5% des protéines non affectées seraient selectionnées ?

Pour une Méthode de reconnaissance des protéines sur abondantes que siginifie ce taux de 5% ?

Implémenter une fonction qui prend un échantillon et un pourcentage en argument et retourne la valeur seuil correspondant à cet argument.

```python 
    def FDR_threshold(data:pandas.Series, alpha=0.05) # Où t peut valoir 5%, 2.5% ou 1%
```

Creer la fonction suivante

```python
def empiricalAndTheoricTreshold(data:pandas.Series, alpha=0.05)
```

Elle combinera les fonctions ```FDR_threshold``` et ```empiricalAndTheoric``` pour ajouter à son histogramme une ligne verticale rouge à l'emplacement du seuil.

Aide: L'inverse de la fonction de densité cumulée (aka: [percent-point-function](https://en.wikipedia.org/wiki/Quantile_function)) de la loi normale est [implémentée dans scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html) (**ppf**).



In [16]:
def FDR_threshold(data, alpha=0.05):
    _alpha = 1 - alpha
    d = data['Log2 Corrected Abundance Ratio'].tolist()
    mu, std = norm.fit(d)
    # Equivalently: norm.ppf(_alpha) * std + mu)
    return norm.ppf(_alpha, loc=mu, scale=std)

FDR_threshold(dfClean)

0.1355573136539573

In [17]:
def empiricalAndTheoricTreshold(data:pandas.Series, alpha=0.05):
    v = FDR_threshold(data, alpha=alpha)
    fig, axis, (mu,std), bins, scale = empiricalAndTheoric(data)
    axis.axvline(x=v, color='r')
    return fig, axis, (mu,std), bins, scale, v
fig, axis, (mu,std), bins, scale, v = empiricalAndTheoricTreshold(dfClean, alpha = 0.05)

<IPython.core.display.Javascript object>

mu:-0.6388959864474286, xmin:-3.9497229134499996, xmax:1.0748124584499998


##### Visualisation des seuils et de la distribution empirique
Implémenter une fonction qui prend un échantillon et dessine la distribution théorique, empirique et colore [l'aire sous la courbe](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.fill_between.html) théorique au delà du seuil demandé.
Vous pourrez ajouter les légendes correspondant à $\mu, 2\sigma, \alpha$ 

```python 
    def empiricalAndTheoricThresholdArea(SA_list, alpha=0.05)

```


*Exemple de figure à obtenir*
![caption](../figs/empiricalAndTheoricTresholdArea_GIMP.png)



In [18]:
def empiricalAndTheoricTresholdArea(data:pandas.Series, alpha=0.05):
    v = FDR_threshold(data, alpha=alpha)
    fig, axis, (mu,std), bins, scale = empiricalAndTheoric(data)
    xmin, xmax = axis.get_xlim()
    x_filler = np.linspace(v, xmax, 100)
    y_filler = norm.pdf(x_filler, mu, std) * scale
    axis.fill_between(x_filler, y_filler, color="red")
    axis.text(0.5, 30, r'$\alpha$=5%', fontsize=20, color="red")
    axis.text(v, -20, r'$\tau$=' + str(round(v,2)), fontsize=10, color="red")
    fig.savefig("empiricalAndTheoricTresholdArea.pdf")
    return fig, axis, (mu,std), bins, scale, v

res = empiricalAndTheoricTresholdArea(dfClean, alpha = 0.05)



<IPython.core.display.Javascript object>

mu:-0.6388959864474286, xmin:-3.9497229134499996, xmax:1.0748124584499998


### Pour aller plus loin

###### La loi normale est un modèle contestable ici
https://en.wikipedia.org/wiki/Cauchy_distribution


#### Volcano Plot simple
Ce type de figure représente pour chaque protéine en abscisse le taux d'abondance et en ordonnées la précision de la mesure.
Réaliser les graphiques suivants.
![caption](../figs/volcano_simple.png)

In [24]:
from matplotlib.patches import Rectangle
x = [ float(i) for i in dfClean['Log2 Corrected Abundance Ratio'].tolist() ]
y = [ float(i) for i in dfClean['LOG10 Adj.P-val'].tolist() ]
labels = dfClean['Accession'].tolist()


def drawScatter(x, y, ax=None, fig=None):
    ax.set_yticks(np.arange(min(y), max(y)+1, 1.0))
    scat = ax.scatter(x, y, color='y', picker=5)
    ax.set_ylabel('LOG10 Adj.P-val')
    ax.set_xlabel('Log2 Corrected Abundance Ratio')
    return scat, fig, ax
  

fig, axes = plt.subplots(nrows=1, ncols=2)
fig.set_size_inches(9,4)
drawScatter(x,y, axes[0])
drawScatter(x,y, axes[1])

axes[1].spines['top'].set_visible(False)
axes[1].tick_params(labelright=True, right=True)

x_min, x_max = axes[1].get_xlim()
y_min, y_max = axes[1].get_ylim()
tau = 0.0
p = Rectangle([tau, y_min], x_max, y_max, facecolor='blue', alpha=0.1)
r=axes[1].add_patch(p)

<IPython.core.display.Javascript object>