
## Objectifs
##### 1 Lire et traiter des données d'entrée avec [PANDAS](https://pandas.pydata.org/)

##### 2 Représenter la distribution empirique des "fold-change" (**FC**) vs Précision, aka: volcano-plot
    
##### 3 Effectuer une analyse de sur-représentation en terme GO


## Ressources
https://www.bioconductor.org/help/course-materials/2015/SeattleApr2015/E_GeneSetEnrichment.html

https://matplotlib.org/gallery.html#


### Déclarations d'environnement
A verifier/ adapter

In [1]:
import sys, os
workDir = f"{os.getcwd()}/.."
libDir = f"{workDir}/lib"
dataDir= f"{workDir}/data" 

sys.path.append(libDir)

In [2]:
%load_ext autoreload
%autoreload 2

In [None]:
import pandas, uniprot, go
import numpy as np

In [4]:
%matplotlib nbagg
import matplotlib.pyplot as plt

### Lecture des valeurs experimentales
Charger ```TCL_wt1.tsv``` dans une [dataframe pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).
* Retirer les lignes présentant des aberrations numériques

In [None]:
#### A VOUS DE JOUER

### Un premier volcano-plot

Ce type de figure représente pour chaque protéine en abscisse le taux d'abondance et en ordonnées la précision de la mesure.

##### 1. Réaliser un scatter plot matplotlib avec 
- en x, `Log2 Corrected Abundance Ratio`
- en y, `LOG10 Adj.P-val`

Vous légenderez les axes, attention `LOG10 Adj.P-val` est en fait `-LOG10 Adj.P-val`, regardez bien.

##### 2. Réaliser des versions évoluées du graphique précédent
L'objectif est de mettre l'accent sur la région **-Log10 adj Pvalue > 4** et **Log2 corrected abundance ratio > 0**.
Pour cela vous revisiterez le scatter plot précedent au travers des versions suivantes:
- première version : un rectangle de la couleur de votre choix matérialisera la région
- deuxième version  : une couleur de votre choix représentera les points de la région
- troisème version (optionnel): Les identifiants uniprot remplacerons les points des protéines de la région

In [None]:
#### A VOUS DE JOUER

#### Analyse ORA

##### Principes
Vous disposez d'un objet analyser permettant de réaliser une analyse de la sur-représentation (**ORA**) en termes GO parmi une liste de protéine d'intérêt.
La fréquence des termes GO dans le protéome totale est utilisée comme référence.

L'objet analyser s'instancie ainsi
```python
from stat_utils import GO_ORA_analyser
o = GO_ORA_analyser(goFile, proteomeDirectory, experimentalProteinDirectory)
```

Il fournit une méthode par catégorie de terme GO
biological_process / molecular_function /cellular_component

Par exemple,
```python
goTerm_scores = o.biological_process([P29744, P05706])
```
###### 1/ Réaliser une analyse de sur-représentation des termes GO entre `[P29744, P05706]` par rapport au protéome d.E.Coli.
Inspectez l'objet retourné par la méthode o.biological_process, que voyez-vous ?
###### 2/ Réaliser une analyse de sur-représentation des termes GO avec protéines surabondantes
Vous devrez extraire les identifiants uniprot des protéines au *'Log2 Corrected Abundance Ratio'* supérieur au seuil alpha de 5%.

Vous conduirez sur cette liste une analyse de sur-représentatio en termes GO à l'aide d'un objet *GO_ORA_analyser*.

Vous traiterez les 3 catégories *biological_process / molecular_function /cellular_component*.

Vous pouvez faire varier le seuil d'abondance autour de la valeur alpha.

Familiarisez-vous avec la structures des dictionnaires de résultas, vous pouvez les sauvegardez au format json.



In [None]:
from stat_utils import GO_ORA_analyser
goFile = f"{dataDir}/go.owl"
### A VOUS DE JOUER

## Une première application: représentation riche du résultat de l'analyse


### Mise en forme "riche" des résultats grâce au notebook

Jupyter permet d'étendre le concept de la méthode **__str__()** afin de produire du contenu HTML.
 Ainsi, tout objet impémentant une méthode **_repr_html_()** sera affiché, via son rendu HTML, dans la cellule d'un notebook.

```python
class Point():
    def __init__(self, x, y, z):
        self.x = x
        self.y = y
        self.z = z
    def _repr_html_(self):
        htmlString = "<table><thead><tr><td>Abscisse</td><td>Ordonnée</td><td>Cote</td></tr></thead>"
        htmlString += f"<tbody><tr><td>{self.x}</td><td>{self.y}</td><td>{self.z}</td></tr></tbody></table>"
        return htmlString
Point(2,3,4)
```
Affichera

![caption](../figs/reprhtml.png)


### Intégration des résultats à la visualisation du notebook 

En vous inspirant de la fonction ci-dessus, implémenter une classe Rich_GO_ORA dont la méthode [`_repr_html_`](https://ipython.readthedocs.io/en/stable/config/integrating.html) permettra un affichage plus lisible d'une analyse `biological_process / molecular_function /cellular_component`

Un exemple possible est,
![caption](../figs/_repr_html_.png)

(Bonus): clicker sur le nom du terme GO envoie vers sa description.
Pour cela, afficher le nom du pathway dans une balise hyperlien pour permettre d'acceder à la page de description du terme GO. 

Les termes GO sont accessibles aux URL de la forme
`http://amigo.geneontology.org/amigo/term/GO:GO_NUMBER`.




In [None]:
##### A VOUS DE JOUER

## Une deuxième application: volcano plot améliorés
###### PANDAS
En choisissant comme seuil la valeur `alpha` du TP précédent, veuillez extraires les identifiants uniprot des protéines sur-abondantes (rappel les valeurs d'abondance sont celles de la colonne `Log2 Corrected Abundance Ratio`).

Vous devrez avoir dans des listes distinctes:
* identifiants uniprot
* `Log2 Corrected Abundance Ratio`
* `LOG10 Adj.P-val'`

###### Représentation graphiques
* Pour la catégorie de termes GO (biological_process / molecular_function /cellular_component) de votre choix
    * Générer une grille de 4 graphiques 
    * Dans chaque graphique colorez dans une couleur différentes les protéines porteuses de 4 termes de GO que vous estimez les plus pertinents 
    * Donnez le nom de la catégorie générale à la grille
    * Donnez le nom du terme GO représenté dans chaque graphique avec une couleur de titre cohérente.
    

In [None]:
##### A VOUS DE JOUER