# Exercice semaine 3: Expression génique

Lien vers le fichier des comptages normalisés pour la patiente:
https://portal.gdc.cancer.gov/files/e57a50e9-60d5-4dd8-a379-2b473995356d


Documentation sur le workflow utlisé (en anglais):
https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

## Chargement des libraries

In [2]:
import os
from scipy import stats

In [None]:
import pandas as pd
import plotly.express as px
import numpy as np
import plotly.graph_objects as go

Pour ces 4 packages, nous utiliserons les abbréviations `pd, px, np` et `go` pour appeler leurs fonctions (par exemple `pd.read_table` pour la fonction de pandas qui permet de lire un tableau)

## Partie 1: Analyse du fichier d'expression génique de la patiente 

Charger le fichier d'expression génique pour la patiente dans un tableau `counts` avec pandas (`"7688db2f-f816-443c-98d8-f8077ba0e74f.rna_seq.augmented_star_gene_counts.tsv"`) présent dans le dossier de l'exercice).

In [None]:
counts = pd.read_table('7688db2f-f816-443c-98d8-f8077ba0e74f.rna_seq.augmented_star_gene_counts.tsv',sep='\t',skiprows= 1)
counts

Les quatres premières lignes contiennent des statistiques des résultats de l'alignement (nombres de reads non alignés, alignés à plusieurs régions sur le génomes, avec un aligment ambigu, alignés sur une région sans gène connu)

Dans cet exercices nous n'analyserons pas ces statistiques. Retirer ces lignes du tableau counts.

In [None]:
counts = counts[4:len(counts)]
counts 

## Question 1
1) Que contient la colonne `"gene_type"` (vous pouvez utiliser la fonction `unique`)?  

In [None]:
# A compléter

2) Afficher la proportion des gènes codants pour des protéines par rapport aux autres type de gènes.

In [None]:
protein_coding = pd.DataFrame(counts["gene_type"] == "protein_coding")
fig = px.pie(protein_coding,names = "gene_type", title='protein_coding')
fig.show()

# Question 2

Dans la suite de l'exercice nous allons nous intéresser aux comptages normalisés en TPM (colonne `"tpm_unstranded"` du tableau `counts`). 

1) Afficher la distribution des comptages normalisés en TPM, qu'observez vous ?

In [None]:
fig = px.histogram(counts, x="tpm_unstranded")
fig.show()

2) Essayez avec une transformation logarithmique (vous pouvez utiliser la fonction `log1p` de numpy)

In [None]:
# A compléter pour ajouter une colonne log1p_tpm à counts

3) A l'aide de boîtes à moustaches (boxplots) comparer l'expression des gènes codants pour des protéines par rapport à celle des autres types de gènes).

In [None]:
counts["protein_coding"] = counts["gene_type"] == "protein_coding"
fig = px.box(counts, x="protein_coding", y="log1p_tpm")
fig.show()

## Partie 2: Analyse de l'expression génique chez plusieurs patients

Nous avons récupéré l'ensembre des résultats RNA-seq pour 472 patients atteints de melanome dont notre patiente sur le site de l'UCSC. Tous les fichiers dont vous avez besoin pour cette exercice sont dans le dossier UCSC_data. 

Nous avons préalablement normalisé les comptages bruts en log2(TPM+1) disponibles dans le fichier `"../UCSC_data/TCGA-SKCM.htseq_tpm.csv"`

Nous aurons besoin d'un fichier d'annotation des gènes, fichier `"../UCSC_data/gencode.v22.annotation.gene.probeMap.with.length.csv"`.

Nous utiliserons aussi les données cliniques pour ces patients, fichier `"../UCSC_data/SKCM.GDC_phenotype.tsv` 

Pour information:

Lien pour les comptages bruts (log2(counts+1)), fichier TCGA-SKCM.htseq_counts.tsv: https://xenabrowser.net/datapages/?dataset=TCGA-SKCM.htseq_counts.tsv&host=https%3A%2F%2Fgdc.xenahubs.net&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443

Lien pour les annotations de base: https://xenabrowser.net/datapages/?dataset=TCGA-SKCM.GDC_phenotype.tsv&host=https%3A%2F%2Fgdc.xenahubs.net&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443

Documentation sur le workflow RNA-seq utlisé (en anglais): https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

## Question 1: Préparation des données

1) Charger ces fichiers dans des tableaux `smpCounts`, `geneAnnotations` et `clinicalData`. Mettez en index (noms des lignes) la colonne `Ensembl_ID` pour `smpCounts`, `ìd` pour `geneAnnotations` et la colonne `sample` pour `survivalData`. On conservera la colonne d'index pour `geneAnnotations` et `clinicalData` (option `drop=False`).

In [None]:
geneAnnotations = pd.read_csv("../UCSC_data/gencode.v22.annotation.gene.probeMap.with.length.csv")
geneAnnotations = geneAnnotations.set_index('id',drop = False)
geneAnnotations

In [None]:
clinicalData = pd.read_table('../UCSC_data/TCGA-SKCM.GDC_phenotype.tsv')
clinicalData = clinicalData.set_index("submitter_id.samples",drop=False)
clinicalData

In [None]:
smpCounts = pd.read_csv("../UCSC_data/TCGA-SKCM.htseq_tpm.csv")
smpCounts = smpCounts.set_index("Ensembl_ID")
smpCounts

## Question 2 : Exploration des données cliniques
1) Quelles sont les données cliniques disponibles ? 

In [None]:
clinicalData.columns.to_list()

2) Retrouver notre patiente dans `clinicalData` et `smpCounts.`

In [None]:
# A compléter  

In [None]:
# A compléter  

3) Afficher la distribution du genre des patients avec un camembert.

In [None]:
fig = px.pie(clinicalData,names = "gender.demographic", title='gender')
fig.show()

4) Afficher la distribution des différents types d'echantillons avec un diagramme en barres.

In [None]:
fig = px.bar(clinicalData, y='sample_type.samples', color='sample_type.samples', title="sample_type")
fig.show()

5) Afficher la même figure cette fois-ci en colorant selon le genre des patients.

In [None]:
# A compléter 

## Question 2 : Différence d'expression génique

Nous allons nous intéresser à la différence d'expression génique entre les echantillons de metatstases et ceux de tumeurs primaires chez les femmes. Tester l'ensemble des gènes dététectés lors du séquençage serait trop long pour cet exercice, ainsi nous nous restreindrons aujourd'hui aux gènes présents sur le chromosome 14.


In [None]:
smpCounts = smpCounts.loc[geneAnnotations[geneAnnotations["chrom"] == "chr14"].index.to_list()]
smpCounts

1) Sauvegarder les identifiants des échantillons métastatiques (de tumeur primaire) dans une liste `M`(`pT`). 

La selection est à faire sur les colonnes `'sample_type.samples'` et `'gender.demographic'`du tableau `clinicalData`. Nous n'avons pas l'expression génique pour certains échantillons présents dans clinicalData, veillez à les retirer de la selection. 

In [None]:
M = clinicalData[(clinicalData['sample_type.samples'] == "Metastatic") & (clinicalData['gender.demographic'] == "female")]["submitter_id.samples"].to_list()
M = smpCounts.columns.intersection(M) # We don't have the gene expression for all the samples in clinicalData

In [None]:
# A compléter pour obtenir pT de la même manière

2) Réaliser des t-tests pour trouver les gènes avec une différence significatives d'expression entre les deux types d'échantillons (~ 5 min pour tester tous les gènes retenus).

Nous utiliserons pour celà une boucle for et la fonction `ttest_ind`du package stats avec l'option `equal_var = False`.


In [None]:
res = list()
for g in smpCounts.index:
    #print(g)
    pT_exp = smpCounts[pT].loc[g].to_numpy()
    M_exp = smpCounts[M].loc[g].to_numpy()
    diff = np.mean(pT_exp) - np.mean(M_exp)
    t, p = stats.ttest_ind(pT_exp, M_exp,equal_var = False) # we perform welch t test n_adult > 30 and n_elderly > 30
    res.append([g,diff,t,p])

In [None]:
diffExpResults = pd.DataFrame(res, columns = ['Ensembl_ID', 'log1p_diff',"T stat","p_value"])
diffExpResults

2) Ajoutez une colonne `"gene_name"` à `diffExpResult` en utilisant le tableau `geneAnnotations`.

In [None]:
diffExpResults["gene_name"] = geneAnnotations["gene"].loc[diffExpResults["Ensembl_ID"]].to_list()

3) Combien de gènes semblent présenter une différence significative (on prendara comme seuil p valeur < 0.05)?

In [None]:
# A compléter

## Question 3: Affichage de différences d'expression

1) Afficher des boîte à moustaches pour comparer l'expression du gène le plus exprimé dans les echantillons de tumeurs primaires par rapport aux echantillons metastatiques. Vous pouvez également faire une recherche rapide de ce gène dans différentes bases de données (comme UniProt: https://www.uniprot.org/). Que pouvez-vous conclure?

In [None]:
boxplot_table = pd.DataFrame(data=smpCounts.loc["ENSG00000092295.10"].T)

boxplot_table["age_group"] = ["Primary Tumor" if p in pT else 'Metastatic' for p in boxplot_table.index]

In [None]:
fig = px.box(boxplot_table, x="age_group", y="ENSG00000092295.10",title="TGM1 expression")
fig.show()

Compléter avec les résultats de votre recherche

2) Même question pour le gène le plus exprimé dans les échantillons metastatiques (provenant en majorité des noeuds lymphatiques) par rapport aux echantillons de tumeurs primaires. Vous pouvez églament tester un violin plot (fonction `px.violin`).

In [None]:
# A compléter

Compléter avec les résultats de votre recherche

## Sauvegarde des résultats

Sauvegarder les résultats des tests dans un fichier csv en vue de la prochaine séance.

In [None]:
os.makedirs("../Week4",exist_ok=True)
diffExpResults.to_csv("../Week4/diffExpMetastaticPrimaryTumor_chr14.csv",index=False)