# Mini-projet : classification de tumeurs à partir de données d'expression de gènes

Dans ce jeu de données, chaque observation est une tumeur, décrite par l'expression de 3 000 gènes. L'expression d'un gène est une mesure de la quantité d'ARN correspondant à ce gène qui est présente dans la cellule. Schématiquement, l'ADN est transcrit en ARN, lequel est lui-même traduit en une protéine. Les protéines assurent une multitude de fonctions du vivant, mais mesurer leur quantité est difficile ; d'où l'intérêt d'utiliser les quantités d'ARN, bien que la correspondance ne soit pas immédiate. 

Chaque tumeur de notre jeu de données est étiquetée selon qu'il s'agit d'une tumeur du sein ou d'une tumeur de l'ovaire. 

Le but de ce projet est de construire un classifieur binaire qui détermine, sur la base de l'expression de ces 3 000 gènes, si une tumeur est une tumeur du sein ou de l'ovaire.

## Instructions
1. Séparez les données en un jeu d'entraînement (90% des données) et un jeu de test.
2. Standardisez les données sur le jeu d'entraînement en utilisant `StandardScaler()` du [module preprocessing](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing).
3. Utilisez une validation croisée pour sélectionner les meilleurs hyperparamètres d'au moins deux algorithmes d'apprentissage et comparer leurs performances. Attention à choisir une mesure de performance appropriée.
4. En conclure un modèle final et évaluer ses performances sur le jeu de test.

N'oubliez pas de commenter et interpréter vos résultats.

## Chargement des données

In [1]:
import pandas as pd

In [2]:
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [3]:
bvo_df = pd.read_csv('small_Breast_Ovary.csv')

The first column ("ID_REF") contains the sample ID, the last one ("Tissue") the "Breast" or "Ovary" label, and all others are gene expressions.

### Transformation des données en array numpy

In [4]:
# design matrix
X = np.array(bvo_df.drop(columns=["ID_REF", "Tissue"]))

In [5]:
X.shape

(542, 3000)

We have 542 samples, each represented by 3000 gene expressions.

In [6]:
n_features = X.shape[1]

In [7]:
# target array
y = np.array(bvo_df["Tissue"])

# convert "Breast" in 0 and the other labels (here, "Ovarian") into 1
y = np.where(y=='Breast', 0, 1)

In [8]:
y.shape

(542,)