# Introduction à la visualisation de données biologiques massives à l'aide du language PYTHON 

# Partie 1 : Introduction à Python et Pandas


### Ecole Supérieure de Biotechnologie de Strasbourg

### Bruno KIEFFER 

### Mars 2023


## 0. Introduction et organisation pratique de l'atelier

L'expérimentation en biologie produit des données qui sont de plus en plus massives et dont l'analyse et l'interprétation requiert des outils informatiques adaptés. Au cours de cet atelier, nous introduirons l'utilisation de la bibliothèque Pandas, un ensemble d'outils permettant la manipulation de données sous la forme de tableaux. L'utilisation de cette bibliothèque sera illustrée sur une analyse de données de transcriptomique. L'utilisation de cette bibliothèque ne se substitue pas aux programmes spécialisés, souvent écrits dans le language R. L'objectif est d'aborder un outil polyvalent permettant d'avoir rapidement un aperçu et des premières analyses statistiques simples sur un jeu de données, préalablement à des analyses plus spécialisées. La bibliothèque Pandas n'est pas liée à un type de données particulier, ce qui en fait un outil général et appliquable à un grand nombre de problèmes. Son utilisation s'appuie sur le language de programmation Python, mais il n'est pas nécessaire d'avoir des bases de programmation pour pouvoir l'utiliser. La base minimale de connaissances permettant l'utilisation de Pandas est donnée dans cet atelier.

### 0.1 Organisation pratique de l'atelier en période de confinement

#### 0.1.1 Les notebooks Jupyter

Les manipulations pratiques effectuées lors de l'atelier le seront sous la forme de notebooks. Ces notebooks sont des pages web qui permettent de mélanger du code informatique et du texte au sein d'un même document. Un notebook contient des cellules qui peuvent être, soit du texte formatté à l'aide du language Markdown, soit du code informatique (ici Python). En double-clickant sur une cellule, on peut l'éditer et modifier son contenu. En clickant sur le bouton "Run" ou bien en appuyant simultanément sur les touches "return" et "majuscule", vous obtenez le texte mis en forme (pour une cellule de texte) ou bien vous "executez" les instructions Python contenus dans une cellule contenant du code. Jupyter fait référence à l'organisation qui distribue ce système qui peut être installé sur n'importe quelle ordinateur à partir du site:

https://jupyter.org/


#### 0.1.2 Accèder aux notebooks Jupyter si on n'a pas la possibiliter de l'installer sur sa machine

L'installation du système Jupyter nécessite des ressources relativement importantes (500 Mo de disque et un ordinateur assez récent - 2 - 3 ans). Si vous n'avez pas la pôssibilité d'installer Jupyter sur votre machine, vous pouvez utiliser les ressources offertes par le "cloud computing". Plusieurs acteurs offrent des ressources de calculs à des fins de tests ou d'éducation. Nous utiliserons celui de la société Google, qui offre gratuitement un accès en ligne à des notebooks jupyter. Pour cela, il vous faut créer un compte Gmail (si ce n'est déjà fait). Votre identifiant vous permettra d'accèder à l'environnement Jupyter avec le lien suivant :

https://colab.research.google.com/notebooks/intro.ipynb


#### 0.1.3 Mise en route et préparation de l'atelier du 28 Avril

Après vous être assuré d'un accès à Jupyter, vous êtes en mesure de pratiquer le language Python. L'objectif ici ne sera pas d'apprendre à programmer, mais d'utiliser des outils puissants d'analyse de données. Pour cela, un minimum (très très minimal) de connaissance est nécessaire. Afin de préparer l'atelier et d'arriver rapidement aux parties intéressantes pour la médecine, il est recommandé de prendre connaissance et de pratiquer les quelques éléments de langage présentés ci-dessous.

Plusieurs ressources sont disponibles pour faciliter un démarrage rapide avec les bases du language Python:

- Le [tutoriel très populaire](https://python.developpez.com/cours/TutoSwinnen/?page=page_4#L2.1) de Gérard Swinnen

- Le [tutoriel d'openclassroom](https://openclassrooms.com/fr/courses/235344-apprenez-a-programmer-en-python)

- Le [manuel référence](https://docs.python.org/3/reference/) du language Python


## 1. Quelques éléments du language Python

### 1.1 Notions d'objects, de type, et des noms

Pour travailler sur des données, il est nécessaire de les stocker dans la mémoire de l'ordinateur à un emplacement précis (appelé adresse) et de pouvoir les récupérer grâce à un nom. Dans PYTHON, toutes les données sont stockées dans des objets identifiés par un nom et un type donnés.

Un objet correspond aux données et aux différents programmes pour les visualiser ou les modifier. Par exemple, pour manipuler des données aussi simples qu'un nombre entier, nous pouvons utiliser un objet de type entier (un autre langage appellera cela une variable). Cet objet saura effectuer une addition, une division euclidienne ou permettra de changer le contenu de l'objet.

Un nom est une série de caractères qui identifie l'objet sans ambiguïté. Un certain nombre de noms sont réservés par la langue, tels que and, for et doivent donc être évités. PYTHON se distingue des autres langues par son très petit nombre de commandes. Généralement, un nom est composé de lettres majuscules et / ou minuscules (Remarque: a est différent de A en PYTHON) ou de chiffres. Les caractères de ponctuation sont exclus, les espaces ou les lettres avec accent.

Pour "entrer" des informations dans un objet, le signe = est utilisé. Le nom est placé à gauche du signe = et le contenu à droite. Ce contenu peut être une expression mathématique (en ajoutant deux nombres). Dans ce cas, l'interprète PYTHON calcule d'abord le résultat de l'expression, puis affecte le résultat à la variable.

Les objets simples de Python sont:

- un nombre entier exp 12
- un nombre réel (dans ce cas, on ajoute un point lors de l'écriture exp : 1. est le réel 1)
- une chaîne de caractères (une suite de caractères que l'on délimite par les caractères " ou ')


In [None]:
# Manipulation des types entiers et réels
ma = 3. # On cree un objet nommé ma
print (ma) # On affiche sa valeur à l'écran (sortie)
ma = ma + 1 # Premiere expression (calcul) qui va etre évaluée
print (ma) 
print(type(ma)) # Le type est entier

In [None]:
# Manipulation des chaînes de caractères
Axelle = "Merci pour le changement de statut"
axelle = " J'apprends aussi en donnant ce cours"
imprime = Axelle + axelle # L'opérateur + s'adapte au type des donnée,
# pour des chaines, il realise une concatenation des chaines

print (imprime)

### 1.2 Les opérations (opérateurs) en Python

Les opérations permettent d'effectuer des calculs sur les objets. Sur les objets simples comme des nombres entiers ou réels, les opérations correspondent à celles du language courant :

- \+ : addition 
- \- : soustraction
- / : division
- \* : multiplication

Pour des objets plus complexes, ces symboles peuvent correspondre à des opération très différentes, comme par exemple la **concaténation** de deux chaines de caractères.


In [None]:
a = 1
b = "1"
print (a*5)
print (b*5)

### 1.3 Le type booléen

Une variable booléenne ne peut prendre que deux valeurs: Vrai ou Faux (appelé True ou False, la majuscule est importante). La valeur booléenne est souvent le résultat d'une expression qui compare deux objets. Pour détecter si deux valeurs sont identiques, utilisez l'opérateur ==. Notez que l'utilisation du double signe égal est utilisée pour distinguer une opération de comparaison d'une affectation de valeur. Les exemples ci-dessous illustrent l'utilisation des opérateurs de comparaison.

Opérateurs de comparaison:

* x == y # x est égal à y
* x! = y # x est différent de y
* x> y # x est supérieur à y
* x <y # x est plus petit que y
* x> = y # x est supérieur ou égal à y
* x <= y # x est plus petit ou égal à y

En outre, les variables booléennes permettent les opérations booléennes telles que :

*   and     
*   or
*   not


In [None]:
bexp = 1 == 2 or (True)
print(bexp)

##  2. La bibliothèque Pandas

L'intérêt de PYTHON provient de la combinaison d’un langage simple et d’une vaste collection de bibliothèques, notamment scientifiques. Ces bibliothèques complètent la base de jeux de commandes en ajoutant de nouveaux objets, adaptées au traitement d'informations plus complexes telles qu'un génome, une image, un son, etc. Ces bibliothèques changent constamment, mais certaines sont devenues des standards comme la bibliothèque numpy / scipy pour le calcul scientifique, matplotlib pour les représentations graphiques, biopython pour les traitements bioinformatiques et pandas pour l'analyse de données.

L'appel aux fonctions et aux objets d'une bibliothèque se fait grâce à la commande **import** :

Nous allons dans la suite nous intéresser à la bibliothèque Pandas

La [bibliothèque pandas](https://pandas.pydata.org/docs/) facilite l'analyse de données massives, en combinant les fonctionalités des objets dictionnaires, arrays avec des fonctions reliées aux bases de données. Pandas offre deux structures de données:

    Series
    DataFrame

Series permet l'analyse d'une série de données, qui sont indexées par une clef unidimensionnelle, comme par exemple le temps.
DataFrame permet l'analyse de données organisées en tableaux, avec des indexes multiples. Un tableau excel à deux dimensions par exemple peut être lu directement dans cette structure en prenant les numéros des lignes et des colonnes comme index. 

In [None]:
# On importe la bibliothèque sous un alias pd
import pandas as pd

## 2.1 Analyse d'un petit jeu de données de cardiologie

Le fichier heart.csv est fourni par le site Kaggle, un site qui fournit des jeux de données libres pour le développement des méthode d'apprentissage.

- [kaggle](https://www.kaggle.com/datasets/johnsmith88/heart-disease-dataset)

Les données fournies dans le fichier sont (chaque ligne est un patient):
* age
* sex
* chest pain type (4 values)
* resting blood pressure
* serum cholestoral in mg/dl
* fasting blood sugar > 120 mg/dl
* resting electrocardiographic results (values 0,1,2)
* maximum heart rate achieved
* exercise induced angina
* oldpeak = ST depression induced by exercise relative to rest
* the slope of the peak exercise ST segment
* number of major vessels (0-3) colored by flourosopy
* thal: 0 = normal; 1 = fixed defect; 2 = reversable defect
* target: refers to the presence of heart disease in the patient. It is integer valued 0 = no disease and 1 = disease.


In [None]:
# Import du tableau dans un Dataframe Pandas

hd = pd.read_csv("heart.csv")


L'objet hd est objet qui contient un tableau de données. 

Lorsque l'on travaille avec un objet Python, simple ou plus compliqué comme un tableau Pandas, on utilise des méthodes associées à cet objet. Une méthode est un programme qui est étroitement associé aux données. Ce concept de programmes associés aux données est à la base de ce que l'on appelle la programmation objet. C'est ce concept qui donne toute la puissance à l'analyse des données par un language tel que Python. Par exemple, si on travaille avec des séquences de gènes, on s'attend à pouvoir avoir immédiatement accès à un certain nombre de fonctions standards telles que la traduction de la séquence nucléotidique en séquences protéique, le découpage en codons, l'analyse des biais de compositions etc...

La commande dir() permet de lister l'ensemble des méthodes associées à un objet


In [None]:
# Exploration globale du tableau

# Visualisation des premières lignes du tableau
hd.head()

### Analyse globale du tableau 

Pandas propose quelques fonctions permettant d'avoir une vue globale du tableau, nombre de lignes, colonnes, nomenclature des index etc... Ces contrôles sont indispensables pour vérifier la qualité des données.


In [None]:
# Taille du tableau
print (" Le tableau contient ",hd.size," cellules")

# Nombres de lignes et de colonnes
print (" Nombre de lignes et colonnes :",hd.shape)

# Le nombre de lignes peut être obtenu avec la commande len :
# Nombres de lignes et de colonnes
print (" Nombre de lignes :",len(hd))

# Statistiques sur le nombres d'éléments du tableau
hd.describe()

### Accès aux éléments individuels du tableau

L'accès aux lignes et colonnes du tableau est réalisée grâce aux crochets [] ainsi qu'à la méthode loc[].
Dans le tableau de données de pathologies cardiaques, les lignes sont identifiées par un numéro (de 0 à 302) et les colonnes par une chaîne de caractères (des caractères entre guillemets "" ou '').

On peut récupérer une ligne ou une colonne entière dans un nouvel objet (qui aura alors une dimension (1,N)). Un objet Pandas à une dimension s'appelle une Série.

In [None]:
# On récupère une colonne du tableau dans un nouvel objet nommé ages
ages = hd['age']
ages.head() # Affiche les premiers éléments de la série

In [None]:
# Accès à une ligne particulière
hd.loc[4]

In [None]:
# Accès à une cellule avec les coordonnées (ligne, colonne):
print (hd.loc[10,'age'])

### Accès à un ensemble de lignes 

Lorsque les lignes sont identifiées par un numéro, on peut utiliser l'écriture [N:M] pour sélectionner toutes les lignes entre l'indice M et N-1 inclus. Cette synthaxe est générale à l'ensemble des objets Python qui sont composés d'un ensemble ordonné d'élements. C'est le cas d'une chaîne de caractères.

In [None]:
# Sélectionne les caractères 8 à 11 inclus
a = "il fait beau"
print (a[8:12])

# Dans un tableau Pandas
print (hd[6:11])


### Ajout d'une colonne

Tout comme dans un tableur classique, on peut avoir besoin d'ajouter une colonne dont la valeur va être le résultat d'un calcul à partir des cellules existantes. Dans l'exemple ci-dessous, on veut ajouter une colonne NumSS qui calculera un numéro unique basé sur l'année de naissance et le sexe du patient, à l'instar du numéro de sécurité social. 
La date de publication des données est 2017, l'année de naissance est donc: 2017-age.


In [None]:
hd['NumSS'] = 10*(2017-hd['age'])+hd['sex']
hd.head()

### Exercice 1 :

- Montrez que le numéro donné par la méthode ci-dessus n'est pas unique

In [None]:
# Corrigé


### Notion d'index

Les index des lignes ne sont pas nécessairement des nombres entiers qui se suivent. Cela peut être n'importe quel object à partir du moment où la valeur de l'objet est unique. On peut par exemple substituer l'index donné par défaut (numéros de 0 à 302) par le numéro que nous avons composé à partir du sexe et de l'année de naissance.


In [None]:
# Définition d'un index de ligne à partir du numéro de SS
hd.set_index(hd['NumSS'],inplace = True)
hd.head(4)

### Selections de lignes selon des critères spécifiques

On souhaite sélectionner les lignes du tableau selon une ou l'autre valeurs des colonnes. La synthaxe est :

tableau[ Expression Booleenne (le résultat est True ou False)]

Exemple: On veut extraire les données pour les hommes uniquement:

Questions: Quelle est la proportion d'hommes et de femmes dans le tableau ?

In [None]:
hdmen = hd[hd['sex']==0]

### Exercice 2

- Combien de patients on un tau de cholesterol supérieur à 250 mg/dL ?
- Parmi ces patients, quelle est la proportion d'hommes et de femme ?

In [24]:
# Réponses


In [None]:
# Suppression d'une colonne:
hd.drop(columns = ['NumSS'],inplace = True)

# Suppression d'une ligne
hd.drop([19401000],inplace = True)

### Regroupement de cellules 

On souhaite analyser les différentes valeurs du tableau (cholesterol, fréquence cardiaque) en fonction du sexe des patients. Il existe une méthode (groupby) permettant d'aggréger des lignes du tableau selon les valeurs d'une colonne (par exemple le sexe). La façon dont les valeurs sont aggrégées est spécifiée par une fonction, qui va calculer une valeur unique à partir d'un ensemble de valeurs (par exemple le calcul d'une moyenne).

Exemple:

In [None]:
hd.groupby('sex').chol.mean()

### Exercice 3

Essayez de regrouper les lignes du tableau en fonction de l'age des patients. Est-ce qu'on peut faire apparaître des tendences sur les indicateurs cardiaques ?
