# Rapide introduction à Python


Nous allons commencer par une petite introduction au langage Python. Ce langage connaît actuellement une très grande popularité dans les milieux scientifiques (notamment pour sa facilité d’apprentissage), et notamment pour ce qui nous concerne, en bio-informatique. 

C’est un langage interprété, et vous utilisez actuellement JupyterLab, qui permet en autre d’utiliser l’interpréteur Python via un navigateur web. L’avantage majeur de cet outil et de permettre de fractionner votre code en différentes cellules, que vous pouvez exécuter dans l’ordre que vous souhaitez. Ainsi, vous pouvez par exemple charger le contenu d’un fichier volumineux dans une cellule, et écrire un algorithme pour manipuler les données chargées dans une autre cellule. Ceci vous permettra de ne ré-exécuter que la cellule appelant l’algorithme sans avoir à recharger les données de votre fichier.

Comme vous pouvez le constater, JupyterLab permet également de mélanger des cellules de type « textes » et des cellules de type « code ». Tout au long du projet vous devrez suivre les instructions dans les cellules de textes et compléter et exécuter les cellules de code.

In [None]:
# Pour exécuter une cellule, sélectionner là et appuyer sur Ctrl+Entrée
print("Hello world !")

In [None]:
# Vous pouvez également appuyer sur Shift+Entrée, ce qui permettra de passer à la cellule suivante 
# ou d'insérer une nouvelle cellule si la cellule exécutée est la dernière.
print("OK")

# Un langage interprété à typage dynamique

In [None]:
# Le typage étant dynamique, vous n'avez pas besoin de faire de déclaration de variable :

x = "ping "
type(x)

In [None]:
# Tout est objet en Python, et les objet str possède également des méthodes:
x.upper()

In [None]:
# Dans jupyterlab, vous pouvez ajouter un "?" à la fin d'un objet ou d'une méthode pour accéder à sa documentation
x.upper?

In [None]:
# Vous avez également la complétion automatique: tapez "x." puis appuyer sur tabulation

In [None]:
y = 10

type(y)

In [None]:
# On peut multiplier des str et des int
x*y

# Principales structures de données de base du langage

## List


In [None]:
l = [ "a", "b", "c", "d", "e"]
type(l)

Accéder à une valeur

In [None]:
l[0]

In [None]:
l[1]

In [None]:
l[-1]

Accéder à un interval

In [None]:
l[2:4]

In [None]:
l[::2]

Inversion

In [None]:
l[::-1]

## Dictionnaire

In [None]:
d = {"clé" : "valeur"}
type(d)

In [None]:
d["clé"]

In [None]:
# Ajouter une entrée
d["l"] = l
d

In [None]:
d['l']

In [None]:
d['l'][1]

# Structures de contrôle

In [None]:
tailles = {}

# Les boucle for se font sur des "itérables" (listes, chaine de caractères...)
# et ce sont les tabulations qui délimitent la portée de la structure de controle
for letter in l :
    print(letter)

In [None]:
# Pour boucler sur 10 fois, on utilisera la fonction range qui renvoie une "liste" de la taille passée en paramètre
for i in range(5):
    print(i)

In [None]:
d = {}
for letter, i in zip(l, range(5)):
    d[letter] = i
d

In [None]:
# Python permet également de faire la même chose que ci-dessus via la fonctionnalité de "dictionnary comprehension"
{letter: i for letter, i in zip(l, range(5))}

## Modules de bases du langage

In [None]:
# "import" permet d'importer un module :
import os

files = os.listdir('..')
files

# Lecture / écriture de fichiers

In [None]:
# ouverture d'un fichier en lecture
f = open('../.gitignore', 'r')
data = f.read()
f.close()
data

In [None]:
import random # module pour la génération de nombre aléatoire

matrix = {}

for k in ["a", "b", "c"]:
    matrix[k] = random.sample(range(100), 10)
    
matrix

In [None]:
with open('matrix.csv', 'w') as f: # le mot clé with permet de fermer automatiquement le fichier à la sortie du bloc with
    f.write(",".join(matrix.keys()))
    f.write('\n')
    for i in range(10):
        f.writelines(",".join([str(l[i]) for l in matrix.values()]))
        f.write('\n')

Vous devriez maintenant avoir un fiichier matrix.csv accessible dans la colonne de gauche.
Vous pouvez afficher son contenu en double cliquant dessus.

# Pandas

Pandas un module Python externe (qui n'est pas présent dans l'installation de base) qui permet de manipuler des matrices.
Nous venons justement de créer une matrice que nous venons de sauvegarder dans un fichier csv...

In [None]:
import pandas

df = pandas.read_csv('matrix.csv')
type(df)

In [None]:
# Les dataframe pandas sont représenté sous la forme d'un joli tableau HTML dans jupyter
df

In [None]:
# Pandas permet de générer des graphs très simplement :
df.hist()

In [None]:
df.max()

In [None]:
df.plot(kind='bar')

In [None]:
# Les diagrammes sont entièrement personnalisables
ax = df.hist(column='a', bins=25, grid=False, figsize=(12,8), color='#86bf91', zorder=2, rwidth=0.9)

ax = ax[0]
for x in ax:

    # Despine
    x.spines['right'].set_visible(False)
    x.spines['top'].set_visible(False)
    x.spines['left'].set_visible(False)

    # Switch off ticks
    x.tick_params(axis="both", which="both", bottom="off", top="off", labelbottom="on", left="off", right="off", labelleft="on")

    # Draw horizontal axis lines
    vals = x.get_yticks()
    for tick in vals:
        x.axhline(y=tick, linestyle='dashed', alpha=0.4, color='#eeeeee', zorder=1)

    # Remove title
    x.set_title("")

    # Set x-axis label
    x.set_xlabel("Valeurs tirées", labelpad=20, weight='bold', size=12)

    # Set y-axis label
    x.set_ylabel("Nombre de tirages", labelpad=20, weight='bold', size=12)



In [216]:
# On peut filter les données
df[df > 10]

Unnamed: 0,a,b,c
0,91.0,88.0,
1,38.0,17.0,12.0
2,78.0,69.0,90.0
3,87.0,68.0,70.0
4,84.0,,19.0
5,,49.0,27.0
6,72.0,63.0,41.0
7,32.0,56.0,63.0
8,71.0,99.0,45.0
9,56.0,28.0,83.0


In [219]:
# La méthode iloc permet d'accéder au cellule par position
df.iloc[0, 1]

88

In [224]:
# La méthode loc permet d'accéder au cellule par la valeur de leur index
df.loc[0, 'b']

88

In [228]:
# On peut également définir des
df.iloc[3:8, 1:3]

Unnamed: 0,b,c
3,68,70
4,3,19
5,49,27
6,63,41
7,56,63


In [229]:
df.loc[3:8, 'b':'c']

Unnamed: 0,b,c
3,68,70
4,3,19
5,49,27
6,63,41
7,56,63
8,99,45
