# TD mise à niveau Python

## Variables et types de données

Une variable est une zone de la mémoire de l'ordinateur dans laquelle une valeur est stockée. La déclaration d'une variable et son initialisation  se font en même temps. Python est un langage au typage dynamique, il n'est pas nécéssaire de déclarer le type d'une variable, python le "devine" automatiquement.

Le type d'une variable peut être changé via une fonction.

In [None]:
a = '2'
print("a =", a)
print("type =", type(a))

In [None]:
b = int(a)
print("b =", b)
print("type =", type(b))

### Exercice
1. Afficher les types de x et y
2. Affecter à z la somme de x et y
3. Afficher z et son type

In [3]:
x = '2'
y = 5.0

## Listes

Une liste est une structure de données qui contient une série de valeurs. Python autorise la construction de liste contenant des valeurs de types différents.

On peut appeler ses éléments par leur position, une liste de n éléments commencent à 0 et se terminent à n-1.

La liste peut également être indexée avec des nombres négatifs.

Une tranche de valeurs peut être sélectionné au sein de la liste.

In [None]:
prenom = ['Pierre','Paul','Marie','Catherine']

print(prenom[0])
print(prenom[-2])
print(prenom[0:3])

### Concaténation
Deux listes peuvent être concaténées via l'oérateur +

In [None]:
prenom2 = ["Jean","Louis"]
prenom + prenom2

Un élément peut être ajouté à une liste via la fonction append()

In [None]:
prenom.append("François")
prenom

### Fonction sur liste

Longueur d'une liste

In [None]:
len(prenom)

L'instruction range() est une fonction qui génère des nombres entiers compris dans un intervalle. 
La fonction list() permet de transformer le résultat en liste.

In [None]:
list(range(5))

In [None]:
sum(list(range(5)))

In [None]:
max(list(range(5)))

#### Exercice

Créer une liste des nombres paires jusqu'à 10 et calculer la moyenne de cette liste.

## Condition IF/ELIF/ELSE

Les instructions if,elif, else permettent de lancer du code sous une certaines condition.

In [None]:
age = 25

if age < 18:
    print("mineur")
else :
    print("majeur")

## Boucle FOR et WHILE

Les boucles permettent de réaliser des actions répétitives de manière compacte et efficace en parcourant un ensemble de valeurs.

In [None]:
villes = ['Paris','Marseille','Lyon']
for x in villes :
    print(x)

La boucle while est une alternative à la boucle for, elle permet de réaliser une série d'instructions tant qu'une condition est vraie.

In [None]:
i = 1
while i <= 3:
    print(i)
    i += 1

## Dictionnaire 

Le dictionnaire est un type qui se définit comme un ensemble de paires clé: valeur, les clés devant être uniques.


In [None]:
note_math = {'Jean' : 16,
             'Pierre' : 14,
             'Marie' : 15}
note_math

Récupérer la valeur d'une clé.

In [None]:
note_math['Marie']

Parcourir un dictionnaire via la fonction items().

In [None]:
for cle, valeur in note_math.items() :
    print(f'{cle} a eu {valeur} en math.')

### Exercice

Compter le nombre d'apparition de chaque fruit de la liste et stocker le tout dans un dictionnaire.

In [215]:
animals = ['Chien','Chat','Chat','Poule','Chat','Poule','Chien','Chat','Chien']

## Fonction

Les fonctions sont très utiles pour réaliser plusieurs fois la même opération au sein d'un programme. Elles rendent également le code plus lisible et plus clair en le fractionnant en blocs logiques.

In [218]:
def mention(note) :
    if note >= 16 :
        return "Très bien"
    elif note >= 14 and note < 16 :
        return "Bien" 
    elif note >= 12 and note < 14 :
        return "Assez bien" 
    elif note >= 10 and note < 12 :
        return "Admis" 
    else :
        return "Non admis"

In [None]:
note = 14.2
print(mention(note))

### Exercice

Créer une fonction qui prend en entrée un dictionnaire, et qui retourne les prénoms des élèves qui ont plus de 10 dans une liste.

In [220]:
note_math = {'Jean' : 16,
             'Pierre' : 14,
             'Marie' : 15,
             'François' : 8,
             'Louise' : 10.5}

## Data frame

Structure de données de forme tableau, de la librairie pandas.

In [None]:
%pip install pandas
%pip install openpyxl

Lecture d'un fichier.

In [239]:
import pandas as pd
data = pd.read_excel("Titanic_dataset.xlsx")

Affichage des premières lignes du dataframe.

In [None]:
data.head()

Dimension du dataframe.

In [None]:
data.shape

Info sur le dataframe :
 - dimensions
 - colonnes
 - nombre de valeurs nulles par colonne
 - type de chaque colonne


In [None]:
data.info()

Sélection d'une ligne.

In [None]:
data.loc[0]

Sélection de plusieurs lignes.

In [None]:
data.loc[3:6]

Sélection d'une colonne.

In [None]:
data['name']

Sélection de plusieurs colonnes.

In [None]:
data[['name','sex']]

#### Exercice
Afficher les 5 derniers lignes des colonnes name, sex et age.

### Manipulation de données avec Pandas

Filtrer les lignes suivant une condition.

In [None]:
data_survived = data[data['survived'] == 1]
data_survived

Filtrer les lignes suivant plusieurs conditions.

In [None]:
data_survived_class1 = data[(data['pclass'] == 1) & (data['survived'] == 1)]
data_survived_class1

Trier un data frame.

In [None]:
data.sort_values('age')

Opération sur une colonne.

In [None]:
data['age'].loc[data['age'] < 1] = 0

data.sort_values('age')

### Exercice

Créer un nouveau dataframe comprenant seulement les femmes qui ont survécu, l'afficher en le triant en fonction de la classe dans l'ordre décroissant.

### Gestion des valeurs manquantes
Sur pandas, une valeur manquante est identifié par NaN (Not a Number)

Identifier les valeurs manquantes avec la fonction isnull qui retourne un booléen pour chaque ligne.

In [None]:
data['home.dest'].isnull()

#### Exercice

1. Compter le nombre de valeur nulles dans la colonne age

2. Calculer la moyenne de la variable age

#### Suppression des valeurs manquantes via la fonction dropna()

In [None]:
new_data = data.dropna(axis=0, subset=['name','sex','age'])
new_data

#### Convertir une colonne avec la fonction astype()

La fonction astype ne peut s'appliquer que sur des colonnes sans valeurs manquantes.

In [None]:
new_data["age"] = new_data['age'].astype(int)
new_data.head()

#### Gestion des index

La fonction loc se base sur l'index de la ligne pour filtrer.

In [None]:
new_data.sort_values('age').loc[0:6]

Mettre de simples crochets pour filtrer se base sur les positions de lignes dans le dataframe.

In [None]:
new_data.sort_values('age')[0:6]

Réindexage d'un dataframe avec la fonction reset_index().

In [None]:
new_data_reindex = new_data.sort_values('age')[0:6].reset_index(drop=True)
new_data_reindex

#### Exercice

Affecter à un nouveau dataframe, les 10 personnes les plus agées puis réindéxer le nouveau dataset.

### Appliquer une fonction à un dataframe

Appliquer une fonction à toutes les colonnes.

In [None]:
def null_count(col):
    return len(col[pd.isnull(col)])

data.apply(null_count)

Appliquer une fonction à toutes les lignes d'une colonne.

In [None]:
def plus_1 (x):
    return x+1

data['age'].apply(plus_1)

#### Exercice

- Créer une fonction qui retourne si une personne est mineur ou majeur en fonction de l'age.
- Créer une nouvelle colonne dans le dataframe new_data qui indique si la personne est majeure ou mineure.

### Table pivot

Permet de réorganiser, agréger et résumer les données d'un dataframe.

In [None]:
import numpy as np 

survived_by_sex = new_data.pivot_table(index='sex', values='survived', aggfunc=np.mean)
survived_by_sex

On peut également réindéxer une table pivot pour l'avoir dans le format dataframe.

In [None]:
survived_by_sex = survived_by_sex.reset_index()
survived_by_sex

#### Exercice

Créer un nouveau dataframe avec deux colonnes, la première pour l'ensemble des âges du dataframe et la deuxième pour le taux de survivant associé.

## Graphiques avec matplotlib

In [None]:
pip install matplotlib

Courbe

In [None]:
import matplotlib.pyplot as plt

plt.plot(survived_by_age['age'],survived_by_age['survived'])
plt.xlabel("Age")
plt.ylabel("Taux de survivant")
plt.title("Taux de survivant en fonction de l'age")
plt.show()

Diagramme en bâton

In [None]:
survived_by_age_labels = new_data.pivot_table(index='age_labels', values='survived', aggfunc=np.mean).reset_index()

plt.bar(survived_by_age_labels['age_labels'],survived_by_age_labels['survived'],color = ['#fdaa48','#6890F0'])
plt.title("Taux de survivant par catégories")
plt.show()

Boîte à moustache

In [None]:
plt.boxplot(new_data['age'])
plt.show()