# Intelligence Artificielle Avancée

# TP1: Prise en main de Pandas et Sickit-Learn



## Passez de Numpy à Pandas

La bibliothèque Pandas a essentiellement trois structures de données:

1. Series
2. DataFrame
3. Panel


**3.1 Series**

La série est un tableau unidimensionnel, qui peut contenir tout type de données, telles que des entiers, des flottants, des chaînes et des objets Python. Une série peut être créée en appelant ce qui suit:

In [None]:
import numpy as np
import pandas as pd
pd.Series(np.random.randn(5))

L'index de la série peut être personnalisé en appelant ce qui suit:

In [None]:
pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

Une série peut également être dérivée d'un dict Python:

In [None]:
d = {'A': 10, 'B': 20, 'C': 30}
pd.Series(d)

**3.2 DataFrame**

DataFrame est une structure de données 2D avec des colonnes qui peuvent être de différents types de données. Cela peut être vu comme un tableau. Un DataFrame peut être formé à partir des structures de données suivantes:


*   A NumPy array
*   Lists
*   Dicts
*  Series
*  A 2D NumPy array


Un DataFrame peut être créé à partir d'tableau numpy:

In [None]:
import numpy as np
import pandas as pd

# Création d'un tableau numpy à 2 dimensions
data = np.array([[5.8, 2.8], [6.0, 2.2]])
print(data)

# Création d'un DataFrame Pandas à partir d'un tableau numpy
dataset = pd.DataFrame({'Column1': data[:, 0], 'Column2': data[:, 1]})
print(dataset)



Un DataFrame peut être créé également à partir d'un dict de série en utilisant les commandes suivantes:

In [None]:
d = {'c1': pd.Series(['A', 'B', 'C']),'c2': pd.Series([1, 2., 3., 4.])}
df = pd.DataFrame(d)
df

Pour lire les données d'un fichier .csv, la fonction read_csv suivante peut être utilisée:

In [None]:
data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data'
# read data from url as pandas dataframe
d = pd.read_csv(data_url)
print("dimensions:", d.shape)
print(d[522:532])

Pour écrire des données dans le fichier .csv, la fonction to_csv suivante peut être utilisée:

In [None]:
d = {'c1': pd.Series(['A', 'B', 'C']), 'c2': pd.Series([1, 2., 3., 4.])}
df = pd.DataFrame(d)
df.to_csv('sample_data.csv')

** Exercices**

1. Importez les données de cette URL: https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv et affectez-les à une variable nommée chipo
2. Afficher les 10 premières données (indice: fonction de Pandas head())
3. Quel est le nombre de données dans l'ensemble de données?
4. Quel est le nombre de colonnes dans l'ensemble de données?
5. Imprimez le nom de toutes les colonnes.
6. Quel était le revenu de la période dans l'ensemble de données? (indice: 'quantity'\*'item_price')
7. Quel est le montant moyen des revenus par commande? (résultat: 21,394231188658654)

In [None]:
### Réponses
import pandas as pd
import numpy as np

# 1
print("Question 1")


# 2


# 3


# 4


# 5


# 6


# 7


## Scikit-Learn
Scikit-learn est un logiciel écrit en Python, qui nécessite l'installation préalable du langage  Python et des librairies  *NumPy* et  *SciPy* (pour le calcul scientifique), dans des versions qui doivent vérifier certaines contraintes de compatibilité. Sur votre machine personnelle, le plus simple est d'installer une distribution de Python complète, comme Anaconda (https://docs.anaconda.com/anaconda/install/), qui comprend la plupart des librairies courantes développées en Python, dont les trois citées plus haut. Sur les PC de la salle, tout est normalement installé...

Le site officiel du logiciel  Scikit-learn est :  http://scikit-learn.org/stable/index.html 

La documentation en ligne est complète, et devra être consultée chaque fois que nécessaire :
 	http://scikit-learn.org/stable/documentation.html 
    
Des tutoriaux sont disponibles a l'adresse suivante :
 	http://scikit-learn.org/stable/tutorial/index.html

### Jeux de données en Scikit-Learn

Un certain nombre de jeux de données sont disponibles dans scikit-learn. Il est également possible de générer des données artificielles ou de récupérer des données externes (on fera ça dans les prochains TPs).

Documentation relative au chargement de jeux de données :
	http://scikit-learn.org/stable/datasets/ 

Les jeux de données disponibles dans scikit-learn sont : iris, boston, diabetes, digits, linnerud, sample images, 20newsgroups.
Chacun de ces jeux de données se récupère à l'aide de la commande load_nom-jeu qu'il faut dans un premier temps charger. Par exemple, pour récupérer le jeu iris :

In [None]:
from sklearn.datasets import load_iris  #importation de la commande
irisData = load_iris()

On se retrouve alors avec une variable qui contient le jeu de données (ici on l'a appelé *irisData*)

Les variables des jeux de données comprennent un certain nombres d'attributs parmi (tous ne sont pas toujours définis) : data, target, target_names, feature_names, DESCR :
- *.data* est un tableau de dimensions *(n,m)*. Chacune des *n* lignes correspond à une donnée, chacune des *m* colonnes à un attribut 
- *.target* stocke les classes (étiquettes/label) de chaque instance (dans le cas supervisé) : c'est un vecteur de taille *n* dont la première valeur est la classe de la donnée de la première ligne de la matrice .data, la deuxième valeur est la classe de la deuxième ligne, etc.
- *.target_names* contient le nom des classes
- *.feature_names* contient le nom des attributs
- *.DESCR* est un texte décrivant le jeu de données.

In [None]:
irisData.data

In [None]:
irisData.target

In [None]:
irisData.target_names

Noter que le type de tous ces éléments est *array*, un type très utile et central en python pour nous (en fait, le vrai type est s'appelle *ndarray* qui est un type propre à numpy : faites type(irisData.target) par exemple pour vous en assurer : il ne faut pas toujours croire ce que le notebook affiche !)

##### Le jeu de données Iris (Fisher, 1936)
Iris est un ensemble (=jeu) de données introduit en 1936 par R. Fisher comme un exemple d'analyse discriminante. Cet ensemble contient 150 exemples de critères observés sur 3 espèces différentes d'iris de Gaspésie (Setosa, Versicolor, Verginica). Chaque exemple est composé de quatre attributs (longueur et largeur des sépales en cm, longueur et largeur des pétales en cm) et d'une classe (l'espèce).

**Question.** Exécutez **une à une** les commandes suivantes et comprenez ce qu'elles réalisent (vous aurez à les réutiliser).

In [None]:
len(irisData.data)

In [None]:
irisData.target_names[0]

In [None]:
irisData.target_names[2]

In [None]:
irisData.target_names[-1]

In [None]:
irisData.target_names[len(irisData.target_names)]

In [None]:
irisData.data.shape

In [None]:
irisData.data

In [None]:
irisData.data[0]

In [None]:
irisData.data[0][1]

In [None]:
irisData.data[:,1]    # Celle-ci, il faut vraiment la comprendre !

In [None]:
irisData.data[irisData.target==0]    # Et celle-ci aussi !!!

In [None]:
irisData.data[:][1]  # pourquoi n'a-t-on pas le même résultat qu'avec [:,1] ?

Vous avez eu une erreur ? Pourquoi ? Refléchissez...

##### Visualiser les données
Scikit-Learn  intègre la librairie matplotlib  (http://matplotlib.org/) qui propose de très nombreuses primitives permettant de faire des dessins, et la librairie pylab, qui intègre les librairies NumPy, SciPy  et Matplotlib .

Exécutez les commandes suivantes et comprenez ce qu'elles réalisent :

In [None]:
#%matplotlib inline     # Commande uniquement Notebook : permet l'affichage des courbes
import matplotlib.pyplot as plt        #permet d'importer 'pyplot' et de remplacer son nom par 'plt'
X = irisData.data
Color = irisData.target
abscisse = 0
ordonnee = 1

plt.scatter(X[:, abscisse], X[:, ordonnee], c=Color)   # Définition des abscisses et des ordonnées, ainsi que de la couleur
plt.show()    # Affichage de la courbe

C'est bien mais pas super : il manque de l'information pour être une vraie courbe. On améliore :

In [None]:
plt.xlabel(irisData.feature_names[abscisse])    # Nomage de l'axe des abscisses
plt.ylabel(irisData.feature_names[ordonnee])    # Nomage de l'axe des ordonnées   
plt.title("Données Iris - Dimensions des sépales uniquement") # Et il faut un tritre

plt.scatter(X[:, abscisse], X[:, ordonnee], c=Color)   # Re-éfinition des abscisses, ordonnées, et couleurs
plt.show()

ça commence à ressembler à quelque chose, non ? Reste 2 petits problèmes : il manque la légende pour expliquer le code couleur, et les couleurs ne sont pas très belles (ça c'est une question de goût, mais quand même). Voilà un façon (un peu différente) d'y remédier :

In [None]:
y = irisData.target
colors=["red","green","blue"]
differentes_target = set(irisData.target)    # Enlève les doublons
for i in differentes_target:
	plt.scatter(X[y==i][:, abscisse],X[y==i][:,ordonnee],color=colors[i], label=irisData.target_names[i])
plt.legend()
plt.xlabel(irisData.feature_names[abscisse])
plt.ylabel(irisData.feature_names[ordonnee])
plt.title("Données Iris - dimensions des sépales uniquement")
plt.show()

**Question.** Les données iris sont décrites par 4 attributs. Il y a 6 en 2 dimensions manières d'en regarder 2. En modifiant le code ci-dessus, déterminez visuellement le couple d'attributs qui semble le mieux a même de séparer clairement les exemples des 3 classes d'iris.

In [None]:
# A vous

**Question.** Créez un dataframe avec les variables d'observation irisData.data et les noms de colonnes comme arguments:

In [None]:
# A vous

**Question.** Créez un histogramme des valeurs dans le dataframe pour la longueur sépale:

In [None]:
# A vous

**Question.**. Coloriez l'histogramme par la variable cible (target):

In [None]:
# A vous

In [None]:
# A vous

**Un nouvel exemple!**

**Question.** En utilisant Pandas, charger le fichier "winequality-red.csv" à partir de cette adresse URL: "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv" , avec un séparateur= " ; 

In [None]:
# A vous

**Question.** Afficher les 5 premières lignes

In [None]:
# A vous

**Question.** Afficher les informations du DataFrame, y compris l'index dtype et les colonnes, les valeurs non nulles et l'utilisation de la mémoire.

In [None]:
# A vous

**Question.**  Afficher la somme des valeurs nulles pour chaque attribut (feature) du DataFrame

In [None]:
# A vous

**Question.** On voudrait maintenant assigner deux labels: "bad" et "good" à la colonne quality au lieu de valeurs. Le label "bad" signifie que la valeur de qualité est < 6.5 et le label "good" sa valeur est > 6.5. A noter que les valeurs de qualités sont comprises entre 2 et 8. Ecrire un code permettant de changer les valeurs de la colonne quality avec ces deux labels.

In [None]:
# A vous

**Question.** Ré-afficher les 5 premières colonnes du DataFrame et vérifier les champs de la colonne quality.

In [None]:
# A vous

**Question.** Encoder les labels de la colonne quality en valeurs numériques en utilisant une fonction prédéfinie du Sickit-Learn

In [None]:
# A vous

**Question.** Vérifier le résultat des 10 premières lignes

In [None]:
# A vous

 **Question.** Compter et afficher le nombre de labels "good:1" et "bad:0" de la colonne quality

In [None]:
# A vous

   **Question.**  Afficher l'histogramme correspondant en utilisant la librairie "seaborn"

In [None]:
# A vous

   **Question.** En utilisant Pandas, séparer les données en une variable de réponse Y et des variables de features X

In [None]:
# A vous

 **Question.** Vérifier le résultat

In [None]:
# A vous

 **Question.** Normaliser les données de X avec les deux méthodes de standarisation et normalisation

In [None]:
# A vous

**Question.** Afficher et intepréter la valeur min() et max () des données normalisées avec les deux méthodes.

In [None]:
# A vous

##### Extraire des statistiques des données
Un autre type de données est très utile : les dictionnaires. Alors qu'une liste est indéxée par des entiers positifs, un dictionnaire peut être indexé par (presque) tout :

In [None]:
d = {}    # Création d'un dictionnaire vide
d = {"film":["Ready Player One", "Magnolia"], "duree": [120, 90], 42:["et", "oui"] }
print(d["film"])
print("Les clés : ", d.keys())
print("Les valeurs : ", d.values())
d["film"].append("Les valseuses")
d["Annee"]=2018
print("A la fin : ", d)

**Question.** En lisant les données une par une, remplir un dictionnaire *dico* dont les clés sont : "petal_length", "petal_width", "sepal_length", "sepal_width"

**Question.** Ecrire une fonction display_stat qui prend en entrée un dictionnaire avec les clés de la question précédente et renvoie les statistiques 'moyenne', 'valeur max', 'valeur min', et 'déviation standard' pour chacun des 4 attributs. Ces fonctions sont toutes déjà définies dans le module numpy. Le résultat pourra se présenter sous la forme d'un tableau (pas aussi beau, là c'est du markdown):

| Attribut | min | max | moyenne | std |
| --- | --- | --- | --- | --- |
| sepal_length | 4.30 | 7.90 | 5.84 | 0.83 |
| sepal_width | 2.00 |4.40 | 3.05 | 0.43 |
| petal_length | 1.00 | 6.90 | 3.76 | 1.76 |
| petal_width | 0.10 | 1.20 | 0.76 | 1.00 |

   sepal length: 4.3  7.9   5.84  0.83    0.7826   
    sepal width: 2.0  4.4   3.05  0.43   -0.4194
   petal length: 1.0  6.9   3.76  1.76    0.9490  (high!)
    petal width: 0.1  2.5   1.20  0.76    0.9565  (high!)
