## Objectif & Plan

Pandas est une bibliothèque permettant de manipuler et analyser des données. L'objectif de cette première séance est de vous familiariser avec cet outil et de découvrir les données Madoc sur lesquelles vous allez travailler.

Dans la première partie de ce notebook, nous commençons par vour présenter quelques commandes Pandas. Dans la deuxième partie, vous devrez appliquer ces commandes sur les données Madoc. Votre travail de Data Scientist commence donc dès maintenant.

La première étape est d'importer les bibliothèques utiles pour le projet. Ici nous importons la bibliothèques Pandas, en la renommant 'pd' afin de faciliter son utilisation ('pd' car c'est le raccourci utilisé sur tous les tutoriels publiés sur le web).

Pour exécuter le code d'un bloc d'un notebook jupyter, cliquer sur le bloc et taper la combinaison de touche $Maj+entrée$.

In [None]:
import pandas as pd

## Partie 1 - introduction à Pandas

### 1.Lire un fichier CSV

La première étape est de charger les données. Nous allons tout d'abord travailler sur un exemple simple, ressemblant (de loin) aux vraies données Madoc.

Deux fichiers sont disponibles pour cet exemple: un fichier contenant les traces des étudiants et un fichier contenant leurs notes.

La fonction `read_csv` de Pandas permet de lire un fichier csv. Elle est appelée en tapant `pd.read_csv(...)`, qui se lit "j'appelle la fonction `read_csv(...)` de Pandas". L'opérateur `.` permet d'accéder à une fonction dans un module python. 
Un $module$ python est en pratique un fichier contenant du code python.

La fonction `read_csv()` retourne un data frame Pandas. Un data frame est un tableau composé de colonnes et de lignes.

Exécutez les blocs suivants pour charger les données. 

In [None]:
dataTraces = pd.read_csv('./data/traces.csv', sep=',')

dataTraces.head()

dataTraces.head()

Le fichier traces.csv contient donc des lignes représentant chacune un **événement** d'utilisateurs. La première ligne indique que l'utilisateur $1$, appelé $Antoine$, a accédé à la ressource numéro $100$ du cours $Programmation\ objet$.

La fonction `head()` de Pandas permet d'afficher les premières lignes du tableau.

#### Exercice

Complétez le bloc suivant pour charger maintenant le fichier 'data/notes.csv' contenant les notes des étudiants.

In [None]:
# chargez le fichier data/notes.csv et affichez les premières lignes du tableau
dataNotes = #######

# affichage des premieres lignes - 1 lignes de codes


### 2. Sélection de lignes et de colonnes

Voici un exemple de code pour sélectionner une colonne dans le data frame 'dataTraces'.

Exécutez le code pour que le résultat s'affiche :
1. sélectionnez la cellule
2. tapez la combinaison de touche $Maj + Entrée$.

In [None]:
dataTraces['idUser']


La première colonne de l'affichage correspond à l'index. Un index permet d'identifier de manière unique une ligne de votre tableau. L'index par défaut est une liste d'entier, numérotant vos lignes. Il est aussi possible d'utiliser un index à partir d'une colonne de votre fichier csv (à partir du moment où chaque valeur de cette colonne est unique).

Exemple de sélection de plusieurs colonnes : 

In [None]:
dataTraces[['idUser', 'cours']]

Voici un exemple de sélection de lignes :

In [None]:
dataTraces[1:2]

Dans cette exemple, la sélection se fait via l'opérateur $slice$. Cet opérateur à la forme suivante: `a:b:c`, où `a` représente le numéro de l'élément de début, `b` le numéro de l'élément de fin non inclus et `c` représente le pas d'avancement pour aller de `a` à `b`. Par défaut, `c` est initialisé à `1`. Ainsi dans cette exemple, nous allons de la ligne $1$ à $2-1$, ce qui revient à sélectionner la ligne d'index `1`.

Voici un exemple de sélection de plusieurs lignes :

In [None]:
dataTraces[0:4]

La selection peut aussi se faire via l'accès à `iloc`, en donnant un tableau d'index de ligne :

In [None]:
dataTraces.iloc[[0, 3, 5]]

La fonction `iloc` prend des indices sous formes d'entier, correspondant aux numéros de lignes de votre tableau et aux numéros des colonnes.

Voici quelques exemples d'utilisation de `iloc`:

In [None]:
print("\nPremière ligne:")
print(dataTraces.iloc[0])

print("\nPremière ligne, pareil que le précédent mais en indiquant qu'on sélectionne toutes les colonnes:")
print(dataTraces.iloc[0, :])

print("\nPremière ligne et deuxième colonne:")
print(dataTraces.iloc[0, 2])

Une fonction similaire, nommée `loc` prend en paramètre les valeurs de l'index et le nom des colonnes :

In [None]:
print("Sélection des index 2 à 4 (inclus...) et de la colonne \'nom\':")
print(dataTraces.loc[2:4, 'nom'])

print("\nSélection de toutes les valeurs d'index et des colonnes \'nom\' et \'ressource\' :")
print(dataTraces.loc[0:, ['nom', 'ressource']])

Il est aussi possible de sélectionner les lignes contenant certaines valeurs :

In [None]:
dataTraces[dataTraces['nom'] == 'Antoine']

Pour construire des formules booléennes, il faut utiliser les opérateurs `&` et `|` pour respectivement le "et" et le "ou".

Ici un exemple de sélection des lignes contenant "Antoine", avec un numéro de ressource supérieur à 150:

In [None]:
dataTraces[(dataTraces['nom'] == 'Antoine') & (dataTraces['ressource']>150)]

#### Exercice

Réalisez les sélections suivantes sur le data frame dataNotes

1. sélectionnez les colonnes `cours` et `notes` du data frame `dataNotes`
2. sélectionnez les deux dernières lignes du data frame `dataNotes`
3. sélectionnez les lignes 2 et 3 sur les colonnes `notes` et `idUser`
4. sélectionnez toutes les lignes ayant un index pair
5. sélectionnez les lignes du data frame `dataNotes` ayant des notes supérieure à 15 (l'opérateur > ou < est ici à utiliser)
6. sélectionner les lignes du data frame `dataNotes` ayant des notes supérieure à 10 pour le cours de _Programmation Objet_

In [None]:
# réponse question 1

In [None]:
# réponse question 2

In [None]:
# réponse question 3

In [None]:
# réponse question 4

In [None]:
# réponse question 5

In [None]:
# réponse question 6

## 3. Points sur les data frame et les séries

Pandas utilise des objets de type `dataFrame`. Un data frame est un tableau composé de colonnes et de lignes. Chaque colone contient généralement un seul type de données et est représenté par un object de type 'Series'.

### Les séries

Une série est un objet unidimensionnel pouvant contenir seulement des entiers, des nombres à virgules et des chaînes de caractères. Une série contient généralement des données de même type (sinon, elle est généralement difficilement exploitable).

Voici un exemple de série :

In [None]:
serie = pd.Series([10,20,30,40,50])

serie

Une série a un index, ici allant de 0 à 4 :

In [None]:
serie.index

L'index d'une série peut être défini :

In [None]:
serie = pd.Series([10,20,30,40,50], index=['a', 'b', 'c', 'd', 'e'])

serie

L'accès à un ou plusieurs éléments de la série peut se faire via l'index :

In [None]:
print(str(serie[['a', 'b']])+"\n")
print("type d'une série: "+str(type(serie[['a', 'b']])))

print("\naccès à un élément via l'index:")
print(serie['a'])

ou bien via le numéro de la ligne :

In [None]:
serie[0]

Et enfin, pour faire le lien avec nos données :  chaque colonne du dataFrame `dataTraces` est donc une série. Dans l'exemple suivant, nous utilisons la fonction type() pour afficher le type d'une colonne sélectionnée dans notre data frame `dataTraces`.

In [None]:
print(type(dataTraces['idUser']))

### Les data frames

Un data frame est un objet à 2 dimensions pouvant avoir plusieurs colonnes avec des types différents.

Il est possible d'avoir le début ou la fin d'un data frame avec les fonctions `head()` et `tail()`.

La méthode `describe()` permet d'avoir des statistiques simples sur les colonnes contenant des données numériques.

In [None]:
dataTraces.describe()

### 4. Jointure entre 2 data frames

Une jointure entre deux data frames A et B consiste à les fusionner en associant une ligne de A avec une ligne de B si elles ont toutes les deux la même valeur sur une certaine colonne. 

Dans l'exemple suivant, nous créons une nouveau data frame contenant l'âge des utilisateurs et nous réalisons une jointure entre `dataTraces` et ce nouveau data frame.

In [None]:
dataAge = pd.DataFrame({"idUser": [1, 2], "Age": [39, 25]})

dataAge.idUser.astype(int)
dataAge

Ensuite, nous ré-affichons le contenu de $dataTraces$ avant de faire la fusion entre les deux tables :

In [None]:
dataTraces

Et maintenant, nous réalisons la fusion des deux data frames, en combinant toutes les lignes des deux tableaux ayant la même valeur sur la colonne $idUser$.

In [None]:
dataTraces.merge(dataAge, left_on='idUser', right_on='idUser')

#### Exercice

1. créez un data frame contenant comme colonne le nom des étudiant et leurs notes en programmation objet
2. créez un data frame contenant les notes et le nom de l'étudiant `Antoine`

In [None]:
# réponse question 1

In [None]:
# réponse question 2

### 5. Statistiques

Pandas fournit des fonctions pour analyser les données. En voici quelques exemples :
- `pd.unique(series)` retourne un tableau contenant l'ensemble des valeurs contenues dans la série donnée en paramètre (un ensemble ne contient pas de doublon) 
- `dataFrame.count()` retourne le nombre de valeurs non null pour chaque colonne
- `dataFrame.mean()` retourne la moyenne d'une colonne

Toutes les documentation de ces fonctions sont disponibles ici :
https://pandas.pydata.org/pandas-docs/stable/index.html

Ou bien le plus simple est de rechercher sur Google en tapant par exemple "Pandas mean" ou bien "Pandas all values of a column".

Et oui...toutes les documentations sont en anglais...et la plupart des aides, tutoriels, cours en ligne sont en anglais pour l'informatique. Il est nécessaire d'apprendre un peu de vocabulaire pour devenir programmeur - autant commencer maintenant.

#### Exercice

1. lisez la documentation sur les fonctions précédentes
2. déterminez combien d'étudiants sont disponibles dans `dataTraces`
3. combien de valeurs y a-t-il dans la colonne `idUser` de `dataTraces` ?
4. combien y a-t-il de valeurs dans chaque colonne ?
5. calculez la moyenne obtenues pour le cours Patron de conception
6. calculez le nombre d'événements par cours


In [None]:
# réponse question 2

In [None]:
# réponse question 3

In [None]:
# réponse question 4


In [None]:
# réponse question 5

In [None]:
# réponse question 6

### 6. Groupby


Pandas fournit une fonction très puissantes pour pouvoir créer des groupes de lignes afin de leur appliquer un traitement. 

Prenons un exemple où nous disposons d'un dataframe contenant les notes obtenues à chaque matière pour chaque étudiant. Pour avoir la moyenne générale de chaque étudiant, nous pouvons utiliser la méthode suivante:
1. création de 2 sous dataframe, avec chacun soit les lignes de Fabien et soit les lignes d'Antoine
2. sur chaque sous tableau, faire la moyenne 

La fonction permettant de réaliser cette opération est le `groupby`, que l'on applique sur un dataframe.


In [None]:
dataExempleNotes = pd.DataFrame({"idUser": ['Antoine', 'Fabien', 'Antoine', 'Fabien', 'Antoine', 'Fabien'], 
                                 "Notes": [13, 10, 15, 18, 9, 7]})

dataExempleNotes

In [None]:
# création des sous groupes

groups = dataExempleNotes.groupby('idUser')

# pour information, il est possible de parcourir les sous dataframes créés
for group in groups:
    print(group)
    


Une fois les sous groupes obtenus, la moyenne pour chaque étudiant est obtenue facilement:

In [None]:
groups.mean()

#### Exercice

1. lisez la documentation sur la fonctions `groupby`
2. testez le `groupby` en sélectionnant plusieurs colonnes (par exemple `idUser` et `cours`, sur le fichier notes.csv). Qu'obtenez vous ? 
3. calculez le nombre d'événements réalisés par 1 et 2 à partir du fichier de traces
4. calculez la moyenne obtenue pour chaque matière





## Partie 2 - Projet Immobilier

### Exercice :
1. créez un nouveau notebook
2. étudiez dans ce notebook les données immobilières, avec Pandas, en essayant de déterminer les colonnes intéressantes
3. déterminez les statistiques suivantes :
  - le nombre de ventes immobilières
  - le nombre de ventes d'appartements
  - le nombre de ventes de maisons
  - le nombre de communes
  - le nombre de rue différentes
  - le nombre de ventes par rue (aide : utilisez la fonction `groupby()`)
  - le nombre de ventes par commune (aide : utilisez la fonction `groupby()`)
  - le nombre de ventes moyen par rue
4. déterminez les lignes présentant des données vides (recherchez sur Google comment faire). Aide: utilisez la fonction `unique()` sur une série pour voir les valeurs contenues dans vos colonnes. Ou bien utilisez la fonction `value_counts()` sur une série. Rappel : la sélection d'une seule colonne retourne une `Serie` Pandas
5. déterminez le prix moyen d'un appartement, d'une maison, le prix moyen d'un appartement par commune, le prix moyen d'une maison par commune
6. réfléchissez à votre méthode pour gérer les données manquantes
7. réfléchissez aux choix des colonnes à garder pour faire de la prédiction de prix
8. est il possible de fusionner les 2 fichiers ? quelles sont les colonnes à garder ?
9. sauvegardez les données nettoyées dans un fichier `.csv` (possiblement 2 fichiers, un pour les appartements et l'autre pour les maisons)
