# Chapitre 7 : introduction à Pandas
## [Documentation Pandas](https://pandas.pydata.org/pandas-docs/stable/#)

## Les `Series`

- Un peu comme un super-dictionnaire.
- `ndarray` à 1 dimension.
- Chaque élément est labellisé.
- Similaires aux dictionnaires mais offrent beaucoup plus de fonctions.
- Idéales pour manipuler des données (contrairement aux dictionnaires).

### Création à partir de listes

**Exemple :**
```
import pandas as pd

values = [1, 2, 3, 4, 5]
labels = ["Label_A", "Label_B", "Label_C", "Label_D", "Label_E"]
my_serie = pd.Series(values, index=labels)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Expérimenter.
5. Créer une `Serie` contenant 2 labels indentiques. Que se passe-t-il ?

### ==================== SOLUTION ===================

### ==============================================

### Création à partir d'un dictionnaire
#### Les index de la `Serie` sont les clefs du dictionnaire.

**Exemple :**
```
import pandas as pd

init_values = {"Label_A":1, "Label_B":2, "Label_C":3, "Label_D":4, "Label_E":5}
my_serie = pd.Series(init_values)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Expérimenter.
3. Créer un nouveau dictionnaire `init_values2` avec les éléments de `init_value` mais dans un ordre différent.
4. Utiliser `init_values2` pour créer un nouveau `Serie`. Que remarquez-vous ?
5. Créer une `Serie` contenant 2 labels indentiques en passant par les dictionnaires. Que se passe-t-il ? Pourquoi ? Que faut-il faire ?

### ==================== SOLUTION ===================

### ==============================================

### Création à partir d'un `ndarray` à 1 dimension

**Exemple :**
```
import numpy as np
import pandas as pd

values = np.random.randn(5)
labels = ["Label_A", "Label_B", "Label_C", "Label_D", "Label_E"]
my_serie = pd.Series(values, index=labels)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Expérimenter.
5. Créer une `Serie` contenant 2 labels indentiques. Que se passe-t-il ?

### ==================== SOLUTION ===================

### ==============================================

### Accéder aux éléments de la `Serie`
#### Comme avec un `ndarray`

**Exemple :**
```
import numpy as np
import pandas as pd

values = np.random.randn(5)
labels = ["Label_A", "Label_B", "Label_C", "Label_D", "Label_E"]
my_serie = pd.Series(values, index=labels)
# Get elements 3 and 4
my_subserie = my_serie[2:-1]
```

#### Avec une liste d'index

**Exemple :**
```
import numpy as np
import pandas as pd

values = np.random.randn(5)
labels = ["Label_A", "Label_B", "Label_C", "Label_D", "Label_E"]
my_serie = pd.Series(values, index=labels)

# Get elements 0 and 4
my_subserie = my_serie[["Label_A", "Label_E"]]
```

### ==================== EXERCICE ====================
1. Exécuter les exemples donnés précédemment.
2. Expérimenter en accédant à différents éléments de la `Serie`.
3. Que se passe-t-il quand on accède à un élément avec un label inexistant ?
4. Que se passe-t-il quand on accède à un label existant plusieurs fois ?

### ==================== SOLUTION ===================

### ==============================================

### Faire des requêtes sur une `Serie`

**Exemple :**
```
import numpy as np
import pandas as pd

values = np.random.randn(5)
labels = ["Label_A", "Label_B", "Label_C", "Label_D", "Label_E"]
my_serie = pd.Series(values, index=labels)
# Get elements with values < -0.5 or values > 0.5
my_subserie = my_serie[(my_serie<-0.5) | (my_serie>0.5)]
```

**ATTENTION :** les opérateurs logiques dans une requêtes sont différents des opérateurs logiques classiques en Python. On utilise `|` pour le `or`, `&` pour le `and` et `!` pour le `not`. 

**ATTENTION :** les parenthèses sont importantes.

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.
3. Tenter d'utiliser l'opérateur `or`. Que se passe-t-il ?
4. Enlever les parenthèses. Que se passe-t-il ?

### ==================== SOLUTION ===================

### ==============================================

### Opérations sur des `Serie`s
#### Similaires aux opérations sur des `ndarray`s

**Exemple :**
```
import numpy as np
import pandas as pd

values1 = np.random.randn(5)
labels1 = ["Label_A", "Label_B", "Label_C", "Label_D", "Label_E"]
my_serie1 = pd.Series(values1, index=labels1)

values2 = np.random.randn(5)
labels2 = ["Label_A", "Label_B", "Label_C", "Label_D", "Label_E"]
my_serie2 = pd.Series(values2, index=labels2)

sum_series = my_serie1 + my_serie2
```

**ATTENTION :** les valeurs correspondantes aux labels manquants sont considérées comme des `NaN`.

#### Argument `fill_value`
Pour initialiser les valeurs manquantes.

**Exemple :**
```
import numpy as np
import pandas as pd

values1 = np.random.randn(5)
labels1 = ["Label_A", "Label_B", "Label_C", "Label_D", "Label_E"]
my_serie1 = pd.Series(values1, index=labels1)

values2 = np.random.randn(5)
labels2 = ["Label_A", "Label_B", "Label_C", "Label_D", "Label_Z"]
my_serie2 = pd.Series(values2, index=labels2)

sum_series = my_serie1.add(my_serie2, fill_value = 10)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.
3. Créer des `Serie`s avec des labels différents. Exécuter une opération sur ces 2 `Serie`s. Que se passe-t-il ?
4. Utiliser `fill_value`.

### ==================== SOLUTION ===================

### ==============================================

## Les `DataFrame`s
- Extension des `Serie`s à 2 dimensions : données en colonne, 1 colonne par variable.
- Similaire à une table Excel.
- Accès par colonne ou par ligne.

### Création à partir de dictionnaire

**Exemple :**
```
import pandas as pd

courses_values = {
    "Name": ["C", "CPP", "Python", "Algorithms"], # column 1
    "Teaching_periods": [4, 4, 4, 2], # column 2
    "Practical_test": [False, False, True, False] # column 3
}

my_data_frame = pd.DataFrame(courses_values)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.

### ==================== SOLUTION ===================

### ==============================================

### Création à partir d'une liste de listes

**Exemple :**
```
import pandas as pd

courses_values = [
    ["C", 4, False], # line 1
    ["CPP", 4, False], # line 2
    ["Python", 4, True], # line 3
    ["Algorithms", 2, False], # line 4
]

ids = [0, 1, 2, 3]
cols = ["Name", "Teaching_periods", "Practical_test"]

my_data_frame = pd.DataFrame(courses_values, index=ids, columns=cols)
print(my_data_frame)
my_data_frame.columns = ["Name", "Teaching_periods", "Practical_test"]
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.
3. Que se passe-t-il si on omet le paramètre `index` ?
3. Que se passe-t-il pour les noms de colonnes ?

### ==================== SOLUTION ===================

### ==============================================

### Renommer les colonnes : l'attribut `columns` et la fonction `rename()`
#### `columns` : on doit spécifier le nom de toutes les colonnes
#### `rename()` : on peut renommer qu'une seule colonne si besoin

**Exemple :**
```
import pandas as pd

courses_values = [
    ["C", 4, False], # line 1
    ["CPP", 4, False], # line 2
    ["Python", 4, True], # line 3
    ["Algorithms", 2, False], # line 4
]


my_data_frame = pd.DataFrame(courses_values)

cols = ["OUPS", "Teaching_periods", "OUPS2"]
my_data_frame.columns = cols

my_data_frame.rename(columns={"OUPS":"Name", "OUPS2":"Practical_test"}, inplace=True)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.
3. Que se passe-t-il si on omet le paramètre `inplace` ?

### ==================== SOLUTION ===================

### ==============================================

### Renommer les lignes avec les valeurs d'une colonne : la fonction `set_index`

**Exemple :**
```
import pandas as pd

courses_values = {
    "Name": ["C", "CPP", "Python", "Algorithms"], # column 1
    "Teaching_periods": [4, 4, 4, 2], # column 2
    "Practical_test": [False, False, False, False] # column 3
}

my_data_frame = pd.DataFrame(courses_values)

# Insert a column at the end
my_data_frame["Difficulty"] = [2, 3, 2, 3]

my_data_frame = my_data_frame.set_index("Name")
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Reprendre et adapter les exemples de modifications vus précédemment.
3. Que se passe-t-il quand on modifie la colonne "Name" ?

### ==================== SOLUTION ===================

### ==============================================

### Extraire une colonne
#### On obtient un objet de type `Serie`
**Exemple :**
```
import pandas as pd

courses_values = {
    "Name": ["C", "CPP", "Python", "Algorithms"], # column 1
    "Teaching_periods": [4, 4, 4, 2], # column 2
    "Practical_test": [False, False, True, False] # column 3
}

my_data_frame = pd.DataFrame(courses_values)
courses_names = my_data_frame["Name"]
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.
3. Quel est le type de la colonne extraite ?

### ==================== SOLUTION ===================

### ==============================================

### Ajouter une colonne
#### À la fin avec `[<new_label>]` ou à une colonne précise avec la méthode `insert()`

**Exemple :**
```
import pandas as pd

courses_values = {
    "Name": ["C", "CPP", "Python", "Algorithms"], # column 1
    "Teaching_periods": [4, 4, 4, 2], # column 2
    "Practical_test": [False, False, True, False] # column 3
}

my_data_frame = pd.DataFrame(courses_values)

# At the end
my_data_frame["Difficulty"] = [2, 3, 2, 3]

# At column 0
my_data_frame.insert(0, "Module", [1242, 1242, 1242, 1242])

```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.
3. Que se passe-t-il si on tente de rajouter une colonne qui ne contient pas le bon nombre de valeurs ?

### ==================== SOLUTION ===================

### ==============================================

### Extraire une ligne : la méthode `loc[line]`

**ATTENTION :** il faut utiliser des `[]` et non des `()`

**ATTENTION :** `loc[]` interroge par label (et non par position). Donc si la valeur n'est pas un label de ligne, il y a une erreur.

**ATTENTION :** pour interroger par position, il faut utiliser `iloc[]`.

**Exemple :**
```
import pandas as pd

courses_values = {
    "Name": ["C", "CPP", "Python", "Algorithms"], # column 1
    "Teaching_periods": [4, 4, 4, 2], # column 2
    "Practical_test": [False, False, True, False] # column 3
}

my_data_frame = pd.DataFrame(courses_values)

# At the end
my_data_frame["Difficulty"] = [2, 3, 2, 3]

# At column 0
my_data_frame.insert(0, "Module", [1242, 1242, 1242, 1242])

# Retrive first element
first_element = my_data_frame.loc[0]

# Retrieve elements from line with label 1, until the end
from_label_2 = my_data_frame.loc[1:]

# Retrieve last 2 elements
last_2_elements = my_data_frame.iloc[-2:]
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.
3. Que se passe-t-il si on tente d'accéder à un index qui n'existe pas ?
4. Bien noter la différence entre `loc[]` et `iloc[]`.
5. Que se passe-t-il si on accède au `DataFrame` comme pour une liste classique ?
6. Extraire plusieurs lignes et colonnes à la fois.

### ==================== SOLUTION ===================

### ==============================================

### Extraire un élément : la méthode `loc[line, column]`

**ATTENTION :** il faut utiliser des `[]` et non des `()`

**ATTENTION :** `loc[]` interroge par label (et non par position). Donc si la valeur n'est pas un label de ligne et de colonne, il y a une erreur.

**ATTENTION :** pour interroger par position, il faut utiliser `iloc[line, column]`.

**Exemple :**
```
import pandas as pd

courses_values = {
    "Name": ["C", "CPP", "Python", "Algorithms"], # column 1
    "Teaching_periods": [4, 4, 4, 2], # column 2
    "Practical_test": [False, False, True, False] # column 3
}

my_data_frame = pd.DataFrame(courses_values)

# At the end
my_data_frame["Difficulty"] = [2, 3, 2, 3]

# At column 0
my_data_frame.insert(0, "Module", [1242, 1242, 1242, 1242])

# Retrive first value
first_value = my_data_frame.loc[0,"Name"]

# Retrieve elements from line with label 1, until the end
from_label_2 = my_data_frame.loc[1:, "Name"]

# Retrieve last 2 elements, second label
last_2_elements = my_data_frame.iloc[-2:, 1]
```

### Effacer une colonne : `del`

**Exemple :**
```
import pandas as pd

courses_values = {
    "Name": ["C", "CPP", "Python", "Algorithms"], # column 1
    "Teaching_periods": [4, 4, 4, 2], # column 2
    "Practical_test": [False, False, True, False] # column 3
}

my_data_frame = pd.DataFrame(courses_values)

# At the end
my_data_frame["Difficuly"] = [2, 3, 2, 3]

# At column 0
my_data_frame.insert(0, "Module", [1242, 1242, 1242, 1242])

# Wrong typing
my_data_frame.insert(1, "Oups", [9, 9, 9, 9])

# Remove wrong column
del my_data_frame["Oups"]
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.

### ==================== SOLUTION ===================

### ==============================================

### Modifer les valeurs d'un `DataFrame`

**Exemple :**
```
import pandas as pd

courses_values = {
    "Name": ["C", "CPP", "Python", "Algorithms"], # column 1
    "Teaching_periods": [4, 4, 4, 2], # column 2
    "Practical_test": [False, False, False, False] # column 3
}

my_data_frame = pd.DataFrame(courses_values)

# Insert a column at the end
my_data_frame["Difficulty"] = [2, 3, 2, 3]

# Modify an element
my_data_frame.loc[2,"Difficulty"] = 5

# Modify a column
my_data_frame["Difficulty"] = 5

# Modify a line
my_data_frame.loc[2] = ["Python", 4, True, 3]

# Modify several columns at once
my_data_frame[["Name", "Teaching_periods"]] = [["C", 4], ["CPP", 4], ["Python", 4], ["Algorithms", 2]]

# Modify several lines at once
my_data_frame[0:2] = [["CPP", 4, False, 5], ["C", 4, False, 5]]
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple précédent.
2. Expérimenter.

### ==================== SOLUTION ===================

### ==============================================