# Chapitre 8 : premières statistiques
**NOTE :** il est possible de récupérer des données directement depuis le Web avec le package *Beautiful Soup*. Nous verrons ceci par la suite (peut-être).

**NOTE :** on ne traite pas les problématiques liées au `Big Data` dans ce chapitre.

**NOTE :** les données sources utilisées dans ce chapitre se trouvent ici : [https://github.com/rashida048/Datasets/blob/master/movie_dataset.csv](https://github.com/rashida048/Datasets/blob/master/movie_dataset.csv)

**NOTE :** Pandas offre de nombreuses possibilités que nous ne verrons pas dans ce cours : les jointures, les concaténations, la discrétisation, le traitement des données temporelles, les tris, etc.

## Les principales étapes (en général)
1. Acquisition / importation des données.
2. Chargement des données.
3. Transformations (pour les statistiques).
4. Les statistiques.
5. La visualisation des résultats.

## Importer les données : [Les `readers` Pandas](https://pandas.pydata.org/docs/user_guide/io.html)
- Beaucoup de formats supportés : CSV, Excel, SQL, HDF5, Json, etc.
- Nous allons nous concentrer sur CSV.

### Lire un CSV : la fonction [`read_csv()`](https://pandas.pydata.org/docs/user_guide/io.html#io-read-csv-table)
- Il existe de nombreux paramètres.
- Attention au séparateur de colonnes `,` ou `;` qui peut poser des soucis.
- Attention au séparateur de décimal (`,` ou `.`).
- Attention à la taille des données : cf `Big Data`.

**Exemple :**
```python
import pandas as pd

df = pd.read_csv("DATASETS/movie_dataset.csv")
```


### ==================== EXERCICE ====================
1. Récupérer les données associées à ce chapitre.
2. Exécuter l'exemple donné précédemment.
3. Afficher le nombre de lignes et de colonnes du `DataFrame` ainsi créé.

### ==================== SOLUTION ===================

### ==============================================

### Vérifier (rapidement) les données : les fonctions [`info()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html) et [`head()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html)

**Exemple :**
```python
import pandas as pd

df = pd.read_csv("DATASETS/movie_dataset.csv")
df.info()
df.head()
```


### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Explorer les résultats obtenus.
3. Combien de colonnes sont contenues dans le `DataFrame` ? Combien sont affichées ?

### ==================== SOLUTION ===================

### ==============================================

### Les options Pandas : la fonction [`set_option`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.set_option.html)

**Exemple :**
```python
import pandas as pd

pd.set_option('display.max_columns', 30)

df = pd.read_csv("DATASETS/movie_dataset.csv")
df.info()
df.head()
```


### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Explorer les données.

### ==================== SOLUTION ===================

### ==============================================

### Détecter les données manquantes : les fonctions [`isnull()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isnull.html) et [`isna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html)

**NOTE :** ces 2 fonctions font **strictement** la même chose. Elles existent dans Pandas pour des raisons historiques.

**NOTE :** on utilise la fonction [`sum()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sum.html) pour compter le nombre de valeurs manquantes pour chaque colonne.

**Exemple :**
```python
import pandas as pd

df = pd.read_csv("DATASETS/movie_dataset.csv")
df.isnull().sum()
```


### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Regarder les résultats et estimer quelles colonnes devraient être ajustées (ça dépend évidemment des statistiques que nous souhaitons calculer).
3. Que faire dans ces cas?

### ==================== SOLUTION ===================

### ==============================================

### Détecter les données dupliquées : les fonctions [`duplicated()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html) et [`drop_duplicates()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html)

**NOTE :** on utilise la fonction [`sum()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sum.html) pour compter le nombre de valeurs dupliquées pour chaque colonne.

**NOTE :** dans le dataset utilisé, il n'y a pas de valeurs dupliquées. Le cas échéant, il faudrait les enlever avec la fonction [`drop_duplicates()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html).

**Exemple :**
```python
import pandas as pd

df = pd.read_csv("DATASETS/movie_dataset.csv")
df.duplicated().sum()
```


### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.

### ==================== SOLUTION ===================

### ==============================================

### Gérer les données manquantes
#### Problème qui est :
- Courant.
- Complexe.

#### Les données peuvent être "manquantes" :
- de manière aléatoire.
- de manière déterministe : par exemple quand la valeur d'une colonne rend l'autre colonne non-pertinente.

#### 2 techniques pour gérer les données manquantes :
- Les effacer.
- Les remplir par une valeur particulière.

#### Retirer les colonnes inutiles : la fonction [`drop()`](`https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html`)

#### Effacer les lignes/colonnes avec des données manquantes : la fonction [`dropna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)

**Exemple :**
```python
import pandas as pd

df = pd.read_csv("DATASETS/movie_dataset.csv")

# Remove columns with too many missing data
df.drop(["homepage", "keywords", "tagline", "cast", "director"], axis=1, inplace=True)

# Remove rows with missing data
df.dropna(inplace=True)
```


### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Bien noter le nombre de colonnes et de lignes à chaque étape.

### ==================== SOLUTION ===================

### ==============================================

#### Compléter les données manquantes par des valeurs particulières : la fonction [`fillna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html)

**NOTE :** on peut utiliser la moyenne, la médiane ou des valeurs prédites par du *machine learning* par exemple.

**NOTE :** cette partie est laissée en exercice si besoin pour les projets.

### Statistiques de base : maximum et minimum
#### Maximum : la méthode [`max()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.max.html)
#### Minimum : la méthode [`min()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.min.html)

**Exemple :**
```python
import pandas as pd

df = pd.read_csv("DATASETS/movie_dataset.csv")

# Remove columns with too many missing data
df.drop(["homepage", "keywords", "tagline", "cast", "director"], axis=1, inplace=True)

nb_missing_data = df.isna().sum()

# Remove rows with missing data
df.dropna(inplace=True)

# Minimum budget (in millions)
min_budget = df["budget"].min()/1000000

# Maximum budget (in millions)
max_budget = df["budget"].max()/1000000
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Que se passe-t-il pour la valeur minimum ?

### ==================== SOLUTION ===================

### ==============================================

### Effacer les lignes en fonction des valeurs d'une colonne

**Exemple :**
```python
import pandas as pd

df = pd.read_csv("DATASETS/movie_dataset.csv")

# Remove columns with too many missing data
df.drop(["homepage", "keywords", "tagline", "cast", "director"], axis=1, inplace=True)

# Remove rows with missing data
df.dropna(inplace=True)

# Movies with budget set to 0
movies_with_0_budget = df[df['budget'] == 0]

# Remove them from initial dataset
df.drop(movies_with_0_budget.index, inplace=True)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Vérifier les dimensions du dataset avant et après le filtrage.
3. Vérifier que le budget minimum n'est plus 0.

### ==================== SOLUTION ===================

### ==============================================

### Statistiques de base (suite): moyenne, médiane et écart-type
#### Moyenne : la méthode [`mean()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html)
#### Médiane : la méthode [`median()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.median.html)
#### Écart-type : la méthode [`std()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.std.html)

**Exemple :**
```python
import pandas as pd

df = pd.read_csv("DATASETS/movie_dataset.csv")

# Remove columns with too many missing data
df.drop(["homepage", "keywords", "tagline", "cast", "director"], axis=1, inplace=True)

# Remove rows with missing data
df.dropna(inplace=True)

# Movies with budget set to 0
movies_with_0_budget = df[df['budget'] == 0]

# Remove them from initial dataset
df.drop(movies_with_0_budget.index, inplace=True)

# Statistics in millions
min_budget = df["budget"].min()/1000000
max_budget = df["budget"].max()/1000000
mean_budget = df["budget"].mean()/1000000
median_budget = df["budget"].median()/1000000
std_budget = df["budget"].std()/1000000
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Expérimenter.

### ==================== SOLUTION ===================

### ==============================================

### Statistiques générale : la méthode [`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html)

**Exemple :**
```python
import pandas as pd

df = pd.read_csv("DATASETS/movie_dataset.csv")

# Remove columns with too many missing data
df.drop(["homepage", "keywords", "tagline", "cast", "director"], axis=1, inplace=True)

# Remove rows with missing data
df.dropna(inplace=True)

# Movies with budget set to 0
movies_with_0_budget = df[df['budget'] == 0]

# Remove them from initial dataset
df.drop(movies_with_0_budget.index, inplace=True)

# Statistics in millions
df.describe()
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Expérimenter.

### ==================== SOLUTION ===================

### ==============================================