<a href="https://colab.research.google.com/github/gcorrigan/Science-des-donnees/blob/main/Science_des_donn%C3%A9es_Partie_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# La science des données- Partie 2
### Introduction au génie informatique, 11e année, cours préuniversitaire (ICS3U)

# Description générale du cours
> Ce cours initie l’élève aux concepts fondamentaux de l’informatique et aux techniques de développement de logiciels. Dans le cadre de divers projets illustrant le cycle de vie d’un logiciel, l’élève développe des habiletés et une compréhension solide d’un langage de programmation en se familiarisant avec les outils et les techniques de développement de logiciels, notamment la résolution de problèmes, la conception d’algorithmes et l’assurance-qualité.

[Études informatiques (2008)](https://www.edu.gov.on.ca/fre/curriculum/secondary/computer10to12_2008fr.pdf#page=49)


### La science des données en 3 parties

Partie 1 : Nous examinons les structures de données de base de Python ainsi que quelques visualisations simples.

**Partie 2 : Nous explorons et apprenons à utiliser plus en profondeur les outils de science des données dédiés de Python.**

Partie 3 : Nous appliquons nos connaissances à un projet comportant plusieurs étapes et visualisations.

#Programme

*   Apprendre à utiliser les outils de science des données dédiés de Python.
*   Représenter les données en choisissant les bonnes structures et étiquettes pour un ensemble de données.
*   Analyser les données en transformant, sélectionnant et calculant des statistiques sur les données.



## Les objectifs d’apprentissage

*   Démontrer la capacité d'utiliser différents types de données, y compris des tableaux unidimensionnels, dans les programmes informatiques.

*   Démontrer la capacité d'utiliser des structures de contrôle et des algorithmes simples dans les programmes informatiques.


## Les critères de réussite
*   Je peux choisir et implémenter une structure pour représenter un ensemble de données en code.
*   Je peux manipuler une structure de données en code pour sélectionner, organiser et analyser les données.

## Introduction

La **science des données** peut sembler être un sujet complexe, mais en réalité, cela se résume à ceci :

> Il y a une tonne de données là-bas ! Comment trouver l'information que je cherche ? Comment la comprendre ? Et comment la rendre pertinente ?

En d'autres termes, la science des données est la science de la manipulation des données afin de *répondre à une question spécifique*.

Python nous permet de le faire en nous fournissant des outils pour représenter les données, les manipuler ou les sélectionner, les analyser, et créer des graphiques, des cartes, des tableaux et d'autres visualisations qui les affichent. Dans ce notebook, nous apprenons à utiliser ces outils. (Dans le prochain notebook, nous examinerons de plus près la collecte et le nettoyage de données provenant de différentes sources réelles afin que nous puissions mettre nos compétences en pratique pour un objectif spécifique.)



## 1. Représentation des données

Comme nous l'avons vu dans la partie 1, la plus grande puissance de Python vient souvent de l'utilisation de bibliothèques externes. Deux bibliothèques de base pour la science des données sont `numpy` (*Numerical Python*) et `pandas` (*Python for Data Analysis*).

Nous allons nous concentrer sur `pandas` pour cette leçon afin de simplifier les choses. (Cependant, notez que `pandas` est en fait construit sur `numpy`, et utilise les types de données `numpy` tels qu'un `ndarray` au lieu de `list` intégrée de Python.)

Exécutez ce bloc de code pour vous assurer que vous avez pandas installé :

In [None]:
# Installez numpy et pandas dans l'environnement actuel. Pandas installera automatiquement numpy car c'est une dépendance.

%pip install pandas

Ensuite, exécutez ce bloc pour l'importer. N'oubliez pas que dans les notebooks Jupyter, toutes les cellules partagent un pool de mémoire, donc si nous l'importons au début, elles seront disponibles pour tous les blocs futurs.

In [3]:
# Import pandas
import pandas as pd

### Une série (*Series*)

Il y a deux structures de données de base dans `pandas`: `Series` et `DataFrame`.

Une `Series` est avant tout un tableau à une dimension, comme une  `list`. 

Exécutez ce bloc de code pour voir un exemple.

In [None]:
# Une série (Series) représentant des données aléatoires.
s = pd.Series([200, 210, 215, 230, 291])
print(s)

#### Qu'est-ce qui rend une `Series` unique?

Cette sortie est un peu surprenante pour un tableau à une dimension! Nous remarquons qu'elle est présentée comme un tableau, avec une colonne pour l'index et une autre pour les données.

Cela nous donne un indice sur la première qualité unique d'une `Series`: vous pouvez utiliser n'importe quel type d'index, pas seulement un décompte numérique à partir de `0`.

Essayons de créer un index personnalisé. Exécutez ce bloc de code. Pouvez-vous deviner ce que représentent ces données?

In [None]:
# Utilisation de chaînes de caractères pour l'index.
s = pd.Series([200, 210, 215, 230, 291],
              index=['Skor', 'Heath', 'Snickers', 'Mars', 'Twix'])
print(s)

Dans le code ci-dessus, chaque  rangée du tableau a été nommée. Vous pourriez penser maintenant que c'est comme un dictionnaire, avec des paires clé-valeur, et c'est une observation valide.

**Vérification de compréhension :** Remarquez que nous avons le même nombre de valeurs et d'étiquettes. Et si ces deux listes avaient des longueurs différentes? Faites une supposition, puis essayez-le.

De plus, il y a quelque chose d'étrange à la fin de notre sortie de `series`: un `dtype int64`! Ce type de données est répertorié car une `series` ne peut contenir qu'un seul type de données pour tous ses éléments. C'est l'un des principes clés d'avoir des ensembles de données propres: une restriction comme celle-ci nous aide à éviter de comparer des pommes et des oranges, ou plutôt 5 nombres et des oranges.

Dans ce cas, `pandas` a deviné le type de données que nous voulions, un entier de 64 bits. C'est une supposition très généreuse car la valeur maximale d'un `int64` est de 2^64, soit environ 9 quintillions. Nous pouvons optimiser notre `series` en spécifiant le type de données si nous connaissons les limites de notre ensemble de données. Utilisons `int16`, ce qui nous donne une surcharge de 2^16 ou 65 536.

In [None]:
# Spécifier un type de données
s = pd.Series([200, 210, 215, 230, 291],
              index=['Skor', 'Heath', 'Snickers', 'Mars', 'Twix'],
              dtype='int16')
print(s)

**Vérification de compréhension :**Que se passerait-il si vous utilisiez un type de données encore plus petit, comme `int8`? Faites une supposition, puis essayez-le.

Voici une [référence complète](https://pandas.pydata.org/docs/reference/api/pandas.Series.html) de `pandas.Series`. Nous allons examiner quelques tâches courantes.



In [None]:
# Obtenez toutes les valeurs
s.values

In [None]:
# Obtenez un élément spécifique
s.loc['Skor']

In [None]:
# Obtenez la longueur de la série
s.size

In [None]:
# Obtenez la valeur la plus élevée de la série
s.max()

In [None]:
# Obtenez la valeur la plus basse de la série
s.min()

# Les exemples ci-dessous montrent des fonctionnalités de `Pandas` qui sont supérieures à une simple liste Python. Nous avons vu dans les exemples ci-dessus comment trouver les valeurs maximales et minimales de la série ; et si nous voulons savoir quelles barres de chocolat correspondent aux valeurs maximales et minimales ?

In [None]:
# Obtenez le nom de la barre de chocolat avec la valeur la plus élevée
s.idxmax()

In [None]:
# Obtenez le nom de la barre de chocolat avec la valeur la plus basse
s.idxmin()

Nous pouvons également trier une `Series` par [ses valeurs](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html) ou par ses [indices](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_index.html). (Notez que contrairement à une liste, cela n'est pas fait en place à moins que vous ne spécifiiez l'argument mot-clé `inplace=True`.)

In [None]:
# Trier une série par valeur
print(s.sort_values())

In [None]:
# Trier une série par index
print(s.sort_index())

Nous pouvons également effectuer des opérations très utiles sur l'ensemble de la `Series`. La `list` de Python peut-elle faire cela?

In [None]:
# Ajouter à tous les éléments de la série
s = s + 100
print(s)

In [None]:
# Multiplier tous les éléments de la série
s = s * 5
print(s)

En fait, nous pouvons exécuter n'importe quelle fonction sur tous les éléments d'une `Series`. Obtenons la racine carrée de chaque valeur :

In [None]:
# Trouver les racines carrées
from math import sqrt
s = s.map(sqrt)
print(s)

Ces décimales ne sont pas très jolies. Arrondissons-les à 2 décimales :

In [None]:
# Arrondir tous les éléments de la série
s = s.round(2)
print(s)

**Vérification de compréhension :** Explorez quelques opérations supplémentaires sur cette `Series` : c'est-à-dire la soustraction, la division, l'exponentiation, la négation.

Exécutez ce bloc pour réinitialiser votre `Series` :

In [None]:
s = pd.Series([200, 210, 215, 230, 291],
              index=['Skor', 'Heath', 'Snickers', 'Mars', 'Twix'])

Nous pouvons faire beaucoup plus avec une `Series`, notamment :

* Filtrage des données
* Corréler les données
* Analyser des données (par exemple des moyennes)

Nous les conserverons pour la section suivante.

### Un tableau de données Pandas (*DataFrame*)

Voici l'autre structure majeure de `pandas`. Une fois que nous comprenons une `Series`, un `DataFrame` n'est pas trop compliqué : c'est simplement un ensemble de `Series` collées ensemble dans un tableau. En d'autres termes, c'est bidimensionnel.

Voici une [référence complète](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) de `pandas.DataFrame`. Nous allons examiner quelques tâches courantes.



---


Commençons par simplement passer notre `Series` existante dans un `DataFrame`. Lorsque nous le ferons, nous lui donnerons un nom, donc je vais maintenant révéler ce que ces valeurs représentent.

In [None]:
# Création d'un DataFrame à partir d'une Série.
s = pd.Series([200, 210, 215, 230, 291],
              index=['Skor', 'Heath', 'Snickers', 'Mars', 'Twix'],
              name='Calories par paquet')

df = pd.DataFrame(s)
print(df)

Nous pouvons maintenant ajouter une autre `Series` et agrandir notre tableau.

Notez que nous n'avons pas besoin de nommer notre nouvelle `Series` car le `DataFrame` a besoin d'un nom de colonne de toute façon. Nous devons nous assurer que les indices correspondent.

In [None]:
# Ajouter une autre série à un DataFrame
s2 = pd.Series([39, 39, 44, 51, 58],
               index=['Skor', 'Heath', 'Snickers', 'Mars', 'Twix'])

df['Grammes par paquet'] = s2
print(df)

Voilà! Maintenant, cela ressemble davantage à un tableau.

**Vérification de compréhension :** Pouvez-vous ajouter une colonne avec les valeurs du niveau de délice pour chaque barre sur une échelle de 1 à 10 ?  (Vous pouvez inventer les valeurs, mais Mars est définitivement plus délicieuse que Snickers.)

In [None]:
# Ajouter une troisième colonne 'Délicieuseté'
s3 = pd.Series([5, 5, 6, 8, 3],
               index=['Skor', 'Heath', 'Snickers', 'Mars', 'Twix'])

df['Délicieuseté'] = s3
print(df)

#### Quelques autres façons de créer des `DataFrame`

Dans l'exemple ci-dessus, nous avons créé un `DataFrame` à partir d'une `Series`, mais nous pouvons également en créer un à partir de rien comme celui-ci.

In [None]:
# Faire un DataFrame sans d'abord faire une série

df = pd.DataFrame({
    'Calories par paquet'  : [200, 210, 215, 230, 291],
    'Grammes par paquet'     : [39, 39, 44, 51, 58],
    'Délicieuseté'         : [5, 4, 8, 6, 2]
}, index=['Skor', 'Heath', 'Snickers', 'Mars', 'Twix'])
print(df)

Une autre façon – et tout aussi bonne – de représenter ces données serait de prendre le nom de la barre de chocolat comme colonne supplémentaire.

Si nous le faisons, les indices pourraient être `0, 1, 2, 3, 4`, ou nous pourrions même utiliser le nom de la barre de chocolat aux deux endroits. C'est une question de préférence.

In [None]:
# Index numérique basé sur 0 par défaut, données sous forme de colonne

df = pd.DataFrame({
    'Chocolate bar': ['Skor', 'Heath', 'Snickers', 'Mars', 'Twix'],
    'Calories per package': [200, 210, 215, 230, 291],
    'Grams per package': [39, 39, 44, 51, 58],
    'Deliciousness': [5, 4, 8, 6, 2]
})
print(df)

In [None]:
# Mêmes données que l'index et la colonne

bars = ['Skor', 'Heath', 'Snickers', 'Mars', 'Twix']
df = pd.DataFrame({
    'Chocolate bar': bars,
    'Calories per package': [200, 210, 215, 230, 291],
    'Grams per package': [39, 39, 44, 51, 58],
    'Deliciousness': [5, 4, 8, 6, 2]
}, index=bars)
print(df)

## 2. Analyse de données

Essayons quelques choses et voyons ce que nous pouvons en tirer.

Tout d'abord, afin de faire des choses plus intéressantes, nous voudrons un ensemble de données plus important. Nous utiliserons la fonction `read_csv` de `pandas` pour ouvrir un fichier de valeurs séparées par des virgules (.csv) provenant de GitHub qui contient des données sur la météo telle que mesurée en janvier 2023 à l'aéroport Pearson de Toronto ([source](https://climat.meteo.gc.ca/climate_data/daily_data_f.html?StationID=51459));

In [4]:
# Lecture à partir d'un fichier CSV distant
import pandas as pd
url = "https://raw.githubusercontent.com/coding-integration/Science-des-donnees/main/2023-01_51459fr.csv"
df = pd.read_csv(url)

*P.S. You can also use your own files for data. If you're using notebooks in an IDE like VSCode, you can just use local files. If you're using Google Colab or Calysto, you can upload files to the instance. Then you would read them using standard I/O functions like this:*

In [None]:
# Lecture à partir d'un fichier CSV local
import pandas as pd
path = "2023-01_51459fr"
df = pd.read_csv(path)

### Visualisation



Avant d'utiliser `print(df)`, nous devons réaliser que cela pourrait être un long fichier. Si nous voulons voir quel type de données il contient, nous n'avons pas besoin de tout regarder - les deux premières lignes devraient suffire.

Pour ce faire, nous utilisons `DataFrame.head()` :

In [None]:
# Afficher la tête ou les premières lignes d'un DataFrame
print(df.head())

Nous pouvons voir que ce `DataFrame` est indexé numériquement et qu'il a 5 colonnes: une date, une température maximale et minimale en degrés Celsius, de la pluie en millimètres et de la neige en centimètres.

Tout d'abord, définissons la date comme index. Ce ne sont pas vraiment des données météorologiques; c'est l'étiquette que chaque ligne de données devrait porter.

In [None]:
# Changement de la colonne 'date' en index
df = df.set_index('Date', drop=True)

In [None]:
print(df.head())

Supposons que nous voulons accéder à des données particulières. Vous vous souvenez peut-être de `loc` que nous avons vu plus tôt dans ce tutoriel. Nous pouvons également l'utiliser ici. Je ne me souviens pas si il pleuvait le 8 janvier. Découvrons-le:

In [None]:
# Extraction d'une ligne du DataFrame
print(df.loc['2023-01-08'])

Il ne pleuvait pas. Mais il faisait très froid!

**Vérification de compréhension :** Jetez un coup d'œil de plus près à la dernière sortie. Quel type pensez-vous que cela a?

<details><summary>Cliquez pour révéler</summary>

C'est une `Series` ! Elle a un `dtype` et un `name`, qui est l'en-tête de colonne. Cela peut sembler étrange si vous vous souvenez qu'auparavant, une Series était une colonne d'un `DataFrame`. En d'autres termes, les données ont dû être transposées ici. En effet, les en-têtes de colonnes du `DataFrame` deviennent les indices de ligne !

</details>

Que faire si je veux seulement obtenir la température minimale à une certaine date sans toutes les autres données? Je peux obtenir une cellule de données spécifique en utilisant une paire d'indices dans la fonction `loc`, tout comme les coordonnées d'un point.

In [None]:
# Extraction d'une seule cellule du DataFrame
print(df.loc['2023-01-08', 'Temp. min (C)'])

Nous pouvons obtenir une seule *colonne* en indexant directement au lieu d'utiliser `loc`:

In [None]:
# Extraction d'une colonne de la table
print(df['Temp. min (C)'])

Remarquez que cela renvoie également une `Series` avec les indices de ligne intacts.

Nous pouvons trier les `DataFrame` tout comme nous pouvons trier les `Series` selon les [valeurs](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) ou les [indices](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html), avec l'étape supplémentaire de spécifier la colonne par laquelle trier.

In [None]:
# Tri d'un DataFrame par colonne
print(df.sort_values(by='Temp. min (C)'))

In [None]:
# Tri d'un DataFrame par indices
print(df.sort_index())

### Modification

Nous ajouterons une colonne à notre `DataFrame`. Nous avons une température maximale et minimale; ajoutons une colonne d'écart entre la température maximale et minimale.

C'est là que nous voyons la magie des `Series` que nous avons vue plus tôt! Aucune boucle n'est nécessaire; nous pouvons simplement effectuer une opération sur toute une colonne:

In [None]:
# Insérer une nouvelle colonne basée sur deux colonnes existantes
écart_series = df['Temp. max (C)'] - df['Temp. min (C)']
df['Temp. écart (C)'] = écart_series
print(df.head())

L'ordre des colonnes peut être réaffecté comme suit :

In [None]:
# Réaffecter l'ordre des colonnes
df = df[['Temp. max (C)', 'Temp. min (C)', 'Temp. écart (C)', 'Pluie (mm)', 'Neige (cm)']]
print(df.head())

Remarquez comment la neige est en cm mais la pluie est en mm ? Nous allons convertir la neige en mm afin de ne pas perdre de précision.

Le problème, c'est qu'il n'a pas du tout neigé les premiers jours de janvier. Toutes les valeurs sont `0.0`. Cela signifie que nous ne pourrons pas vérifier notre calcul. Mais nous pouvons également utiliser la queue `tail` au lieu de la tête `head` pour prévisualiser les derniers jours, qui ont eu de la neige.


In [None]:
print(df.tail())

In [None]:
# Mettre à jour les données d'une colonne
df['Neige (cm)'] = df['Neige (cm)'] * 10

In [None]:
print(df.tail())

Cela a bien fonctionné. Nous ferions mieux de mettre à jour l'étiquette de la colonne également.

In [None]:
# Renommer une colonne
df = df.rename(columns={'Neige (cm)': 'Neige (mm)'})
print(df.tail())

**Vérification de compréhension :** Ajouter une dernière colonne pour les précipitations totales ? Vous n'aurez pas besoin de réorganiser les colonnes car elles viendront déjà après la pluie et la neige.

In [None]:
# Ajouter une colonne pour les précipitations totales


<details>
<summary>Cliquez pour révéler</summary>

```
pt_series = df['Neige (mm)'] + df['Pluie (mm)']
df['Précipitations totales (mm)'] = pt_series
print(df.tail())
```
</details>

### Analyse

Commençons à analyser un peu ces données. Vous pourriez imprimer l'intégralité du DataFrame et l'inspecter une ligne à la fois, mais cela ne nous permet pas d'avoir une idée des tendances dans les données.

Nous essayons de faire une chose importante: **identifier des choses intéressantes que nous pourrions vouloir examiner plus en détail**. En d'autres termes, nous voulons poser des questions sur ces données.

Nous pouvons commencer à poser quelques questions basées sur l'intuition telles que:


*  Il neige beaucoup en janvier.

*  Janvier est très froid.




#### Est-ce qu'il neige plus qu'il ne pleut ?
Cela devrait être assez simple; nous allons totaliser les quantités de précipitations de pluie et de neige et voir laquelle est plus grande.

Pour ce faire, nous pouvons additionner chaque `Series` et les comparer.

In [None]:
# Somme d'une série
pluie_totale = df['Pluie (mm)'].sum()
neige_totale = df['Neige (mm)'].sum()

print(f'Pluie totale: {pluie_totale:>5} mm')
print(f'Neige totale: {neige_totale:>5} mm')

Il y a presque 9 fois plus de neige que de pluie ! Je me demande combien de *jours* de plus il neige que de pluie ?

Pour le savoir, nous pouvons filtrer le `DataFrame` en fonction du fait que la valeur de la colonne concernée est supérieure à `0`. Cela nous présente une fonctionnalité puissante de `Series` : appliquer une opération booléenne à chaque élément en une seule passe.


In [None]:
# Filtrer un DataFrame
jours_de_pluie = df[df['Pluie (mm)'] > 0]
jours_de_neige = df[df['Neige (mm)'] > 0]

# Dans DataFrames, la taille fait référence aux deux dimensions.
# Pour obtenir uniquement le nombre de lignes, obtenez la forme (shape) de la première colonne.
n_jours_de_pluie = jours_de_pluie.shape[0]
n_jours_de_neige = jours_de_neige.shape[0]

print(f'Jours de pluie: {n_jours_de_pluie:>2}')
print(f'Jours de neige: {n_jours_de_neige:>2}')

C'est surprenant ! Même s'il y avait beaucoup plus de neige que de pluie, il y avait presque autant de jours de pluie que de neige. Cela soulève des questions intéressantes que nous pourrions poursuivre pour une compréhension plus approfondie.

Avant de poser une question différente, vérifions un autre facteur. J'ai remarqué lorsque nous avons regardé la `tail` du `DataFrame` que certains jours avaient à la fois de la neige * et * de la pluie. Combien y en avait-il ?

Nous pouvons filtrer comme avant, et nous pouvons utiliser la logique pour combiner les conditions (la neige et la pluie sont au-dessus de `0`). Dans `pandas`, nous utiliserons des opérateurs légèrement différents lorsque nous essaierons de combiner plusieurs conditions sur des éléments individuels :

| Opération | Python normal | pandas |
| --- | --- | --- |
| les deux doivent être vrais | `and` | `&` |
| au moins un doit être vrai | `or` | `\|` |
| doit être faux | `not` | `~` |

In [None]:
# Filtrage pour les jours où il a plu et neigé
les_deux_jours = df[(df['Pluie (mm)'] > 0) & (df['Neige (mm)'] > 0)]
n_les_deux_jours = df.shape[0]

print(f'Les jours où il neigeait et pleuvait: {n_jours_de_pluie:>2}')

Est-ce que ça a du sens ? Ou avez-vous besoin de plus d'informations?

#### Quel est le froid de janvier ?

Un moyen simple de déterminer à quel point il faisait froid en janvier consiste à faire la moyenne des températures maximales et minimales sur l'ensemble du mois. Nous pouvons le faire en isolant les `Series` respectives et en utilisant `mean` (moyen).

In [None]:
# Température minimale moyenne
print(df['Temp. min (C)'].mean())

In [None]:
# Température maximale moyenne
print(df['Temp. max (C)'].mean())

Nous allons définir une fonction pour obtenir le moyen, la médiane, la plage et le mode à la fois pour les températures maximales et minimales.

Le mode est un peu plus complexe puisque (1) il faut d'abord arrondir, et (2) il peut y avoir plus d'un mode, donc il faut prévoir une liste.

In [10]:
# Fonction pour afficher les quatre moyennes
def afficher_moyennes(s: pd.Series, word: str) -> None:
    s_moyenne = s.mean()
    s_médiane = s.median()
    s_plage = s.max() - s.min()
    s_modes = s.round(0).mode().values

    print(f'{word} moyenne:\t{s_moyenne}')
    print(f'{word} médiane:\t{s_médiane}')
    print(f'{word} plage:\t{s_plage}')
    print(f'{word} mode(s):\t{s_modes}')

In [None]:
# Les moyennes des températures minimales
afficher_moyennes(df['Temp. min (C)'], 'Température minimale')

In [None]:
# Les moyennes des températures maximales
afficher_moyennes(df['Temp. max (C)'], 'Température maximale')

Chaque moyenne raconte une histoire légèrement différente. Nous remarquons que la moyenne et la médiane pour les températures minimales sont beaucoup plus proches du mode, ce qui suggère une cohérence : lors d'une journée typique en janvier, la température est descendue à environ -3 degrés Celsius. Mais la température maximale avait beaucoup de jours qui étaient 2-3 degrés plus chauds que la moyenne.

Nous remarquons également qu'il y a une grande plage pour les températures maximales et minimales. Cela suggère qu'il y avait au moins une journée très chaude ou très froide en janvier. Devrions-nous retirer les valeurs aberrantes pour que notre image de la moyenne soit plus précise ?

Nous examinerons deux façons de retirer les valeurs aberrantes. Mais d'abord, afin de rendre ces données plus intéressantes, nous allons passer à un ensemble de données avec l'ensemble complet des données de 2022 pour nous assurer que notre taille d'échantillon est suffisante.

Exécutez le prochain bloc de code pour charger un gros ensemble de données et effectuer les mises à jour que nous avons faites plus tôt.

In [31]:
# charger un gros ensemble de données et effectuer des mises à jour
import pandas as pd
url = "https://raw.githubusercontent.com/coding-integration/Science-des-donnees/main/2022_51459fr.csv"
df_gros = pd.read_csv(url)
df_gros = df_gros[['Temp. max (C)', 'Temp. min (C)', 'Pluie (mm)', 'Neige (cm)']]
df_gros['Neige (cm)'] = df_gros['Neige (cm)'] * 10
df_gros = df_gros.rename(columns={'Neige (cm)': 'Neige (mm)'})
df_gros['Précipitations totales (mm)'] = df_gros['Pluie (mm)'] + df_gros['Neige (mm)']

#### Les valeurs aberrantes

Tout d'abord, nous pourrions profiter de la méthode 'Series.quantile', qui prend un décimal représentant un pourcentage et renvoie la valeur de coupure pour ce quantile :

In [32]:
# Fonction pour supprimer les 10 % (quantiles) supérieurs et inférieurs
def supprimer_valeurs_aberrantes_quantile(s: pd.Series) -> pd.Series:
    # Déterminer les valeurs du 90ème et du 10ème quantiles
    q_superieur = s.quantile(0.9)
    q_inferieur = s.quantile(0.1)

    # Créer une autre série en filtrant les éléments qui sont entre les bornes supérieure et inférieure
    return s[(s < q_superieur) & (s > q_inferieur)]

Deuxièmement, nous pourrions profiter de la méthode `Series.std`, qui renvoie l'écart type (distance moyenne entre un point de données et la moyenne). Nous pourrions ensuite couper les points de données qui sont plus éloignés que `n` écarts types de la moyenne :

In [33]:
# Fonction pour supprimer les valeurs en dehors de 'n' écart-types
def supprimer_valeurs_aberrantes_std(s: pd.Series, max_ecarts: float) -> pd.Series:
    # Déterminer les bornes comme un multiple d'écart type   
    max_distance = s.std() * max_ecarts

    # Créer une autre série en filtrant les éléments qui sont entre les bornes supérieure et inférieure
    moyenne = s.mean()
    return s[(s < (moyenne + max_distance)) & (s > (moyenne - max_distance))]

Utilisons la méthode d'écart type et voyons comment cela modifie les moyennes :

In [None]:
# Les moyennes des températures minimales sans aberrantes
temp_min_sans_aberrantes = supprimer_valeurs_aberrantes_std(df_gros['Temp. min (C)'], 1)
afficher_moyennes(temp_min_sans_aberrantes, 'Température minimale')

In [None]:
# Les moyennes des températures maximales sans aberrantes
temp_max_sans_aberrantes = supprimer_valeurs_aberrantes_std(df_gros['Temp. max (C)'], 1)
afficher_moyennes(temp_max_sans_aberrantes, 'Température maximale')

Nous remarquons que la moyenne de la température minimale n'est plus aussi froide qu'avant (les modes ne comprennent plus 2 degrés positifs). Cela suggère que janvier a connu un nombre significatif de journées chaudes où la température oscillait entre 2 et 4 degrés Celsius environ. Bien sûr, ce n'est pas encore une conclusion; c'est simplement une direction à examiner de plus près.

#### Les Corrélations

Nous pourrions avoir d'autres idées intuitives à propos de janvier, par exemple, peut-être que vous croyez qu'il neige généralement si la température reste à 0 ou en dessous, mais qu'il pleut si la température reste au-dessus de 0. Voyons cela!

Une façon de le faire est de vérifier la **corrélation**, qui est une caractéristique de la `Series`. Une corrélation varie de `-1` (les deux événements se produisent à des moments opposés) à `1` (les deux événements coïncident toujours).

Tout d'abord, nous allons binariser l'une des colonnes: nous prendrons notre quantité de neige et la transformerons en Vrai/Faux (*True/False*) pour représenter s'il a neigé ou non. Cela nous donne une variable continue (température maximale quotidienne) et une variable binaire (neige). Cela signifie que nous faisons essentiellement une [régression logistique](https://fr.wikipedia.org/wiki/R%C3%A9gression_logistique), où la température sera traitée comme un prédicteur de s'il a neigé.

In [None]:
# Ajouter une nouvelle colonne
df_gros['Est-ce qu il a neigé ?'] = df_gros['Neige (mm)'] > 0
print(df_gros.head())

In [None]:
# Vérifier la corrélation
corr = df_gros['Est-ce qu il a neigé ?'].corr(df_gros['Temp. min (C)'])
print(corr)

Nous obtenons une corrélation négative décente. Cela signifie qu'il a tendance à neiger lorsque la température est plus basse, ce à quoi nous nous attendons.

Cependant, cette corrélation pourrait être plus forte. Considérez qu'il doit y avoir beaucoup de jours où il ne neige ni ne pleut, et nous ne voulons pas les compter: nous savons que le fait d'être froid ne cause pas précipitation! Alors commençons à nouveau, mais d'abord, nous allons filtrer pour les jours qui ont eu de la précipitation. Nous pouvons filtrer notre `DataFrame` en utilisant la colonne `Précipitations Totales (mm)`.

In [None]:
# Créer un sous-ensemble plus logique
df_gros_avec_précipitation = df_big[df_big['Précipitations totales (mm)'] > 0].copy()
df_gros_avec_précipitation['Est-ce qu il a neigé ?'] = df_gros_avec_précipitation['Neige (mm)'] > 0

print(df_gros_avec_précipitation)

In [None]:
# Refaire la corrélation
corr = df_gros_avec_précipitation['Est-ce qu il a neigé ?'].corr(df_gros_avec_précipitation['Temp. min (C)'])
print(corr)

Maintenant, il y a une corrélation négative qui est 50% plus forte. C'est un bon signe et cela correspond à nos intuitions.

**Vérification de compréhension :**  Pouvez-vous tester la corrélation inverse : est-ce que la pluie peut être prédite par une température élevée? (Vous devriez trouver une corrélation positive entre la température et la pluie.)

In [None]:
# Vérifiez la corrélation "pluvieux les jours chauds"
# À FAIRE AJOUTER VOTRE CODE ICI

## Conclusion

Nous avons acquis beaucoup d'outils tout au long de ce notebook. En particulier, nous avons appris:

* Ce qu'est une `Series` : une donnée linéaire qui peut avoir des étiquettes
* Ce qu'est un `DataFrame` : une table où chaque colonne est une `Series`
* Comment visualiser, trier, filtrer et modifier ces structures de données
* Comment calculer des statistiques de base sur les données
* Comment manipuler les données pour les mettre dans une forme où nous pouvons commencer à utiliser des statistiques pour répondre à des questions

Dans le dernier partie de cette série, nous mettrons ces compétences en pratique avec des techniques de recherche et de nettoyage de données pour répondre à une question du monde réel plus complexe.

À bientôt!


![Panda waving goodbye](https://raw.githubusercontent.com/unfamiliarplace/acse-integration/main/data_science/assets/panda_wave.jpg)
<sub>*Panda image from [VCG Photo](https://news.cgtn.com/news/3d3d414e32557a4e30457a6333566d54/share_p.html)*</sub>