# Introduction à l'exploration des données

**Objectifs d'apprentissage :**  
- charger un jeu de données  
- explorer et visualiser des variables  
- découvrir les fonctions courantes d'exploration de variables

## Le pipeline de la Data Science

![](https://mickaeltemporao.github.io/itds/images/pipeline.jpg)

## Acquisition de données
Avec quelques bases de Python, nous allons commencer à combiner des packages existants pour acquérir et explorer des données.


Avant de pouvoir commencer à examiner les données, nous devons charger les données dans nos machines.



In [None]:
# Charger les bibliothèques requises
import pandas as pd

# Charger des données pokemon avec pandas
data_url = "https://raw.githubusercontent.com/leomignot/DataSHS_initiation_python/refs/heads/main/data/pokemon_data.csv"
pokemon_data = pd.read_csv(data_url)


### Hack Time

In [None]:
# Quel est le type de pokemon_data ?


### DataFrames

Les DataFrames sont des listes (ou des séries lorsqu'on utilise pandas) qui sont assemblées dans un tableau.

![](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

In [None]:
# Un exemple rapide

taille = [178, 195, 175, 168, 200, 300, 170]
age = [37, 18, 25, 30, 35, 99, 49.3]
nom = ["Léo", "Grégoire", "Claire", "Viviane", "Quentin", "Mickael", "Emmanuel"]

# Nous créons un DataFrame à partir de zéro
my_data = pd.DataFrame(
    {
        "Taille": taille,
        "Age": age,
        "Prénom": nom,
    }
)


In [None]:
# Quel est le type de `my_data`
type(my_data)


In [None]:
# Regardez le nouveau jeu de données que vous venez de créer
my_data


In [None]:
# Nous pouvons également en apprendre plus sur notre objet en utilisant la méthode `.info()`.
my_data.info()


In [None]:
# Lorsque votre jeu de données est trop long, vous pourriez vouloir afficher les premières
# observations (lignes) en utilisant la méthode `.head()`.
my_data.head()


### Hack Time

In [None]:
# Regardez le début des données pokemon_data


In [None]:
# Regardez les info des données pokemon_data


## Exploration de données - Variables

Maintenant que vous avez vos données, l'étape suivante est de vous familiariser avec elles. 

La plupart du temps, vous vous intéressez à certains concepts spécifiques. 
- Vous avez besoin d'un moyen de sélectionner uniquement les variables liées à vos concepts.


### Sélectionner des variables (colonnes)

Supposons que vous souhaitiez explorer le type principal des pokemons ("Type 1").

- Nous pouvons utiliser des crochets sur un objet DataFrame pour sélectionner une seule colonne !
- Nous pouvons également utiliser une liste de chaînes contenant les noms de colonnes pour sélectionner plusieurs colonnes !

![](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)


In [None]:
# L'attribut `columns` permet d'obtenir les noms des colonnes d'un DataFrame
pokemon_data.columns

In [None]:
# Sélectionner la variable présentant le type principal des pokemons
pokemon_data["Type 1"]

In [None]:
# Nous pouvons également le sauvegarder dans un nouvel objet et vérifier son type
type_1 = pokemon_data["Type 1"]
type(type_1)


Supposons que vous souhaitiez également savoir pour qui les gens ont l'intention de voter en fonction de leur âge et de leur idéologie ? Dans ce cas, vous pourriez avoir besoin de sélectionner plusieurs variables.

In [None]:
# Sélectionner plusieurs colonnes
my_vars = [
    "Name",  # Le nom
    "Type 1",  # Le type 1
    "Type 2",  # Le type 2
    "HP",  # les points de vie
    "Attack",  # l'attaque
    "Defense",  # la défense
]

pokemon_data[my_vars]

In [None]:
# Sauvegarder ce sous-ensemble plus petit de variables dans my_df
my_df = pokemon_data[my_vars]
print(type(my_df))
print(my_df.columns)
my_df.head()

Renomons nos colones en français

*(Exemple de cas d'usage réel : pour éviter d'avoir toujours à vérifier un codebook, renomer permet de nettoyer un peu nos données en rendant les noms de colonnes plus explicites.)*

In [None]:
# Renommer les colonnes
my_df.columns = ["nom", "type1", "type2", "pv", "attaque", "défense"]
my_df.head()

### Méthodes utiles
Les Series et les DataFrames fournissent des méthodes très utiles pour explorer facilement les données. Voici quelques-unes des plus courantes :

- `mean()`
- `std()`
- `min()`
- `max()`
- `count()`
- `describe()`
- `value_counts()`


In [None]:
# Quelle est la répartition des types de pokemons ?
my_df["type1"].value_counts()


In [None]:
# Quel est le pourcentage de chaque type ?
my_df["type1"].value_counts(normalize=True)


In [None]:
# Un peu plus propre
my_results = my_df["type1"].value_counts(normalize=True) * 100
my_results.round(1)


### Hack Time

In [None]:
# Quel est le niveau de point de vie moyen des pokemons dans notre dataset ?


In [None]:
# Quel est la médiane des points d'attaque ?


In [None]:
# Quelle est la proportion de pokemons qui ont un second type poison ?
# (pour fignoler : enjeu possible des pokemons qui n'ont pas de second type)


## Visualisation de données

Une fois que vous avez trouvé les informations dont vous avez besoin, il est généralement judicieux de représenter graphiquement vos résultats. En effet, une visualisation vous aidera parfois à mieux comprendre les problèmes liés à vos données !

La plupart du temps, vous utiliserez des graphiques en barres et des histogrammes pour visualiser une seule variable, selon son type.

### Types de données

Nous avons vu qu'il existe différents types de données en Python (chaînes de caractères, entiers, décimaux, booléens, ...). Lorsqu'on fait de la recherche, nous pouvons regrouper les données en grandes familles : les données numériques/quantitatives et catégorielles/qualitatives

Les **données numériques** ("quantitatives") : caractéristiques quantifiables, des nombres qui mesurent des quantités. On peut distinguer 2 sous catégories :
- Numériques **continues**, qui peuvent prendre un nombre infini de valeurs.
  - La taille d'un étudiant (par ex. 182.5 cm)
  - Pour ces variables, vous utiliserez généralement des **histogrammes**.
- Numériques **discrètes**, qui ne peuvent prendre qu'un nombre fini de valeurs.
  - Le nombre d'étudiants dans une classe (par ex. 22)
  - Pour ces variables, vous utiliserez des **histogrammes** ou des **diagrammes en barres**.

Les données **catégorielles** ("qualitatives") : caractéristiques qui ne sont pas mesurables numériquement. On peut distinguer 2 sous catégories :
- Catégorielles **nominales** : les valeurs sont des modalités, des catégories sans hiérarchie 
  - Le genre d'un étudiant, sa couleur de cheveux, sa discipline (par ex. Sociologie)
- Catégorielles **ordinales** : on peut ordonner les catégories.
   - (par ex. Jamais/parfois/souvent/toujours)
- Pour ces variables, vous utiliserez des **diagrammes en barres**.


>C'est plus compliqué que ça :
>- zones grises entre les types de variables.
>- plein de sortes de graphiques possibles, des "règles" et plein d'exceptions, etc.  
>
>**TIP : ** Pour vous aider à choisir le type adapté de visualisation, regardez par là :  [**Data to Viz**]( https://www.data-to-viz.com/)

**N'oubliez pas de synthétiser/regrouper/résumer vos données avant de les tracer !**

- Sinon votre ordinateur ne sera pas content...



### Visualisations avec Pandas

Vous pouvez utiliser pandas pour tracer vos résultats en utilisant la méthode `.plot()` sur un objet DataFrame ou Series.

Pour plus d'informations, cliquez [**ici**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html).


In [None]:
# Traçons la distribution de la variable pv.
my_df["pv"].plot(kind="hist")


In [None]:
# Approfondir
my_df["pv"].plot(kind="hist", bins=40)


In [None]:
# Regardons la repartition par type

# on avait déjà fait un objet plus haut :
# my_results = my_df["type1"].value_counts(normalize=True) * 100

my_results.plot(kind="bar")


### Hack Time

In [None]:
my_df.columns

In [None]:
# Quelle est la répartition de la défense des pokemons ? Proposez un graphique.


In [None]:
# Quels sont les type 2 les plus fréquents ? Proposez un graphique.


### Aller plus loin

Il existe de nombreuses options pour jouer avec et améliorer une figure. 
Lorsque vous cherchez de l'aide pour changer quelque chose sur une figure, si vous avez la bonne terminologie, il est assez facile de trouver de l'aide !

#### Anatomie d'une figure
![Anatomie d'une figure](https://matplotlib.org/3.1.1/_images/anatomy.png)

# REPRENDRE ICI

Essayons d'améliorer un peu notre graphique des types de pokemons

In [None]:
# Repartir de my_results :
my_results.plot(
    kind="bar",
    title="Types de pokemon",
    ylabel="Pourcentage",
    rot=50,
);  # le ";" permet de ne pas afficher des informations supplémentaires générées par pandas


In [None]:
# Y a-t-il une relation entre le type et les pv ?

# Repérer seulement les 5 types1 les plus fréquents pour lisibilité
top_types = my_df["type1"].value_counts()[0:5].index

# créer un df spécifique au top5
df_top5 = my_df[my_df["type1"].isin(top_types)]

# faire une boxplot des pv par type1
df_top5.boxplot(column=["pv"], by="type1")


In [None]:
# Boxplots sur deux variables pandas :
# "attaque" et "défense") regroupée par "type1"
df_top5.boxplot(column=["attaque", "défense"], by="type1", figsize=(12, 6), rot=45)

In [None]:
# On a moyen de faire moins moche hein :

import plotly.express as px

fig = px.box(
    df_top5,
    x="type1",
    y="pv",
    title="Distribution des points de vie (pv) par type1 (top 5 types)",
    color="type1",
    color_discrete_sequence=px.colors.qualitative.Pastel,
    points="all",
)

# Pour qui veut fignoler :
fig.update_traces(
    jitter=0.3,
    marker=dict(size=4, opacity=0.7),
    line=dict(width=1.5),
)

fig.update_layout(template="plotly_white")

fig.show()
