# Introduction à l'exploration des données

**Objectifs d'apprentissage :**  
- charger un jeu de données  
- explorer et visualiser des variables  
- découvrir les fonctions courantes d'exploration de variables

## Le pipeline de la Data Science

![](https://mickaeltemporao.github.io/itds/images/pipeline.jpg)

## Acquisition de données
Avec quelques bases de Python, nous allons commencer à combiner des packages existants pour acquérir et explorer des données.


Avant de pouvoir commencer à examiner les données, nous devons charger les données dans nos machines.



In [None]:
# Charger les bibliothèques requises
import pandas as pd
# Chargons des données réelles avec pandas
data_url = "https://raw.githubusercontent.com/datamisc/ts-2020/main/data.csv"
anes_data  = pd.read_csv(data_url, compression='gzip')


### Hack Time

In [None]:
# What is the type of anes_data?


### DataFrames

Les DataFrames sont des listes (ou des séries lorsqu'on utilise pandas) qui sont assemblées dans un tableau.

![](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

In [None]:
# Un exemple rapide

turnout = [66.8, 55.7, 54.9, 58.2, 56.7, 51.2, 49.0]
year = [2020, 2016, 2012, 2008, 2004, 2000, 1996]
party = ["Dem", "Rep", "Dem", "Dem", "Rep", "Rep", "Dem"]

# Nous créons un DataFrame à partir de zéro
my_data = pd.DataFrame(
    {
        'turnout': turnout,
        'year': year,
        'party': party,
    }
)


In [None]:
# Quel est le type de `my_data`
type(my_data)


In [None]:
# Regardez le nouveau jeu de données que vous venez de créer
my_data


In [None]:
# Nous pouvons également en apprendre plus sur notre objet en utilisant la méthode `.info()`.
my_data.info()


In [None]:
# Lorsque votre jeu de données est trop long, vous pourriez vouloir afficher les premières 
# observations (lignes) en utilisant la méthode `.head()`.
my_data.head()


### Hack Time

In [None]:
# Regardez le début des données ANES


In [None]:
# Regardez les informations des données ANES


## Exploration de données - Variables

Maintenant que vous avez vos données, l'étape suivante est de vous familiariser avec elles. 

La plupart du temps, vous vous intéressez à certains concepts spécifiques. 
- Vous avez besoin d'un moyen de sélectionner uniquement les variables liées à vos concepts.


### Sélectionner des variables (colonnes)

Supposons que vous souhaitiez explorer le vote des citoyens américains (V201033).

- Nous pouvons utiliser des crochets sur un objet DataFrame pour sélectionner une seule colonne !
- Nous pouvons également utiliser une liste de chaînes contenant les noms de colonnes pour sélectionner plusieurs colonnes !

![](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)


In [None]:
# L'attribut `columns` permet d'obtenir les noms des colonnes d'un DataFrame
anes_data.columns

In [None]:
# Sélectionner la variable d'intention de vote
anes_data["V201033"]


In [None]:
# Nous pouvons également le sauvegarder dans un nouvel objet et vérifier son type
vote_int = anes_data["V201033"]
type(vote_int)


Supposons que vous souhaitiez également savoir pour qui les gens ont l'intention de voter en fonction de leur âge et de leur idéologie ? Dans ce cas, vous pourriez avoir besoin de sélectionner plusieurs variables.

In [None]:
# Sélectionner plusieurs colonnes
my_vars = [
    "V201032",  # intention de voter
    "V201033",  # intention de voter pour
    "V201507x",  # âge
    "V201200",  # auto-positionnement libéral-conservateur
]

anes_data[my_vars]

In [None]:
# Sauvegarder ce sous-ensemble plus petit de variables dans my_df
my_df = anes_data[my_vars]
print(type(my_df))
print(my_df.columns)
my_df.head()

Pour éviter d'avoir toujours à vérifier le codebook, nettoyons un peu nos données en rendant les noms de colonnes plus explicites.

In [None]:
# Renommer les colonnes
my_df.columns = ["vote", "vote_int", "age", "ideology"]
my_df.head()

### Méthodes utiles
Les Series et les DataFrames fournissent des méthodes très utiles pour apprendre rapidement sur les données. Voici quelques-unes des plus courantes :

- `mean()`
- `std()`
- `min()`
- `max()`
- `count()`
- `describe()`
- `value_counts()`


In [None]:
# Combien de personnes ont l'intention de voter ?
my_df["vote"].value_counts()


In [None]:
# Quel pourcentage de personnes ont l'intention de voter ? 
my_df["vote"].value_counts(normalize=True)


In [None]:
# Un peu plus propre
my_results = my_df["vote"].value_counts(normalize=True) * 100
my_results.round(1)


### Hack Time

In [None]:
# Quel est l'âge moyen des répondants dans le jeu de données ANES ?


In [None]:
# Quelle est l'idéologie moyenne des répondants dans le jeu de données ANES ?


In [None]:
# Quelle est la proportion de personnes qui ont l'intention de voter pour D. Trump (par rapport aux autres candidats) ?


## Visualisation de données

Une fois que vous avez trouvé les informations dont vous avez besoin, il est généralement une bonne idée de tracer vos résultats. Parfois, une visualisation vous aidera à mieux comprendre les problèmes dans vos données !

La plupart du temps, vous utiliserez des graphiques en barres et des histogrammes pour visualiser une seule variable, selon son type.

### Types de données

Nous avons vu qu'il existe différents types de données en Python (chaînes, entiers, décimaux, booléens, ...). Lorsqu'on fait de la recherche, nous pouvons regrouper les données en deux grandes familles :

Les données **continues** peuvent prendre un nombre infini de valeurs.
- La taille d'un étudiant (par ex. 182.5 cm)
- Pour ces variables, vous utiliserez généralement des **histogrammes**.

Les données **discrètes** ne peuvent prendre qu'un nombre fini de valeurs.
- Le nombre d'étudiants dans une classe (par ex. 22)
- Pour ces variables, vous utiliserez généralement des **graphiques en barres**.
- **N'oubliez pas de résumer vos données avant de les tracer !**
    - Sinon votre ordinateur ne sera pas content...

### API de traçage de Pandas

Vous pouvez utiliser pandas pour tracer vos résultats en utilisant la méthode `.plot()` sur un objet DataFrame ou Series.

Pour plus d'informations, cliquez [**ici**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html).


In [None]:
# Traçons la distribution de la variable âge.
my_df["age"].plot(kind="hist")



In [None]:
# Approfondir
my_df["age"].plot(kind="hist", bins=40)



In [None]:
# Regardons la participation
my_results.plot(kind="bar")


### Hack Time

In [None]:
# Les citoyens américains sont-ils polarisés ? 


In [None]:
# Qui gagnerait le vote populaire selon l'ANES 2020 ?


### Aller plus loin

Il existe de nombreuses options pour jouer avec et améliorer une figure. 
Lorsque vous cherchez de l'aide pour changer quelque chose sur une figure, si vous avez la bonne terminologie, il est assez facile de trouver de l'aide !

#### Anatomie d'une figure
![Anatomie d'une figure](https://matplotlib.org/3.1.1/_images/anatomy.png)

Essayons d'améliorer un peu notre graphique des intentions de vote.

In [None]:
# Filtrer les observations (pour la prochaine fois)
mask = my_df['vote_int'].between(1,4)

# Résumer les données
tmp_data = my_df.loc[mask,"vote_int"].replace(
    {1:"Biden", 2:"Trump", 3:"Jorgensen", 4:"Hawkins"}
).value_counts(
    normalize=True
)

# Créer un graphique/figure
tmp_data.plot(
    kind="bar",
    title="Intentions de vote", 
    ylabel="Pourcentage",
    rot=0,
);


In [None]:
tmp_data

In [None]:
# Y a-t-il une relation entre l'âge et l'idéologie ? 
my_vars = ['age', 'ideology']
mask = my_df['ideology'].between(1,7)
my_df.loc[mask, my_vars].boxplot(by='ideology')
