# Découverte des *data frames*

Un *data frame* est une structure de données qui peut se concevoir comme une matrice où les colonnes peuvent être de types différents, comme dans ce tableau à deux dimensions :

|gender|height|
|:-:|:-:|
|F|173|
|F|159|
|M|181|

Chaque ligne est une *observation* quand les colonnes, autrement appelées *séries*, constituent les variables qui la décrivent.

## Aperçu avec la librairie *Pandas*

En python, la librairie *Pandas* est dévolue à gérer ces structures essentielles pour l’analyse de données. Elle s’importe comme n’importe quel module, à l’exception que l’on a pour habitude de lui associer un alias *pd* :

In [None]:
import pandas as pd

L’exemple de l’introduction pourrait se matérialiser en passant un objet de type `dict` au constructeur de la classe `DataFrame` :

In [None]:
genders = ["F", "F", "M"]
heights = [173, 159, 181]

series = {
    "gender": genders,
    "height": heights
}

df = pd.DataFrame(series)

print(df)

Chaque série peut être interrogée individuellement :

In [None]:
print(df["gender"])

Tout comme il est possible d’accéder à des observations particulières grâce au *slicing* :

In [None]:
print(df[2:])

## Importer un fichier CSV

Dans la pratique, il est rare de devoir créer un *data frame* manuellement. Comme ces structures servent à manipuler en ensemble large de données, elles les puisent soit de flux (signaux d’entrées d’un périphérique, calculs à la volée…) soit de fichiers.

### Méthodes pour importer un fichier

La méthode principale pour importer des données depuis un fichier est `.read_table()` mais, dans la vie réelle, on lui préfère des méthodes spécifiques à certains formats usuels :
- `.read_csv()` pour le format CSV ;
- `.read_excel()` pour le format XLS de Microsoft ;
- `.read_json()` pour le format JSON ;
- et `.read_sql()` pour le format SQLite.

Importons le fichier *arrests.csv* (Friendly), issu d’une enquête plus large autour des articles du journal *Toronto Star* :

In [None]:
df = pd.read_table("./data/arrests.csv")

La méthode `.head()` permet de jeter un œil aux cinq premières observations du fichier :

In [None]:
df.head()

Le résultat de l’importation n’est pas probant. Il faut savoir que, par défaut, le caractère de séparation de la méthode `.read_table()` est la tabulation et qu’il peut se paramétrer avec le paramètre `sep` :

In [None]:
df = pd.read_table("./data/arrests.csv", sep=",")
df.head()

Pour les fichiers au format CSV (*comma-separated values*), il est préférable d’opter pour la méthode spécifique :

In [None]:
df = pd.read_csv("./data/arrests.csv")
df.head()

### Description du jeu de données

Le fichier *arrests.csv* est issu du package R carData (*Companion to Applied Regression Data Sets*). Il recense les personnes arrêtées à Toronto en possession d’une petite quantité de marijuana. L’enquête est constituée de sept variables aléatoires :

|Variable|Description|Type|
|:-:|:-|:-:|
|*released*|Facteur à deux niveaux pour distinguer les personnes relâchées avec une convocation (*Yes*) ou arrêtées sur place (*No*).|qualitative binaire|
|*year*|Vecteur numérique pour l’année de l’arrestation. De 1997 à 2002.|qualitative ordonnée|
|*age*|Vecteur numérique pour l’âge, en nombre d’années.|quantitative continue|
|*sex*|Facteurs à deux niveaux pour le sexe de l’individu : *Male* ou *Female*.|qualitative binaire|
|*employed*|Facteur à deux niveaux : l’individu a-t-il une activité professionnelle (*Yes*) ou non (*N*).|qualitative binaire|
|*citizen*|Facteur à deux niveaux pour qualifier les résidents de Toronto (*Yes*) et les autres (*No*).|qualitative binaire|
|*checks*|Vecteur numérique (0 à 6) qui recense le nombre d’apparitions de l’individu sur les bases de données de la police (arrestations, condamnations antérieures, libération conditionnelle…).|quantitative continue|

#### Définitions

**Variable aléatoire :** Donnée mesurée dont le résultat est, en partie, dû au hasard. Du point de vue de l’enquêteur, les réponses des personnes interrogées sont effectivement imprévisibles.

**Variable aléatoire quantitative :** Donnée mesurée dont on peut faire la somme.

**Variable aléatoire quantitative discrète :** Variable dont la mesure peut prendre une valeur isolée, comme la taille, le poids ou encore la tension.

**Variable aléatoire quantitative continue :** Variable dont la mesure pourrait prendre toutes les valeurs d’un intervalle entre deux nombres (âge, quotient intellectuel, numération globulaire).

**Variable aléatoire qualitative :** Donnée mesurée dont on ne peut pas faire la somme, comme la profession, un taux de satisfaction ou encore le sexe d’un individu. Elle peut être de trois types : ordonnée, binaire ou non ordonnée.

### Gestion de l’en-tête

Le jeu de données dispose de son en-tête propre, imposé par le responsable ayant modélisé l’enquête. Dans certains cas, il est intéressant de pouvoir modifier les étiquettes associées aux variables, soit pour des questions de lisibilité, soit pour des questions pratiques.

Par défaut, la méthode `.read_csv()` considère la première ligne comme la ligne d’en-tête, mais il est possible de la neutraliser avec la paramètre `header` fixé à `None` :

In [None]:
df = pd.read_csv("./data/arrests.csv", header=None)
df.head()

Dans le cas précis, la ligne d’en-tête est devenue une observation comme les autres, avec des valeurs aberrantes. La première variable du *data frame*, qui devrait être un vecteur numérique, affiche pour elle `NaN` (*Not a Number*). La raison est simple : dans le fichier de départ, la première variable n’est pas nommée afin d’indiquer qu’il s’agit de la colonne d’index des observations, or, comme *Pandas* s’attend à trouver une donnée numérique, il la considère comme une donnée aberration.

Pour passer outre, utilisons le paramètre `skiprows` pour lui demander de ne pas tenir compte de la première ligne du fichier :

In [None]:
df = pd.read_csv("./data/arrests.csv", header=None, skiprows=1)
df.head()

Il reste à rétablir l’en-tête en transmettant des étiquettes personnalisées au paramètre `names` :

In [None]:
names = ["Relâché", "Année", "Âge", "Genre", "En activité", "Torontois", "Citations"]
df = pd.read_csv("./data/arrests.csv", header=None, skiprows=1, names=names)
df.head()

La première colonne est de nouveau la colonne d’index. Si l’on avait voulu parvenir au même résultat tout en conservant l’en-tête original, il aurait simplement fallu lui renseigner la colonne servant d’index avec le paramère `index_col` :

In [None]:
df = pd.read_csv("./data/arrests.csv", index_col=[0])
df.head()

À noter que le nom des variables importées reste toujours disponible dans un paramètre `columns` :

In [None]:
df.columns

## Préparer un jeu de données

### Reconnaître le type d’une série

Toute série de données exprimée par une variable statistique est réputée contenir un même type de données au sein d’un vecteur. Pour connaître le type des différents vecteurs, on peut interroger la propriété `dtypes` du *data frame* :

In [None]:
df = pd.read_csv("./data/arrests.csv", index_col=[0])
df.dtypes

Lorsque le jeu de données contient des données ambiguës au sein d’une même série, il peut se révéler utile de préciser dès l’importation le type des différents vecteurs avec l’option `dtype` :

In [None]:
df = pd.read_csv("./data/arrests.csv", index_col=[0], dtype={"year": int})
df.dtypes

### Conversion de type

La solution recommandée pour convertir une colonne en un autre type de données est de passer par la méthode `.astype()`. Certaines conversions étant impossibles, comme par exemple convertir la chaîne de caractères `"chat"` en entier, il convient de s’assurer au préalable de la légitimité de l’opération :

In [None]:
df["year"] = df["year"].astype(str)
df.dtypes

### Disposer des données manquantes

La gestion des données manquantes est une étape cruciale de la phase de préparation d’un *dataset*. Pour une seule variable manquante, faut-il écarter l’observation complète, lui attribuer une valeur par défaut ou encore opter pour une solution plus élaborée ?

Chargeons un autre jeu de données, extrait d’une enquête sur les troubles de l’alimentation (Davis, 1997). La méthode `.info()` permet de visualiser rapidement s’il existe ou non des variables qui contiennent des données manquantes :

In [None]:
df = pd.read_csv("./data/davis.csv", index_col=[0])

df.info()

Sur un total de 200 observations, deux des cinq variables comportent des valeurs manquantes. Il s’agit de *repwt* et *repht*, qui comptent chacune 17 données manquantes. L’égalité ne doit pas induire en erreur : rien n’assure que les données soient localisées sur les 17 mêmes observations.

Pour s’en assurer, il faut souvent leur faire la chasse. La méthode `.isnull()` permet de jeter un coup d’oeil global sur le *data frame*, sur une série particulière ou encore sur une extraction :

In [None]:
df["repht"][190:].isnull()

À l’inverse, il existe une méthode `.notnull()` pour révéler au contraire les données qui ne sont pas manquantes :

In [None]:
df.notnull()

Couplée aux méthodes `.any()` et `.sum()`, il est possible de reproduire exactement l’information obtenue plus haut avec la méthode `.info()` :

In [None]:
df.isnull().any()

In [None]:
df.isnull().sum()

Pour véritablement les pister, il peut être utile de connaître plutôt l’indice des observations concernées :

In [None]:
df.index[df.isnull().any(axis=1)]

#### Suppression des données manquantes

S’il s’agit de supprimer moins de 10 % de l’effectif total, la question n’est pas anodine, surtout si le jeu de données est volumineux. Pour réaliser cette opération, il existe la méthode `.dropna()` :

In [None]:
df = df.dropna()
df.info()

Une autre stratégie consisterait à ne sélectionner dans un *data frame* que les observations non nulles pour une variable donnée :

In [None]:
df = df[df["repwt"].notna()]
df.info()

#### Affecter une valeur prédéfinie

La méthode `.fillna()` offre la possibilité de remplir toutes les données manquantes par une même valeur :

In [None]:
df = pd.read_csv("./data/davis.csv", index_col=[0])

df = df.fillna(0)
df

Un attribut `method` autorise une stratégie plus subtile, en remplaçant les données manquantes soit par celles qui précèdent (`pad`) soit par celles qui suivent (`bfill`). Il convient alors de s’assurer que les première et dernière observations ne comportent pas de données manquantes :

In [None]:
df = pd.read_csv("./data/davis.csv", index_col=[0])

df["repht"].fillna(method="pad", inplace=True)
df["repwt"].fillna(method="bfill", inplace=True)
df

Plus finement, nous pouvons bénéficier des facilités de *Pandas* pour attribuer une valeur moins nocive aux données manquantes d’une série, comme la moyenne arithmétique de l’ensemble de ses valeurs :

In [None]:
df = pd.read_csv("./data/davis.csv", index_col=[0])

repht_mean = int(df["repht"].mean())
df["repht"].fillna(repht_mean, inplace=True)

df

### Recoder des variables

Comme il est plus facile de manipuler des nombres dans un *data frame*, une opération préléminaire à toute analyse de données consiste souvent à transformer au maximum les séries en vecteurs numériques. C’est par exemple possible en transmettant un dictionnaire d’équivalences à la méthode `replace()` :

In [None]:
df = pd.read_csv("./data/arrests.csv", index_col=[0])

translations = {
    "Yes": 1,
    "No": 0,
    "Male": 0,
    "Female": 1
}

df.replace(translations, inplace=True)
df.head()

Par cette simple opération, notre tableau de données n’utilise désormais que des vecteurs numériques. Il est possible de s’en assurer rapidement :

In [None]:
df.dtypes

Avant de définir des conversions, il est toutefois prudent de bien s’assurer des différentes valeurs contenues dans une série avec la méthode `unique()` :

In [None]:
df = pd.read_csv("./data/arrests.csv", index_col=[0])

print(
    f"released ==> { df['released'].unique() }",
    f"sex      ==> { df['sex'].unique() }",
    f"employed ==> { df['employed'].unique() }",
    f"citizen  ==> { df['citizen'].unique() }",
    sep="\n"
)

## Sélectionner des données

### Sélectionner une série entière

L’opération la plus simple consiste à nommer la série à sélectionner :

In [None]:
df = pd.read_csv("./data/arrests.csv", index_col=[0])

df["checks"]

Des contraintes peuvent être appliquées à la sélection des données grâce à un prédicat `[]` :

In [None]:
# nb checks of persons who live outside Toronto only
df["checks"][df["citizen"] == "No"]

Pour sélectionner plus d’une série, il suffit de transmettre la liste de leurs noms :

In [None]:
df[["checks", "sex"]]

### Sélectionner des observations

Le *slicing* permet de sélectionner des observations à l'intérieur du *data frame* :

In [None]:
df[:3]

Tout comme il est possible de limiter à une série particulière :

In [None]:
df["sex"][:3]

Pour appliquer ces restrictions à plusieurs séries, il existe une propriété `loc` qui prend deux paramètres : une *slice* et une liste de séries :

In [None]:
df.loc[:3, ["released", "employed", "citizen"]]

### Appliquer des filtres sur les sélections

De multiples conditions peuvent s'appliquer sur les séries pour filtrer les données. Si par exemple on voulait ne retenir que l’âge et le nombre de citations des hommes de Toronto interpellés depuis 2000, on traduirait l’énoncé comme ci-dessous. Les opérateurs de comparaison classiques (`==` `>` `<=`…) ainsi que les opérateurs *bitwise* `&` `|` `~` peuvent être utilisés.

In [None]:
df.loc[:, ["age", "checks"]][(df["sex"] == "Male") & (df["citizen"] == "Yes") & (df["year"] >= 2000)]

Le même résultat peut s’obtenir grâce à l’appel à une méthode `.query()` :

In [None]:
df.query("sex == 'Male' & citizen == 'Yes' & year >= 2000 " ).loc[:, ["age", "checks"]]

## Décrire les données

La librairie *Pandas* fournit un ensemble de méthodes pour décrire les données. La première d’entre elles, `info()` affiche un résumé du *data frame* (nom des variables, présence de valeurs nulles, nombre d’observations) :

In [None]:
df.info()

La méthode `describe()` fournit quant à elle un aperçu des vecteurs numériques grâce à quelques statistiques :

In [None]:
df.describe()

Grâce à un sélecteur, il est possible de restreindre la description à une série particulière :

In [None]:
print(
    df['employed'].describe(),
    df['checks'].describe(),
    sep="\n\n"
)

De nombreuses opérations statistiques peuvent être ensuite résolues avec les méthodes embarquées par la librairie :

In [None]:
# max
print(df['age'].max())

# min
print(df['age'].min())

# standard deviation
print(df['age'].std())

# average
print(df['age'].mean())

## À propos des données

> (Friendly) Personal communication from Michael Friendly, York University. 

> (Davis, 1997) Davis, C., G. Claridge, and D. Cerullo (1997) Personality factors predisposing to weight preoccupation: A continuum approach to the association between eating disorders and personality disorders. *Journal of Psychiatric Research* 31, 467–480. [personal communication from the authors.]