# Découverte des *data frames*

Un *data frame* est une structure de données qui peut se concevoir comme une matrice où les colonnes peuvent être de types différents, comme dans ce tableau à deux dimensions :

|gender|height|
|:-:|:-:|
|F|173|
|F|159|
|M|181|

Chaque ligne est une *observation* quand les colonnes, autrement appelées *séries* sont les variables qui les décrivent.

## Aperçu avec la librairie *Pandas*

En python, la librairie *Pandas* est dévolue à gérer ces structures essentielles pour l’analyse de données. Elle s’importe comme n’importe quel module, à l’exception que l’on a pour habitude de lui associer un alias *pd* :

In [None]:
import pandas as pd

L’exemple de l’introduction pourrait se matérialiser en passant un objet au constructeur de la classe `DataFrame()` :

In [None]:
genders = ['F', 'F', 'M']
heights = [173, 159, 181]

series = {
    'gender': genders,
    'height': heights
}

df = pd.DataFrame(series)

print(df)

Chaque série peut être interrogée individuellement :

In [None]:
print(df['gender'])

Tout comme il est possible d’accéder à des observations particulières grâce au *slicing* :

In [None]:
print(df[2:])

## Importer un fichier CSV

Dans la pratique, il est rare de devoir créer un *data frame* manuellement. Comment ces structures servent à manipuler en ensemble large de données, elles les puisent soit de flux (signaux d’entrées d’un périphérique, calculs à la volée) soit de fichiers.

La méthode principale pour importer des données depuis un fichier est `read_table()`. Notons à titre indicatif les méthodes `read_csv()`, `read_excel()`, `read_json()` et`read_sql()` pour importer depuis des formats spécifiques.

In [None]:
df = pd.read_table('./data/arrests.csv')

La méthode `head()` permet de jeter un œil aux cinq premières observations du fichier :

In [None]:
df.head()

Le résultat de l’importation n’est pas probant. Il faut savoir que, par défaut, le caractère de séparation de la méthode `read_table()` est la tabulation et qu’il peut se paramétrer avec le paramètre `sep` :

In [None]:
df = pd.read_table('./data/arrests.csv', sep=",")
df.head()

Pour les fichiers au format CSV (*comma-separated values*), il est préférable d’opter pour la méthode spécifique :

In [None]:
df = pd.read_csv('./data/arrests.csv')
df.head()

### Description du jeu de données

Le fichier *arrests.csv* est issu du package R carData (*Companion to Applied Regression Data Sets*) qui recensent les personnes arrêtées à Toronto en possession d’une petite quantité de marijuana. L’enquête est constituée de sept variables aléatoires :

|Variable|Description|Type|
|:-:|:-|:-:|
|*released*|Facteur à deux niveaux pour distinguer les personnes relâchées avec une convocation (*Yes*) ou arrêtées sur place (*No*).|qualitative binaire|
|*year*|Vecteur numérique pour l’année de l’arrestation. De 1997 à 2002.|qualitative ordonnée|
|*age*|Vecteur numérique pour l’âge, en nombre d’années.|quantitative continue|
|*sex*|Facteurs à deux niveaux pour le sexe de l’individu : *Male* ou *Female*.|qualitative binaire|
|*employed*|Facteur à deux niveaux : l’individu a-t-il une activité professionnelle (*Yes*) ou non (*N*).|qualitative binaire|
|*citizen*|Facteur à deux niveaux pour qualifier les résidents de Toronto (*Yes*) et les autres (*No*).|qualitative binaire|
|*checks*|Vecteur numérique (0 à 6) qui recense le nombre d’apparitions de l’individu sur les bases de données de la police (arrestations, condamnations antérieures, libération conditionnelle…).|quantitative continue|

#### Définitions

**Variable aléatoire :** Donnée mesurée dont le résultat est, en partie, dû au hasard. Du point de vue de l’enquêteur, les réponses des personnes interrogées sont effectivement imprévisibles.

**Variable aléatoire quantitative :** Donnée mesurée dont on peut faire la somme.

**Variable aléatoire quantitative discrète :** Variable dont la mesure peut prendre une valeur isolée, comme la taille, le poids ou encore la tension.

**Variable aléatoire quantitative continue :** Variable dont la mesure pourrait prendre toutes les valeurs d’un intervalle entre deux nombres (âge, quotient intellectuel, numération globulaire).

**Variable aléatoire qualitative :** Donnée mesurée dont on ne peut pas faire la somme, comme la profession, un taux de satisfaction ou encore le sexe d’un individu. Elle peut être de trois types : ordonnée, binaire ou non ordonnée.

### Gestion de l’en-tête

Notre jeu de données dispose de son en-tête propre, imposé par le responsable scientifique qui a modélisé l’enquête. Comme vous le constatez, la méthode `read_csv()` considère la première ligne comme la ligne d’en-tête, mais il est possible de la neutraliser avec la paramètre `header` fixé à `None` :

In [None]:
df = pd.read_csv('./data/arrests.csv', header=None)
df.head()

Dans ce cas-là, votre ligne d’en-tête devient une ligne comme les autres mais avec des résultats aberrants. La première variable de votre fichier, qui devrait être un vecteur numérique, affiche à présent `NaN` pour *Not a Number*. La raison en est simple : dans le fichier de départ, la première variable n’est pas nommée afin d’indiquer qu’il s’agit de la colonne d’index des observations. Or, comme on s’attend à trouver une donnée numérique, Python la considère comme une aberration.

Pour passer outre, utilisez le paramètre `skiprows` :

In [None]:
df = pd.read_csv('./data/arrests.csv', header=None, skiprows=1)
df.head()

Il reste à rétablir l’en-tête en transmettant vos étiquettes personnalisées au paramètre `names` :

In [None]:
names = ['Relâché', 'Année', 'Âge', 'Genre', 'En activité', 'Torontois', 'Citations']
df = pd.read_csv('./data/arrests.csv', header=None, skiprows=1, names=names)
df.head()

La première colonne est de nouveau la colonne d’index. Si l’on avait voulu parvenir au même résultat tout en conservant l’en-tête original, il aurait simplement fallu lui renseigner la colonne servant d’index avec le paramère `index_col` :

In [None]:
df = pd.read_csv('./data/arrests.csv', index_col=[0])
df.head()

## Convertir des données

Toute série de données exprimée par une variable statistique est réputée contenir un même type de données au sein d’un vecteur. Pour connaître le type des différents vecteurs, on peut interroger la propriété `dtypes` du *data frame* :

In [None]:
df = pd.read_csv('./data/arrests.csv', index_col=[0])
df.dtypes

Notons qu’il est possible de paramétrer les types des différents vecteurs dès la construction du *data frame* avec l’option `dtype` :

In [None]:
df = pd.read_csv('./data/arrests.csv', index_col=[0], dtype={'year': int})
df.dtypes

Comme il est plus facile de manipuler des nombres dans un *data frame*, une opération préléminaire à toute analyse de données consiste souvent à transformer au maximum les séries en vecteurs numériques. C’est par exemple possible en transmettant un dictionnaire d’équivalences à la méthode `replace()` :

In [None]:
translations = {
    'Yes': 1,
    'No': 0,
    'Male': 0,
    'Female': 1
}
df.replace(translations, inplace=True)

Par cette simple opération, notre tableau de données n’utilise désormais que des vecteurs numériques. Il est possible de s’en assurer rapidement :

In [None]:
df.dtypes

Un point d’optimisation encore plus important consiste à identifier les variables binaires qui profiteraient d’être converties en variables booléennes. C’est le cas des variables `released`, `employed` et `citizen` :

In [None]:
cols = ['released', 'employed', 'citizen']

translations = {
    0: False,
    1: True
}

[
    df[col].replace(translations, inplace=True)
    for col in cols
]
df.head()

Avant de définir des conversions, il est prudent de bien s’assurer des différentes valeurs contenues dans une série avec la méthode `unique()` :

In [None]:
df = pd.read_csv('./data/arrests.csv', index_col=[0])

print(
    f"released ==> { df['released'].unique() }",
    f"sex      ==> { df['sex'].unique() }",
    f"employed ==> { df['employed'].unique() }",
    f"citizen  ==> { df['citizen'].unique() }",
    sep="\n"
)

In [None]:
cols = ['released', 'sex', 'employed', 'citizen']

translations = {
    'No': False,
    'Yes': True,
    'Male': 'M',
    'Female': 'F'
}

[
    df[col].replace(translations, inplace=True)
    for col in cols
]

df.head()

## Sélectionner des données

### Sélectionner une série entière

L’opération la plus simple consiste à nommer la série à sélectionner :

In [None]:
df['checks']

Des contraintes peuvent être appliquées à la sélection des données :

In [None]:
# nb checks of persons who live outside Toronto only
df['checks'][df['citizen'] == False]

### Sélectionner des observations

Le *slicing* permet de sélectionner des observations à l'intérieur du *data frame* :

In [None]:
df[:3]

Tout comme il est possible de limiter à une série particulière :

In [None]:
df['sex'][:3]

Pour appliquer ces restrictions à plusieurs séries, il existe une propriété `loc` qui prend deux paramètres : une *slice* et une liste de séries :

In [None]:
df.loc[:3, ['released', 'employed', 'citizen']]

### Appliquer des filtres sur les sélections

De multiples conditions peuvent s'appliquer sur les séries pour filtrer les données. Si par exemple on voulait ne retenir que l’âge et le nombre de citations des hommes de Toronto interpellés depuis 2000, on traduirait l’énoncé ainsi :

In [None]:
df.loc[:, ['age', 'checks']][(df['sex'] == 'M') & (df['citizen'] == 1) & (df['year'] >= 2000)]

Les opérateurs de comparaison classiques (`==` `>` `<=`…) ainsi que les opérateurs *bitwise* `&` `|` `~` peuvent être utilisés.

## Décrire les données

La librairie *Pandas* fournit un ensemble de méthodes pour décrire les données. La première d’entre elles, `info()` affiche un résumé du *data frame* (nom des variables, présence de valeurs nulles, nombre d’observations) :

In [None]:
df.info()

La méthode `describe()` fournit quant à elle un aperçu des vecteurs numériques grâce à quelques statistiques :

In [None]:
df.describe()

Grâce à un sélecteur, il est possible de restreindre à une série :

In [None]:
print(
    df['employed'].describe(),
    df['checks'].describe(),
    sep="\n\n"
)

De nombreuses opérations statistiques peuvent être ensuite résolues avec les méthodes embarquées par la librairie :

In [None]:
# max
print(df['age'].max())

# min
print(df['age'].min())

# standard deviation
print(df['age'].std())

# average
print(df['age'].mean())