# Statistiques descriptives

Les statistiques descriptives s’attachent à décrire un jeu de données en fournissant quelques indicateurs qui résument les tendances mesurées.

## Description du jeu de données

Le fichier [*arrests.csv*](../data/arrests.csv) est issu du package R carData (*Companion to Applied Regression Data Sets*). Il recense les personnes arrêtées à Toronto en possession d’une petite quantité de marijuana. L’enquête est constituée de sept variables aléatoires :

|Variable|Description|Type|
|:-:|:-|:-:|
|*released*|Facteur à deux niveaux pour distinguer les personnes relâchées avec une convocation (*Yes*) ou arrêtées sur place (*No*).|qualitative binaire|
|*year*|Vecteur numérique pour l’année de l’arrestation. De 1997 à 2002.|qualitative ordonnée|
|*age*|Vecteur numérique pour l’âge, en nombre d’années.|quantitative continue|
|*sex*|Facteurs à deux niveaux pour le sexe de l’individu : *Male* ou *Female*.|qualitative binaire|
|*employed*|Facteur à deux niveaux : l’individu a-t-il une activité professionnelle (*Yes*) ou non (*No*).|qualitative binaire|
|*citizen*|Facteur à deux niveaux pour qualifier les résidents de Toronto (*Yes*) et les autres (*No*).|qualitative binaire|
|*checks*|Vecteur numérique (0 à 6) qui recense le nombre d’apparitions de l’individu sur les bases de données de la police (arrestations, condamnations antérieures, libération conditionnelle…).|quantitative continue|

## Quelques mesures de position

En vous servant de la bibliothèque *Pandas*, répondez aux questions suivantes :

1. Quel est l’âge de la plus jeune interpellée ?
2. Quel est l’âge moyen des femmes interpellées ?
3. Chez les plus de 30 ans, les hommes interpellés sont-ils plus souvent cités que les femmes dans les bases de données de la police ?
4. D’après le mode, les personnes sans emploi sont-elles les plus représentées parmi les personnes interpellées ?
5. Donnez les valeurs des trois quartiles de l’âge des interpellé·es.
6. Déterminez les deux premiers et les deux derniers déciles de l’âge des interpellé·es.
7. Parmi les femmes interpellées, combien repartent avec une convocation ? Quid des hommes ?
8. Quelle est la proportion de Torontois par rapport aux non-Torontois ?
9. Et qu’en est-il de la proportion de Torontois et de non-Torontois emmenés au poste par rapport à ceux qui repartent avec seulement une convocation ?
10. À présent, comparez le traitement des mineurs Torontois et des non-Torontois. Ces derniers sont-ils plus souvent relâchés que les premiers ?

In [None]:
# your code here

import pandas as pd

df = pd.read_csv('../data/arrests.csv', index_col=[0])

# 1
mask = df.sex == 'Female'
df[mask].age.min()

# 2
mask = df.sex == 'Female'
df[mask].age.mean()

# 3
mask = df.age > 30
df[mask].groupby('sex').checks.mean()

# 4
df.employed.mode()

# 5
Q1 = df.age.quantile(0.25)
Q2 = df.age.median()
Q3 = df.age.quantile(0.75)

# 6
D1 = df.age.quantile(0.10)
D2 = df.age.quantile(0.20)
D9 = df.age.quantile(0.90)
D10 = df.age.quantile(0.100)

# 7
mask = df.released == "Yes"
df[mask].groupby('sex').size()

# 8
df.citizen.value_counts(normalize=True) * 100

# 9
counts = df.groupby(['citizen', 'released']).size()
counts.groupby(level=0).apply(lambda x: 100 * x / x.sum())

# 10
mask = df['age'] < 18
df[mask].groupby(['citizen', 'released']).size().groupby(level=0).apply(lambda x: 100 * x / x.sum())

## Quelques mesures de dispersion

1. Quels sont la variance et l’écart-type de l’âge des personnes interpellées ?
2. Quelle est l’étendue (valeurs minimale et maximale) du nombre de fois où les personnes apparaissent dans les bases de données de la police ?
3. Quel est l’écart interquartile (IQR) de l’âge des personnes interpellées ?
4. Quelle est la distribution (écart-type et coefficient de variation) du nombre de fois où les individus sans emploi sont arrêtés par rapport à ceux qui ont un emploi ?

In [None]:
# your code here

# 1
df.age.var()
df.age.std()

# 2
f"[{df.checks.min()}-{df.checks.max()}]"

# 3
df.age.quantile(0.75) - df.age.quantile(0.25)

# 4
checks_employed = df.groupby('employed')['checks'].agg(['std', 'mean'])
checks_employed['cv'] = checks_employed['std'] / checks_employed['mean'] * 100
print(checks_employed)

## Analyse des tendances

L’objectif est maintenant d’analyser les tendances des arrestations sur les années en fonction des groupes démographiques. Montrez comment la fréquence des arrestations varie selon le sexe et le statut de citoyen. Visualisez les tendances temporelles et identifiez si des groupes démographiques spécifiques ont davantage tendance à être arrêtées.

In [None]:
# your code here

