# Un peu de traitement de données et de statistiques avec pandas

Nous allons utiliser des données publiées par l'Insee pour illustrer l'utilisation du paquet `pandas`.

Nous allons travailler sur le recensement de la population française sur plusieurs années. Pour réduire la taille des fichiers, nous allons travailler plus particulièrement sur le fichier **POP1A – Population par sexe et âge regroupé**. Nous allons travailler sur les données des années [2018](https://www.insee.fr/fr/statistiques/5395878), [2019](https://www.insee.fr/fr/statistiques/6456157) et [2020](https://www.insee.fr/fr/statistiques/7631680).

Nous allons d'abord lire les données. Ensuite, nous allons effectuer quelques vérifications sur les données. Enfin, nous montrerons comment répondre facilement à des questions portant sur ces données.

In [2]:
import numpy as np
import pandas as pd

## 1. Lecture des données

La fonction [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) permet aussi de lire des données à partir d'une URL (en téléchargeant automatiquement le fichier correspondant), ce qui nécessite une connexion internet :

* Si vous travaillez en local, vous devriez pouvoir exécuter le faire directement.

* **Si vous travaillez sur Onyxia, le téléchargement est bloqué**.
Vous devez télécharger les fichiers et les mettre dans votre espace de travail en les *glissant-déposant*.
Vous pouvez cliquer sur les liens suivants pour télécharger les fichiers : [2018](https://www.insee.fr/fr/statistiques/fichier/5395878/BTT_TD_POP1A_2018.zip), [2019](https://www.insee.fr/fr/statistiques/fichier/6456157/BTT_TD_POP1A_2019.zip), [2020](https://www.insee.fr/fr/statistiques/fichier/7631680/TD_POP1A_2020_csv.zip).
Vous n'avez pas besoin de décompresser les fichiers, la fonction `pandas.read_csv()` pouvant lire des fichiers compressés.
Il faut ensuite donner le (chemin et le) nom du fichier en argument de la fonction [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).


In [76]:
try:
    df_2018 = pd.read_csv(
        'https://www.insee.fr/fr/statistiques/fichier/5395878/BTT_TD_POP1A_2018.zip',
        sep=';', low_memory=False
    )
    df_2019 = pd.read_csv(
        'https://www.insee.fr/fr/statistiques/fichier/6456157/BTT_TD_POP1A_2019.zip',
        sep=';', low_memory=False
    )
    df_2020 = pd.read_csv(
        'https://www.insee.fr/fr/statistiques/fichier/7631680/TD_POP1A_2020_csv.zip',
        sep=';', low_memory=False
    )

except:
    df_2018 = pd.read_csv('BTT_TD_POP1A_2018.zip', sep=';', low_memory=False)
    df_2019 = pd.read_csv('BTT_TD_POP1A_2019.zip', sep=';', low_memory=False)
    df_2020 = pd.read_csv('TD_POP1A_2020_csv.zip', sep=';', low_memory=False)

Si vous travaillez sur Onyxia, le téléchargement est bloqué.
Vous devez télécharger les fichiers (en copiant et collant les URL dans un navigateur puis en y accédant) et les mettre dans votre espace de travail (en cliquant puis en déplaçant les fichiers).
Il faut ensuite donner le (chemin et le) nom du fichier en argument de la fonction [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

Affichons un aperçu des données :

In [77]:
df_2018

Unnamed: 0,NIVGEO,CODGEO,LIBGEO,SEXE,AGEPYR10,NB
0,ARM,13201,Marseille 1er Arrondissement,1,0,825.531203
1,ARM,13201,Marseille 1er Arrondissement,1,3,662.466997
2,ARM,13201,Marseille 1er Arrondissement,1,6,940.259879
3,ARM,13201,Marseille 1er Arrondissement,1,11,1252.984774
4,ARM,13201,Marseille 1er Arrondissement,1,18,2256.054487
...,...,...,...,...,...,...
699855,COM,97424,Cilaos,2,25,494.194190
699856,COM,97424,Cilaos,2,40,608.508276
699857,COM,97424,Cilaos,2,55,299.685545
699858,COM,97424,Cilaos,2,65,316.034176


In [78]:
df_2019

Unnamed: 0,NIVGEO,CODGEO,LIBGEO,SEXE,AGEPYR10,NB
0,COM,01001,L'Abergement-Clémenciat,1,0,14.812696
1,COM,01001,L'Abergement-Clémenciat,2,0,13.905300
2,COM,01001,L'Abergement-Clémenciat,1,3,10.848150
3,COM,01001,L'Abergement-Clémenciat,2,3,6.856037
4,COM,01001,L'Abergement-Clémenciat,1,6,23.655840
...,...,...,...,...,...,...
680932,COM,97424,Cilaos,2,55,307.112098
680933,COM,97424,Cilaos,1,65,237.039980
680934,COM,97424,Cilaos,2,65,323.877403
680935,COM,97424,Cilaos,1,80,54.350283


In [79]:
df_2020

Unnamed: 0,NIVGEO,CODGEO,LIBGEO,SEXE,AGEPYR10,NB
0,COM,01001,L'Abergement-Clémenciat,1,0,18.070033
1,COM,01001,L'Abergement-Clémenciat,2,0,13.414280
2,COM,01001,L'Abergement-Clémenciat,1,3,14.402520
3,COM,01001,L'Abergement-Clémenciat,2,3,12.509227
4,COM,01001,L'Abergement-Clémenciat,1,6,34.539704
...,...,...,...,...,...,...
680208,COM,97424,Cilaos,2,55,313.763593
680209,COM,97424,Cilaos,1,65,242.255241
680210,COM,97424,Cilaos,2,65,330.941330
680211,COM,97424,Cilaos,1,80,55.452307


Chaque jeu de données est constitué de 6 colonnes :

* `NIVGEO` correspond au niveau géographique. Deux valeurs sont possibles : `COM` pour commune et `ARM` pour arrondissement.
* `CODGEO` correspond au code géographique. **Attention : le code géographique est le code Insee, qui peut être différent du code postal.**
* `LIBGEO` correspond au libellé géopgraphique.
* `SEXE` correspond au sexe : `1` pour les hommes et `2` pour les femmes.
* `AGEPYR10` correspond à la tranche d'âge. Il y a 10 tranches d'âge :
    * `0` : moins de 3 ans
    * `3` : 3 à 5 ans
    * `6` : 6 à 10 ans
    * `11` : 11 à 17 ans
    * `18` : 18 à 24 ans
    * `25` : 25 à 39 ans
    * `40` : 40 à 54 ans
    * `55` : 55 à 64 ans
    * `65` : 65 à 79 ans
    * `80` : 80 ans ou plus
* `NB` correspond à la taille de la population

## 2. Prétraitement des données

Avant d'analyser les données, effectuons quelques vérifications.

**Question 1 : Y a-t-il des données manquantes ?**

In [80]:
df_2018.isna().any().any()
df_2019.isna().any().any()
df_2020.isna().any().any()


np.False_

**Question 2 : Remplacez, dans les trois objets `pandas.DataFrame`, les valeurs de la colonne `SEXE` par des chaînes de caractères indiquant explicitement le sexe.**

In [81]:
for df in (df_2018, df_2019, df_2020):
    df['SEXE'] = df['SEXE'].map({1: "Homme", 2: "Femme"})

df_2019

Unnamed: 0,NIVGEO,CODGEO,LIBGEO,SEXE,AGEPYR10,NB
0,COM,01001,L'Abergement-Clémenciat,Homme,0,14.812696
1,COM,01001,L'Abergement-Clémenciat,Femme,0,13.905300
2,COM,01001,L'Abergement-Clémenciat,Homme,3,10.848150
3,COM,01001,L'Abergement-Clémenciat,Femme,3,6.856037
4,COM,01001,L'Abergement-Clémenciat,Homme,6,23.655840
...,...,...,...,...,...,...
680932,COM,97424,Cilaos,Femme,55,307.112098
680933,COM,97424,Cilaos,Homme,65,237.039980
680934,COM,97424,Cilaos,Femme,65,323.877403
680935,COM,97424,Cilaos,Homme,80,54.350283


**Question 3 : Remplacez, dans les trois objets `pandas.DataFrame`, les valeurs de la colonne `AGEPYR10` par des chaînes de caractères indiquant la tranche d'âge.** Par exemple, remplacez l'entier `0` par la chaîne de caractères `"0-2"`, l'entier `3` par la chaîne de caractères `"3-5"`, etc.

In [82]:
for df in (df_2018, df_2019, df_2020):
    df['AGEPYR10'] = df['AGEPYR10'].map({0 : "0-2", 3 : "3-5", 6 : "6-10", 11 : "11-17", 18 : "18-24", 25 : "25-39",
                                         40 : "40-54", 55 : "55-64", 65 : "65-79", 80 : "80+"})

df_2018

Unnamed: 0,NIVGEO,CODGEO,LIBGEO,SEXE,AGEPYR10,NB
0,ARM,13201,Marseille 1er Arrondissement,Homme,0-2,825.531203
1,ARM,13201,Marseille 1er Arrondissement,Homme,3-5,662.466997
2,ARM,13201,Marseille 1er Arrondissement,Homme,6-10,940.259879
3,ARM,13201,Marseille 1er Arrondissement,Homme,11-17,1252.984774
4,ARM,13201,Marseille 1er Arrondissement,Homme,18-24,2256.054487
...,...,...,...,...,...,...
699855,COM,97424,Cilaos,Femme,25-39,494.194190
699856,COM,97424,Cilaos,Femme,40-54,608.508276
699857,COM,97424,Cilaos,Femme,55-64,299.685545
699858,COM,97424,Cilaos,Femme,65-79,316.034176


[D'après l'Insee, au 1er janvier 2019, la France comptait 66 993 000 habitants](https://www.insee.fr/fr/statistiques/3692693). 

**Question 4 : Quelle est la population en 2019 d'après le jeu de données ?**

In [85]:
print(f"{round(df_2019['NB'].sum()):,}".replace(',', ' '))

70 547 526


L'écart est supérieur à 3 millions, il doit y avoir un problème quelque part...

**Question 5 : Calculez la population à Paris en 2019 en prenant en compte tous les codes géographiques commençant par 75.**

In [96]:
print(f"{round(df_2019.CODGEO.str.startswith('75')['NB'].sum()):,}".replace(',', ' '))

KeyError: 'NB'

**Question 6 : Comparez le nombre obtenu avec le nombre d'habitants à Paris au 1er janvier 2019** (disponible à la première ligne de la Figure 1 sur [cette page](https://www.insee.fr/fr/statistiques/6011965)). **Quelle est la conclusion ?**

In [None]:
# TODO

**Question 7 : Affichez les codes géographiques commençant par 75.** Vous pouvez aller sur [cette page](https://www.insee.fr/fr/metadonnees/geographie/departement/75-paris) pour obtenir la signification des codes géographiques du département de Paris.

In [None]:
# TODO

**Question 8 : Comparez la population, par sexe et tranche d'âge, pour (1) la commune de Paris (75056) et (2) l'ensemble des arrondissements de Paris (75101 - 75120).** Effectuez une comparaison visuelle, puis une comparaison informatique avec par exemple la fonction [`numpy.allclose()`](https://numpy.org/doc/stable/reference/generated/numpy.allclose.html).

In [None]:
# TODO

**Question 9 : Comparez les niveaux géographiques pour les codes géographiques commençant par 75.**

In [None]:
# TODO

**Question 10 : Déterminez les communes pour lesquelles les données sont disponibles au niveau des arrondissements.**

In [None]:
# TODO

**Question 11 : Calculez la population en ne gardant que les observations au niveau des communes. Comparez ce nombre avec [celui de 66 993 000 habitants rapporté par l'Insee](https://www.insee.fr/fr/statistiques/3692693).**

In [None]:
# TODO

**Question 12 : Par la suite, nous allons travailler au niveau des communes. Supprimez les observations au niveau des arrondissements dans les trois objets `pandas.DataFrame`.**

In [None]:
# TODO

## 3. Questions diverses

**Question 13 : Quelle est la population de la commune de Paris en 2018 ?**

In [None]:
# TODO

**Question 14 : Est-ce que la population de la ville de Paris a diminué entre 2018 et 2020 ?**

In [None]:
# TODO

**Question 15 : Y avait-il davantage de personnes de sexe féminin que masculin en 2019 en France ?**

In [None]:
# TODO

**Question 16 : Quelle était la tranche d'âge la plus fréquente en France en 2020.**

In [None]:
# TODO

**Question 17 : Affichez la distribution des tranches d'âge en France en 2018.**

In [None]:
# TODO

**Question 18 : Affichez la distribution des tranches d'âge en France en 2018, 2019 et 2020 sur la même figure, sans passer par `matplotlib`.**

In [None]:
# TODO

**Question 19 : Quelle commune avait la population de 80 ans ou plus la plus grande en 2018 ?**

In [None]:
# TODO

**Question 20 : Quelle commune avait, en proportion, la population de 80 ans ou plus la plus grande en 2018 ?**

In [None]:
# TODO

**Question 21 : Quelle était la taille médiane d'une commune française en 2019 ?**

In [None]:
# TODO

**Question 22 : Quelles communes faisaient exactement la taille de la taille médiane d'une commune française en 2019 ?**

In [None]:
# TODO

**Question 23 : Quel était le pourcentage de mineurs en 2020 ?**

In [None]:
# TODO

**Question 24 : Quelles communes présentes dans la base de données de 2019 sont absentes de la base de données 2018 ?**

In [None]:
# TODO