## Création de fichiers de référence pour le nombre de décès et de crémations moyen sur une année, le nombre d'habitants, avec les niveaux de granularité suivants : région, département, commune, ainsi que la présence d'un crématoire

In [1]:
import warnings
warnings.filterwarnings("ignore")

### On importe le package pandas :

In [2]:
import pandas as pd

## Table de référence INSEE et table des décès

### On charge la table de référence géographique INSEE :

In [3]:
table_insee = pd.read_csv(r'C:\Users\Nicolas et Maëva\Desktop\Projets DataSpell\DataBird\Projet_final\table-appartenance-geo-communes-23-nettoyé.csv')

table_insee

Unnamed: 0,CODGEO,LIBGEO,DEP,REG,EPCI,NATURE_EPCI,ARR,CV,ZE2020,UU2020,TUU2017,TDUU2017,AAV2020,TAAV2017,TDAAV2017,CATEAAV2020,BV2022
0,01001,L'Abergement-Clémenciat,01,84,200069193,CC,012,0108,8405,01000,0,0,524,1,11,20,01093
1,01002,L'Abergement-de-Varey,01,84,240100883,CC,011,0101,8405,01000,0,0,000,0,0,30,01004
2,01004,Ambérieu-en-Bugey,01,84,240100883,CC,011,0101,8405,01303,3,32,243,1,14,11,01004
3,01005,Ambérieux-en-Dombes,01,84,200042497,CC,012,0122,8434,01000,0,0,002,4,42,20,01333
4,01006,Ambléon,01,84,200040350,CC,011,0104,8404,01000,0,0,286,1,13,20,01034
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
34940,97613,M'Tsangamouji,976,6,200059871,CC,ZZZZ,97613,601,9F204,2,21,9F1,3,31,20,97611
34941,97614,Ouangani,976,6,200059871,CC,ZZZZ,97610,601,9F301,3,31,9F1,3,31,20,97611
34942,97615,Pamandzi,976,6,200050532,CC,ZZZZ,97611,601,9F401,4,42,9F1,3,31,20,97608
34943,97616,Sada,976,6,200059871,CC,ZZZZ,97612,601,9F303,3,31,9F1,3,31,20,97611


### On charge la table INSEE répertoriant tous les décès 2022-2023 :

In [4]:
table_deces = pd.read_csv(r'C:\Users\Nicolas et Maëva\Desktop\Projets DataSpell\DataBird\Projet_final\décès_2022-2023.csv',
                          sep=';')
table_deces

Unnamed: 0,ADEC,MDEC,JDEC,DEPDEC,COMDEC,ANAIS,MNAIS,JNAIS,SEXE,COMDOM,LIEUDEC2
0,2022,1,1,01,01004,1927,10.0,29.0,F,01384,HopCli
1,2022,1,1,01,01004,1947,8.0,31.0,F,01041,HopCli
2,2022,1,1,01,01032,1929,1.0,5.0,F,01151,HosMar
3,2022,1,1,01,01034,1931,7.0,3.0,F,01034,HopCli
4,2022,1,1,01,01093,1931,3.0,5.0,F,01093,Logem
...,...,...,...,...,...,...,...,...,...,...,...
1087363,2023,8,28,974,97416,1938,9.0,11.0,F,97416,nd
1087364,2023,8,28,974,97416,1959,7.0,21.0,M,97420,nd
1087365,2023,8,28,974,97422,1936,5.0,12.0,F,97412,nd
1087366,2023,8,28,976,97608,1951,12.0,31.0,F,97608,nd


### Inspectons l'état des tables :

In [5]:
table_insee.isnull().sum()

CODGEO         0
LIBGEO         0
DEP            0
REG            0
EPCI           0
NATURE_EPCI    0
ARR            0
CV             0
ZE2020         0
UU2020         0
TUU2017        0
TDUU2017       0
AAV2020        0
TAAV2017       0
TDAAV2017      0
CATEAAV2020    0
BV2022         0
dtype: int64

In [6]:
table_deces.isnull().sum()

ADEC           0
MDEC           0
JDEC           0
DEPDEC         0
COMDEC         0
ANAIS          0
MNAIS       5280
JNAIS       5799
SEXE           0
COMDOM         4
LIEUDEC2       0
dtype: int64

### Nous avons plusieurs actions à réaliser : 
- éliminer les colonnes inutiles à notre analyse
- éliminer les valeurs manquantes dans la colonne COMDOM, qui représente la commune de domicile et est essentielle à notre analyse
- ne garder que les décès de l'année 2022 (analyse réalisée en 2023, les données 2023 sont donc incomplètes)

In [7]:
table_insee.drop(columns=['EPCI', 'NATURE_EPCI', 'ARR', 'CV', 'ZE2020', 'UU2020', 'TUU2017', 'TDUU2017', 'AAV2020', 'TAAV2017',
                          'TDAAV2017', 'CATEAAV2020', 'BV2022'], 
                 inplace=True)

table_insee.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34945 entries, 0 to 34944
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   CODGEO  34945 non-null  object
 1   LIBGEO  34945 non-null  object
 2   DEP     34945 non-null  object
 3   REG     34945 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 1.1+ MB


In [8]:
table_deces.dropna(subset='COMDOM', 
                   inplace=True)

table_deces.isna().sum()

ADEC           0
MDEC           0
JDEC           0
DEPDEC         0
COMDEC         0
ANAIS          0
MNAIS       5280
JNAIS       5799
SEXE           0
COMDOM         0
LIEUDEC2       0
dtype: int64

In [9]:
table_deces_2022 = table_deces[table_deces['ADEC'] == 2022]

table_deces_2022

Unnamed: 0,ADEC,MDEC,JDEC,DEPDEC,COMDEC,ANAIS,MNAIS,JNAIS,SEXE,COMDOM,LIEUDEC2
0,2022,1,1,01,01004,1927,10.0,29.0,F,01384,HopCli
1,2022,1,1,01,01004,1947,8.0,31.0,F,01041,HopCli
2,2022,1,1,01,01032,1929,1.0,5.0,F,01151,HosMar
3,2022,1,1,01,01034,1931,7.0,3.0,F,01034,HopCli
4,2022,1,1,01,01093,1931,3.0,5.0,F,01093,Logem
...,...,...,...,...,...,...,...,...,...,...,...
675225,2022,12,31,974,97422,1930,11.0,18.0,F,97422,nd
675226,2022,12,31,976,97610,1958,3.0,3.0,F,97610,nd
675227,2022,12,31,976,97610,1971,,,F,97610,nd
675228,2022,12,31,976,97613,1931,12.0,31.0,M,97613,nd


In [10]:
table_deces_2022.drop(columns=['MDEC', 'JDEC', 'ANAIS', 'MNAIS', 'JNAIS', 'SEXE', 'LIEUDEC2', 'COMDEC'],
                 inplace=True)

table_deces_2022.info()

<class 'pandas.core.frame.DataFrame'>
Index: 675228 entries, 0 to 675229
Data columns (total 3 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   ADEC    675228 non-null  int64 
 1   DEPDEC  675228 non-null  object
 2   COMDOM  675228 non-null  object
dtypes: int64(1), object(2)
memory usage: 20.6+ MB


## Table répertoriant les crématoriums et projets de crématorium et table du dernier recensement

In [11]:
table_infrastructures = pd.read_csv(r'C:\Users\Nicolas et Maëva\Desktop\Projets DataSpell\DataBird\Projet_final\Infrastructures_v2_202309251942.csv')
table_infrastructures

Unnamed: 0,num,LOCALISATION,code_INSEE,x,y,Annee,STATUT,CREMATIONS
0,1,Blyes,01047,45.848175,5.248086,2019,Projet,
1,1,Viriat,01451,46.224630,5.205909,2019,Existant,1051.0
2,2,Holnon,02382,49.854750,3.204060,2019,Existant,645.0
3,2,Tergnier,02738,49.658066,3.319068,2019,Existant,440.0
4,3,Montluçon,03185,46.368637,2.574050,2019,Existant,827.0
...,...,...,...,...,...,...,...,...
802,95,Saint-Ouen-l'Aumône,95572,,,2021,Existant,
803,971,Morne-à-l'Eau,97116,,,2021,Existant,
804,972,Fort-de-France,97209,,,2021,Existant,
805,974,Saint-Denis,97411,,,2021,Existant,


In [12]:
table_recensement = pd.read_csv(r'C:\Users\Nicolas et Maëva\Desktop\Projets DataSpell\DataBird\Projet_final\base-pop-historiques-1876-2020.csv', header=5)
table_recensement

Unnamed: 0,CODGEO,REG,DEP,LIBGEO,PMUN20,PMUN19,PMUN18,PMUN17,PMUN16,PMUN15,...,PTOT1926,PTOT1921,PTOT1911,PTOT1906,PTOT1901,PTOT1896,PTOT1891,PTOT1886,PTOT1881,PTOT1876
0,01001,84,01,L' Abergement-Clémenciat,806,779,771,776,767,767,...,543.0,566.0,560.0,629.0,637.0,572.0,594.0,622.0,605.0,604.0
1,01002,84,01,L' Abergement-de-Varey,262,256,253,248,243,241,...,253.0,256.0,291.0,323.0,357.0,391.0,421.0,486.0,490.0,484.0
2,01004,84,01,Ambérieu-en-Bugey,14288,14134,14204,14035,14081,14127,...,5705.0,4796.0,4334.0,4100.0,4023.0,3548.0,3635.0,3618.0,3396.0,3427.0
3,01005,84,01,Ambérieux-en-Dombes,1782,1751,1720,1689,1671,1619,...,690.0,698.0,805.0,805.0,835.0,852.0,862.0,882.0,879.0,848.0
4,01006,84,01,Ambléon,113,112,112,111,110,109,...,161.0,150.0,159.0,193.0,200.0,206.0,200.0,200.0,213.0,191.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
34952,97420,4,974,Sainte-Suzanne,24086,24065,23718,23505,23224,23068,...,,,,,,,,,,
34953,97421,4,974,Salazie,7310,7136,7224,7312,7400,7384,...,,,,,,,,,,
34954,97422,4,974,Le Tampon,80778,79824,79385,78629,77283,76310,...,,,,,,,,,,
34955,97423,4,974,Les Trois-Bassins,6953,7015,7076,7139,7111,7127,...,,,,,,,,,,


### Commençons par la table_recensement, qui sera la plus simple à traiter:
- Ne garder que les colonnes CODGEO, et PMUN20, REG, DEP et LIBGEO étant déjà présents dans notre table de référence géographique

In [13]:
table_recensement.drop(columns=['REG', 'DEP', 'LIBGEO', 'PMUN06', 'PMUN07', 'PMUN08', 'PMUN09', 'PMUN10', 'PMUN11', 'PMUN12',
                                'PMUN13', 'PMUN14', 'PMUN15', 'PMUN16', 'PMUN17', 'PMUN18', 'PMUN19', 'PSDC62', 'PSDC68',
                                'PSDC75', 'PSDC82', 'PSDC90', 'PSDC99', 'PTOT36', 'PTOT54', 'PTOT1876', 'PTOT1881',
                                'PTOT1886', 'PTOT1891', 'PTOT1896', 'PTOT1901', 'PTOT1906', 'PTOT1911', 'PTOT1921', 'PTOT1926',
                                'PTOT1931'],
                       inplace=True)
table_recensement.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34957 entries, 0 to 34956
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   CODGEO  34957 non-null  object
 1   PMUN20  34957 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 546.3+ KB


### Pour la table_infrastructures, nous ne garderons que les colonnes code_INSEE (que nous renommerons CODGEO pour correspondre à la nomenclature INSEE), et STATUT. Nous filtrerons également sur l'année 2021 (données les plus récentes)

In [14]:
table_infrastructures = table_infrastructures[table_infrastructures['Annee'] == 2021]
table_infrastructures.drop(columns=['num', 'LOCALISATION', 'x', 'y', 'CREMATIONS',],
                           inplace=True)
table_infrastructures.rename(columns={'code_INSEE' : 'CODGEO'},
                             inplace=True)
table_infrastructures.info()

<class 'pandas.core.frame.DataFrame'>
Index: 269 entries, 538 to 806
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   CODGEO  269 non-null    object
 1   Annee   269 non-null    int64 
 2   STATUT  269 non-null    object
dtypes: int64(1), object(2)
memory usage: 8.4+ KB


## Maintenant, extrayons ces tables et menons notre analyse sur PowerBI :

In [15]:
table_deces_2022.to_csv(r'table_deces_2022.csv')
table_insee.to_csv(r'table_insee.csv')
table_infrastructures.to_csv(r'table_infrastructures.csv')
table_recensement.to_csv(r'table_recensement.csv')