# Pr√©vision de la mortalit√© (France, 2000‚Äì2022)

## Ce projet √©tudie la mortalit√© de la population fran√ßaise sur la p√©riode 2000‚Äì2022.

## I - Construction des donn√©es:

 Les donn√©es exploit√©es dans cette √©tude proviennent de la Human Mortality Database
 (https://www.mortality.org), plateforme sp√©cialis√©e dans la collecte et la diffusion de
 statistiques d√©mographiques longitudinales. Apr√®s inscription, nous avons pu acc√©der √† deux
 fichiers essentiels concernant la population fran√ßaise.

### 1 -  Pr√©traitement de la base des d√©c√®s (Death counts):

La premi√®re base t√©l√©charg√©e concerne le **nombre annuel de d√©c√®s** selon trois dimensions :

- **Year** : ann√©e civile *(t)*
- **Age** : √¢ge exact *(x)*, variant de **0** √† **100** ans
- **Sexe** : *(i = Female, Male)*, et **Total**

Apr√®s copie manuelle depuis la plateforme vers un **fichier texte** via *Notepad*, les donn√©es ont √©t√© import√©es dans **Excel**.  
Nous avons structur√© la base selon les variables suivantes :

- **Year** : ann√©e civile *(t)*
- **Age** : √¢ge exact *(x)*
- **D_F** : nombre de d√©c√®s **f√©minins**
- **D_H** : nombre de d√©c√®s **masculins**
- **D_Tot** : nombre de d√©c√®s **totaux**

Cette base couvre initialement la p√©riode **1860‚Äì2022**, mais nous avons restreint l‚Äô√©chantillon √† la p√©riode **2000‚Äì2022** pour des raisons de qualit√©, de modernit√© statistique et de pertinence actuarielle.


### 2 -  Pr√©traitement de la base des expositions (Exposure-to-risk)

La deuxi√®me base contient les **expositions au risque de d√©c√®s**, c‚Äôest-√†-dire le nombre moyen d‚Äôindividus vivants √† chaque √¢ge et pour chaque ann√©e.  
Les variables sont structur√©es de mani√®re identique :

- **Year** : ann√©e civile *(t)*
- **Age** : √¢ge exact *(x)*
- **E_F** : exposition **f√©minine**
- **E_H** : exposition **masculine**
- **E_Tot** : exposition **totale** (somme des deux sexes)

Les donn√©es ont √©t√© import√©es dans un second fichier Excel √† partir d‚Äôun fichier texte brut, suivant le m√™me protocole que pour les d√©c√®s.  
La p√©riode analys√©e est √©galement restreinte √† **2000‚Äì2022**.


### 3 - Fusion des deux bases

Les deux bases ont √©t√© fusionn√©es par **jointure interne** sur les cl√©s communes :

**Year = t**    et    **Age = x**

Le jeu de donn√©es final comporte donc les colonnes suivantes :

- **Year**, **Age**
- **E_F**, **E_H**, **E_Tot**
- **D_F**, **D_H**, **D_Tot**


### 4 - Construction des taux de mortalit√©

√Ä partir des donn√©es fusionn√©es, nous construisons les **taux de mortalit√© centraux** :

- **Par sexe** :

m(t, x, i) = D(t, x, i)\E(t, x, i) avec i dans F, H

- **Agr√©g√©** :

m(t, x) = D(t, x)\E(t, x)

Ces taux m_F, m_H et m_Tot constituent la base d‚Äôentr√©e pour notre √©tude.

In [13]:
import pandas as pd
import numpy as np
!pip install openpyxl


# 1. Chemin vers le fichier Excel (la "base jaune" fusionn√©e)
# üëâ adapte le chemin/nom selon ton projet
file_path = "Mortalite France .xlsx"

# 2. Importer les donn√©es
df = pd.read_excel(file_path)

# 3. Afficher l'ent√™te pour v√©rifier
print("Colonnes disponibles dans le fichier :")
print(df.columns.tolist())
print("\nAper√ßu des premi√®res lignes :")
print(df.head())

# 4. Harmoniser les noms de colonnes (si besoin)
#    On g√®re les cas 'Ann√©e' / 'Annee', etc.
df = df.rename(columns={
    "Ann√©e": "Year",
    "Annee": "Year",
    "annee": "Year",
    "AGE": "Age",
    "age": "Age"
})

# 5. S√©lectionner et ordonner les colonnes utiles
colonnes_attendues = ["Year", "Age", "E_F", "E_H", "E_Tot", "D_F", "D_H", "D_Tot"]

# V√©rification des colonnes manquantes
missing = [c for c in colonnes_attendues if c not in df.columns]
if missing:
    print("\n‚ö†Ô∏è Attention : colonnes manquantes dans le fichier :", missing)

# On ne garde que les colonnes existantes parmi celles attendues
colonnes_finales = [c for c in colonnes_attendues if c in df.columns]
df = df[colonnes_finales].copy()

# 6. Calcul des taux de mortalit√©
# m_F(t,x) = D_F(t,x) / E_F(t,x)
# m_H(t,x) = D_H(t,x) / E_H(t,x)
# m_Tot(t,x) = D_Tot(t,x) / E_Tot(t,x)
# On √©vite la division par z√©ro avec np.where

if {"D_F", "E_F"}.issubset(df.columns):
    df["m_F"] = np.where(df["E_F"] > 0, df["D_F"] / df["E_F"], np.nan)

if {"D_H", "E_H"}.issubset(df.columns):
    df["m_H"] = np.where(df["E_H"] > 0, df["D_H"] / df["E_H"], np.nan)

if {"D_Tot", "E_Tot"}.issubset(df.columns):
    df["m_Tot"] = np.where(df["E_Tot"] > 0, df["D_Tot"] / df["E_Tot"], np.nan)

# 7. Trier par ann√©e et √¢ge
if {"Year", "Age"}.issubset(df.columns):
    df = df.sort_values(["Year", "Age"]).reset_index(drop=True)

# 8. Afficher l'ent√™te de la base finale
pd.set_option("display.max_columns", None)
print("\nAper√ßu de la base finale avec les taux :")
print(df.head())
print("\nColonnes :", df.columns.tolist())

# 9. Sauvegarder la base propre (optionnel mais recommand√©)
output_excel = "mortalite_france_2000_2022_processed.xlsx"
output_csv = "mortalite_france_2000_2022_processed.csv"

df.to_excel(output_excel, index=False)
df.to_csv(output_csv, index=False)

print(f"\n‚úÖ Fichiers enregistr√©s :\n- {output_excel}\n- {output_csv}")


Colonnes disponibles dans le fichier :
['Annee', 'Age', 'E_F', 'E_H', 'E_Tot', 'D_F', 'D_H', 'D_Tot']

Aper√ßu des premi√®res lignes :
   Annee  Age        E_F        E_H      E_Tot   D_F   D_H  D_Tot
0   2000    0  362246.66  380982.78  743229.43  1425  1992   3417
1   2000    1  354288.33  371892.85  726181.18   149   158    307
2   2000    2  350344.21  368268.07  718612.28    69    96    165
3   2000    3  351312.27  370227.17  721539.45    57    82    139
4   2000    4  353345.34  371065.57  724410.91    46    65    111

Aper√ßu de la base finale avec les taux :
   Year  Age        E_F        E_H      E_Tot   D_F   D_H  D_Tot       m_F  \
0  2000    0  362246.66  380982.78  743229.43  1425  1992   3417  0.003934   
1  2000    1  354288.33  371892.85  726181.18   149   158    307  0.000421   
2  2000    2  350344.21  368268.07  718612.28    69    96    165  0.000197   
3  2000    3  351312.27  370227.17  721539.45    57    82    139  0.000162   
4  2000    4  353345.34  371065.57  

## II - Validation des donn√©es

### 1 - Qualit√© des donn√©es

Il est important de souligner que les fichiers extraits de la *Human Mortality Database* sont d√©j√† :

- **nettoy√©s** : pas de doublons, pas de formats incoh√©rents
- **coh√©rents** : les valeurs d‚Äôexposition et de d√©c√®s sont compatibles et correctement agr√©g√©es
- **fiables** : les estimations sont produites selon une m√©thodologie rigoureuse conforme aux normes d√©mographiques internationales

Aucune anomalie n‚Äôa √©t√© d√©tect√©e lors de l‚Äôimportation ni dans le traitement des variables,
ce qui rend la base directement exploitable pour des travaux de mod√©lisation.


### 2 - Validation finale de la base de donn√©es

In [14]:
import pandas as pd
import numpy as np

# 1. Charger la base finale (feuille "Mortality")
# üëâ adapte le chemin et le nom de fichier si besoin
file_path = "mortalite_france_2000_2022_processed.xlsx"

print("Aper√ßu des premi√®res lignes :")
print(df.head())

print("\nColonnes disponibles :")
print(df.columns.tolist())

# 2. Harmoniser les noms si n√©cessaire
df = df.rename(columns={
    "Ann√©e": "Annee",
    "Ann√©e ": "Annee",
    "Year": "Annee",
    "age": "Age",
    "E_H": "E_M"   # si tu utilises E_H dans le fichier, on le renomme en E_M pour √™tre coh√©rent avec le texte
})

# 3. V√©rifier la p√©riode temporelle et la plage d‚Äô√¢ges
annee_min, annee_max = df["Annee"].min(), df["Annee"].max()
age_min, age_max = df["Age"].min(), df["Age"].max()

print(f"\nP√©riode couverte : {annee_min} ‚Äì {annee_max}")
print(f"Plage d'√¢ges couverte : {age_min} ‚Äì {age_max}")

# 4. V√©rifier unicit√© (Annee, Age)
nb_lignes = len(df)
nb_uniques = df[["Annee", "Age"]].drop_duplicates().shape[0]
print(f"\nNombre total de lignes : {nb_lignes}")
print(f"Nombre de couples (Annee, Age) uniques : {nb_uniques}")

if nb_lignes == nb_uniques:
    print("‚úÖ Chaque ligne correspond √† une combinaison unique (Annee, Age).")
else:
    print("‚ö†Ô∏è Des doublons existent sur (Annee, Age). √Ä v√©rifier.")

# 5. V√©rifier √©galit√©s d‚Äôagr√©gation
checks = {}

if {"E_F", "E_M", "E_Tot"}.issubset(df.columns):
    diff_E = (df["E_Tot"] - (df["E_F"] + df["E_M"])).abs().max()
    checks["E_Tot = E_F + E_M (max √©cart)"] = diff_E

if {"D_F", "D_H", "D_Tot"}.issubset(df.columns):
    diff_D = (df["D_Tot"] - (df["D_F"] + df["D_H"])).abs().max()
    checks["D_Tot = D_F + D_H (max √©cart)"] = diff_D

print("\nV√©rification des √©galit√©s d'agr√©gation :")
for k, v in checks.items():
    print(f"- {k} : {v}")

# 6. V√©rifier absence de valeurs manquantes
na_counts = df.isna().sum()
print("\nNombre de valeurs manquantes par colonne :")
print(na_counts)

# 7. V√©rifier la coh√©rence des types et la positivit√©
print("\nTypes des colonnes :")
print(df.dtypes)

# Variables cens√©es √™tre enti√®res
int_vars = ["Annee", "Age", "D_F", "D_H", "D_Tot"]
for col in int_vars:
    if col in df.columns:
        non_int = ((df[col] % 1) != 0).sum()
        print(f"\n{col} : {non_int} valeurs non enti√®res d√©tect√©es.")

# Variables cens√©es √™tre positives
pos_vars = ["E_F", "E_M", "E_Tot", "m_F", "m_H", "m_Tot"]
for col in pos_vars:
    if col in df.columns:
        min_val = df[col].min()
        print(f"{col} : min = {min_val}")

# 8. Petit r√©sum√© automatique
print("\nüìå R√©sum√© :")
if (annee_min == 2000) and (annee_max == 2022):
    print("- P√©riode conforme : 2000‚Äì2022.")
else:
    print("- ‚ö†Ô∏è P√©riode diff√©rente de 2000‚Äì2022, √† v√©rifier.")

if (age_min == 0) and (age_max == 100):
    print("- Plage d‚Äô√¢ges conforme : 0‚Äì100 ans.")
else:
    print("- ‚ö†Ô∏è Plage d‚Äô√¢ges diff√©rente de 0‚Äì100 ans, √† v√©rifier.")

if df.isna().sum().sum() == 0:
    print("- Aucune valeur manquante d√©tect√©e.")
else:
    print("- ‚ö†Ô∏è Des valeurs manquantes existent, √† traiter.")

if checks:
    ok_agg = all(v == 0 for v in checks.values())
    if ok_agg:
        print("- √âgalit√©s d‚Äôagr√©gation (E_Tot, D_Tot) respect√©es.")
    else:
        print("- ‚ö†Ô∏è √âcarts dans les √©galit√©s d‚Äôagr√©gation, √† examiner.")

print("- La base est pr√™te pour la mod√©lisation (si tous les voyants sont au vert ci-dessus).")


Aper√ßu des premi√®res lignes :
   Year  Age        E_F        E_H      E_Tot   D_F   D_H  D_Tot       m_F  \
0  2000    0  362246.66  380982.78  743229.43  1425  1992   3417  0.003934   
1  2000    1  354288.33  371892.85  726181.18   149   158    307  0.000421   
2  2000    2  350344.21  368268.07  718612.28    69    96    165  0.000197   
3  2000    3  351312.27  370227.17  721539.45    57    82    139  0.000162   
4  2000    4  353345.34  371065.57  724410.91    46    65    111  0.000130   

        m_H     m_Tot  
0  0.005229  0.004598  
1  0.000425  0.000423  
2  0.000261  0.000230  
3  0.000221  0.000193  
4  0.000175  0.000153  

Colonnes disponibles :
['Year', 'Age', 'E_F', 'E_H', 'E_Tot', 'D_F', 'D_H', 'D_Tot', 'm_F', 'm_H', 'm_Tot']

P√©riode couverte : 2000 ‚Äì 2022
Plage d'√¢ges couverte : 0 ‚Äì 100

Nombre total de lignes : 2323
Nombre de couples (Annee, Age) uniques : 2323
‚úÖ Chaque ligne correspond √† une combinaison unique (Annee, Age).

V√©rification des √©galit√©s d

Apr√®s l‚Äôapplication des traitements d√©crits pr√©c√©demment, notamment le contr√¥le des ratios d‚Äôexposition et de d√©c√®s, une **v√©rification compl√®te de la coh√©rence des variables** a √©t√© effectu√©e.

Pour chaque variable de la base consolid√©e (*Year, Age, E_F, E_H, E_Tot, D_F, D_H, D_Tot, m_F, m_H, m_Tot*), nous avons v√©rifi√© que :

- les valeurs sont strictement positives ou nulles, sans valeurs aberrantes,
- les taux de mortalit√© restent logiques, compris dans l‚Äôintervalle \([0,1]\), et croissent de mani√®re r√©aliste avec l‚Äô√¢ge,
- les √©galit√©s d‚Äôagr√©gation sont respect√©es :

Aucune anomalie r√©siduelle n‚Äôa √©t√© d√©tect√©e √† ce stade.  
La base de donn√©es peut donc √™tre consid√©r√©e comme **propre, coh√©rente et exploitable** pour l‚Äô√©tude des dynamiques de mortalit√©, que ce soit via des approches actuarielles classiques ou des m√©thodes d‚Äôapprentissage automatique.


### 3 - Description technique de la base

La base de donn√©es finale  √† utiliser concerne la population **civile fran√ßaise**, sur la p√©riode **2000 √† 2022**, et r√©sulte de la fusion des donn√©es d‚Äôexposition et de d√©c√®s, accompagn√©e du calcul explicite des taux de mortalit√©.

Elle est structur√©e sous forme tabulaire de **2323 lignes** , chaque ligne correspondant √† une combinaison unique d‚Äôann√©e (**Year**) et d‚Äô√¢ge (**Age**). Elle couvre les √¢ges allant de **0 √† 100 ans** pour chaque ann√©e entre **2000 et 2022**.

**Les variables pr√©sentes sont les suivantes :**

- **Year** : ann√©e civile (entier, de 2000 √† 2022)
- **Age** : √¢ge exact (de 0 √† 100)
- **E_F** : exposition f√©minine \(E(t, x, F)\)
- **E_M** : exposition masculine \(E(t, x, H)\)
- **E_Tot** : exposition totale (somme des deux sexes) \(E(t, x) = E_F + E_M\)
- **D_F** : d√©c√®s f√©minins \(D(t, x, F)\)
- **D_H** : d√©c√®s masculins \(D(t, x, H)\)
- **D_Tot** : d√©c√®s totaux (hommes + femmes) \(D(t, x) = D_F + D_H\)
- **m_F** : taux de mortalit√© f√©minin
- **m_H** : taux de mortalit√© masculin
- **m_Tot** : taux de mortalit√© total

Toutes les variables sont renseign√©es **sans valeurs manquantes**, et les types de donn√©es sont coh√©rents :
- **Year**, **Age**, **D_F**, **D_H**, **D_Tot** sont des entiers.
- **E_F**, **E_M**, **E_Tot**, **m_F**, **m_H**, **m_Tot** sont des r√©els positifs.

Cette base est d√©sormais pr√™te √† √™tre utilis√©e pour les √©tapes suivantes de l‚Äô√©tude, notamment l‚Äôentra√Ænement et la validation des mod√®les de pr√©vision de la mortalit√©.
