# Population et conditions sociales

## Population (niveau national) (t_demo_pop)

### Population au 1er janvier (tps00001)

#### Description de l'API
Le nombre de personnes ayant leur résidence habituelle dans un pays au 1er janvier de l'année respective. Lorsque la population résidente habituelle n'est pas disponible, les pays peuvent rapporter les résidents légaux ou enregistrés.

### Dimensions du Dataset

- **Fréquence Temporelle**
  - Type : Annuel

- **Indicateur Démographique**
  - Type : Population au 1er janvier - total

- **Entité Géopolitique (reporting)**
  - **Entités** :
    - Union européenne - 27 pays (depuis 2020)
    - Zone euro – 20 pays (depuis 2023)
    - Zone euro - 19 pays (2015-2022)
    - Belgique
    - Bulgarie
    - République tchèque
    - Danemark
    - Allemagne
    - Estonie
    - Irlande
    - Grèce
    - Espagne
    - France
    - France métropolitaine
    - Croatie
    - Italie
    - Chypre
    - Lettonie
    - Lituanie
    - Luxembourg
    - Hongrie
    - Malte
    - Pays-Bas
    - Autriche
    - Pologne
    - Portugal
    - Roumanie
    - Slovénie
    - Slovaquie
    - Finlande
    - Suède
    - Islande
    - Liechtenstein
    - Norvège
    - Suisse
    - Royaume-Uni
    - Bosnie-Herzégovine
    - Monténégro
    - Moldavie
    - Macédoine du Nord
    - Géorgie
    - Albanie
    - Serbie
    - Türkiye
    - Ukraine
    - Kosovo*
    - Andorre
    - Biélorussie
    - Monaco
    - Russie
    - Saint-Marin
    - Arménie
    - Azerbaïdjan

- **Temps**
  - **Années** :
    - 2013
    - 2014
    - 2015
    - 2016
    - 2017
    - 2018
    - 2019
    - 2020
    - 2021
    - 2022
    - 2023
    - 2024


In [49]:
#Préparation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, accuracy_score
import statsmodels.api as sm
from scipy import stats
import requests
import eurostat


In [50]:
df = eurostat.get_data_df('tps00001')
df.columns

Index(['freq', 'indic_de', 'geo\TIME_PERIOD', '2013', '2014', '2015', '2016',
       '2017', '2018', '2019', '2020', '2021', '2022', '2023', '2024'],
      dtype='object')

In [51]:
df.head()

Unnamed: 0,freq,indic_de,geo\TIME_PERIOD,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
0,A,JAN,AD,76246.0,,,71732.0,,74794.0,76177.0,77543.0,,79535.0,81588.0,85101.0
1,A,JAN,AL,2897770.0,2892394.0,2885796.0,2875592.0,2876591.0,2870324.0,2862427.0,2845955.0,2829741.0,2793592.0,2761785.0,
2,A,JAN,AM,3026878.0,3017079.0,3010598.0,2998577.0,2986151.0,2972732.0,2965269.0,2959694.0,2963251.0,,2977130.0,2991202.0
3,A,JAN,AT,8451860.0,8507786.0,8584926.0,8700471.0,8772865.0,8822267.0,8858775.0,8901064.0,8932664.0,8978929.0,9104772.0,9158750.0
4,A,JAN,AZ,9356483.0,9477119.0,9593038.0,9705643.0,9809981.0,9898085.0,9981457.0,10067108.0,10119133.0,10156366.0,10127145.0,10180770.0


In [52]:
# Dictionnaire des abréviations et noms des pays en français
eurostat_dictionary = {
    'BE': 'Belgique',
    'BG': 'Bulgarie',
    'CZ': 'République tchèque',
    'DK': 'Danemark',
    'DE': 'Allemagne',
    'EE': 'Estonie',
    'IE': 'Irlande',
    'EL': 'Grèce',
    'ES': 'Espagne',
    'FR': 'France',
    'FX': 'France métropolitaine',
    'HR': 'Croatie',
    'IT': 'Italie',
    'CY': 'Chypre',
    'LV': 'Lettonie',
    'LT': 'Lituanie',
    'LU': 'Luxembourg',
    'HU': 'Hongrie',
    'MT': 'Malte',
    'NL': 'Pays-Bas',
    'AT': 'Autriche',
    'PL': 'Pologne',
    'PT': 'Portugal',
    'RO': 'Roumanie',
    'SI': 'Slovénie',
    'SK': 'Slovaquie',
    'FI': 'Finlande',
    'SE': 'Suède',
    'IS': 'Islande',
    'LI': 'Liechtenstein',
    'NO': 'Norvège',
    'CH': 'Suisse',
    'UK': 'Royaume-Uni',
    'BA': 'Bosnie-Herzégovine',
    'ME': 'Monténégro',
    'MD': 'Moldavie',
    'MK': 'Macédoine du Nord',
    'GE': 'Géorgie',
    'AL': 'Albanie',
    'RS': 'Serbie',
    'TR': 'Türkiye',
    'UA': 'Ukraine',
    'XK': 'Kosovo*',
    'AD': 'Andorre',
    'BY': 'Biélorussie',
    'MC': 'Monaco',
    'RU': 'Russie',
    'SM': 'Saint-Marin',
    'AM': 'Arménie',
    'AZ': 'Azerbaïdjan',
}
# Renommer la colonne 'geo\\time' en 'geo'
df.rename({'geo\\TIME_PERIOD': 'geo'}, inplace=True, axis=1)
# Créer une nouvelle colonne 'pays' avec les noms des pays
df['pays'] = df['geo'].replace(eurostat_dictionary)
print(df.head())

  freq indic_de geo       2013       2014       2015       2016       2017  \
0    A      JAN  AD    76246.0        NaN        NaN    71732.0        NaN   
1    A      JAN  AL  2897770.0  2892394.0  2885796.0  2875592.0  2876591.0   
2    A      JAN  AM  3026878.0  3017079.0  3010598.0  2998577.0  2986151.0   
3    A      JAN  AT  8451860.0  8507786.0  8584926.0  8700471.0  8772865.0   
4    A      JAN  AZ  9356483.0  9477119.0  9593038.0  9705643.0  9809981.0   

        2018       2019        2020        2021        2022        2023  \
0    74794.0    76177.0     77543.0         NaN     79535.0     81588.0   
1  2870324.0  2862427.0   2845955.0   2829741.0   2793592.0   2761785.0   
2  2972732.0  2965269.0   2959694.0   2963251.0         NaN   2977130.0   
3  8822267.0  8858775.0   8901064.0   8932664.0   8978929.0   9104772.0   
4  9898085.0  9981457.0  10067108.0  10119133.0  10156366.0  10127145.0   

         2024         pays  
0     85101.0      Andorre  
1         NaN      Alb

In [53]:
# Pivoter le DataFrame jusqu'à 2023
df_melted = df.melt(id_vars=['pays', 'freq', 'indic_de'], 
                    value_vars=[str(year) for year in range(2013, 2024)],  # Changer 2025 à 2024
                    var_name='année', value_name='valeur')

# Pivoter pour obtenir le format désiré
df_pivoted = df_melted.pivot_table(index='pays', columns='année', values='valeur', aggfunc='first')

# Remplacer NaN par la dernière valeur disponible (forward fill)
df_pivoted.fillna(method='ffill', inplace=True)

# Réinitialiser l'index pour avoir un DataFrame standard
df_pivoted.reset_index(inplace=True)

# Afficher le résultat
print(df_pivoted)

année                   pays         2013         2014         2015  \
0                    Albanie    2897770.0    2892394.0    2885796.0   
1                  Allemagne   80523746.0   80767463.0   81197537.0   
2                    Andorre      76246.0   80767463.0   81197537.0   
3                    Arménie    3026878.0    3017079.0    3010598.0   
4                   Autriche    8451860.0    8507786.0    8584926.0   
5                Azerbaïdjan    9356483.0    9477119.0    9593038.0   
6                   Belgique   11137974.0   11180840.0   11237274.0   
7                Biélorussie    9463840.0    9468154.0    9480868.0   
8         Bosnie-Herzégovine    3835645.0    3830911.0    3825334.0   
9                   Bulgarie    7202556.0    7117453.0    7029690.0   
10                    Chypre     865878.0     858000.0     847008.0   
11                   Croatie    4247803.0    4217632.0    4180915.0   
12                  Danemark    5602628.0    5627235.0    5659715.0   
13    

  df_pivoted.fillna(method='ffill', inplace=True)


In [54]:
# Regrouper par année pour chaque pays
for year in range(2013, 2024):  # De 2013 à 2023
    print(f"Données pour l'année {year}:")
    
    # Sélectionner uniquement les colonnes pertinentes
    df_year = df_pivoted[['pays', str(year)]]
    df_year.rename(columns={str(year): 'valeur'}, inplace=True)

     # Réinitialiser l'index pour éviter les indices numériques
    df_year.reset_index(drop=True, inplace=True)
    
    # Afficher les données
    print(df_year.head())  # Utiliser head() pour afficher les premières lignes
    print("\n")  # Ajoute un saut de ligne pour la lisibilité

Données pour l'année 2013:
année       pays      valeur
0        Albanie   2897770.0
1      Allemagne  80523746.0
2        Andorre     76246.0
3        Arménie   3026878.0
4       Autriche   8451860.0


Données pour l'année 2014:
année       pays      valeur
0        Albanie   2892394.0
1      Allemagne  80767463.0
2        Andorre  80767463.0
3        Arménie   3017079.0
4       Autriche   8507786.0


Données pour l'année 2015:
année       pays      valeur
0        Albanie   2885796.0
1      Allemagne  81197537.0
2        Andorre  81197537.0
3        Arménie   3010598.0
4       Autriche   8584926.0


Données pour l'année 2016:
année       pays      valeur
0        Albanie   2875592.0
1      Allemagne  82175684.0
2        Andorre     71732.0
3        Arménie   2998577.0
4       Autriche   8700471.0


Données pour l'année 2017:
année       pays      valeur
0        Albanie   2876591.0
1      Allemagne  82521653.0
2        Andorre  82521653.0
3        Arménie   2986151.0
4       Autriche

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_year.rename(columns={str(year): 'valeur'}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_year.rename(columns={str(year): 'valeur'}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_year.rename(columns={str(year): 'valeur'}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-vers

Vous pouvez effectuer la modification de colonne directement après avoir créé le DataFrame ou utiliser .copy() lors de l'extraction pour s'assurer que vous travaillez avec une copie explicite. Voici comment vous pouvez procéder

In [55]:
for year in range(2013, 2024):  # De 2013 à 2023
    # Récupérer les données pour l'année spécifique
    df_year = df_pivoted[['pays', str(year)]].copy()  # Créer une copie explicite
    df_year.rename(columns={str(year): 'valeur'}, inplace=True)
    
    # Enregistrer le DataFrame dans un fichier CSV
    file_name = f"donnees_{year}.csv"  # Nom du fichier pour l'année
    df_year.to_csv(file_name, index=False, encoding='utf-8')
    print(f"Fichier CSV généré : {file_name}")

Fichier CSV généré : donnees_2013.csv
Fichier CSV généré : donnees_2014.csv
Fichier CSV généré : donnees_2015.csv
Fichier CSV généré : donnees_2016.csv
Fichier CSV généré : donnees_2017.csv
Fichier CSV généré : donnees_2018.csv
Fichier CSV généré : donnees_2019.csv
Fichier CSV généré : donnees_2020.csv
Fichier CSV généré : donnees_2021.csv
Fichier CSV généré : donnees_2022.csv
Fichier CSV généré : donnees_2023.csv
