Exploration des données de la base traffic_aérien

I - Créations des bases CIE, LSN et APT par concaténation des sous bases (de chaque année)

In [1]:
import pandas as pd 
import glob
import os

In [2]:
#Concaténation de toutes les sous bases de la base CIE (données selon les compagnies)
dossier_donnees_CIE = "data/traffic_aerien/asp-cie-2010-2024/"
tous_les_fichiers_CIE = glob.glob(os.path.join(dossier_donnees_CIE, "ASP_CIE_*.csv"))
liste_df = []

for nom_fichier in tous_les_fichiers_CIE:
    try:
        df_temp = pd.read_csv(nom_fichier, sep=';')
        liste_df.append(df_temp)
    except Exception as e:
        print(f" Erreur de chargement pour {nom_fichier} : {e}")

if not liste_df:
    print(f" Aucun fichier n'a pu être chargé dans le dossier .")
    print('None')

# Concaténation (Fusion verticale)
df_concaténé_CIE = pd.concat(liste_df, ignore_index=True)

# Création de la colonne ANNEE à partir de 'ANMOIS' (format AAAAMM)
df_concaténé_CIE['ANNEE'] = df_concaténé_CIE['ANMOIS'].astype(str).str[:4].astype(int)

In [3]:
df_concaténé_CIE.head(5)

Unnamed: 0,ANMOIS,CIE,CIE_NOM,CIE_NAT,CIE_PAYS,CIE_PAX,CIE_FRP,CIE_PEQ,CIE_PKT,CIE_TKT,CIE_PEQKT,CIE_VOL,ANNEE
0,201901,AAF,AIGLE AZUR,F,FRANCE,128195,3596,131791,263,2,283,1106,2019
1,201901,AAL,AMERICAN AIRLINES,E,ETATS-UNIS,49907,28273,78180,337,195,532,264,2019
2,201901,AAR,ASIANA AIRLINES,E,COREE DU SUD,10888,7852,18740,97,7,167,42,2019
3,201901,ABR_EX,ASL AIRLINES IRELAND (EX AIR CONTRACTORS),E,IRLANDE,0,16016,16016,0,12,12,500,2019
4,201901,ABW,AIRBRIDGE CARGO AIRLINES,E,RUSSIE (FED. DE),0,48961,48961,0,121,121,30,2019


In [None]:
#Concaténation de toutes les sous bases de la base LSN (données selon les liaisons)
dossier_donnees_LSN = "data/traffic_aerien/asp-lsn-1990-2024/"
tous_les_fichiers_LSN = glob.glob(os.path.join(dossier_donnees_LSN, "ASP_LSN_*.csv"))
liste_df = []

for nom_fichier in tous_les_fichiers_LSN:
    try:
        df_temp = pd.read_csv(nom_fichier, sep=';')
        liste_df.append(df_temp)
    except Exception as e:
        print(f" Erreur de chargement pour {nom_fichier} : {e}")
if not liste_df:
    print(f" Aucun fichier n'a pu être chargé dans le dossier .")
    print('None')

# Concaténation (Fusion verticale)
df_concaténé_LSN = pd.concat(liste_df, ignore_index=True)

# Création de la colonne ANNEE (format numerique int) à partir de 'ANMOIS' (format AAAAMM)
df_concaténé_LSN['ANNEE'] = df_concaténé_LSN['ANMOIS'].astype(str).str[:4].astype(int)

df_concaténé_LSN.head(20)

Unnamed: 0,ANMOIS,LSN_SEG,LSN_FSC,LSN_1,LSN_2,LSN_2_CONT,LSN_PEQ,LSN_PEQKT,LSN_PAX,LSN_PKT,LSN_FRP,LSN_TKT,LSN_DRT,ANNEE
1151,199001,INTL,MET_INTL,MÉTROPOLE,AFRIQUE DU SUD,AFRIQUE,7428,6482639393,3077,26809134,4351,3801725993,38,1990
1152,199001,INTL,MET_INTL,MÉTROPOLE,AFRIQUE_AUTRE,AFRIQUE,39698,20880975299,23404,121042905,16293,8776684799,430,1990
1153,199001,INTL,MET_INTL,MÉTROPOLE,ALGÉRIE,AFRIQUE,220364,26000933217,207961,243785365,12403,1622396717,1695,1990
1154,199001,INTL,MET_INTL,MÉTROPOLE,ALLEMAGNE,EUROPE,199870,11093748842,177122,98209228,22747,1272826042,5255,1990
1155,199001,INTL,MET_INTL,MÉTROPOLE,AMÉRIQUE_AUTRE,AMÉRIQUE,16005,1267448671,12757,97471216,3248,292736511,96,1990
1156,199001,INTL,MET_INTL,MÉTROPOLE,ANGOLA,AFRIQUE,6356,4147755924,3347,21842522,3009,1963503724,32,1990
1157,199001,INTL,MET_INTL,MÉTROPOLE,ARABIE SAOUDITE,ASIE,18058,8250398015,8627,39233434,9431,4327054615,206,1990
1158,199001,INTL,MET_INTL,MÉTROPOLE,ARGENTINE,AMÉRIQUE,13259,14712717506,6626,73503474,6633,7362370106,65,1990
1159,199001,INTL,MET_INTL,MÉTROPOLE,ASIE_AUTRE,ASIE,29353,22183068019,16705,123611063,12647,9821961719,293,1990
1160,199001,INTL,MET_INTL,MÉTROPOLE,AUTRICHE,EUROPE,21170,2124297449,20235,20281010,935,96196449,376,1990


In [9]:
#Concaténation de toutes les sous bases de la base APT (données selon les aérodromes français)
dossier_donnees_APT = "data/traffic_aerien/asp-apt-1990-2024/"
tous_les_fichiers_APT = glob.glob(os.path.join(dossier_donnees_APT, "ASP_APT_*.csv"))
liste_df = []

for nom_fichier in tous_les_fichiers_APT:
    try:
        df_temp = pd.read_csv(nom_fichier, sep=';')
        liste_df.append(df_temp)
    except Exception as e:
        print(f" Erreur de chargement pour {nom_fichier} : {e}")
if not liste_df:
    print(f" Aucun fichier n'a pu être chargé dans le dossier .")
    print('None')

# Concaténation (Fusion verticale)
df_concaténé_APT = pd.concat(liste_df, ignore_index=True)

# Création de la colonne ANNEE à partir de 'ANMOIS' (format AAAAMM)
df_concaténé_APT['ANNEE'] = df_concaténé_APT['ANMOIS'].astype(str).str[:4].astype(int)

df_concaténé_APT.head(5)

Unnamed: 0,ANMOIS,APT,APT_NOM,APT_ZON,APT_PEQ,APT_PAX_dep,APT_PAX_arr,APT_PAX_tr,APT_FRP_dep,APT_FRP_arr,APT_NMVT_mxt,APT_NMVT_cgo,ANNEE
0,200301,FMCZ,MAYOTTE-MARCEL HENRY,OM,13737,6049,5628,843,249,968,254,10,2003
1,200301,FMEE,LA REUNION-ROLAND GARROS,OM,162537,68025,74505,871,7033,12103,1198,66,2003
2,200301,FMEP,ST-PIERRE-PIERREFONDS,OM,12337,5350,6981,0,0,6,267,0,2003
3,200301,LFBA,AGEN-LA GARENNE,MT,2805,1435,1370,0,0,0,146,0,2003
4,200301,LFBD,BORDEAUX-MERIGNAC,MT,221510,102803,100240,2126,7401,8939,3493,216,2003


II - Valeurs manquantes 

In [5]:
# Calcul de la proportion de valeurs manquantes dans la base CIE, par colonne
df_concaténé_CIE.isnull().mean().sort_values(ascending = False)
# On constate qu'il n'y a pas de valeurs manqantes

ANMOIS       0.0
CIE          0.0
CIE_NOM      0.0
CIE_NAT      0.0
CIE_PAYS     0.0
CIE_PAX      0.0
CIE_FRP      0.0
CIE_PEQ      0.0
CIE_PKT      0.0
CIE_TKT      0.0
CIE_PEQKT    0.0
CIE_VOL      0.0
ANNEE        0.0
dtype: float64

In [8]:
# Calcul de la proportion de valeurs manquantes dans la base LSN, par colonne
df_concaténé_LSN.isnull().mean().sort_values(ascending = False)
# On constate qu'il n'y a pas de valeurs manqantes

ANMOIS        0.0
LSN_SEG       0.0
LSN_FSC       0.0
LSN_1         0.0
LSN_2         0.0
LSN_2_CONT    0.0
LSN_PEQ       0.0
LSN_PEQKT     0.0
LSN_PAX       0.0
LSN_PKT       0.0
LSN_FRP       0.0
LSN_TKT       0.0
LSN_DRT       0.0
ANNEE         0.0
dtype: float64

In [10]:
# Calcul de la proportion de valeurs manquantes dans la base APT, par colonne
df_concaténé_APT.isnull().mean().sort_values(ascending = False)
# On constate qu'il n'y a pas de valeurs manqantes

ANMOIS          0.0
APT             0.0
APT_NOM         0.0
APT_ZON         0.0
APT_PEQ         0.0
APT_PAX_dep     0.0
APT_PAX_arr     0.0
APT_PAX_tr      0.0
APT_FRP_dep     0.0
APT_FRP_arr     0.0
APT_NMVT_mxt    0.0
APT_NMVT_cgo    0.0
ANNEE           0.0
dtype: float64

Finalement, on constate q'uil n'y a pas de valeurs manquantes dans les bases CIE, LSN et APT. 
Il faudra traiter le cas des valeurs nulles (peut être remplacent-elles les valeurs manquantes) 

III- Séries annuelles du nombre d'équivalents passager : mesure le total de ce qui est transporté: passagers + marchandises 
-> ne prend pas en compte la composition.

IDÉE : sommer la variable CIE_PEQ dans la base CIE, pour chaque année pour obtenir une série annuelle du nombre d'équivalents 
passagers transportés. Faire de même pour la base LSN avec la variable LSN_PEQ

CONSTAT : On constate que même si les séries sont proches (pour les années en commun : 2010-2024) il n'y a pas égalité du nombre d'équivalents passager par an selon si on regarde selon les compagnies ou selon les liaisons. 

In [14]:
# Série annuelle PEQ à partir de la base CIE
df_annuel_peq_CIE = df_concaténé_CIE.groupby('ANNEE')['CIE_PEQ'].sum().reset_index()
df_annuel_peq_CIE

Unnamed: 0,ANNEE,CIE_PEQ
0,2010,149699015
1,2011,158652117
2,2012,161545411
3,2013,164061816
4,2014,168400688
5,2015,174187530
6,2016,179416700
7,2017,189760182
8,2018,197484379
9,2019,203676159


In [13]:
# Série annuelle PEQ à partir de la base LSN
df_annuel_peq_LSN = df_concaténé_LSN.groupby('ANNEE')['LSN_PEQ'].sum().reset_index() 
df_annuel_peq_LSN

Unnamed: 0,ANNEE,LSN_PEQ
0,1990,72971946
1,1991,69876269
2,1992,76790976
3,1993,79092630
4,1994,86329111
5,1995,87587798
6,1996,93346585
7,1997,96855493
8,1998,102524899
9,1999,111924587


IV - Séries annuelles du nombre de passagers transportés 
Pour la base CIE on utilise la variable CIE_PAX (nombre de passagers transportés)
Pour la base LSN on utilise la variable LSN_PAX (passagers locaux transportés)

CONSTAT : le nombre de passagers transportés par année n'est pas toujours égal pour une même année si on regarde selon les liaisons ou selon les compagnies.

In [23]:
df_annuel_nb_passagers_CIE = df_concaténé_CIE.groupby('ANNEE')['CIE_PAX'].sum().reset_index()
df_annuel_nb_passagers_CIE

Unnamed: 0,ANNEE,CIE_PAX
0,2010,124862788
1,2011,133255548
2,2012,137253178
3,2013,140679222
4,2014,144771673
5,2015,149956512
6,2016,154583412
7,2017,164050995
8,2018,172368495
9,2019,179514892


In [24]:
df_annuel_nb_passagers_LSN = df_concaténé_LSN.groupby('ANNEE')['LSN_PAX'].sum().reset_index()
df_annuel_nb_passagers_LSN

Unnamed: 0,ANNEE,LSN_PAX
0,1990,62435032
1,1991,59572474
2,1992,65685008
3,1993,67313788
4,1994,71655955
5,1995,72550754
6,1996,78021192
7,1997,81056452
8,1998,86729657
9,1999,94422413
