# Projet 'Température Terrestre'



## 3. **Analyse exploratoire des données**

### Chargement et exploration des tableaux CSV

Cette étape consiste à explorer les données pour comprendre leur structure et leur contenu



Chargement bibliothèques

In [63]:
import numpy as np
import pandas as pd

---
### Dataset N°1 : données concernant l'émission des gaz à effets de serre et de leur impact sur l'évolution des températures par pays/zone au fil du temps


*   Processus de collecte et de nettoyage des données


In [64]:
df=pd.read_csv("./owid.csv")
print('Apercu premières lignes :\n', df.head())
print ('% de données manquantes par colonne:\n', df.isna().mean()*100, "\n")
print ('Nombre de lignes dupliquées :\n', df.duplicated().sum(), "\n")
print ('Information sur le contenu du DataFrame :\n')
df.info()
print ('\nNombre lignes et colonnes du DataFrame :', df.shape, "\n")
print ('Noms des colonnes\n', df.columns)

Apercu premières lignes :
        country  year iso_code  population  gdp  cement_co2  \
0  Afghanistan  1850      AFG   3752993.0  NaN         NaN   
1  Afghanistan  1851      AFG   3767956.0  NaN         NaN   
2  Afghanistan  1852      AFG   3783940.0  NaN         NaN   
3  Afghanistan  1853      AFG   3800954.0  NaN         NaN   
4  Afghanistan  1854      AFG   3818038.0  NaN         NaN   

   cement_co2_per_capita  co2  co2_growth_abs  co2_growth_prct  ...  \
0                    NaN  NaN             NaN              NaN  ...   
1                    NaN  NaN             NaN              NaN  ...   
2                    NaN  NaN             NaN              NaN  ...   
3                    NaN  NaN             NaN              NaN  ...   
4                    NaN  NaN             NaN              NaN  ...   

   share_global_other_co2  share_of_temperature_change_from_ghg  \
0                     NaN                                   NaN   
1                     NaN              



Après avoir exploré les données, nous devons nettoyer les données pour éliminer les données inutiles pour notre analyse.





In [65]:
#Colonnes à garder dans le fichier
colonnes_a_garder = ['country', 'year', 'iso_code', 'population', 'gdp',
                     'co2', 'co2_per_capita',
                     'methane', 'nitrous_oxide',
                     'cumulative_gas_co2', 'cumulative_oil_co2','cumulative_flaring_co2','cumulative_coal_co2','cumulative_other_co2',
                     'temperature_change_from_ch4', 'temperature_change_from_co2',
                     'temperature_change_from_ghg', 'temperature_change_from_n2o']
df = df[colonnes_a_garder].copy()
df.head()

Unnamed: 0,country,year,iso_code,population,gdp,co2,co2_per_capita,methane,nitrous_oxide,cumulative_gas_co2,cumulative_oil_co2,cumulative_flaring_co2,cumulative_coal_co2,cumulative_other_co2,temperature_change_from_ch4,temperature_change_from_co2,temperature_change_from_ghg,temperature_change_from_n2o
0,Afghanistan,1850,AFG,3752993.0,,,,,,,,,,,,,,
1,Afghanistan,1851,AFG,3767956.0,,,,,,,,,,,0.0,0.0,0.0,0.0
2,Afghanistan,1852,AFG,3783940.0,,,,,,,,,,,0.0,0.0,0.0,0.0
3,Afghanistan,1853,AFG,3800954.0,,,,,,,,,,,0.0,0.0,0.0,0.0
4,Afghanistan,1854,AFG,3818038.0,,,,,,,,,,,0.0,0.0,0.0,0.0


In [66]:
#Les pays (lignes) à retirer du fichier (Pays qui n'en sont pas en fait !)
A_retirer = ['Africa (GCP)', 'Asia (GCP)',
       'Asia (excl. China and India)', 'Central America (GCP)',
       'Europe (GCP)', 'Europe (excl. EU-27)', 'Europe (excl. EU-28)',
       'European Union (27)',
       'French Equatorial Africa (Jones et al. 2023)',
       'French West Africa (Jones et al. 2023)', 'High-income countries',
       'International aviation', 'International shipping',
       'International transport', 'Kosovo', 'Kuwaiti Oil Fires (GCP)',
       'Kuwaiti Oil Fires (Jones et al. 2023)',
       'Least developed countries (Jones et al. 2023)',
       'Leeward Islands (GCP)', 'Leeward Islands (Jones et al. 2023)',
       'Low-income countries', 'Lower-middle-income countries',
       'Middle East (GCP)', 'Non-OECD (GCP)',
       'North America (GCP)', 'North America (excl. USA)', 'OECD (GCP)',
       'OECD (Jones et al. 2023)', 'Oceania (GCP)',
       'Panama Canal Zone (GCP)', 'Panama Canal Zone (Jones et al. 2023)',
       'Ryukyu Islands (GCP)', 'Ryukyu Islands (Jones et al. 2023)',
       'South America (GCP)',
       'St. Kitts-Nevis-Anguilla (GCP)',
       'St. Kitts-Nevis-Anguilla (Jones et al. 2023)',
       'Upper-middle-income countries']
df = df.loc[~df.country.isin(A_retirer)]
print ('Noms des colonnes',"\n", df.columns)
print ('shape fichier',"\n", df.shape, "\n")

Noms des colonnes 
 Index(['country', 'year', 'iso_code', 'population', 'gdp', 'co2',
       'co2_per_capita', 'methane', 'nitrous_oxide', 'cumulative_gas_co2',
       'cumulative_oil_co2', 'cumulative_flaring_co2', 'cumulative_coal_co2',
       'cumulative_other_co2', 'temperature_change_from_ch4',
       'temperature_change_from_co2', 'temperature_change_from_ghg',
       'temperature_change_from_n2o'],
      dtype='object')
shape fichier 
 (41801, 18) 



---
### Dataset N°2 : données concernant les écarts de température par pays/zone au fil du temps



*   Processus de collecte et de nettoyage des données

In [67]:
df2=pd.read_csv("./hadcrut-surface-temperature-anomaly.csv")
print('Apercu premières lignes :\n', df2.head())
print ('% de données manquantes par colonne:\n', df2.isna().mean()*100, "\n")
print ('Nombre de lignes dupliquées :\n', df2.duplicated().sum(), "\n")
print ('Information sur le contenu du DataFrame :\n')
df2.info()
print ('\nNombre lignes et colonnes du DataFrame :', df2.shape, "\n")
print ('Noms des colonnes\n', df2.columns)

Apercu premières lignes :
         Entity Code  Year  Surface temperature anomaly
0  Afghanistan  AFG  1947                         1.93
1  Afghanistan  AFG  1948                         0.83
2  Afghanistan  AFG  1949                         0.05
3  Afghanistan  AFG  1950                        -1.36
4  Afghanistan  AFG  1951                        -0.03
% de données manquantes par colonne:
 Entity                         0.000000
Code                           0.554691
Year                           0.000000
Surface temperature anomaly    0.000000
dtype: float64 

Nombre de lignes dupliquées :
 0 

Information sur le contenu du DataFrame :

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29566 entries, 0 to 29565
Data columns (total 4 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Entity                       29566 non-null  object 
 1   Code                         29402 non-null  object 
 2   Year 



---


Gestion des données manquantes :
*   Tout comme pour le Dataset N°1, l'absence de données 'Code' est très probablement dû à la présence de régions ou zones non codifiées dans la norme ISO-3166-1, ou alternativement, que le pays existe bien, mais son code n'a pas été répercuté dans le Dataset N°2 ;
*   Une simple analyse du couple de modalités des colonnes 'Entity' et 'Code' devrait permettre de valider si ces hypothèses sont les bonnes.




In [68]:
missing_data = df2[df2['Code'].isna()]
missing_data = missing_data.drop(["Year", "Surface temperature anomaly"], axis=1)
print ('Données manquantes : \n', missing_data.drop_duplicates(), "\n")

Données manquantes : 
            Entity Code
16901  Micronesia  NaN 



Une recherche confirme que le pays 'Micronésie' existe bien, et est codifié 'FSM' dans la codification à 3 lettre de la norme ISO-3166-1. Sachant qu'une seule entité est affectée, on peut remplacer tous les NaN de la colonne code par le code 'FSM'.

In [69]:
df2['Code'] = df2['Code'].replace(np.nan, 'FSM')
print ('% de données manquantes par colonne: ',"\n", df2.isna().mean()*100, "\n")

% de données manquantes par colonne:  
 Entity                         0.0
Code                           0.0
Year                           0.0
Surface temperature anomaly    0.0
dtype: float64 



---
Gestion des données aberrantes ou superflues : cas des zones/régions avec un code ISO-3166-1 fantaisiste :

*   Une analyse minutieuse des données, en lien avec celles présentes dans le Dataset N°1, est le présente de codes ISO non présents dans le Dataset N°1, ni dans les codes disponibles dans la norme ISO-3166-1 ;
*   Pour valider et identifier ces données inutiles pour la suite de l'analyse, il suffit donc d'identifier tout code non présent dans les codes alpha-3 de la norme ISO-3166-1.

**Note :** bien qu'il est possible d'utiliser le nom des pays à la place des codes, on peut se heurter d'un fichier à l'autre d'avoir des différences, liées à de mutiples facteurs, tels que : casse différente, langage et/ou alphabets différents (il existe plusieurs catégories de noms pour un pays dans la norme), problèmes liés aux diacritiques... Il est donc très recommandé d'utiliser les codes alpha-2 ou alpha-3 de la norme, ou à la valeur numérique associée à un pays. La colonne 'Entity' n'a donc pas lieu d'être pour la suite des opérations.







In [70]:
# Source : code alpha-3 depuis norme ISO-3166-1
alpha3_iso_codes = ['AFG','ZAF','ALA','ALB','DZA','DEU','AND','AGO','AIA','ATA','ATG','SAU','ARG','ARM','ABW','AUS','AUT','AZE','BHS','BHR','BGD','BRB','BLR','BEL','BLZ',
             'BEN','BMU','BTN','BOL','BES','BIH','BWA','BVT','BRA','BRN','BGR','BFA','BDI','CYM','KHM','CMR','CAN','CPV','CAF','CHL','CHN','CXR','CYP','CCK','COL',
             'COM','COG','COD','COK','KOR','PRK','CRI','CIV','HRV','CUB','CUW','DNK','DJI','DOM','DMA','EGY','SLV','ARE','ECU','ERI','ESP','EST','USA','ETH','FLK',
             'FRO','FJI','FIN','FRA','GAB','GMB','GEO','SGS','GHA','GIB','GRC','GRD','GRL','GLP','GUM','GTM','GGY','GIN','GNB','GNQ','GUY','GUF','HTI','HMD','HND',
             'HKG','HUN','IMN','UMI','VGB','VIR','IND','IDN','IRN','IRQ','IRL','ISL','ISR','ITA','JAM','JPN','JEY','JOR','KAZ','KEN','KGZ','KIR','KWT','LAO','LSO',
             'LVA','LBN','LBR','LBY','LIE','LTU','LUX','MAC','MKD','MDG','MYS','MWI','MDV','MLI','MLT','MNP','MAR','MHL','MTQ','MUS','MRT','MYT','MEX','FSM','MDA',
             'MCO','MNG','MNE','MSR','MOZ','MMR','NAM','NRU','NPL','NIC','NER','NGA','NIU','NFK','NOR','NCL','NZL','IOT','OMN','UGA','UZB','PAK','PLW','PSE','PAN',
             'PNG','PRY','NLD','PER','PHL','PCN','POL','PYF','PRI','PRT','QAT','REU','ROU','GBR','RUS','RWA','ESH','BLM','KNA','SMR','MAF','SXM','SPM','VAT','VCT',
             'SHN','LCA','SLB','WSM','ASM','STP','SEN','SRB','SYC','SLE','SGP','SVK','SVN','SOM','SDN','SSD','LKA','SWE','CHE','SUR','SJM','SWZ','SYR','TJK','TWN',
             'TZA','TCD','CZE','ATF','THA','TLS','TGO','TKL','TON','TTO','TUN','TKM','TCA','TUR','TUV','UKR','URY','VUT','VEN','VNM','WLF','YEM','ZMB','ZWE']

# Intialisation variable
illegal_codes = []
# Recherche des code "ISO"-like fantaisistes du fichier
for value in df2['Code'].unique():
  if value not in alpha3_iso_codes:
    illegal_codes.append(value)

print(illegal_codes)

# Suppression des lignes utilisant ces codes ISO non-standards
df2.drop(df2[df2['Code'] == 'OWID_KOS'].index, inplace = True)
df2.drop(df2[df2['Code'] == 'OWID_CYN'].index, inplace = True)

# Suppression de la colonne Entity qui fait double-emploi avec la colonne 'Code' et est potentiellement sujette à erreurs (cf Note ci-dessus)
df2= df2.drop('Entity', axis=1)

#print ('Information sur le contenu du DataFrame',"\n", df2.info(), "\n")
#print ('Nombre lignes et colonnes du DataFrame :', df2.shape, "\n")
#print ('Noms des colonnes',"\n", df2.columns)


['OWID_KOS', 'OWID_CYN']


Cohérence des données, et éventuelle élimination de colonnes en prévision de la fusion avec le Dataset N°1 :
*   La finalité de la fusion est de rajouter par pays et par année la valeur d'évolution des températures ;
*   Les clés pour réaliser cette fusion, sont le code de l'entité et l'année (ex : 'AFG' et 1987) ;
*   La casse du code entité est identique dans les 2 DataFrames ;
*   Il n'y a donc aucune action supplémentaire à réaliser sur ce DataFrame.






---
### Fusion des 2 sets de données après leurs mises en qualité

On utilise un merge avec l'option inner pour ne garder que les données que nous avons dans le premier dataset (celui avec toutes les données d'emissions) comme dans le 2eme (celui avec toutes les données de température de surface). Nous ajoutons la colonne température issue du 2eme dataset. Le merge est effectué sur la paire [année + iso_code] pour garder l'unicité des données. 

In [71]:
df2.rename(columns={'Code' : 'iso_code', 'Year':'year','Surface temperature anomaly': 'temperature'}, inplace=True)
df = pd.merge(df, df2,  how='inner',  on=['year', 'iso_code'])

In [60]:
df.isna().sum()

country                            0
year                               0
iso_code                        2084
population                      3514
gdp                            27237
co2                            15886
co2_per_capita                 17267
methane                        35601
nitrous_oxide                  35601
cumulative_gas_co2             18797
cumulative_oil_co2             18769
cumulative_flaring_co2         18888
cumulative_coal_co2            18805
cumulative_other_co2           39734
temperature_change_from_ch4     6062
temperature_change_from_co2     3497
temperature_change_from_ghg     3497
temperature_change_from_n2o     6062
dtype: int64

In [61]:
# export de notre dataframe pour l'utilisation en Data Vizualisation
from pathlib import Path
filepath = Path('./merged_owid_temp.csv')
filepath.parent.mkdir(parents=True, exist_ok=True)
df.to_csv(filepath)

---
### Ajout d'une table pour classer les pays par continent / ou zone

On utilise une table par le Canada pour classifier les pays par zones géographique et/ou par continent

In [72]:
df_codes = pd.read_csv("./ctpzi.csv", encoding='latin-1')

df_codes.drop(columns=['Num-3', 'Alpha-2','Notes de bas de page'], inplace=True)
df_codes.Code = df_codes.Code // 1000
df_codes["continent"] = df_codes.Code // 10
df_codes = df_codes.dropna()
df_codes.rename(columns={'Alpha-3' : 'iso_code', 'Code':'zone_geo', 'Pays et zones d\'intérêt' : 'pays'}, inplace=True)
df_codes.head()

Unnamed: 0,zone_geo,pays,iso_code,continent
0,11.0,Canada,CAN,1.0
1,11.0,Groenland,GRL,1.0
2,11.0,Saint-Pierre-et-Miquelon,SPM,1.0
3,11.0,États-Unis,USA,1.0
4,12.0,Belize,BLZ,1.0


In [73]:
# Merge avec notre fichier et nettoyage pour ne garder que des données sur lesquelles on pourrait travailler (>=1970 et on retire déjà les "cumulative")
df_ML = df_codes.merge(df,  how='inner',  on=['iso_code'])  # du fait du "inner", on perd les données des continents et du monde
df_ML.drop(columns=['country','cumulative_gas_co2', 'cumulative_oil_co2','cumulative_flaring_co2','cumulative_coal_co2','cumulative_other_co2'], inplace=True)
df_ML = df_ML.loc[df_ML.year>=1970]
df_ML.zone_geo =df_ML.zone_geo.astype(int)
df_ML.continent =df_ML.continent.astype(int)
df_ML.head()



Unnamed: 0,zone_geo,pays,iso_code,continent,year,population,gdp,co2,co2_per_capita,methane,nitrous_oxide,temperature_change_from_ch4,temperature_change_from_co2,temperature_change_from_ghg,temperature_change_from_n2o,temperature
116,11,Canada,CAN,1,1970,21434580.0,417752000000.0,341.177,15.917,,,0.003,0.012,0.015,0.001,-0.23
117,11,Canada,CAN,1,1971,21888686.0,441056600000.0,352.287,16.094,,,0.003,0.012,0.016,0.001,-0.05
118,11,Canada,CAN,1,1972,22222228.0,464342100000.0,380.792,17.136,,,0.003,0.013,0.016,0.001,-1.55
119,11,Canada,CAN,1,1973,22502026.0,497617400000.0,381.273,16.944,,,0.003,0.013,0.016,0.001,0.5
120,11,Canada,CAN,1,1974,22812430.0,517951800000.0,389.617,17.079,,,0.003,0.013,0.017,0.001,-0.65


In [74]:
print(df_ML['pays'].unique())
df_ML.shape

['Canada' 'États-Unis' 'Belize' 'Costa Rica' 'El Salvador' 'Guatemala'
 'Honduras' 'Mexique' 'Nicaragua' 'Panama' 'Antigua-et-Barbuda' 'Bahamas'
 'Barbade' 'Cuba' 'Dominique' 'Dominicaine, République' 'Grenade' 'Haïti'
 'Jamaïque' 'Saint-Kitts-et-Nevis' 'Sainte-Lucie'
 'Saint-Vincent-et-les Grenadines' 'Trinité-et-Tobago' 'Argentine'
 'Bolivie' 'Brésil' 'Chili' 'Colombie' 'Équateur' 'Guyana' 'Paraguay'
 'Pérou' 'Suriname' 'Uruguay' 'Venezuela' 'Autriche' 'Belgique' 'France'
 'Allemagne' 'Liechtenstein' 'Luxembourg' 'Monaco' 'Pays-Bas' 'Suisse'
 'Bulgarie' 'Bélarus' 'Tchéquie' 'Estonie' 'Hongrie' 'Lettonie' 'Lituanie'
 'Moldova' 'Pologne' 'Roumanie' 'Russie, Fédération de' 'Slovaquie'
 'Ukraine' 'Danemark' 'Finlande' 'Islande' 'Irlande' 'Norvège' 'Suède'
 'Royaume-Uni' 'Albanie' 'Andorre' 'Bosnie-Herzégovine' 'Croatie' 'Grèce'
 'Saint-Siège (État de la Cité du Vatican)' 'Italie' 'Malte' 'Monténégro'
 'Portugal' 'Saint-Marin' 'Serbie' 'Slovénie' 'Espagne'
 'Macédoine, République de' 'Cab

(9339, 16)

In [75]:
# Export de notre dataframe vers merged_owid_temp_zones.csv pour utilisation en Machine Learning
from pathlib import Path
filepath = Path('./merged_owid_temp_zones.csv')
filepath.parent.mkdir(parents=True, exist_ok=True)
df_ML.to_csv(filepath)