In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Chargement des données

In [2]:
indicator_df = pd.read_csv("Indicators.csv")
indicator_df

Unnamed: 0,CountryName,CountryCode,IndicatorName,IndicatorCode,Year,Value
0,Arab World,ARB,"Adolescent fertility rate (births per 1,000 wo...",SP.ADO.TFRT,1960,1.335609e+02
1,Arab World,ARB,Age dependency ratio (% of working-age populat...,SP.POP.DPND,1960,8.779760e+01
2,Arab World,ARB,"Age dependency ratio, old (% of working-age po...",SP.POP.DPND.OL,1960,6.634579e+00
3,Arab World,ARB,"Age dependency ratio, young (% of working-age ...",SP.POP.DPND.YG,1960,8.102333e+01
4,Arab World,ARB,Arms exports (SIPRI trend indicator values),MS.MIL.XPRT.KD,1960,3.000000e+06
...,...,...,...,...,...,...
5656453,Zimbabwe,ZWE,Time required to register property (days),IC.PRP.DURS,2015,3.600000e+01
5656454,Zimbabwe,ZWE,Time required to start a business (days),IC.REG.DURS,2015,9.000000e+01
5656455,Zimbabwe,ZWE,Time to prepare and pay taxes (hours),IC.TAX.DURS,2015,2.420000e+02
5656456,Zimbabwe,ZWE,Time to resolve insolvency (years),IC.ISV.DURS,2015,3.300000e+00


## Consignes

### nombre d'enregistrements

In [3]:
print(f"Nombre d'enregistrements : {indicator_df.index.size}")

Nombre d'enregistrements : 5656458


### nombre de colonnes

In [4]:
print(f"Nombre dz colonnes : {indicator_df.columns.size}")

Nombre dz colonnes : 6


### le nombre de pays (zones géographiques)

In [5]:
countries = indicator_df["CountryName"].unique()
print(f"Nombre d'pays ou zones geographiques : {countries.size}")

Nombre d'pays ou zones geographiques : 247


### la plage des années traitées par ce jeu de données

In [6]:
min_date = indicator_df["Year"].min()
max_date = indicator_df["Year"].max()
print(f"Plage des années : {min_date} - {max_date}")

Plage des années : 1960 - 2015


### la liste des indicateurs et leur nombre

In [7]:
indicators = indicator_df["IndicatorName"].unique()

print("Nombre d'indicateur : ", indicators.size)
print("Indicateurs : ", )
for indicator in indicators:
    print(f"\t {indicator}")


Nombre d'indicateur :  1344
Indicateurs : 
	 Adolescent fertility rate (births per 1,000 women ages 15-19)
	 Age dependency ratio (% of working-age population)
	 Age dependency ratio, old (% of working-age population)
	 Age dependency ratio, young (% of working-age population)
	 Arms exports (SIPRI trend indicator values)
	 Arms imports (SIPRI trend indicator values)
	 Birth rate, crude (per 1,000 people)
	 CO2 emissions (kt)
	 CO2 emissions (metric tons per capita)
	 CO2 emissions from gaseous fuel consumption (% of total)
	 CO2 emissions from liquid fuel consumption (% of total)
	 CO2 emissions from liquid fuel consumption (kt)
	 CO2 emissions from solid fuel consumption (% of total)
	 Death rate, crude (per 1,000 people)
	 Fertility rate, total (births per woman)
	 Fixed telephone subscriptions
	 Fixed telephone subscriptions (per 100 people)
	 Hospital beds (per 1,000 people)
	 International migrant stock (% of population)
	 International migrant stock, total
	 Life expectancy at b

### le type des données de la colonne 'Year'

In [8]:
print(f"le type des données de la colonne 'Year' !: ", indicator_df["Year"].dtype)


le type des données de la colonne 'Year' !:  int64


### Quelle données représente la troisième colonne ?

In [9]:
indicator_df.columns[2]

'IndicatorName'

C'est le nom de l'indicateurs utilisé pour cette enregistrement

### Combien y a-t-il d'enregistrements pour lesquels la colonnes 'Year' a la valeur 1981 ?

In [10]:
nbre = indicator_df[indicator_df["Year"] == 1981].index.size
print("Au Total nous en avons :", nbre)

Au Total nous en avons : 84374


### Combien y a-t-il d'enregistrement traitant d'une année comprise entre 1976 et 1980 ?

In [11]:
nbr = indicator_df[(indicator_df["Year"]>= 1976 )& (indicator_df["Year"] <= 1980) ].index.size
print("Au Total nous en avons :", nbre)

Au Total nous en avons : 84374


### Quelle est l'année la plus récente dans ce jeu de données ?

In [12]:
latest_year = indicator_df["Year"].max()
print("l'année la plus recentes est ", latest_year)

l'année la plus recentes est  2015


### Combien y a-t-il de valeur différentes pour la colonnes 'IndicatorName' ##?

In [13]:

print("le nombre de valeurs differents dans 'IndicateurName'", indicator_df["IndicatorName"].unique().size)

le nombre de valeurs differents dans 'IndicateurName' 1344


### Quels sont les 5 indicateurs les plus représentés dans le jeu de données ? 

In [14]:
indicator_df["IndicatorName"].value_counts().head(5)

IndicatorName
Population, total                           13484
Population growth (annual %)                13442
Rural population (% of total population)    13415
Urban population (% of total)               13415
Urban population                            13374
Name: count, dtype: int64

### Combien de fois est représenté le 5ème indicateurs le plus représenté ?

In [15]:
indic_name = indicator_df["IndicatorName"].value_counts()
print("5ème indicateurs le plus représenté est representé ",  indic_name.iloc[4])

5ème indicateurs le plus représenté est representé  13374


### Combien y a-t-il d'enregistrements concernant la France en 1976 ?

In [16]:
entry_nbre = indicator_df[indicator_df["CountryName"] == "France"].index.size
print("il y'a ", entry_nbre, "enregistrement qui concerne la France")

il y'a  26371 enregistrement qui concerne la France


### Combien y a-t-il de valeurs différentes pour 'IndicatorName' concernant la France en 1976 ?

In [17]:
france_entries_1976 = indicator_df[(indicator_df["CountryName"] == "France") & (indicator_df["Year"] == 1976) ]
france_entries_1976["IndicatorName"].unique().size
print("le nombre de valeurs differents dans 'IndicateurName' concernat le France en 1976 est :", france_entries_1976["IndicatorName"].unique().size)

le nombre de valeurs differents dans 'IndicateurName' concernat le France en 1976 est : 362


### Combien de fois chacun d'eux est-il représenté ?

une seul fois

### Quelle est l'année la plus représentée dans le jeu de données ?

In [18]:
year_counts = indicator_df["Year"].value_counts()

print("L'année la plus representé dans les données", year_counts.index[0])

L'année la plus representé dans les données 2010


### Générez un dataframe extrait du dataframe initial restreint aux données relatives aux émissions de CO2 par habitant en France.

In [19]:
CO2_per_habitant_france = indicator_df[
    (indicator_df["IndicatorName"] == "CO2 emissions (metric tons per capita)") & 
    (indicator_df["CountryName"] == "France")
]
CO2_per_habitant_france

Unnamed: 0,CountryName,CountryCode,IndicatorName,IndicatorCode,Year,Value
9579,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1960,5.793508
34236,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1961,5.92713
61648,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1962,6.207578
90090,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1963,6.84415
118822,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1964,6.982957
149254,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1965,7.033702
180978,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1966,6.874765
212808,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1967,7.306422
245426,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1968,7.501194
278185,France,FRA,CO2 emissions (metric tons per capita),EN.ATM.CO2E.PC,1969,8.002979


### Combien ce dataframe contient-il d'enregistrements ?

In [20]:
CO2_per_habitant_france.index.size

52

### Donnez les statistiques suivantes sur ces données (moyenne, écart-type, médiane, minimum, maximum)

In [21]:
CO2_per_habitant_france["Value"].describe()

count    52.000000
mean      7.010055
std       1.247113
min       5.185043
25%       6.120347
50%       6.618845
75%       7.866798
max       9.666681
Name: Value, dtype: float64

### En quelle année a-t-on pu observer la plus forte valeur d'émission de CO2 par habitant en France ?

In [22]:
max_idx = CO2_per_habitant_france["Value"].argmax()
print("L'année avec la plus forte emission de CO2",CO2_per_habitant_france["Year"].iloc[max_idx] )

L'année avec la plus forte emission de CO2 1973


### Générez un dataframe restreint aux données de la France, extrait du dataframe initial et ayant les caractéristiques suivantes :
    - Le dataframe contient trois colonnes nommées respectivement Année, CO2 et PIB
    - Ce dataframe possède un enregistrement par année
    - Pour chaque enregistrement les colonnes CO2 et PIB contiennent les valeurs respectivement associées aux indicateurs 'CO2 emission per capita' et 'GPB per capita' pour l'année correspondante

In [23]:
CO2_serie = indicator_df[["Year", "Value"]][(indicator_df["IndicatorName"] == "CO2 emissions (metric tons per capita)") & (indicator_df["CountryName"] == "France")]
CO2_serie = CO2_serie.rename(columns={"Value": "CO2"})
CO2_serie

Unnamed: 0,Year,CO2
9579,1960,5.793508
34236,1961,5.92713
61648,1962,6.207578
90090,1963,6.84415
118822,1964,6.982957
149254,1965,7.033702
180978,1966,6.874765
212808,1967,7.306422
245426,1968,7.501194
278185,1969,8.002979


In [24]:
GDP_serie  = indicator_df[["Year", "Value"]][(indicator_df["IndicatorName"] == "GDP per capita (current US$)") & (indicator_df["CountryName"] == "France")]
GDP_serie.rename(columns={"Value": "PIB"})

Unnamed: 0,Year,PIB
9630,1960,1338.299606
34289,1961,1440.55433
61705,1962,1585.917267
90148,1963,1752.964403
118880,1964,1919.266718
149314,1965,2042.240384
181037,1966,2189.670888
212867,1967,2346.362952
245485,1968,2532.314748
278244,1969,2725.217643


In [25]:
df = pd.merge(CO2_serie, GDP_serie, on="Year")
df

Unnamed: 0,Year,CO2,Value
0,1960,5.793508,1338.299606
1,1961,5.92713,1440.55433
2,1962,6.207578,1585.917267
3,1963,6.84415,1752.964403
4,1964,6.982957,1919.266718
5,1965,7.033702,2042.240384
6,1966,6.874765,2189.670888
7,1967,7.306422,2346.362952
8,1968,7.501194,2532.314748
9,1969,8.002979,2725.217643


### - Idem pour l'Afrique et l'Europe

### Afrique

In [26]:
african_indicator = indicator_df[indicator_df["CountryName"].str.contains("Africa")]

africa_CO2_serie = african_indicator[["Year", "Value"]][(indicator_df["IndicatorName"] == "CO2 emissions (metric tons per capita)")]
africa_CO2_serie = africa_CO2_serie.rename(columns={"Value": "CO2"})

africa_PIB_serie = african_indicator[["Year", "Value"]][(indicator_df["IndicatorName"] == "GDP per capita (current US$)")]
africa_PIB_serie = africa_PIB_serie.rename(columns={"Value": "PIB"})

africa_PIB_CO2 = pd.merge(africa_CO2_serie, africa_PIB_serie, on="Year")

africa_PIB_CO2

  africa_CO2_serie = african_indicator[["Year", "Value"]][(indicator_df["IndicatorName"] == "CO2 emissions (metric tons per capita)")]
  africa_PIB_serie = african_indicator[["Year", "Value"]][(indicator_df["IndicatorName"] == "GDP per capita (current US$)")]


Unnamed: 0,Year,CO2,PIB
0,1960,0.969101,129.663075
1,1960,0.969101,129.818502
2,1960,0.969101,74.596291
3,1960,0.969101,423.272045
4,1960,0.860373,129.663075
...,...,...,...
1621,2011,9.257216,4654.405978
1622,2011,9.257216,1682.129833
1623,2011,9.257216,1663.176223
1624,2011,9.257216,484.583218


### Europe

In [27]:
import re

In [28]:
europ_indicator = indicator_df[
    (indicator_df["CountryName"].str.contains(f".*{re.escape('area')}.*")) &
    (
        (indicator_df["IndicatorName"] == "CO2 emissions (metric tons per capita)") | 
        (indicator_df["IndicatorName"] == "GDP per capita (current US$)")
    )
][["Year", "IndicatorName", "Value"]]

europ_indicator
euro_PIB_CO2 = pd.pivot_table(europ_indicator, index="Year", values="Value", columns="IndicatorName")
euro_PIB_CO2 =  euro_PIB_CO2.rename(columns={"CO2 emissions (metric tons per capita)" : "CO2", 	"GDP per capita (current US$)" : "PIB"})
euro_PIB_CO2

IndicatorName,CO2,PIB
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
1960,4.251981,924.571393
1961,4.445013,1008.478502
1962,4.79491,1108.797405
1963,5.216053,1232.264642
1964,5.413363,1358.085777
1965,5.592186,1468.74224
1966,5.767322,1588.518063
1967,6.088981,1713.554594
1968,6.453634,1824.99827
1969,6.814663,2002.782135


### Donnez le coefficient de corrélation entre CO2 et PIB pour chacun de ces deux dataframes.

In [29]:
africa_PIB_CO2[["PIB", "CO2"]].corr()

Unnamed: 0,PIB,CO2
PIB,1.0,0.09258
CO2,0.09258,1.0


In [30]:
euro_PIB_CO2[["PIB", "CO2"]].corr()

IndicatorName,PIB,CO2
IndicatorName,Unnamed: 1_level_1,Unnamed: 2_level_1
PIB,1.0,0.38599
CO2,0.38599,1.0


### Pour chacune de ces deux zones, donnez la moyenne calculée sur l'ensemble des années disponibles du rapport CO2/PIB

In [31]:
africa_PIB_CO2["CO2/PIB"] = africa_PIB_CO2["CO2"]/africa_PIB_CO2["PIB"]
africa_PIB_CO2

Unnamed: 0,Year,CO2,PIB,CO2/PIB
0,1960,0.969101,129.663075,0.007474
1,1960,0.969101,129.818502,0.007465
2,1960,0.969101,74.596291,0.012991
3,1960,0.969101,423.272045,0.002290
4,1960,0.860373,129.663075,0.006635
...,...,...,...,...
1621,2011,9.257216,4654.405978,0.001989
1622,2011,9.257216,1682.129833,0.005503
1623,2011,9.257216,1663.176223,0.005566
1624,2011,9.257216,484.583218,0.019103


In [32]:
euro_PIB_CO2["CO2/PIB"] = euro_PIB_CO2["CO2"]/euro_PIB_CO2["PIB" ]
euro_PIB_CO2

IndicatorName,CO2,PIB,CO2/PIB
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1960,4.251981,924.571393,0.004599
1961,4.445013,1008.478502,0.004408
1962,4.79491,1108.797405,0.004324
1963,5.216053,1232.264642,0.004233
1964,5.413363,1358.085777,0.003986
1965,5.592186,1468.74224,0.003807
1966,5.767322,1588.518063,0.003631
1967,6.088981,1713.554594,0.003553
1968,6.453634,1824.99827,0.003536
1969,6.814663,2002.782135,0.003403
