# AED : Sélection d'Échantillon

Dans ce notebook, nous allons voir commment sélectionner un échantillon en utilisant le jeu de données COQ.

Pour ce faire, nous allons importer directement l'ensemble complet de données depuis une URL.




In [8]:
# Importations de base.
import pandas as pd
import plotly.express as px

In [9]:
# Importer l'ensemble de données depuis une url.
url = "https://www.qogdata.pol.gu.se/data/qog_ei_ts_sept21.xlsx"
df = pd.read_excel(url)
df.head()

Unnamed: 0,cname,ccode,year,cname_qog,ccode_qog,ccodealp,ccodealp_year,ccodecow,ccodevdem,cname_year,...,wdi_precip,wdi_tpa,wvs_ameop,wvs_ceom,wvs_deop,wvs_epmip,wvs_epmpp,wvs_imeop,wvs_pedp,wvs_ploem
0,Afghanistan,4.0,1946,Afghanistan,4,AFG,AFG46,700.0,36.0,Afghanistan 1946,...,,,,,,,,,,
1,Afghanistan,4.0,1947,Afghanistan,4,AFG,AFG47,700.0,36.0,Afghanistan 1947,...,,,,,,,,,,
2,Afghanistan,4.0,1948,Afghanistan,4,AFG,AFG48,700.0,36.0,Afghanistan 1948,...,,,,,,,,,,
3,Afghanistan,4.0,1949,Afghanistan,4,AFG,AFG49,700.0,36.0,Afghanistan 1949,...,,,,,,,,,,
4,Afghanistan,4.0,1950,Afghanistan,4,AFG,AFG50,700.0,36.0,Afghanistan 1950,...,,,,,,,,,,


In [10]:
# Sélectionner un sous-ensemble de variables.
# Remarque: ici, j'ai supprimé l'ensemble complet de données car je suis sûr que je ne vais plus l'utiliser dans ce notebook.
# Mais cela est dangereux et en cas de doute, évitez-cela. Pour ce faire, donnez un nouveau nom à ce sous-ensemble de df, p.ex. df_sample.
df = df[['cname', 'ccodealp', 'year', 'oecd_eps', 'cckp_temp', 'cckp_rain']]
df.describe(include="all")

Unnamed: 0,cname,ccodealp,year,oecd_eps,cckp_temp,cckp_rain
count,11722,11722,11722.0,799.0,11135.0,11135.0
unique,204,202,,,,
top,Afghanistan,AFG,,,,
freq,75,75,,,,
mean,,,1988.188193,1.567856,19.00999,100.390635
std,,,20.252364,0.960634,8.123073,71.011072
min,,,1946.0,0.208333,-9.216667,1.166667
25%,,,1972.0,0.6875,11.691667,46.045833
50%,,,1990.0,1.354167,22.416667,86.85
75%,,,2005.0,2.2625,25.466667,144.2875


Nous pouvons voir qu'il y a des valeurs manquantes. Le nombre de valeurs (`count`) n'est pas le même pour toutes les colonnes.

In [11]:
# Afficher le nombre d'observations par année où la variable 'oecd_eps' n'est pas nulle (NaN).
df[pd.notnull(df['oecd_eps'])].groupby(['year']).size().reset_index(name='counts')
# Voici une explication de la commande:
# 1. df[pd.notnull(df['oecd_eps'])] : Sélectionne les lignes où 'oecd_eps' n'est pas nulle.
# 2. .groupby(['year']) : Regroupe le DataFrame par la colonne année.
# 3. .size() : Calcule la taille de chaque groupe (nombre de lignes).
# 4. .reset_index(name='counts'): Réinitialise l'index pour inclure le nombre de valeurs en tant que nouvelle colonne nommée 'counts'.

Unnamed: 0,year,counts
0,1990,28
1,1991,28
2,1992,29
3,1993,32
4,1994,32
5,1995,33
6,1996,33
7,1997,33
8,1998,33
9,1999,33


Sur la base des tableaux précédents, je vais me limiter aux pays pour lesquels il y a des données pour le résultat (`oecd_eps`) et aux années de 1993 à 2012, afin d'avoir une taille d'échantillon relativement constante.

In [12]:
# Sélection du sous-échantillon.
df_s = df[pd.notnull(df['oecd_eps']) & (df['year'] >= 1993) & (df['year'] <= 2012)]
df_s.describe()

Unnamed: 0,year,oecd_eps,cckp_temp,cckp_rain
count,663.0,663.0,663.0,663.0
mean,2002.58371,1.606863,10.686664,76.825842
std,5.773822,0.940719,7.44529,41.994952
min,1993.0,0.333333,-7.433333,28.183333
25%,1998.0,0.75,7.458333,49.870833
50%,2003.0,1.479167,10.141667,63.166667
75%,2008.0,2.333333,13.729167,92.204167
max,2012.0,4.133333,26.375,281.1


In [13]:
# Afficher le nombre d'observations par année où la variable 'oecd_eps' n'est pas nulle.
df_s[pd.notnull(df['oecd_eps'])].groupby(['year']).size().reset_index(name='counts')

  df_s[pd.notnull(df['oecd_eps'])].groupby(['year']).size().reset_index(name='counts')


Unnamed: 0,year,counts
0,1993,32
1,1994,32
2,1995,33
3,1996,33
4,1997,33
5,1998,33
6,1999,33
7,2000,33
8,2001,33
9,2002,33


In [17]:
# Pour connaître la couverture pour chaque pays dans 'df_s'.
df_s.groupby(['cname']).size().reset_index(name='counts')

Unnamed: 0,cname,counts
0,Australia,20
1,Austria,20
2,Belgium,20
3,Brazil,18
4,Canada,20
5,China,20
6,Czech Republic,20
7,Denmark,20
8,Finland,20
9,France,20


Ici, vous pouvez décider. Préférez-vous garder le Brésil et commencer en 1995 ou exclure le Brésil et commencer en 1993 ?
Je suggère de commencer en 1995.

In [None]:
# Supprimer la Slovénie et les années avant 1995.
df_s = df_s[(df_s['cname']!="Slovenia") & (df_s['year']>=1995)]

# Vérification finale:
df_s.groupby(['cname']).size().reset_index(name='counts')

Unnamed: 0,cname,counts
0,Australia,18
1,Austria,18
2,Belgium,18
3,Brazil,18
4,Canada,18
5,China,18
6,Czech Republic,18
7,Denmark,18
8,Finland,18
9,France,18


In [None]:
# Pour visualiser la couverture géographique sur une carte.
df_num_obs = df_s.groupby(['ccodealp']).size().reset_index(name='counts')
fig = px.choropleth(df_num_obs, locations='ccodealp',
                    locationmode='ISO-3',
                    color='counts',
                    hover_name='ccodealp',
                    color_continuous_scale=px.colors.sequential.Plasma)
fig.show()