# Travail de jointure des tables
\
Dans ce notebook, nous allons étudier les différentes jointures possibles entre les tables, afin d'en dégager une (ou des) tables jointes intéressantes pour une étude météorologique par exemple.

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

In [2]:
#importation des tables et informations utiles (cf. notebook d'introduction)
df_cities = pd.read_csv('data/cities.csv')
df_countries = pd.read_csv('data/countries.csv')
df_weather = pd.read_csv('data/daily-weather-cities.csv')

Les dataframes **cities** et **weather** peuvent a priori être jointes d'après **station_id**.

Néanmoins, comme la table **weather** ne possède que 4 villes, on s'attend à une jointure avec beaucoup de nouvelles données vides :

In [3]:
df_cities['station_id']

0       41515
1       38954
2       41560
3       38947
4       38987
        ...  
1240    67475
1241    68030
1242    67633
1243    67775
1244    67975
Name: station_id, Length: 1245, dtype: object

On remarque que les *station_id* de cities sont de type objet, alors que celles de **weather** sont des entiers.
Pour pouvoir faire la jointure entre les deux, on doit d'abord convertir les indices de **cities** en int64 comme ceux de **weather**

In [4]:
#NE MARCHE PAS
# df_cities['station_id'].astype(int)

Problème : toutes les lignes de *station_id* ne sont pas des entiers.

On va donc les identifier et voir ce qu'on en fait.

In [5]:
problems = [val for val in df_cities['station_id'] if not val.isdigit()]
print(problems)

['D4704', 'D1666', 'D1051', 'D3137', 'D6217', 'D5541', 'D6217', 'D1964', 'D2629', 'D6170', 'KPHF0', 'EDTR0', 'D5731']


In [6]:
villes_problematiques = df_cities.loc[df_cities['station_id'].isin(problems), 'city_name']
print(villes_problematiques)

78          Bregenz
264           Vejle
338         Dresden
345           Mainz
348     Saarbrücken
351       Wiesbaden
370    St. George's
586        Diekirch
694          Arnhem
794    Zielona Góra
895       Jamestown
991         Liestal
993    Schaffhausen
Name: city_name, dtype: object


Aucune des villes concernées n'est dans **weather**, on va donc pouvoir les supprimer de **cities** pour pouvoir faire la jointure voulue.

In [7]:
#NE MARCHE PAS NON PLUS
'''print(villes_problematiques.index.tolist())
df_cities_clean = df_cities.drop(villes_problematiques.index.tolist())
df_cities_clean['station_id'].astype(int)
df_weather['station_id'].astype(int)

df_merge = pd.merge(df_cities_clean, df_weather, how='right', on='station_id')'''

"print(villes_problematiques.index.tolist())\ndf_cities_clean = df_cities.drop(villes_problematiques.index.tolist())\ndf_cities_clean['station_id'].astype(int)\ndf_weather['station_id'].astype(int)\n\ndf_merge = pd.merge(df_cities_clean, df_weather, how='right', on='station_id')"

La colonne station_id est inutile dans le cadre de notre étude et complique le problème in fine, autant la supprimer...

In [8]:
df_cities.drop('station_id', axis=1)

Unnamed: 0,city_name,country,state,iso2,iso3,latitude,longitude
0,Asadabad,Afghanistan,Kunar,AF,AFG,34.866000,71.150005
1,Fayzabad,Afghanistan,Badakhshan,AF,AFG,37.129761,70.579247
2,Jalalabad,Afghanistan,Nangarhar,AF,AFG,34.441527,70.436103
3,Kunduz,Afghanistan,Kunduz,AF,AFG,36.727951,68.872530
4,Qala i Naw,Afghanistan,Badghis,AF,AFG,34.983000,63.133300
...,...,...,...,...,...,...,...
1240,Kasama,Zambia,Northern,ZM,ZMB,-10.199598,31.179947
1241,Livingstone,Zambia,Southern,ZM,ZMB,-17.860009,25.860013
1242,Mongu,Zambia,Western,ZM,ZMB,-15.279598,23.120025
1243,Harare,Zimbabwe,Harare,ZW,ZWE,-17.817790,31.044709


In [9]:
df_weather.drop('station_id', axis=1)

Unnamed: 0,city_name,date,season,avg_temp_c,min_temp_c,max_temp_c,precipitation_mm,snow_depth_mm,avg_wind_dir_deg,avg_wind_speed_kmh,peak_wind_gust_kmh,avg_sea_level_pres_hpa,sunshine_total_min
0,Vienna,1855-02-01,Winter,,-8.5,-4.0,,,,,,,
1,Vienna,1855-02-02,Winter,,-12.1,-3.8,,,,,,,
2,Vienna,1855-02-03,Winter,,-17.5,-8.3,,,,,,,
3,Vienna,1855-02-04,Winter,,-11.4,-6.3,,,,,,,
4,Vienna,1855-02-05,Winter,,-7.5,-1.3,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
193114,Berlin,2023-08-30,Summer,15.6,11.9,19.7,,,239.0,9.8,24.1,1010.8,
193115,Berlin,2023-08-31,Summer,16.2,12.0,21.1,,,203.0,10.4,25.9,1012.1,
193116,Berlin,2023-09-01,Autumn,16.7,12.2,21.7,,,190.0,11.0,27.8,1015.5,
193117,Berlin,2023-09-02,Autumn,17.6,13.3,22.5,,,226.0,11.7,27.8,1017.5,


In [10]:
#si on tente de faire la jointure sur les noms des villes
df_merge = pd.merge(df_cities, df_weather, how='right', on='city_name')
df_merge
df_merge.drop(['station_id_x', 'station_id_y'], axis=1)

Unnamed: 0,city_name,country,state,iso2,iso3,latitude,longitude,date,season,avg_temp_c,min_temp_c,max_temp_c,precipitation_mm,snow_depth_mm,avg_wind_dir_deg,avg_wind_speed_kmh,peak_wind_gust_kmh,avg_sea_level_pres_hpa,sunshine_total_min
0,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,1855-02-01,Winter,,-8.5,-4.0,,,,,,,
1,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,1855-02-02,Winter,,-12.1,-3.8,,,,,,,
2,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,1855-02-03,Winter,,-17.5,-8.3,,,,,,,
3,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,1855-02-04,Winter,,-11.4,-6.3,,,,,,,
4,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,1855-02-05,Winter,,-7.5,-1.3,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
193114,Berlin,Germany,Berlin,DE,DEU,52.521819,13.401549,2023-08-30,Summer,15.6,11.9,19.7,,,239.0,9.8,24.1,1010.8,
193115,Berlin,Germany,Berlin,DE,DEU,52.521819,13.401549,2023-08-31,Summer,16.2,12.0,21.1,,,203.0,10.4,25.9,1012.1,
193116,Berlin,Germany,Berlin,DE,DEU,52.521819,13.401549,2023-09-01,Autumn,16.7,12.2,21.7,,,190.0,11.0,27.8,1015.5,
193117,Berlin,Germany,Berlin,DE,DEU,52.521819,13.401549,2023-09-02,Autumn,17.6,13.3,22.5,,,226.0,11.7,27.8,1017.5,


On voit que l'on a conservé le même nombre de lignes que sur **weather**, la jointure a bien été effectuée.

Il suffisait de faire la jointure sur les noms des villes, et on n'avait pas de problème avec "objet VS entier"...

On peut maintenant effectuer la jointure totale des trois tables (ici de **merge** avec **countries** ; on va la faire encore sur la colonne du nom de ville puisque les 4 villes sont toutes des capitales, puis on éliminera les colonnes doublons. Avant de la créer, pour éviter de supprimer des doublons après-coup, on peut les supprimer en amont.

In [11]:
df_merge_triple = pd.merge(df_merge, df_countries, left_on='city_name', right_on='capital', how='left')
df_merge_triple

Unnamed: 0,station_id_x,city_name,country_x,state,iso2_x,iso3_x,latitude,longitude,station_id_y,date,...,native_name,iso2_y,iso3_y,population,area,capital,capital_lat,capital_lng,region,continent
0,11035,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,11035,1855-02-01,...,Österreich,AT,AUT,8527230.0,83871.0,Vienna,48.208354,16.372504,Western Europe,Europe
1,11035,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,11035,1855-02-02,...,Österreich,AT,AUT,8527230.0,83871.0,Vienna,48.208354,16.372504,Western Europe,Europe
2,11035,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,11035,1855-02-03,...,Österreich,AT,AUT,8527230.0,83871.0,Vienna,48.208354,16.372504,Western Europe,Europe
3,11035,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,11035,1855-02-04,...,Österreich,AT,AUT,8527230.0,83871.0,Vienna,48.208354,16.372504,Western Europe,Europe
4,11035,Vienna,Austria,Wien,AT,AUT,48.200015,16.366639,11035,1855-02-05,...,Österreich,AT,AUT,8527230.0,83871.0,Vienna,48.208354,16.372504,Western Europe,Europe
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
193114,10384,Berlin,Germany,Berlin,DE,DEU,52.521819,13.401549,10384,2023-08-30,...,Deutschland,DE,DEU,80783000.0,357114.0,Berlin,52.517036,13.388860,Western Europe,Europe
193115,10384,Berlin,Germany,Berlin,DE,DEU,52.521819,13.401549,10384,2023-08-31,...,Deutschland,DE,DEU,80783000.0,357114.0,Berlin,52.517036,13.388860,Western Europe,Europe
193116,10384,Berlin,Germany,Berlin,DE,DEU,52.521819,13.401549,10384,2023-09-01,...,Deutschland,DE,DEU,80783000.0,357114.0,Berlin,52.517036,13.388860,Western Europe,Europe
193117,10384,Berlin,Germany,Berlin,DE,DEU,52.521819,13.401549,10384,2023-09-02,...,Deutschland,DE,DEU,80783000.0,357114.0,Berlin,52.517036,13.388860,Western Europe,Europe


Je ne comprends pas pourquoi les station_id réapparaissent...

Bon, on va arrêter le massacre ici :(