# PAC 2 Visualització de dades: càrrega i preprocessat del joc de dades original


## Càrrega del dataset original

In [3]:
import pandas as pd

data = pd.read_csv("datasets/tots_co2 emissions_owid/co2-data/owid-co2-data.csv")

## **Preprocessat dataset 1a visualització: Ridgelines plot**

In [7]:
top10countries = ['United States', 'China', 'Japan', 'Germany', 'United Kingdom', 'India', 'France', 'Italy', 'Canada', ' South Korea']
top10 = data.loc[data['country'].isin(top10countries)]
v1a = top10[['country', 'year', 'co2_per_capita']]
v1a = v1a.loc[v1a['year'] > 1959]
v1a.to_csv('v1a.csv', index=False)
v1a

Unnamed: 0,country,year,co2_per_capita
7897,Canada,1960,10.761
7898,Canada,1961,10.616
7899,Canada,1962,11.115
7900,Canada,1963,11.118
7901,Canada,1964,12.293
...,...,...,...
44218,United States,2017,15.801
44219,United States,2018,16.188
44220,United States,2019,15.731
44221,United States,2020,14.037


## **Preprocessat dataset 2a visualització: Scatter plot**

In [8]:
# Carreguem un dataset disponible a Github amb tots els països i els seus continents.
url = 'https://raw.githubusercontent.com/lukes/ISO-3166-Countries-with-Regional-Codes/master/all/all.csv'
countries2 = pd.read_csv(url, index_col=0)
countries2 = countries2[['alpha-3', 'region']]
countries2.rename(columns = {'alpha-3':'iso_code'}, inplace = True)
iso_countries = countries2['iso_code']

# Preprocessem les dades per a la segona visualització, que serà un scatter plot comparant 2 variables.
v2 = data.loc[data['year'] == 2018]
v2 = v2.loc[v2['iso_code'].isin(iso_countries)]

# Unim les dues taules per afegir les columnes de regió i subregió al dataframe principal.
v2 = pd.merge(v2, countries2, on="iso_code")
v2 = v2.drop('iso_code', axis=1)

# Agafem les columnes que ens interessen per a aquesta visualització.
v2 = v2[['country', 'co2_per_capita', 'population', 'gdp', 'region']]

# Creem una nova variable de PIB per càpita.
v2['gdp_per_capita'] = v2['gdp']/v2['population']

# Eliminem files amb valors nuls, la columna que ja no ens serveix, i alguns outliers que dificulten la comprensió del gràfic.
v2 = v2.dropna()
v2 = v2.drop(['population'], axis=1)
v2 = v2.loc[v2['gdp_per_capita'] < 100000]

# Creem l'arxiu csv final.
v2.to_csv('v2.csv', index=False)
v2

Unnamed: 0,country,co2_per_capita,gdp,region,gdp_per_capita
0,Afghanistan,0.295,6.759497e+10,Asia,1842.488066
2,Albania,1.732,3.400911e+10,Europe,11820.955154
3,Algeria,4.148,5.903176e+11,Africa,14079.648889
6,Angola,0.728,1.759296e+11,Africa,5625.509125
9,Argentina,4.066,8.293733e+11,Americas,18673.861919
...,...,...,...,...,...
222,Venezuela,3.442,3.094130e+11,Americas,10374.057192
223,Vietnam,2.889,6.614884e+11,Asia,6969.320822
226,Yemen,0.340,6.904272e+10,Asia,2242.337522
227,Zambia,0.416,6.097862e+10,Africa,3418.870329


## **Preprocessat dataset 3a visualització: Sunburst chart**

In [9]:
# Preprocessem les dades per a la tercera visualització, un sunburst chart amb el percentatge d'emissions sobre el total.
v3 = data.loc[data['year'] == 2018]
v3 = v3[['country', 'iso_code', 'co2']]
v3 = v3.dropna()

# Carreguem un dataset disponible a Github amb tots els països i els seus continents.
url = 'https://raw.githubusercontent.com/lukes/ISO-3166-Countries-with-Regional-Codes/master/all/all.csv'
countries = pd.read_csv(url, index_col=0)
countries = countries[['alpha-3', 'region', 'sub-region']]
countries.rename(columns = {'alpha-3':'iso_code'}, inplace = True)

# Unim les dues taules per afegir les columnes de regió i subregió al dataframe principal.
v3 = pd.merge(v3, countries, on="iso_code")
v3 = v3.drop('iso_code', axis=1)
v3.to_csv('v3.csv', index=False)
v3

Unnamed: 0,country,co2,region,sub-region
0,Afghanistan,10.818,Asia,Southern Asia
1,Albania,4.984,Europe,Southern Europe
2,Algeria,173.912,Africa,Northern Africa
3,Andorra,0.495,Europe,Southern Europe
4,Angola,22.779,Africa,Sub-Saharan Africa
...,...,...,...,...
213,Vietnam,274.223,Asia,South-eastern Asia
214,Wallis and Futuna,0.026,Oceania,Polynesia
215,Yemen,10.474,Asia,Western Asia
216,Zambia,7.412,Africa,Sub-Saharan Africa
