# Datenherkunft
## Dataset 1: owid-co2-data.csv
Dieses Dataset stammt von der Webseite "Our World in Data" und basiert auf Daten des Global Carbon Project. Bei dem Original-Dataset handelt sich um das "Global Carbon Budget", welches Daten über den CO2 ausstoß diverser Länder und Kontinente enthält, aufgeteilt nach namen. Für diese Analyse habe ich mich auf Kontinentaleuropa (ohne Rusland und die Türkei) beschränkt. Die restlichen Daten habe ich manuel entfernt. Hierbei habe ich nicht die bereits im Dataset vorhandenen Zeilen für Europ genutzt, da mir nicht bekannt ist ob diese die Türkei und Russland enthalten. Außerdem enthalten diese bestimmte Spalten wie beispielsweise BiP nicht. Dazu exkludiere ich Daten vor 1850 da meine Temperaturdaten dort beginnen und die restlichen Daten dort tendenziell deutlich vollständiger werden. Zudem wurden folgende Länder wegen stark unvollständigen Daten exkludiert: Färöer-Inseln, Gönland, Isle of Man, Bailiwick of Jersey, Monaco, San Marino, Gibralta und der Vatikanstadt.
<details>
<summary>Zitierung ansehen</summary>
Hannah Ritchie (2022) - “CO₂ emissions dataset: our sources and methods” Published online at OurWorldInData.org. Retrieved from: 'https://ourworldindata.org/co2-dataset-sources' [Online Resource]

Andrew, R. M., & Peters, G. P. (2023). The Global Carbon Project's fossil CO2 emissions dataset (2023v36) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.10177738

The data files of the Global Carbon Budget can be found at: https://globalcarbonbudget.org/carbonbudget/

For more details, see the original paper:
Friedlingstein, P., O'Sullivan, M., Jones, M. W., Andrew, R. M., Bakker, D. C. E., Hauck, J., Landschützer, P., Le Quéré, C., Luijkx, I. T., Peters, G. P., Peters, W., Pongratz, J., Schwingshackl, C., Sitch, S., Canadell, J. G., Ciais, P., Jackson, R. B., Alin, S. R., Anthoni, P., Barbero, L., Bates, N. R., Becker, M., Bellouin, N., Decharme, B., Bopp, L., Brasika, I. B. M., Cadule, P., Chamberlain, M. A., Chandra, N., Chau, T.-T.-T., Chevallier, F., Chini, L. P., Cronin, M., Dou, X., Enyo, K., Evans, W., Falk, S., Feely, R. A., Feng, L., Ford, D. J., Gasser, T., Ghattas, J., Gkritzalis, T., Grassi, G., Gregor, L., Gruber, N., Gürses, Ö., Harris, I., Hefner, M., Heinke, J., Houghton, R. A., Hurtt, G. C., Iida, Y., Ilyina, T., Jacobson, A. R., Jain, A., Jarníková, T., Jersild, A., Jiang, F., Jin, Z., Joos, F., Kato, E., Keeling, R. F., Kennedy, D., Klein Goldewijk, K., Knauer, J., Korsbakken, J. I., Körtzinger, A., Lan, X., Lefèvre, N., Li, H., Liu, J., Liu, Z., Ma, L., Marland, G., Mayot, N., McGuire, P. C., McKinley, G. A., Meyer, G., Morgan, E. J., Munro, D. R., Nakaoka, S.-I., Niwa, Y., O'Brien, K. M., Olsen, A., Omar, A. M., Ono, T., Paulsen, M., Pierrot, D., Pocock, K., Poulter, B., Powis, C. M., Rehder, G., Resplandy, L., Robertson, E., Rödenbeck, C., Rosan, T. M., Schwinger, J., Séférian, R., Smallman, T. L., Smith, S. M., Sospedra-Alfonso, R., Sun, Q., Sutton, A. J., Sweeney, C., Takao, S., Tans, P. P., Tian, H., Tilbrook, B., Tsujino, H., Tubiello, F., van der Werf, G. R., van Ooijen, E., Wanninkhof, R., Watanabe, M., Wimart-Rousseau, C., Yang, D., Yang, X., Yuan, W., Yue, X., Zaehle, S., Zeng, J., and Zheng, B.: Global Carbon Budget 2023, Earth Syst. Sci. Data, 15, 5301-5369, https://doi.org/10.5194/essd-15-5301-2023, 2023.
</details>

### Spalten
- Alle Spalteninfos lassen sich in der Datei owid-co2-codebook.csv ansehen
<br><br>
Die wichtigsten Spalten, welche ich benutzt habe waren:

## Dataset 2: aravg.mon.land.30N.60N.v6.0.0.202407.asc
Dieses Dataset stammt von der Webseite des National Centers for Envriotmental Information, einer Unterorganisation der US-Amerikanischen National Oceanic and Atmospheric Administration, zu deutsch Bundesbehörde für Ozeane und die Atmosphere. Es beinhaltet Temperaturnaomaliedaten vom 30. Breitengrad Nord bis zum 60. Breitengrad Nord. Dieser Bereich geht cirka von Cairo bis Stockholm und beinhaltet damit große Teile von Europa, Nordamerika, Nordasien, Nordafrike und dem Mitleren Osten. Die Temperaturbasis wird dabei aus der Durschnittstemperatur von 1971 bis 2000 berechnet.

### Spalten
Folgende Spalten sind in dem Dataset vorhanden:
1. Jahr
2. Monat
3. Temperaturanomalie (K)

Die restlichen Spalten habe ich entfernt, da alle Felder in ihnen bei -999.000000 lagen.








In [2]:
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.style as style
import pandas as pd

# Data Cleaning
Zum beginn habe ich das erste Dataset eingelesen und eine Liste von ISO-Ländercodes von Kontinentaleuropa erstellt. Dann habe ich alle Daten die nicht zu Kontinentaleuropa gehören entfernt:

In [20]:
# Daten einlesen
co_data = pd.read_csv("data\owid-co2-data.csv")
temp_data = pd.read_csv("data/aravg.mon.land.30N.60N.v6.0.0.202407.asc", sep="\s+")

# Liste von Europäischen 3-Zeichen ISO-Ländercodes, abgesehen von Russland, Türkei,Färöer-Inseln, Gönland, Isle of Man, Bailiwick of Jersey, Monaco, San Marino, Gibralta und der Vatikanstadt
eu_countries = ['ALB', 'AND', 'AUT', 'BLR', 'BEL', 'BIH', 'BGR', 'HRV', 'CYP', 'CZE', 'DNK', 'EST', 'FIN', 'FRA', 'DEU', 'GRC', 'HUN', 'ISL', 'IRL', 'ITA', 'LVA', 'LIE', 'LTU', 'LUX', 'MKD', 'MLT', 'MDA', 'MNE', 'NLD', 'NOR', 'POL', 'PRT', 'ROU', 'SMR', 'SRB', 'SVK', 'SVN', 'ESP', 'SWE', 'CHE' , 'UKR', 'GBR']

# co_data nach Ländercode filtern
co_data = co_data[co_data['iso_code'].isin(eu_countries)]

    1850   1  -3.023366
0   1850   2  -1.388585
1   1850   3  -1.401455
2   1850   4  -2.325503
3   1850   5  -1.159711
4   1850   6  -0.865922
5   1850   7  -0.163545
6   1850   8  -0.038406
7   1850   9  -0.322183
8   1850  10  -1.166775
9   1850  11  -0.979965
10  1850  12  -0.784478
11  1851   1  -1.052070
12  1851   2  -0.850808
13  1851   3  -1.901888
14  1851   4  -1.872691
15  1851   5  -1.149302
16  1851   6  -1.014586
17  1851   7  -0.777406
18  1851   8  -0.665128
19  1851   9  -0.200413


Daraufhin habe ich die fehlende Werte entweder durch den Spalten Durschnitt im Bezug auf die entsprechenden Länder oder durch den nächten verfügbaren Wert ersetzt

In [4]:
# NaNs in 'co2' durch den Durchschnitt der Spalte in dem Land ersetzen
co_data['co2'] = co_data.groupby('iso_code')['co2'].transform(lambda x: x.fillna(x.mean()))

# NaNs in Population und GDP durch den wert des folgejahres ersetzen
co_data['population'] = co_data.groupby('iso_code')['population'].transform(lambda x: x.fillna(method='bfill'))
co_data['gdp'] = co_data.groupby('iso_code')['gdp'].transform(lambda x: x.fillna(method='bfill'))

  co_data['population'] = co_data.groupby('iso_code')['population'].transform(lambda x: x.fillna(method='bfill'))
  co_data['gdp'] = co_data.groupby('iso_code')['gdp'].transform(lambda x: x.fillna(method='bfill'))


# Explorative Datenanalyse
Zu beginn der EDA habe ich mir die Korrelation zwischen CO2 und BiP, sowie die Korrelation zwischen CO2 und Einwohnerzahl angeschaut, welche respektive bei 0.78 und 0.85 lagen:

In [5]:
style.use('fivethirtyeight')
# Korrelation zwischen CO2 und GDP
print(co_data[['co2', 'gdp']].corr())

# Korrelation zwischen CO2 und Population
print(co_data[['co2', 'population']].corr())






          co2       gdp
co2  1.000000  0.780352
gdp  0.780352  1.000000
                 co2  population
co2         1.000000    0.846833
population  0.846833    1.000000
