# Ländervergleich: Zusammenhang zwischen Lebenserwartung und Wohlstand
In dieser kleinen Demo untersuchen wir den Zusammenhang zwischen den Variablen 
* `Lebenserwartung` = Alter (in Jahren), welches eine Person in einem Land im Schnitt erreicht
* `Kaufkraft` = BIP/Kopf (in Dollar, unter Berücksichtigung der lokalen Güterpreise (_Kaufkraftparitäten_))

(Diese Demo reproduziert einen Vortrag von [Hans Rosling](https://www.youtube.com/watch?v=ZfvpBdjKjhM))

# Daten!
In einem ersten Schritt werden die Daten [hier](https://www.kaggle.com/datasets/tklimonova/gapminder-datacamp-2007/) runtergeladen und in unserem Arbeitsverzeichnis als `data.csv` gespeichert.

In [8]:
import pandas as pd

df = pd.read_csv("data.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,country,year,population,continent,life_exp,gdp_cap
0,11,Afghanistan,2007,31889923,Asia,43.828,974.580338
1,23,Albania,2007,3600523,Europe,76.423,5937.029526
2,35,Algeria,2007,33333216,Africa,72.301,6223.367465
3,47,Angola,2007,12420476,Africa,42.731,4797.231267
4,59,Argentina,2007,40301927,Americas,75.32,12779.37964


Welche Aussagen können wir bereits über die Daten machen?

In [9]:
df.columns  #'country', 'year', 'population', 'continent', 'life_exp', 'gdp_cap'
df.loc[:, ["country", "life_exp", "gdp_cap"]]

Unnamed: 0,country,life_exp,gdp_cap
0,Afghanistan,43.828,974.580338
1,Albania,76.423,5937.029526
2,Algeria,72.301,6223.367465
3,Angola,42.731,4797.231267
4,Argentina,75.320,12779.379640
...,...,...,...
137,Vietnam,74.249,2441.576404
138,West Bank and Gaza,73.422,3025.349798
139,"Yemen, Rep.",62.698,2280.769906
140,Zambia,42.384,1271.211593


... mit dem bloßen Auge lässt sich schwer erkennen, ob ein Zusammenhang besteht -> wir sollten die Daten _visualisieren_!

# Erstes Streudiagramm
Wir erstellen ein __Streudiagramm__ (__Scatter Plot__):

In [10]:
import plotly.express as px

fig = px.scatter(
    df,
    x="gdp_cap",
    y="life_exp",
    range_y=[25, 90],
    labels={
        "gdp_cap": "Kaufkraft (GDP/Kopf)",
        "life_exp": "Lebenserwartung (Jahre)",
    },
)
fig.show()

* Es liegt ein positiver Zusammenhang zwischen Lebenswerartung und Wohlstand vor (wer hätte das gedacht??)
* Interessant ist, das Länder mit sehr geringem Wohlstand (Kaufkraft = 2K) eine hohe Streuung in der Lebenserwartung aufweisen!
* Um wie viele Jahre erhöht sich die Lebenserwartung (tendenziell), falls `Kaufkraft` um 10K Dollar steigt?

# Linearer Trend

In [11]:
fig = px.scatter(
    df,
    x="gdp_cap",
    y="life_exp",
    range_y=[25, 90],
    trendline="ols",
    labels={
        "gdp_cap": "Kaufkraft (GDP/Kopf)",
        "life_exp": "Lebenserwartung (Jahre)",
    },
)
fig.show()

10K mehr Kaufkraft erhöhen die Lebenserwartung im Schnitt um ca. 6 Jahre!

## Ländernamen anzeigen
Ok, das ist doch schon ganz nett, noch besser wäre jedoch, wenn wir für jeden Punkt erkennen könnten, um welches Land es sich handelt:

In [12]:
fig = px.scatter(
    df,
    x="gdp_cap",
    y="life_exp",
    range_y=[25, 90],
    trendline="ols",
    hover_name="country",
    labels={
        "gdp_cap": "Kaufkraft (GDP/Kopf)",
        "life_exp": "Lebenserwartung (Jahre)",
    },
)
fig.show()

aha, schon besser! 

# Zusätzlich nach Weltregionen (Kontinent) differenzieren

In [13]:
fig = px.scatter(
    df,
    x="gdp_cap",
    y="life_exp",
    range_y=[25, 90],
    hover_name="country",
    color="continent",
    labels={
        "gdp_cap": "Kaufkraft (GDP/Kopf)",
        "life_exp": "Lebenserwartung (Jahre)",
    },
)
fig.show()

# Zusätzlich die Bevölkerungsgröße berücksichtigen

In [14]:
fig = px.scatter(
    df,
    x="gdp_cap",
    y="life_exp",
    range_y=[25, 90],
    hover_name="country",
    color="continent",
    size="population",
    size_max=60,
    labels={
        "gdp_cap": "Kaufkraft (GDP/Kopf)",
        "life_exp": "Lebenserwartung (Jahre)",
    },
)
fig.show()