# Introduction to Data Analytics with Python

## Visualization

Der Mensch hat nur eine Breitbandleitung zum Gehirn... Die Augen \
There is only one broadband connection to our brain... The eyes 

The remainder of this notebook is in german. If you have any issues understanding please ask.

Da eine gute Visualisierung bereits viel Aufschluss über Daten geben kann hier noch einmal ein Notebook, dass sich ausschliesslich mit der Visualisierung beschäftigt.

Die Daten kommen urspruenglich von  https://www.gapminder.org/ und diese Uebung bezieht sich auf den Ted Talk
https://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen?language=en

Wir werden in diesem Abschnitt die ggplot Routinen verwenden die im plotnine Paket enthalten sind.

Sie sollten sich nicht alle Befehle im Detail merken sondern die Konzepte und falls Sie eine Visualisierung von Daten vornehmen möchten suchen Sie sich ein Code Beispiel z.B. aus diesem Notebook und passen es an Ihre Situation an!

### Vorbereitungen 
Als erstes laden wir die benötigten Pakete und setze den Pfad zu den Daten. Sie müssen die Daten in dem Ordner "data" im selben Verzeichnis abgelegt haben wie das Notebook!

Laden der benötigten Pakete

In [None]:
from pathlib import Path
import numpy as np # enthält viele mathematische Funktionen
import pandas as pd
import matplotlib.pyplot as plt   # zum erstellen von Graphen
import seaborn as sns # zum erstellen von Graphen
import plotnine as p9

plt.rcParams["figure.figsize"]=12,8 #Größe aller Bilder in diesem Notebook


Sollten Sie Fehlermeldungen erhalten, weil ein Paket nicht installiert ist, so können Sie dies mit folgendem Befehl installieren.

In [None]:
#import sys
#!conda install --yes --prefix {sys.prefix} PAKETNAME
# z.B. müssen Sie vermutlich das plotnine paket laden
#!conda install --yes --prefix {sys.prefix} plotnine

Sollte das Paket nicht gefunden werden können Sie noch folgenden Befehl verwenden. Dabei wird das Paket im conda-forge Kanal gesucht in dem sich mehr Pakete befinden als im Standard conda Kanal.

In [None]:
#import sys
#!conda install --yes --channel conda-forge --prefix {sys.prefix} PAKETNAME

In [None]:
DATA = Path().resolve() / 'data'
GAPMINDER_CSV = DATA / 'gapminder_data.csv'

## Daten Exploration
Wir schauen uns zunächst die Daten ein wenig an

In [None]:
# Laden der Daten
gapminder = pd.read_csv(GAPMINDER_CSV)
gapminder.head(4) # mit .head() werden die ersten 5 Zeilen dargestellt


In [None]:
#Übersicht 
gapminder.info()

In [None]:
# Wir wollen die Kinder pro Frau in Deutschland, den USA und Jordanien 1960 und 2010 vergleichen
# suchen mit dem .query Befehl
display(gapminder.query('year in [1960,2010]  & country in ["United States","Germany","Jordan"]')[['year','country','fertility']])
# suchen mit .isin()
display(gapminder[(gapminder['year'].isin([1960,2010]) ) & gapminder['country'].isin(["United States","Germany","Jordan"])][['year','country','fertility']])

Falls Sie sich bereits mit R auskennen finden Sie hier einen Vergleich zwischen den R-Funktionen und pandas Funktionen: 

https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_r.html

**Aufgabe:**

Was meinen Sie, ist die Kindersterblichkeit im Jahr 2015 in der Türkei höher oder niedriger als in Sri Lanka? Und wie sieht es mit Jordanien aus?
Beantworten Sie diese Frage mit Hilfe der Gapminder Daten.

In [None]:
#Vergleich der Kindersterblichkeit der Türkei und Sri Lanka im Jahr 2015


### Scatter Plots

Wie hat sich die Unterteilung der Welt in Entwicklungsländer und dem "Westen" entwickelt? Arme Länder bzw. reiche Länder werden wie folgt unterschieden:

Arm -> niedrige Lebenserwartung und viele Kinder

Reich -> hohe Lebenserwartung und wenige Kinder

In [None]:
g1 = p9.ggplot(gapminder.query('year == 1962'), 
          p9.aes(x='fertility', y='life_expectancy')) + p9.geom_point()

g2 = (p9.ggplot(gapminder.query('year == 1962'), 
          p9.aes(x='fertility', y='life_expectancy',color = 'continent')) 
          + p9.geom_point()
)

#print(g1) #ohne Farben kann man nicht wirklich viel erkennen
print(g2) # Kontinente mit unterschiedlichen Farben

Jetzt wollen wir uns noch die Entwicklung über verschiedene Jahre anschauen

In [None]:
selected_years = [1962,1980,2012]
plot_data = gapminder[gapminder.year.isin([1962,1980,2015])]
gf1=(p9.ggplot(plot_data, 
          p9.aes(x='fertility', y='life_expectancy',color = 'continent')) 
   + p9.geom_point() 
   + p9.facet_grid('continent ~ year')
  )

selected_years = [1962,1980,2015]
plot_data = gapminder[gapminder.year.isin([1962,1980,2015])]
gf2=(p9.ggplot(plot_data, 
          p9.aes(x='fertility', y='life_expectancy',color = 'continent')) 
   + p9.geom_point() 
   + p9.facet_grid('.~ year')
  )

print(gf1)
#print(gf2)

Jetzt direkt im Vergleich nur Europa und Asien

**Aufgabe:** \
Machen Sie den selben Plot nur für Asien und Europa für die angegebenen Jahre

In [None]:
selected_years = [1962,1980,1990,2000,2015]


Sie sollten sehen, dass was Kinderzahl pro Frau und die Lebenserwartung angeht Asien sich deutlich in die selbe Richtung bewegt wie in Europa. Man könnte sagen, dass Asien 2015 in diesen Parametern in etwa Europa 1990 entspricht.

### Zeitreihen

In diesem Abschnitt wollen wir die zeitliche Entwicklung einiger weniger Parameter für einzelne Länder vergleichen. Dazu eignen sich Zeitreihen

In [None]:
# Wie hat sich die Anzahl der Kinder pro Frau in den USA und in Deutschland über die Zeit entwickelt?

plot_data = gapminder[gapminder.country.isin(['United States','Germany'])]
gl0=(p9.ggplot(plot_data, 
          p9.aes(x='year', y='fertility')) 
   + p9.geom_line() 
  )

gl1=(p9.ggplot(plot_data, 
          p9.aes(x='year', y='fertility',color = 'country')) 
   + p9.geom_line() 
  )

print(gl0) # irgend etwas geht hier schief
#print(gl1)

In [None]:
# Jetzt schauen wir uns noch die Lebenserwartung der beiden Länder über die Zeit an

plot_data = gapminder[gapminder.country.isin(['United States','Germany'])]
gl2=(p9.ggplot(plot_data, 
          p9.aes(x='year', y='life_expectancy',color = 'country')) 
   + p9.geom_line() 
  )
print(gl2)

### Boxplots

Wenn wir die Verteilungen eines Parameters (hier das Einkommen) von verschiedenen Gruppen vergleichen wollen sind Boxplots sehr gut geeignet. Im folgenden wollen wir uns veranschaulichen wie sich die ökonomischen Verhältnisse der Menschen in den unterschiedlichen Regionen der Welt verändert haben.

In [None]:
# Wir generieren die Spalte dollars_per_day und verwerfen die Datenpunkt für die es keine Daten zu diesem Parameter gibt
gapminder['dollars_per_day'] =gapminder.gdp/gapminder.population/365
gapminder_clean = gapminder.dropna(subset = ['dollars_per_day'])
gapminder_clean.head()
# Anmerkung die Spalte dollars_per_day existierte schon, wurde aber auf diese Weise generiert 

In [None]:
#jetzt veranschaulichen wir uns die Variable dollar_per_day für die unterschiedlichen Regionen
gb0=(p9.ggplot(gapminder_clean[gapminder_clean.year == 1975], 
          p9.aes(x='region', y='dollars_per_day')) 
   + p9.geom_boxplot() 
  )

print(gb0)

In [None]:
#Die x-Labels können wir so nicht erkennen, daher rotieren wir diese um 90° 
gb1=(p9.ggplot(gapminder_clean[gapminder_clean.year == 1975], 
          p9.aes(x='region', y='dollars_per_day')) 
   + p9.geom_boxplot() 
   + p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
)

print(gb1)

In [None]:
# Wir färben die Kontinente noch in unterschiedliche Farben ein
gb2=(p9.ggplot(gapminder_clean[gapminder_clean.year == 1975], 
          p9.aes(x='region', y='dollars_per_day',fill = 'continent')) 
   + p9.geom_boxplot() 
   + p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
)

print(gb2)

Um einen schönen Übersichtlichen Graphen zu erhalten wollen wir jetzt noch die Daten nach dem Einkommen pro Kopf sortieren, die y-Achse logarithmisch skalieren damit auch die Länder die ein sehr niedriges Einkommen haben sichtbar werden und wir wollen zusätzlich alle Datenpunkte anzeigen

In [None]:
# Wir sortieren jetzt noch die Daten nach der Höhe von dollars_per_day
# Skalieren die y-Achse mit dem Log2
# Zeigen alle Daten an
gb3=(p9.ggplot(gapminder_clean[gapminder_clean.year == 1975], 
          p9.aes(x='reorder(region,dollars_per_day)', y='dollars_per_day',fill = 'continent')) 
   + p9.geom_boxplot() 
   + p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
   + p9.scale_y_continuous(trans = 'log2')
   + p9.geom_point(show_legend=False)  
)

print(gb3)

In [None]:
#Jetzt vergleichen wir noch die Jahre 1975 und 2010
gb4=(p9.ggplot(gapminder_clean[gapminder_clean.year.isin([1975,2010])], 
          p9.aes(x='reorder(region,dollars_per_day)', y='dollars_per_day',fill = 'continent')) 
   + p9.geom_boxplot() 
   + p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
   + p9.scale_y_continuous(trans = 'log2')
   + p9.geom_point(show_legend=False) 
   + p9.facet_grid('year ~.')
)

print(gb4)

Wir sehen, dass es nicht ganz so einfach ist im oberen Graphen die Entwicklung der einzelnen Regionen abzulesen. Es wäre besser wenn wir die Boxplots für die einzelnen Jahre in einem Graphen nebeneinander hätten. Dies machen wir jetzt noch.

In [None]:
gb5=(p9.ggplot(gapminder_clean[gapminder_clean.year.isin([1975,2010])], 
          p9.aes(x='reorder(region,dollars_per_day)', y='dollars_per_day',fill = 'factor(year)')) 
   + p9.geom_boxplot() 
   + p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
   + p9.scale_y_continuous(trans = 'log2')
)

print(gb5)

**Aufgabe** \
Bevor Sie weiterlesen: \
Was fällt Ihnen auf? Beschreiben Sie den oberen Graphen und treffen Sie eine Aussage über die wirtschaftliche Entwicklung der einzelnen Regionen. Gibt es Dinge die Sie überraschen? Können Sie sich diese erklären?
Diskutieren Sie mit Ihren Kommilitonen

### Dichteplots
Um Verteilungen darzustellen gibt es außer den Boxplots auch die Möglichkeit diese mit Dichteplots zu veranschaulichen. Dichteplots sind nicht immer so übersichtlich wie Boxplots, enthalten aber mehr Informationen über die Form der Verteilung.

In [None]:
# Wir vergleichen die Einkommensverteilungen in den Entwicklungsländern und dem Westen in den Jahren 1975 und 2010

plot_data = gapminder_clean[gapminder_clean.year.isin([1975,2010])]

gd1=(p9.ggplot(plot_data, 
          p9.aes(x='dollars_per_day', y='..count..',fill = 'group')) #y=count -> Tatsächliche Anzahl (plots nicht 1 Normiert)
   + p9.geom_density(alpha = 0.5,bw = 0.75) 
   +p9.facet_grid('year ~.')
   #+ p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
   + p9.scale_x_continuous(trans = 'log2')
)

print(gd1)

Es ist erstaunlich, aber offensichtlich geht es einer ganzen Menge an Personen (Ländern) im Jahre 2010 schlechter als im Jahre 1975. Wie können wir uns das erklären?

In [None]:
# Vergleichen wir dieselben Länder?
country_list_1975 = plot_data[plot_data.year == 1975].country.unique()
country_list_2010 = plot_data[plot_data.year == 2010].country.unique()

print(set(country_list_1975) == set(country_list_2010))
print(len(country_list_1975),len(country_list_2010))

Wir sehen, dass im obigen Graphen Daten für Länder 2010 vohanden sind, die 1975 nicht berücksichtigt wurden. Daher wollen wir hier nur die Länder aussuchen für die für beide Jahre die Daten vorhanden sind. 
Im übrigen haben wir denselben Fehler auch mit den Boxplots gemacht. Wenn Sie Lust haben können Sie die Boxplots noch einmal wiederholen und nur Länder in den Vergleich mitnehmen für die für beide Jahre Daten vorhanden sind. 

In [None]:
comon_countries = np.intersect1d(country_list_1975,country_list_2010) # Daten für beide Jahre vorhanden

gd2=(p9.ggplot(plot_data[plot_data.country.isin(comon_countries)], 
          p9.aes(x='dollars_per_day', y='..count..',fill = 'group')) 
   +p9.geom_density(alpha = 0.5,bw=0.75) 
   +p9.facet_grid('year ~.')
   #+ p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
   + p9.scale_x_continuous(trans = 'log2')
)

print(gd2)

Wir schauen uns zuerst einmal noch die Entwicklung des Westens genauer an, indem wir diesen noch in die Regionen aufsplitten und auch mit dem Parameter bw etwas spielen

In [None]:
# verändern Sie den Parameter bw von 0.75 auf 0.5, 0.25, 0.15
# Was fällt Ihnen auf? Was bewirkt dieser Parameter?
gd3=(p9.ggplot(plot_data[(plot_data.country.isin(comon_countries)) & (plot_data['group']=='west') ], 
          p9.aes(x='dollars_per_day', y='..count..',fill = 'region')) 
   +p9.geom_density(alpha = 0.5,bw=0.75) 
   +p9.facet_grid('year ~.')
   #+ p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
   + p9.scale_x_continuous(trans = 'log2')
)

print(gd3)

**Aufgabe:** 
    
Bestimmen Sie die Ausreißer nach oben und nach unten für den Westen. In welchen Ländern ist das BIP pro Kopf deutlich 
über dem Schnitt und wo deutlich darunter?

In [None]:
#Wer ist der Ausreißer nach unten?

In [None]:
#Wer ist der Ausreißer nach oben?

Im folgenden wollen wir uns noch die Entwicklungsländer genauer anschauen. Wenn wir den oberen Graphen mit den Dichteplots genau anschauen, so können wir erkennen, dass es offensichtlich einen Teil bei den Entwicklungsländern gibt die deutliche Fortschritte gemacht haben. Man erkennt dies an der Bimodalen Struktur der Verteilung und dadurch, dass der 2te Modalwert merklich nach rechts gewandert ist.

Um einen besseren Überblick zu gewinnen teilen wir die Entwicklungsländer in die Regionen East Asia, Latin America, Sub-Sahara Africa und die anderen ein.

In [None]:
#Einteilen der Entwicklungsländer in die neuen Kategorien
developing = plot_data[(plot_data.country.isin(comon_countries)) & (plot_data['group']=='developing')].copy()

developing['group'] = np.select(
    [
        developing.region.isin(["Eastern Asia", "South-Eastern Asia"]),
        developing.region.isin(["Caribbean", "Central America", "South America"]),
        (developing.continent == 'Africa') & ~(developing.region.isin(["Northern Africa"]))
    ],
    ['East Asia',
     'Latin America',
     'Sub-Sahara Africa'
    ],
    default = 'others'
)

developing.head()

In [None]:
#Darstellung der Dichteplots für diese Unterteilung
gd4=(p9.ggplot(developing, 
          p9.aes(x='dollars_per_day', y='..count..',fill = 'group')) 
   +p9.geom_density(alpha = 0.3,bw=0.75) 
   +p9.facet_grid('year ~.')
   + p9.scale_x_continuous(trans = 'log2')
)

print(gd4)

In [None]:
#Wir können die Dichteplots auch übereinanderlegen mit position = stack 
gb3=(p9.ggplot(developing, 
          p9.aes(x='dollars_per_day', y='..count..',fill = 'group')) 
   +p9.geom_density(alpha = 0.3,bw=0.75,position = 'stack') 
   +p9.facet_grid('year ~.')
   + p9.scale_x_continuous(trans = 'log2')
)

print(gb3)

Wir koennen jetzt die Daten noch mit der Bevoelkerung gewichten die die einzelnen Laender in den Jahren hatten. Dadurch koennen wir sehen ob sich die Einkommensverhältnisse für eine Grosszahl der Menschen verbessert hat

In [None]:
def make_weights(gdf):
    gdf['weights'] = gdf['population']/gdf['population'].sum()
    return gdf

developing = developing.groupby('year',group_keys=False).apply(make_weights)

#check ob die Gewichte aufsummiert 1 ergeben
developing.groupby('year').weights.sum()

Nun koennen wir also den plot mit den gewichteten Daten nochmals wiederholen

In [None]:
gb3=(p9.ggplot(developing, 
          p9.aes(x='dollars_per_day',fill = 'group',weight = 'weights')) 
   +p9.geom_density(alpha = 0.3,bw=0.75,position = 'stack') 
   +p9.facet_grid('year ~.')
   #+ p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
   + p9.scale_x_continuous(trans = 'log2')
)

print(gb3)

In [None]:
gb3=(p9.ggplot(developing, 
          p9.aes(x='dollars_per_day',fill = 'group',weight = 'weights')) 
   +p9.geom_density(alpha = 0.3,bw=0.75) 
   +p9.facet_grid('year ~.')
   #+ p9.theme(axis_text_x = p9.element_text(rotation = 90, hjust = 1))
   + p9.scale_x_continuous(trans = 'log2')
)

print(gb3)

Leider funktioniert das weights Argument nicht. Hier finden Sie eine Diskussion dazu:
https://github.com/has2k1/plotnine/issues/392

Weitere Information zur Funktion geom_density() finden Sie hier:

https://plotnine.readthedocs.io/en/stable/generated/plotnine.geoms.geom_density.html

Um dennoch eine gewichtete Darstellung zu erhalten generieren wir zuerst einen neuen Datenframe. Für diesen multiplizieren wir entsprechend der Gewichte die Zeilen. D.h. hat eine Region doppelt soviel Einwohner wie eine andere so wird diese Zeile einfach doppelt so oft in den neuen DataFrame hineingeschrieben. Am Ende verwenden wir dann die after_stat('count') Option um die gewichtete Darstellung zu erhalten.

In [None]:
df = developing[(developing.year.isin([1975,2010]))].copy()

# Diese Hilfsfunktion vervielfältigt die Zeilen entsprechend der Gewichtungen
def weight_to_frequency(df, wt, precision=3):
    ns = np.round(((wt/sum(wt)) * (10**precision))).astype(int)  # no. times to replicate
    idx = np.repeat(df.index, ns)                     # selection indices
    df = df.loc[idx].reset_index(drop=True)     # replication
    return df

# neuer Datensatz mit redundanten Daten
df = weight_to_frequency(df, df.weights, precision=3)

In [None]:
gb4=(p9.ggplot(df, 
          p9.aes(x='dollars_per_day',fill = 'group')) 
   +p9.geom_density(p9.aes(y=p9.after_stat('count')),alpha = 0.3,bw=0.75) 
   +p9.facet_grid('year ~.')
   + p9.scale_x_continuous(trans = 'log2')
)
print(gb4)

Um sicher zu sein prüfen wir noch die Gewichte pro Jahr und Gruppe um zu schauen ob diese in etwa der Darstellung entsprechen.
Wir sehen, dass Ostasien und die anderen knapp 80M% der Bevölkerung in den Entwicklungsländern darstellen und diese beiden Gruppen große Fortschritte gemacht haben was das Einkommen angeht. Besonders eindrucksvoll ist die Entwicklung Ostasiens.

In [None]:
developing.groupby(['year','group']).weights.sum()

**Aufgabe:**

Kommentieren Sie diese Graphen. Was fällt auf?