In [10]:
%%html
<style>
table {float: left}
</style>

# Semesterarbeit Statistische Datenanalyse

## Dokumenteninformationen


| Titel   <img width=200/> |      todo     |
|:---------|:------------- |
| Schule |  Fernfachhochschule Schweiz |
| Studiengang |    Certificate of Advanced Studies in Statistische Datenanalyse & Datenvisualisierung   |
| Kennung | DS-C-SD001.StatDa.ZH-Sa-1.PVA.FS23 |
| Semester | Frühlingssemester 2023 |
| Dozent | **Jörg Osterrieder**<br>joerg.osterrieder@ffhs.ch<br> |
| Autor | **Patrick Hirschi**<br>Geburtsdatum: 12.01.1990<br>Matrikelnummer: 10-179-026<br>Studierenden-ID: 200768<br>patrick-hirschi@gmx.ch<br> |

# Einleitung

# Datenbeschaffung

## Datenset finden

Um böse Überraschungen im Projektverlauf zu vermeiden, wurde an dieser Stelle darauf verzichtet, ein Datenset aus dem eigenen geschäftlichen Umfeld anzufragen. Die Zeit zwischen Semesterstart und Abgabe der Arbeiten ist dafür leider jeweils sehr knapp bemessen.
  
[Kaggle](https://www.kaggle.com/) ist eine Online Community für Data Scientisten, mit vielen offenen Datensets, Code-Challenges und Forenbeiträgen. Um ein Datenset herunterzuladen braucht man lediglich einen Account. Dieser ist kostenlos.
  
Für diese Arbeit wurde ein [Datenset](https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who) von der Weltgesundheitsorganisation (WHO) ausgewählt. Darin sind für 193 Länder weltweit und für den Zeitraum 2000-2015 gesundheitsbezogene Daten wie z.B. die Lebenserwartung, Sterberate für Erwachsene, etc. abgebildet. Das Datenset hat 64'636 Zeilen und 22 Spalten (davon die meisten numerisch). Damit ist es sehr gut geeignet für die verschiedenen statistischen Tests, die im Rahmen dieser Arbeit durchgeführt und evaluiert werden sollen.

## Quelldaten laden

Nach dem Herunterladen der Daten in den lokalen Projektordner, sollen sie zuerst in ein Pandas DataFrame eingelesen werden. Dazu müssen aber die relevanten python Module in Jupyter importiert werden.

### Modulimport

In [2]:
# import required modules
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
import sys
import os
import datetime
import requests
from requests.exceptions import HTTPError
import pandas as pd
import numpy as np

# Visualization
import plotly 
import plotly.express as px
import plotly.graph_objects as go

# print versions
print('matplotlib: %s' % matplotlib.__version__)
print('requests: %s' % requests.__version__)
print('pandas: %s' % pd.__version__)
print('numpy: %s' % np.__version__)
print('plotly: %s' % plotly.__version__)

# log success
print(f'The module import was successful!')

matplotlib: 3.6.3
requests: 2.28.2
pandas: 1.5.3
numpy: 1.24.2
plotly: 5.13.0
The module import was successful!


### Datenimport

In [7]:
# datetime method for logging purposes
def get_current_time_str():
    return datetime.datetime.now().strftime("%H:%M:%S.%f")

# assign directory
directory = './data/'

# read input data
df_input_data = pd.read_csv(os.path.join(directory, 'life_expectancy_data.csv'))

# log an output message
print(f'{get_current_time_str()}: Successfully loaded input data '
      f'of size: {df_input_data.size}') 

18:34:22.234259: Successfully loaded input data of size: 64636


In [8]:
# print the first 10 rows to check if the import worked
df_input_data.head(10)

Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
0,Afghanistan,2015,Developing,65.0,263.0,62,0.01,71.279624,65.0,1154,...,6.0,8.16,65.0,0.1,584.25921,33736494.0,17.2,17.3,0.479,10.1
1,Afghanistan,2014,Developing,59.9,271.0,64,0.01,73.523582,62.0,492,...,58.0,8.18,62.0,0.1,612.696514,327582.0,17.5,17.5,0.476,10.0
2,Afghanistan,2013,Developing,59.9,268.0,66,0.01,73.219243,64.0,430,...,62.0,8.13,64.0,0.1,631.744976,31731688.0,17.7,17.7,0.47,9.9
3,Afghanistan,2012,Developing,59.5,272.0,69,0.01,78.184215,67.0,2787,...,67.0,8.52,67.0,0.1,669.959,3696958.0,17.9,18.0,0.463,9.8
4,Afghanistan,2011,Developing,59.2,275.0,71,0.01,7.097109,68.0,3013,...,68.0,7.87,68.0,0.1,63.537231,2978599.0,18.2,18.2,0.454,9.5
5,Afghanistan,2010,Developing,58.8,279.0,74,0.01,79.679367,66.0,1989,...,66.0,9.2,66.0,0.1,553.32894,2883167.0,18.4,18.4,0.448,9.2
6,Afghanistan,2009,Developing,58.6,281.0,77,0.01,56.762217,63.0,2861,...,63.0,9.42,63.0,0.1,445.893298,284331.0,18.6,18.7,0.434,8.9
7,Afghanistan,2008,Developing,58.1,287.0,80,0.03,25.873925,64.0,1599,...,64.0,8.33,64.0,0.1,373.361116,2729431.0,18.8,18.9,0.433,8.7
8,Afghanistan,2007,Developing,57.5,295.0,82,0.02,10.910156,63.0,1141,...,63.0,6.73,63.0,0.1,369.835796,26616792.0,19.0,19.1,0.415,8.4
9,Afghanistan,2006,Developing,57.3,295.0,84,0.03,17.171518,64.0,1990,...,58.0,7.43,58.0,0.1,272.56377,2589345.0,19.2,19.3,0.405,8.1


In [9]:
# check the column types
df_input_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2938 entries, 0 to 2937
Data columns (total 22 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Country                          2938 non-null   object 
 1   Year                             2938 non-null   int64  
 2   Status                           2938 non-null   object 
 3   Life expectancy                  2928 non-null   float64
 4   Adult Mortality                  2928 non-null   float64
 5   infant deaths                    2938 non-null   int64  
 6   Alcohol                          2744 non-null   float64
 7   percentage expenditure           2938 non-null   float64
 8   Hepatitis B                      2385 non-null   float64
 9   Measles                          2938 non-null   int64  
 10   BMI                             2904 non-null   float64
 11  under-five deaths                2938 non-null   int64  
 12  Polio               

Die Spaltenbeschreibungen gibt es auf Kaggle nur in Englisch. Der Vollständigkeit halber wurden sie hier auf deutsch übersetzt und zusammengetragen:
  
| Spaltenname   | Beschreibung  |
|:---|:---|
| Country  | Land  |
| Year  | Jahr |
| Status  | Entwicklungsstatus - "Developed" (für entwickelte Staaten) oder "Developing" (für Entwicklungsländer) |
| Life expectancy  | Lebenserwartung (Alter in Jahren) |
| Adult Mortality  | Erwachsenensterblichkeit (Anzahl Tote auf 1000 Einwohner für die Altersklasse 15 bis 60) |
| infant deaths  | Kindersterblichkeit (Anzahl Tote auf 1000 Einwohner für die Altersklasse 0 bis 15) |
| Alcohol  | Alkohol in Liter pro Kopf und Jahr |
| percentage expenditure  | Anteil der Gesundheitsausgaben am BIP pro Kopf (in Prozent) |
| Hepatitis B  | Hepatitis B Immunisierung bei 1 Jahr alten Kindern (in Prozent) |
| Measles  | Anzahl gemeldete Masern-Fälle pro 1000 Einwohner |
| BMI  | Durchschnittlicher Body Mass Index |
| under-five deaths  | Anzahl Tote unter 5 Jahren pro 1000 Einwohner |
| Polio  | Polio Immunisierung bei 1 Jahr alten Kindern (in Prozent) |
| Total expenditure  | Anteil der Gesundheitsausgaben an den Gesamtausgaben (in Prozent) |
| Diphtheria  | Diphterie Immunisierung bei 1 Jahr alten Kindern (in Prozent) |
| HIV/AIDS  | HIV/AIDS Tote pro 1000 Lebendgeburten (0-4 Jahre)  |
| GDP  | BIP pro Kopf (in US Dollar) |
| Population  | Bevölkerungsanzahl |
| thinness  10-19 years  | Prävalenz von Untergewicht bei Kindern und Jugendlichen im Alter von 10 bis 19 Jahren (in %) |
| thinness 5-9 years  | Prävalenz von Untergewicht bei Kindern und Jugendlichen im Alter von 5 bis 9 Jahren (in %) |
| Income composition of resources | Index der menschlichen Entwicklung in Bezug auf die Einkommenszusammensetzung der Ressourcen (Index von 0 bis 1) |
| Schooling  | Anzahl der Schuljahre pro Kopf |

# Explorative Datenanalyse

# Multiple Lineare Regression

# Logistische Regression

# Hypothesentests

# Zusammenfassung