<a href="https://colab.research.google.com/github/SDS-AAU/IntroStat/blob/master/Notebooks/Titanic_EDA_HA2020_NB1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Statistik i Python - Intro
## HA Anvendt Statistik E2020
### Roman Jurowetzki, Eskil Andersen


Denne notebook giver en introduktion til nogle indledende funktioner i deskriptiv statistik i Python. Til dette formål er Titanic datasættet anvendt som et eksempel på hvordan man kan bruge statistiske værktøj til at opnå indsigt på tværs af forskellige typer information. 

Python benytter sig af såkaldte libraries, eller pakker, der giver mulighed for at anvende forskellige funktioner eller opgaver. I denne notebook starter vi med at hente nogle få, vigtige pakker, der giver mulighed for at hente og formatere vores data, og for at foretage simpel deskriptiv statistik. 

![](https://i.pinimg.com/originals/48/4e/a5/484ea532fd1324cc801770862e646248.gif)

In [2]:
# Her er de anvendte pakker for denne notebook.
# Note: ved at inddrage as kan man give sin egen forkortelse til en pakke (det gør det nemmere og hurtigere at kode)
# f.eks. er pandas (den måske vigtigste pakke for databearbejdning) oftest forkortet som pd, og i vil som regel finde eksempler online, hvor det er gjort sådan.

import pandas as pd 

# giver dig mulighed at kommentere i code-cells :-) uden at python interpreterer det som kode.

I statistik vil man ofte arbejde med et eksisterende datasæt, altså information man har indsamlet eller fundet/fået adgang til, som er gemt i en excel, csv, eller anden type fil. Disse informationer skal findes frem i Python, og det gøres ved at anvende pandas pakken til at indlæse filen. Herfra kan den statistiske bearbejdning påbegyndes. 

I dette eksempel er Titanic datasettet en excel fil, men stort set alle filtyper kan bearbejdes i Python.

Vores data er på Github (en platform, som bruges mest til softwareudviling men også deling af filer og meget mere)

In [21]:
# Indlæsning af dataset - nemt. Man kan også uploade og åbne direkte uden henvisning til URL
df = pd.read_excel('https://sds-aau.github.io/IntroStat/Data/titanic.xlsx')

`df` er en forkortelse for DataFrame, og er endnu et eksempel for en populær forkortelse blandt anvendere af python, som også ofte vil kunne findes i online kodnings eksempler. Man kunne også have skrevet `Titanic` efterfulgt af` `= og funktionen, men det er ofte fornuftigt at vælge korte navne til ting man kommer til at bruge ofte, eksempelvis ens data. 

---

Som det første, kan man danne sig et overblik over data ved at foretage nogle præliminære tjek af format, datatyper og indhold.

In [22]:
# head() giver os et indledende overblik over datasettet, ved at vise de første 5 rækker. 
# Læg mærke til at python starter med at tælle fra 0 (0-4)
# head() har en modsætning i tail(), der viser de nederste 5 observationer i datasettet. 
# selvom 5 er standarden, kan man selv bestemme mængden af viste observationer ved at 
# skrive imellem paranteserne i funktionen. Prøv selv. 


df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [23]:
# info() giver mulighed for at se antallet af variable(kolonner/columns), 
# antallet af observationer(rækker/rows) inkl. missing data, og datatyper
# Pandas prøver at finde ud af hvikle datatyper man arbejder med og er mest meget
# mere skarp end Excel & co.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## Let's go!

Nu prøver vi at bruge Python til at besvare de spørgsmål, som vi arbejdede med i Excel tidligere.



### Hvor mange mænd og kvinder er der på Titanic?

In [24]:
# value_counts er den nemmeste måde at tælle observationer...
df.Sex.value_counts()

male      577
female    314
Name: Sex, dtype: int64

her bruger jeg "dot-notation" hvor kolonner tilgås med "."
man kunne også skrive `df["Sex"].value_counts()` 

In [25]:
# Hvis man skal have %
df.Sex.value_counts(normalize=True)

male      0.647587
female    0.352413
Name: Sex, dtype: float64

### Hvad er gennemsnitsalderen / ældste / yngste?

In [26]:
df.Age.mean()

29.69911764705882

In [27]:
df.Age.min()

0.42

In [28]:
df.Age.max()

80.0

### Aldersgrupper: Inddel i grupper 0-14; 15-64; 65+

In [41]:
bins= [0, 15, 65, 2000] # grænser
labels = ['børn','erhvervsaktive','pensionister'] # navne til kategorier

df['age_cat'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False) # implementering

In [51]:
# Frekvens aldersgrupper

df.age_cat.value_counts()

erhvervsaktive    625
børn               78
pensionister       11
Name: age_cat, dtype: int64

### Hvem overlever?

In [44]:
# alle
df.Survived.mean()

0.3838383838383838

In [45]:
# mænd
df[df.Sex == 'male'].Survived.mean()

0.18890814558058924

In [46]:
# kvinder
df[df.Sex == 'female'].Survived.mean()

0.7420382165605095

In [47]:
# eller mere elegant

df.groupby('Sex').Survived.mean()

Sex
female    0.742038
male      0.188908
Name: Survived, dtype: float64

In [49]:
# Rige kvinder overlever,fattige mænd ikke så meget?

print( df[(df.Sex == 'female') & (df.Pclass == 1)].Survived.mean())

print( df[(df.Sex == 'male') & (df.Pclass == 3)].Survived.mean())

# print - fordi ellers kommer output kun for den sidste beregning

0.13544668587896252
0.9680851063829787


In [50]:
# Eller:

df.groupby(['Sex', 'Pclass']).Survived.mean()

Sex     Pclass
female  1         0.968085
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: Survived, dtype: float64

![](https://img.buzzfeed.com/buzzfeed-static/static/2017-11/26/15/asset/buzzfeed-prod-fastlane-01/anigif_sub-buzz-24458-1511727236-7.gif?output-quality=auto&output-format=auto&downsize=360:*)