# Datenskalierung mit dem Titanic Datensatz

Die Titanic, das grösste und luxuriöseste Passagierschiff seiner Zeit, kollidierte in der Aprilnacht 1912 auf ihrer Jungfernfahrt von Southampton nach New York mit einem Eisberg und sank. Aufgrund mangelnder Sicherheitsvorkehrungen, wie z.B. zu wenig Rettungsbooten, kamen ca. 1.500 Menschen ums Leben. Das Unglück führte zu einer Revision der Schifffahrtsgesetze und hatte einen enormen Einfluss auf die Sicherheitsstandards auf See weltweit.

Der Titanic-Datensatz enthält verschiedene Variablen, die Informationen über die Passagiere des Schiffes Titanic erfassen. Hier ist eine Beschreibung der variablen Variablen im Trainingsdatensatz des Titanic-Datensatzes:

- $PassengerId$: Eine eindeutige Identifikationsnummer für jeden Passagier.
- $Survived$: Dummy ob der Passagier überlebt hat (1) oder nicht (0).
- $Pclass$: Die Passagierklasse, in der der Passagier gereist ist (1 = Erste Klasse, 2 = Zweite Klasse, 3 = Dritte Klasse).
- $Name$: Der Name des Passagiers.
- $Sex$: Das Geschlecht des Passagiers (male/female).
- $Age$: Das Alter des Passagiers. 
- $SibSp$: Die Anzahl der Geschwister/Ehepartner an Bord.
- $Parch$: Die Anzahl der Eltern/Kinder an Bord.
- $Ticket$: Die Ticketnummer des Passagiers.
- $Fare$: Der gezahlte Fahrpreis.
- $Cabin$: Die Kabinennummer des Passagiers. 
- $Embarked$: Der Hafen, an dem der Passagier eingestiegen ist (C = Cherbourg, Q = Queenstown, S = Southampton).

Es ist wichtig zu beachten, dass der Datensatz einige fehlende Werte für die Variablen $Age$ und $Cabin$ enthält. Ausserdem enthält der Datensatz nicht alle Passagiere, sondern nur 891 Passagiere.

### Laden des Datensatzes

Zuerst laden wir den Titanic-Datensatz.

In [1]:
# Laden des Titanic-Datensatzes
library(titanic)
data("titanic_train")  # Lädt den Trainingsdatensatz
print('Daten geladen')

[1] "Daten geladen"


Für einen Überblick betrachten wir die ersten 6 Zeilen des Datensatzes.

In [2]:
# Anzeigen der ersten paar Zeilen des Datensatzes
head(titanic_train)

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Unnamed: 0_level_1,<int>,<int>,<int>,<chr>,<chr>,<dbl>,<int>,<int>,<chr>,<dbl>,<chr>,<chr>
1,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38.0,1,0,PC 17599,71.2833,C85,C
3,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


Zusätzlich betrachten wir die deskriptiven Statistiken aller Variablen.

In [3]:
# Deskriptive Statistiken aller Variablen
summary(titanic_train)

  PassengerId       Survived          Pclass          Name          
 Min.   :  1.0   Min.   :0.0000   Min.   :1.000   Length:891        
 1st Qu.:223.5   1st Qu.:0.0000   1st Qu.:2.000   Class :character  
 Median :446.0   Median :0.0000   Median :3.000   Mode  :character  
 Mean   :446.0   Mean   :0.3838   Mean   :2.309                     
 3rd Qu.:668.5   3rd Qu.:1.0000   3rd Qu.:3.000                     
 Max.   :891.0   Max.   :1.0000   Max.   :3.000                     
                                                                    
     Sex                 Age            SibSp           Parch       
 Length:891         Min.   : 0.42   Min.   :0.000   Min.   :0.0000  
 Class :character   1st Qu.:20.12   1st Qu.:0.000   1st Qu.:0.0000  
 Mode  :character   Median :28.00   Median :0.000   Median :0.0000  
                    Mean   :29.70   Mean   :0.523   Mean   :0.3816  
                    3rd Qu.:38.00   3rd Qu.:1.000   3rd Qu.:0.0000  
                    Max.   :80.00 

### Regression

Wir wollen den Zusammenhang zwischen dem gezahlten Fahrpreis und der Überlebenswahrscheinlichkeit untersuchen. 

Zunächst werden die deskriptiven Statistiken der Variable $Fare$ näher betrachtet. Der Fahrpreis im Titanic-Datensatz wird in Pfund Sterling (£) angegeben. 

In [4]:
# Zusammenfassung der Fare-Spalte im Titanic-Datensatz
summary(titanic_train$Fare)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00    7.91   14.45   32.20   31.00  512.33 

Wir schätzen nun eine OLS-Regression von $Survived$ auf $Fare$. 

In [5]:
# Lineare Regression: Überleben in Bezug auf den Fahrpreis (in Pfund Sterling)
ols <- lm(Survived ~ Fare, data = titanic_train)
summary(ols)


Call:
lm(formula = Survived ~ Fare, data = titanic_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.9653 -0.3391 -0.3222  0.6044  0.6973 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.3026994  0.0187849  16.114  < 2e-16 ***
Fare        0.0025195  0.0003174   7.939 6.12e-15 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4705 on 889 degrees of freedom
Multiple R-squared:  0.06621,	Adjusted R-squared:  0.06516 
F-statistic: 63.03 on 1 and 889 DF,  p-value: 6.12e-15


**Interpretation:** Für jeden zusätzlich gezahlten £ Fahrpreis stieg die Überlebenswahrscheinlichkeit statistisch signifikant um 0,25% ($=0,0025 \cdot 100\%$). Dies deutet darauf hin, dass reichere Personen eine höhere Überlebenswahrscheinlichkeit hatten, was als Diskriminierung interpretiert werden könnte. 

### Skalierung der unabhängigen Variable

Wir wollen nun die Überlebenswahrscheinlichkeit in CHF und nicht in £ interpretieren. Es ist schwierig, den genauen Wechselkurs zwischen £ und CHF zum Zeitpunkt des Untergangs der Titanic im April 1912 zu bestimmen, da es damals noch keinen einheitlichen Wechselkurs gab. Grob geschätzt betrug der Wechselkurs 1 £ = 25 CHF. Wir müssen also den Fahrpreis mit 25 multiplizieren, um ihn in CHF umzurechnen. 

Wie wirkt sich das auf die geschätzten Koeffizienten aus?

Zuerst rechnen wir $Fare$ in CHF um und generieren die neue Variable $Fare\_CHF$.

In [6]:
# Umrechnung von Fare in Schweizer Franken (CHF)
titanic_train$Fare_CHF = titanic_train$Fare * 25
print('Variable generiert')

[1] "Variable generiert"


Dann schauen wir uns die deskriptiven Statistiken von $Fare\_CHF$ an, um zu überprüfen, ob alles richtig funktioniert hat.

In [7]:
# Zusammenfassung der Fare_CHF-Spalte
summary(titanic_train$Fare_CHF)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.0   197.8   361.4   805.1   775.0 12808.2 

Nun wird $Survived$ auf $Fare\_CHF$ regressiert.

In [8]:
# Lineare Regression: Überleben in Bezug auf den Fahrpreis in CHF
options(scipen=999) # Changes the way results are reported (suppresses scientific numbers)
ols_chf <- lm(Survived ~ Fare_CHF, data = titanic_train)
summary(ols_chf)


Call:
lm(formula = Survived ~ Fare_CHF, data = titanic_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.9653 -0.3391 -0.3222  0.6044  0.6973 

Coefficients:
              Estimate Std. Error t value             Pr(>|t|)    
(Intercept) 0.30269935 0.01878491  16.114 < 0.0000000000000002 ***
Fare_CHF    0.00010078 0.00001269   7.939  0.00000000000000612 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4705 on 889 degrees of freedom
Multiple R-squared:  0.06621,	Adjusted R-squared:  0.06516 
F-statistic: 63.03 on 1 and 889 DF,  p-value: 0.00000000000000612


- Der Intercept bleibt unverändert bei 0,30.
- Der Koeffizient von $Fare\_CHF$ ist um den Faktor 25 kleiner als der Koeffizient von $Fare$

**Interpretation:** Für jeden zusätzlich gezahlten CHF Fahrpreis stieg die Überlebenswahrscheinlichkeit statistisch signifikant um 0,01% ($=0,0001 \cdot 100\%$). 

### Skalierung der abhängigen Variable

Es ist umständlich, die Koeffizienten im Kopf in \% umzurechnen. Deshalb wollen wir die Skalierung der abhängigen Variablen $Survived$ ändern. Derzeit ist die Variable als Dummy kodiert mit $Survived=1$, wenn die Person überlebt hat und $Survived=0$, wenn die Person verstorben ist. Wir möchten nun die Variable $Survived$ als Variable $(0, 100)$ kodieren, um die Koeffizienten direkt in \% interpretieren zu können.

Zunächst betrachten wir die deskriptiven Statistiken der Variablen $Survived$.

In [9]:
# Zusammenfassung der Überlebensrate (Survived)
summary(titanic_train$Survived)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0000  0.0000  0.3838  1.0000  1.0000 

Dann generieren wir eine neue Variable $Survived\_Percent$, die $(0, 100)$ kodiert ist.

In [10]:
# Umrechnung der Überlebensrate in Prozent
titanic_train$Survived_Percent = titanic_train$Survived * 100
print('Variable generiert')

[1] "Variable generiert"


Nun regressieren wir $Survived\_Percent$ auf $Fare\_CHF$.

In [11]:
# Lineare Regression: Überlebensrate in Prozent in Bezug auf den Fahrpreis in Tausend CHF
ols_perc <- lm(Survived_Percent ~ Fare_CHF, data = titanic_train)
summary(ols_perc)


Call:
lm(formula = Survived_Percent ~ Fare_CHF, data = titanic_train)

Residuals:
   Min     1Q Median     3Q    Max 
-96.53 -33.91 -32.22  60.44  69.73 

Coefficients:
             Estimate Std. Error t value             Pr(>|t|)    
(Intercept) 30.269935   1.878491  16.114 < 0.0000000000000002 ***
Fare_CHF     0.010078   0.001269   7.939  0.00000000000000612 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 47.05 on 889 degrees of freedom
Multiple R-squared:  0.06621,	Adjusted R-squared:  0.06516 
F-statistic: 63.03 on 1 and 889 DF,  p-value: 0.00000000000000612


Wie haben sich die Koeffizienten verändert?

Alle Koeffizienten (auch der Intercept) sind jetzt um den Faktor 100 grösser.

**Interpretation:** Für jeden zusätzlich gezahlten CHF Fahrpreis stieg die Überlebenswahrscheinlichkeit statistisch signifikant um 0,01%. Der Koeffizient $Fare\_CHF$ muss also nicht mehr mit 100 multipliziert werden, um die Ergebnisse in \% interpretieren zu können.