# 2. Packages
---

In diesen Skript bearbeiten wir die Grundlagen von Packages.
Python bietet ein breites und umfangreiches Ökosystem an Packages
Sei es von 
- Webframeworks (`Django`), 
- Spieleentwicklung (`Pygame`), 
- Big Data (`Spark`), 
- Daten analyse (`Seaborn`, `Plotly`, `Matplotlib`)
- Machine Learning (`Skit-learn`, `Statsmodels`), 
- Deep Learning (`Tensorflow / Keras`) und viel mehr.
---


Stell sicher das du im richtigen Verzeichnis bist:
---

In [125]:
import os
import warnings 
warnings.filterwarnings('ignore')

# Dein Akttueller Pfad
notebook_path = os.getcwd()
"Current directory:", notebook_path

# (replace '/path/to/directory' ändere es zu dein Pfad)
new_directory = '/Users/riccardo/Desktop/Github/Python-Crashkurs_'
os.chdir(new_directory)

# Bestätige die änderung
notebook_path = os.getcwd()
print("New directory:", notebook_path)


New directory: /Users/riccardo/Desktop/Github/Python-Crashkurs_


Pandas
---
### Installation:
Wenn wir in einem Jupyter Notebook (`.ipynb` )arbeiten, verwenden wir den Code 
- `%pip install dein_package`, 
um das Pakete zu installieren.

In einer `.py` Datei wird die Eingabe in dem Terminal getätig und zwar wie folgt:
`pip install dein_package`

<img src="/Users/riccardo/Desktop/Github/Python-Crashkurs_/Pic_for_expla/install_package_terminal.png" alt="Terminal package install" width="700"/>

-----

### Wie verwende ich ein Package
Um die Verwendung eines Pakets zu verdeutlichen machen wird es an Pandas fest.
Um das Paket zu verwenden, importieren wir es sowohl in einer `.ipynb-Datei` als auch in einer `.py-Datei` mit dem Befehl:

- `import pandas as pd`


**ACHTUNG:**

Durch den Import mit `import` steht uns das Paket zur Verfügung, und wir können die damit verbundenen Funktionen nutzen.
Wir referenzieren das Paket nicht mit `pandas`, sondern mit `pd`, da wir `as pd` verwenden. Das bedeutet, dass wir beim Aufruf der Pandas-Funktionen anstelle von `pandas` nur noch `pd` schreiben.

------

### Welche Funktionen gibt es nun ? 

Wie finden wir heraus welche Funktion nun Pandas hat ? 
Jedes große Package wie Pandas, Streamlit und viele mehr haben eine Offiziele Dokumentation.
- Die offiziele Dokumentation von Pandas findest du hier: https://pandas.pydata.org/docs/index.html 

Dabei wird erklärt 
- welche Funktion es gibt 
- welche Parameter mitgeben werden können 
- zugleich werden weiter unten manchmal beispiele mitgegeben wie der Code anzuwenden ist.
----



In [126]:
# Wie besproche müssen wir Pandas zunächst installieren:
%pip install pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.3.1[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [127]:
# Importierung von Pandas um auf die Funktionen zugreifen zu können
import pandas as pd

Wir nutzen als erste Funktion 

- [pd.read_csv(filepath_or_buffer="Deine_Datei.csv", sep=",")](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

um Daten einzulesen.

In [128]:
df = pd.read_csv(filepath_or_buffer="Data/titantic.csv",
                 sep=",")
df.head()

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Titanic Datensatz:

Beschreibung (Meta-Daten):
- PassengerId: Unique identifier for each passenger.
- Survived: Survival status of the passenger (0 = Not Survived, 1 = Survived).
- Pclass: Passenger class (1 = First class, 2 = Second class, 3 = Third class).
- Sex: Gender of the passenger.
- Age: Age of the passenger.
- SibSp: Number of siblings/spouses aboard the Titanic.
- Parch: Number of parents/children aboard the Titanic.
- Fare: Fare paid by the passenger.
- Embarked: Port of embarkation (C = Cherbourg, Q = Queenstown, S = Southampton).
---

Bei der Importierung der Daten haben wir nun ausversehen eine Spalte hinzugefügt die wir nicht brauchen namenes `"Unnamed: 0"`.
Um eine Spalte aus einem DataFrame zu entfernen, können wir die Funktion 
- [`df.drop()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html) wie folgt verwenden:

- `df.drop(columns=["Spalte"], inplace=True)` entfernt die Spalte dauerhaft aus dem DataFrame, da die Änderung direkt im ursprünglichen DataFrame durchgeführt wird.

- `df = df.drop(columns=["Spalte"])` wird verwendet, wenn der Parameter `inplace` nicht angegeben ist. In diesem Fall muss das Ergebnis entweder in der gleichen oder einer neuen Variablen gespeichert werden. Andernfalls wird die Änderung nur temporär vorgenommen und hat keinen Einfluss auf den DataFrame im weiteren Verlauf des Codes.

In [129]:
df.drop(columns=["Unnamed: 0"], inplace = True)

In [130]:
# überprüfe ob die Spalte wirklich entfernt wurde
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### Umgang mit NaN-Werten (Not a Number):

NaN Werte sind Daten die nicht richtig erhoben worden oder auch fehler enthalten

**Fehlende Werte:**
Der Umgang mit fehlenden Werten ist ein entscheidender Schritt bei der Datenvorbereitung und sollte für jede Spalte individuell betrachtet werden.

Die zentrale Frage sollte immer lauten: **Kann ich die fehlenden Werte sinnvoll ersetzen?**

***Beispiel: Spalte `"Age"` (Alter) ?***


In [131]:
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [132]:
df.describe().round(2)

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.38,2.31,29.7,0.52,0.38,32.2
std,257.35,0.49,0.84,14.53,1.1,0.81,49.69
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.12,0.0,0.0,7.91
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.45
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.33


1. Lösche die Zeilen mit NaN values. ACHTUNG hier werden aus deinem Dataframe ALLE NaN values entfernt


In [133]:
#df = df.dropna()

2. Um alle Zeilen mit fehlenden Werten (NaN) in der 'Age'-Spalte zu löschen, kannst du den folgenden Befehl verwenden:

    **Hinweis**: Dieser Schritt entfernt nur die Zeilen, die NaN-Werte in der angegebenen Spalte enthalten. 
Alle anderen NaN-Werte in anderen Spalten bleiben unverändert.

In [134]:
df = df.dropna(subset=['Age'])

3. NaN-Werte mit dem Durchschnitt der jeweiligen Spalte füllen:

Um die NaN-Werte in der `'Age'`-Spalte durch den Durchschnitt dieser Spalte zu ersetzen, verwende den folgenden Befehl:

In [135]:
#df = df.fillna()

In [136]:
#df["Age"]= df["Age"].fillna(df["Age"].mean()) # nur eine Spalte werden die Daten ersetzt

In [137]:
#df = df.fillna(df.mean()) #<- mean(), mode(), median() / Alle Spalten werden ersetzt oder Brechnungen die eine INT oder FLOAT wiedergeben

In [138]:
df.describe().round(2)

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,714.0,714.0,714.0,714.0,714.0,714.0,714.0
mean,448.58,0.41,2.24,29.7,0.51,0.43,34.69
std,259.12,0.49,0.84,14.53,0.93,0.85,52.92
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,222.25,0.0,1.0,20.12,0.0,0.0,8.05
50%,445.0,0.0,2.0,28.0,0.0,0.0,15.74
75%,677.75,1.0,3.0,38.0,1.0,1.0,33.38
max,891.0,1.0,3.0,80.0,5.0,6.0,512.33


`df.info()` gibt uns eine gesamte Übersicht über die Datentypen für jede Spalte an.

In [139]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 714 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  714 non-null    int64  
 1   Survived     714 non-null    int64  
 2   Pclass       714 non-null    int64  
 3   Name         714 non-null    object 
 4   Sex          714 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        714 non-null    int64  
 7   Parch        714 non-null    int64  
 8   Ticket       714 non-null    object 
 9   Fare         714 non-null    float64
 10  Cabin        185 non-null    object 
 11  Embarked     712 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 72.5+ KB


Wir sehen das folgende Spalten den Datentypen darstellen als `objects`:
- Name
- Sex
- Ticket
- Cabin
- Embarked

Betrachte die Spalten und entscheide welche Datentypen du verwendets.

In [140]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Anpassung der Datentypen:

---

Im folgenden werden wir die Datentypen anpassen. Da bei der Importierung fehler enstanden sind

- Dabei nutzen wir die Funktion `.astype("string")` um die jewelige Spalten Datentypen zu ändern.

In [141]:
df["Name"] = df["Name"].astype("string")
df["Sex"] = df["Sex"].astype("category")

# mache weiter und ändere die Datentypen für Ticket, Cabin und Embarked

# - Ticket
df["Ticket"] = df["Ticket"].astype("string")

# - Cabin 
df["Cabin"] = df["Cabin"].astype("string")

# - Embarked
df["Embarked"] = df["Embarked"].astype("category")


Überprüfe ob die Datentypen korrekt geändert wurden:

In [142]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 714 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  714 non-null    int64   
 1   Survived     714 non-null    int64   
 2   Pclass       714 non-null    int64   
 3   Name         714 non-null    string  
 4   Sex          714 non-null    category
 5   Age          714 non-null    float64 
 6   SibSp        714 non-null    int64   
 7   Parch        714 non-null    int64   
 8   Ticket       714 non-null    string  
 9   Fare         714 non-null    float64 
 10  Cabin        185 non-null    string  
 11  Embarked     712 non-null    category
dtypes: category(2), float64(2), int64(5), string(3)
memory usage: 63.0 KB


In [143]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Datenfilterung:
---
Es gibt zahlreiche Methoden, um Daten zu filtern. Eine dieser Möglichkeiten werden wir nun genauer betrachten und praktisch anwenden.

### Daten Filterun mit einer Bedigung

In [144]:
# Der folgende Datensatz enthält nur Daten über die überlebende
Survived_df = df[df["Survived"] == 1]

Survived_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [145]:
# Der folgende Datensatz enthält nur Daten über die verstorbenen
Perished_df = df[df["Survived"] == 0]



Perished_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S


Aufgabe: Erstelle einen DataFrame, der nur die Passagiere enthält, die in der 1. Klasse gereist sind. Dafür musst du zunächst herausfinden, wie viele eindeutige *`(unique values)`* Werte die entsprechende Spalte hat.Um richtig filtern zukönnen. 


mit dem Code:
`df["Pclass"].unqiue()`
Dieser Code gibt dir eine Übersicht der verschiedenen Klassen, indem jeder Wert nur einmal angezeigt wird. Dies hilft dir, die Struktur der Daten besser zu verstehen, 
bevor du den Filter auf die 1. Klasse anwendest.

In [146]:
print(df["Pclass"].unique())
# print(df["Pclass"].dtype)

[3 1 2]


Nun kannst du nach der 1. Klasse filtern da du die `unique values` kennst.

In [147]:
firstClass_df = df[df["Pclass"] == 1]
firstClass_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S


Ein dataframe nur mit den Passagieren die die `2. Klasse` gebucht haben


In [148]:
secondClass_df =df[df["Pclass"] == 2]
secondClass_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
20,21,0,2,"Fynney, Mr. Joseph J",male,35.0,0,0,239865,26.0,,S
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0,D56,S
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S


Ein dataframe nur mit den Passagieren die die `3. Klasse` gebucht haben


In [149]:
thridClass_df = df[df["Pclass"] == 3]
thridClass_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S


### Daten Filterung mit mehreren Bedigung
Das Filtern von Daten kann auch auf Basis von zwei oder mehr Bedingungen erfolgen. Im folgenden Beispiel filtern wir die Daten anhand von zwei Bedingungen und speichern das Ergebnis in einer neuen Variablen.

In [150]:
maleSurvived_df = df[(df["Sex"] == "male") & 
                    (df["Survived"] == 1)].round(2)


maleSurvived_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0,D56,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S
74,75,1,3,"Bing, Mr. Lee",male,32.0,0,0,1601,56.5,,S
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
81,82,1,3,"Sheerlinck, Mr. Jan Baptist",male,29.0,0,0,345779,9.5,,S


Aufgabe: Filtere die Daten anhand der folgenden **zwei Bedingungen**:

- Passagiere, die 25 Jahre oder älter sind,
- und Passagiere, die in der 1. Klasse gebucht haben.
Speichere das Ergebnis der gefilterten Daten in einer neuen Variablen.

In [151]:
df_filtered = df[(df["Age"] >= 25) & 
                    (df["Pclass"] == 1)].round(2)


df_filtered

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.10,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.86,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.50,A6,S
...,...,...,...,...,...,...,...,...,...,...,...,...
867,868,0,1,"Roebling, Mr. Washington Augustus II",male,31.0,0,0,PC 17590,50.50,A24,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.55,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.00,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.16,C50,C


Aufgabe: Filtere die Daten nach den folgenden Bedingungen:

- Passagiere, die in der 3. Klasse gebucht haben,
- und Passagiere, die das Unglück überlebt haben.
Speichere das Ergebnis der gefilterten Daten in einer neuen Variablen.

In [152]:
Perished_P3_df = df[(df["Survived"] == 0) & 
                    (df["Pclass"] == 3)].round(2)
Perished_P3_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.08,,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.28,,S


## World Bank Data:

---

Lade die Folgende Datei herunter in Ilias in den Ordner Data/World_Data_Bank.csv
oder im Github Repo https://github.com/RiccardoDAndrea/Python-Crashkurs_/tree/main/Data

- Nutze die Funktion `pd.read_csv()` um die Datei einzulesen und speicher sie ab als `df_wb`.

*Stell sicher das du im richtigen Directory bist*

In [153]:
# Daten einlesen
df_wb = pd.read_csv("Data/World_Data_Bank.csv")
df_wb

Unnamed: 0,Country,Year,FDI as % of GDP,Inflation Rate (%),GDP per Capita (constant 2015 $),Unemployment Rate (%)
0,United States,2020,0.642810,1.233584,59394.778327,9.971
1,United States,2019,1.468232,1.812210,61330.645977,4.854
2,United States,2018,1.039454,2.442583,60127.210278,5.156
3,United States,2017,1.941776,2.130110,58703.144078,5.791
4,United States,2016,2.522681,1.261583,57658.670883,6.524
...,...,...,...,...,...,...
88,Germany,1994,0.340907,2.693056,31238.879060,7.285
89,Germany,1993,0.023165,4.474577,30615.140212,6.179
90,Germany,1992,-0.100289,5.056978,31121.070565,4.636
91,Germany,1991,0.253701,4.047033,30766.928958,


Stell sicher das du keine NaN Werte hast:
- Ersetzte die `NaN` werte nutze dafür gerne den Leitfaden oder den Code von oben

In [154]:
df_wb.isna().sum()

Country                             0
Year                                0
FDI as % of GDP                     0
Inflation Rate (%)                  0
GDP per Capita (constant 2015 $)    0
Unemployment Rate (%)               9
dtype: int64

Das sind all deine Fehlende Werte wie kannst du sie am sinnvollsten ersetzen.9

In [155]:
df_wb[df_wb.isna().any(axis=1)]


Unnamed: 0,Country,Year,FDI as % of GDP,Inflation Rate (%),GDP per Capita (constant 2015 $),Unemployment Rate (%)
27,United States,1993,0.73237,2.951657,40002.476225,
28,United States,1992,0.464854,3.02882,39447.947286,
29,United States,1991,0.561047,4.234964,38637.839814,
30,United States,1990,1.194504,5.397956,39200.065811,
59,France,1992,1.558333,2.36376,28977.888903,
60,France,1991,1.193809,3.213407,28664.131878,
61,France,1990,1.038725,3.194283,28617.44357,
91,Germany,1991,0.253701,4.047033,30766.928958,
92,Germany,1990,0.14431,2.696468,29485.709974,


In [156]:
df_wb.columns

Index(['Country', 'Year', 'FDI as % of GDP', 'Inflation Rate (%)',
       'GDP per Capita (constant 2015 $)', 'Unemployment Rate (%)'],
      dtype='object')

In [157]:
df_wb["Unemployment Rate (%)"] = df_wb["Unemployment Rate (%)"].fillna(df_wb["Unemployment Rate (%)"].mean())

Überprüfe ob die Datentypen richtig formatiert sind:

In [158]:
# Hier überprüfen nach den Datentypen
df_wb.isna().sum()

Country                             0
Year                                0
FDI as % of GDP                     0
Inflation Rate (%)                  0
GDP per Capita (constant 2015 $)    0
Unemployment Rate (%)               0
dtype: int64

In [159]:
# Falls nötig ändere die Datentypen
df_wb.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 6 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Country                           93 non-null     object 
 1   Year                              93 non-null     int64  
 2   FDI as % of GDP                   93 non-null     float64
 3   Inflation Rate (%)                93 non-null     float64
 4   GDP per Capita (constant 2015 $)  93 non-null     float64
 5   Unemployment Rate (%)             93 non-null     float64
dtypes: float64(4), int64(1), object(1)
memory usage: 4.5+ KB


Betrachte den Datensatz und stelle fest wie viele Länder es gibt. 
Als Tipps `unqiue values` in der Spalte "Country"

In [160]:
# Hier nach unqiue values in der Spalte "Country" suchen
df_wb["Country"].unique()

array(['United States', 'France', 'Germany'], dtype=object)

Nachdem du erfolgreich festgestellt hast wie viele Länder dein Daten repräsentiert.
Speicher die Länder in Variablen ab.
- `ger_df`
- `usa_df`
- `fra_df`

*Wie gefiltert wird haben wir bereits weiter oben besprochen oder du schaust im Leitfaden nach.*

In [161]:
ger_df = df_wb[df_wb["Country"] == "Germany"]
ger_df.head()

Unnamed: 0,Country,Year,FDI as % of GDP,Inflation Rate (%),GDP per Capita (constant 2015 $),Unemployment Rate (%)
62,Germany,2020,4.549376,0.144878,41601.973156,3.495
63,Germany,2019,1.902059,1.44566,43292.683892,3.068
64,Germany,2018,4.199722,1.732169,42928.741237,3.247
65,Germany,2017,2.966417,1.509495,42639.554409,3.692
66,Germany,2016,1.865907,0.491747,41682.032243,4.025


In [162]:
fra_df = df_wb[df_wb["Country"] == "France"]
fra_df.head()

Unnamed: 0,Country,Year,FDI as % of GDP,Inflation Rate (%),GDP per Capita (constant 2015 $),Unemployment Rate (%)
31,France,2020,0.731612,0.476499,35806.617892,8.462
32,France,2019,1.960494,1.108255,38832.024201,8.55
33,France,2018,2.776578,1.850815,38259.69777,9.001
34,France,2017,1.685191,1.032283,37694.083303,9.595
35,France,2016,1.440512,0.183335,36956.7958,10.411


In [163]:
usa_df = df_wb[df_wb["Country"] == "United States"]
usa_df.head()

Unnamed: 0,Country,Year,FDI as % of GDP,Inflation Rate (%),GDP per Capita (constant 2015 $),Unemployment Rate (%)
0,United States,2020,0.64281,1.233584,59394.778327,9.971
1,United States,2019,1.468232,1.81221,61330.645977,4.854
2,United States,2018,1.039454,2.442583,60127.210278,5.156
3,United States,2017,1.941776,2.13011,58703.144078,5.791
4,United States,2016,2.522681,1.261583,57658.670883,6.524


Visualisierung mit *Plotly*:
---
Für die Visualisierung nutzen wir Plotly da dies die Grundlage ist für die Integration in Streamlit später.


In [164]:
%pip install plotly==5.24.1


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.3.1[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.



Folgende Funktion können wir zur Visualisierung nutzen
- [`px.line()`](https://plotly.com/python/line-charts/) Liniendiagramm
- [`px.box()`](https://plotly.com/python/box-plots/)    Boxplot
- [`px.pie()`](https://plotly.com/python/pie-charts/)   Kuchendiagramm
- [`px.bar()`](https://plotly.com/python/bar-charts/)   Balkendiagramm
- [`px.histogram()`](https://plotly.com/python/histograms/)  Histogramm
- [`px.violin()`](https://plotly.com/python/violin/)     Violin 

und viele mehr findest du auf der offizielen Seite von Plotly.
Plotly: https://plotly.com/python/

---

In [165]:
import plotly.express as px

Wir werden mit `simplen Zeitreihen` beginnen und steigern uns stück für stück.

Als Orientierung kannst du den Code `df_wb.columns` nutzen um die exakte Schreibe weise deiner Spalten zu betrachten:

In [166]:
df_wb.columns

Index(['Country', 'Year', 'FDI as % of GDP', 'Inflation Rate (%)',
       'GDP per Capita (constant 2015 $)', 'Unemployment Rate (%)'],
      dtype='object')

### 1. Visualisierung:
---

Schauen wir an welche Parameter wir mitgeben können:

`px.line()`: Ist ein Liniendiagramm
- `dataframe`: Der Datensatz
- `x`: Die x-Achse, wo wir nur die Spalten namen eigeben des Datensatzes
- `y`: Die y-Achse, wo wir nur die Spalten namen eigeben des Datensatzes
- `color`: Die Farbe der Linie nach Ländern
- `title`: Der Titel des Diagramms

In [167]:
fig = px.line(data_frame=ger_df, 
              x="Year", 
              y="Unemployment Rate (%)", 
              title='Unemployment Rate (%) in Germany', 
              color='Country')
fig.show()

### 2. Visualisierung

---


Als weitere Funktion haben wir nun:
`update_xaxes()`,`update_yaxes()`
- `dtick=1`: Wie soll die Skalierung deiner X-Achse sein
- `tickangle`: Die Rotation deiner X-Achsen Werte

Trage gerne andere Werte (`int`) in `dtick` ein um zusehen wie sich die X-Achse ändert und gernauch bei `tickangle`

Als nächstes nutzt du die Variable `usa_df` und erstellst ein Liniendiagramm mit den gleichen Parametern,
aber anstatt von `ger_df` nutzt du bitte `usa_df` in den Parameter `dataframe`


In [168]:
# Filiter hier die Daten
Great_depression = df_wb[(df_wb["Year"] >= 2008) & 
                    (df_wb["Year"] <= 2015)].round(2)

# Ein Diagramm mit den Daten aller drei Länder in einer Figur
fig = px.line(data_frame=Great_depression, 
              x="Year", 
              y="Unemployment Rate (%)", 
              title='Unemployment Rate (%) in Germany, France and US between the Great Depression', 
              color='Country')

fig.update_xaxes(dtick=1, tickangle=1)
fig.update_yaxes(dtick=2, tickangle=1)
fig.show()

### 3. Visualisierung

---

Als nächstes werden wir den ursprünglichen Datensatz nehmen `df` und visualisieren die Daten aller 3 Länder in einer Figur.
Visualisieren dafür 

- *Gestalte bitte den Graphen so das er eine klare und minimalitische Übersicht der Daten wiedergibt.*

In [169]:
# Ein Diagramm mit den Daten aller drei Länder in einer Figur
fig = px.line(



# Entferne den Hastag und vervollständige den Code



)

fig.update_xaxes(dtick=1, tickangle=1)
fig.update_yaxes(dtick=1, tickangle=1)
fig.show()

In [170]:
df_wb.columns

Index(['Country', 'Year', 'FDI as % of GDP', 'Inflation Rate (%)',
       'GDP per Capita (constant 2015 $)', 'Unemployment Rate (%)'],
      dtype='object')

### 4. Visualisierungen
---

In diesem Schritt erstellen wir ein weiteres Liniendiagramm, um die *Arbeitslosenquote* und die *Inflationsrate* in Deutschland zu visualisieren. Dazu verwenden wir die bereits bekannte Funktion `px.line()`. Der Unterschied ist nun, dass wir dem *Parameter* `y` eine Liste von Spalten übergeben **(dargestellt durch [])**, die wir im Diagramm darstellen möchten.

Eine neue Funktion, die wir hier einführen, ist `update_layout()`. Diese Funktion ermöglicht uns, das Layout des Diagramms weiter anzupassen:

- `legend_title="Metric"`: Legt den Titel der Legende fest, der erklärt, welche Linie welche Metrik repräsentiert.
- `xaxis_title = "Year"`: Fügt der X-Achse eine Beschriftung hinzu, die die Jahre darstellt.
- `yaxis_title = "Rate (%)"`: Fügt der Y-Achse eine Beschriftung hinzu, die die Rate in Prozent anzeigt (für Arbeitslosenquote und Inflation).

Durch diese Anpassungen wird das Diagramm nicht nur informativer, sondern auch leichter verständlich.

In [171]:
fig = px.line( data_frame=ger_df,
              x= "Year",
              
              y = ["Unemployment Rate (%)", "Inflation Rate (%)"], 
              title= "Unemployment Rate and Inflation Rate in Germany")

#Update layout to ensure legend appears with proper labels
fig.update_layout(
    legend_title = "Metric",
    xaxis_title = "Year",
    yaxis_title = "Rate (%)"
)
fig.show()

### Die möglichkeiten sind unendlich viele und es gibt noch viele weitere Funktionen die du nutzen kannst.
### Es folgen weitere beispiele die jedoch im Kern gleich sind.

### Erstellung eines Boxplots
---
`px.box()`
- Parameter: 

    - `data_frame=df`aus welchen Dataframe die Daten visualisiert werden sollen
    - `y="Age"` die Spalte
    - `title="Age Distribution of Passengers"` Ist die überschrift des Boxplots.

`fig.update_layout`
- Parameter:
    - width (breite) als *`int`*
    - height (höhe) als *`int`* 

**Dieses Muster werden sich immer wieder holen**


In [172]:
fig = px.box(data_frame = df, 
             y = "Age", 
             title = "Age Distribution of Passengers")

fig.update_layout(width = 800, 
                  height = 600)  # Setze die Breite und Höhe des Graphen
fig.show()


### Erstellung eines Histogram

Indemfall nutzen wir den `px.histogram()` um die Verteilung der Geschlechter `("Sex")` zu visualisieren
Die Parameter bleiben exakt die gleichen jedoch die Visualsierung ändert sich.

-Erstelle eine Histogramm für die Geschlechter `Sex`

In [173]:
fig = px.histogram(data_frame = df,
                    x="Sex", 
                    title="Male or Female")

fig.update_layout(width=800, 
                  height = 600)
fig.show()

Eine weiter mögliche ist eine Lücke `(bargap)` zwischen den Balken zu setzen indem wir 
- `fig.update_layout(bargap=0.2)` hinzufügen.

Der Parameter ist ein Wert zwischen 0 und 1, wobei 0 bedeutet, dass die Balken aneinander kleben und 1 bedeutet, dass die Balken so weit wie möglich voneinander entfernt sind.

In [174]:
fig = px.histogram(data_frame=df, 
                   x="Survived", 
                   title="How many passengers survived?")

fig.update_layout(width=800, 
                  height=600, 
                  bargap=0.2,)  # Setzt eine Lücke von 20% zwischen den Balken

fig.show()

Kreisdiagramm:
---
- `data_frame=Survived_df`: Der Datensatz, der für das Diagramm verwendet wird.
- `values='Survived'`: Die Spalte, die die Werte für die Segmentgrößen angibt.
- `names='Pclass'`: Die Spalte, die die Kategorien (Passagierklassen) für die Segmente definiert.
- `title='Survival rate of Pclass'`: Der Titel des Diagramms.
- `hole=0.3`: Macht aus dem Kuchendiagramm ein Donut-Diagramm, indem es die Mitte zu 30 % leer lässt.

In [175]:
fig = px.pie(data_frame=df, 
                values='Survived',
                names='Pclass',
                title='Survival rate of Pclass',
                hole=0.3)
fig.update_layout(width=800, height=600)  
fig.show()

1. `fig = px.pie(...)`: 
    - `hole=0.3`: Erstellt ein Donut-Diagramm  
    - `names="Pclass"`:der Passagierklasse (Pclass) als Kategorie und dem Titel "Verteilung der Passagiere nach Klasse".

2. `fig.update_traces(pull=[0.2, 0.1, 0.4])`: 
    - `pull`:Hebt die Segmente der Klassen 1 und 3 hervor, indem sie aus dem Donut herausgezogen werden. Der Wert in pull bestimmt, wie stark jedes Segment verschoben wird (Klasse 1 um 0.2, Klasse 3 um 0.4).

3. `fig.update_layout()`: 
    - Parameter:
        - `width`: (breite) als *`int`*
        - `height`: (höhe) als *`int`* 

In [176]:
fig = px.pie(df, names="Pclass",
              title="Verteilung der Passagiere nach Klasse",
             hole=0.3)
  
fig.update_traces(pull=[0.2, 0.1, 0.4])  # Hebt die Klassen 1 und 3 hervor
fig.update_layout(width=600, height=600, title_font_size=22, font=dict(size=16))
fig.show()


`fig = px.bar()`
- `y="Pclass"`: Y-Achse zeigt die Passagierklasse.
- `x="Survived"`: X-Achse zeigt den Überlebensstatus.
- `color="Embarked"`: Balken werden nach Einschiffungshäfen farblich markiert.
- `barmode="group"`: Balken sind gruppiert, nicht gestapelt.
- `facet_col="Sex"`: Separate Diagramme für Männer und Frauen (Facetten-Spalten).
- `category_orders`: Legt die Reihenfolge der Kategorien fest (Pclass, Embarked, Sex).

`fig.update_traces()`: 
- `marker_line_width=0`:Entfernt die Linien um die Balken.

In [177]:
pclass_feature = df.Pclass.value_counts()
pclass_feature
fig = px.bar(x=pclass_feature.index,
             y=pclass_feature.values,
             title="Verteilung der Passagiere nach Klasse")

fig.update_layout(title="Verteilung der Passagiere nach Klasse",
                  xaxis_title="Klasse",
                  yaxis_title="Anzahl der Passagiere")

fig.update_xaxes(dtick=1)
fig.show()

In [178]:
fig = px.histogram(
    df,
    x='Survived',
    color='Pclass',
    barmode='group',
    title="Survival Count Plot",
    text_auto=True  # This parameter automatically adds text labels to the bars
)

# Update layout to improve appearance
fig.update_layout(
    xaxis_title='Survived',
    yaxis_title='Count',
    legend_title='Passenger Class',
    font=dict(size=14)  # Optionally adjust the font size of the text labels
)


In [179]:
fig = px.pie(data_frame=df, values='Survived',
                names='Pclass',
                title='Survival rate of Pclass',
                hole=0.3,
                width=800, height=600)

fig.show()

In [180]:
df_car = pd.read_csv(filepath_or_buffer="Data/car.csv")
df_car.drop(columns=["Unnamed: 0"], inplace = True)
df_car.dropna(inplace = True)

In [181]:
# 3D-Scatterplot mit Farbcodierung basierend auf der Anzahl der Zylinder ('cylinders')
fig = px.scatter_3d(df_car, x='displacement', y='mpg', z='weight',
                    color='cylinders',  # Farbskala basierend auf der Anzahl der Zylinder
                    size='horsepower',  # Punktgröße basierend auf der Leistung (PS)
                    title="3D-Darstellung: Hubraum, Kraftstoffeffizienz und Fahrzeuggewicht",
                    labels={'displacement': 'Hubraum (cc)', 
                            'mpg': 'Meilen pro Gallone (mpg)', 
                            'weight': 'Gewicht (lbs)'})

# Layout-Anpassungen
fig.update_layout(title_x=0.5,  # Titel zentrieren
                  width=800, height=600)

# Zeige das Diagramm an
fig.show()

---
## User Mobile Device beahvior
---

Führe selbstständig eine 
- Daten importierung
- Daten reinigung
- Filter die Daten sowie es dir passen
- und Visualisiere die Daten


In [182]:
df_U = pd.read_csv("Data/user_behavior_dataset.csv")
df_U

Unnamed: 0,User ID,Device Model,Operating System,App Usage Time (min/day),Screen On Time (hours/day),Battery Drain (mAh/day),Number of Apps Installed,Data Usage (MB/day),Age,Gender,User Behavior Class
0,1,Google Pixel 5,Android,393,6.4,1872,67,1122,40,Male,4
1,2,OnePlus 9,Android,268,4.7,1331,42,944,47,Female,3
2,3,Xiaomi Mi 11,Android,154,4.0,761,32,322,42,Male,2
3,4,Google Pixel 5,Android,239,4.8,1676,56,871,20,Male,3
4,5,iPhone 12,iOS,187,4.3,1367,58,988,31,Female,3
...,...,...,...,...,...,...,...,...,...,...,...
695,696,iPhone 12,iOS,92,3.9,1082,26,381,22,Male,2
696,697,Xiaomi Mi 11,Android,316,6.8,1965,68,1201,59,Male,4
697,698,Google Pixel 5,Android,99,3.1,942,22,457,50,Female,2
698,699,Samsung Galaxy S21,Android,62,1.7,431,13,224,44,Male,1


In [183]:
px.histogram(data_frame=df_U, x="Number of Apps Installed", y="Screen On Time (hours/day)" )

In [184]:
px.histogram(data_frame=df_U, x="Operating System")

In [185]:
# 1. Verteilung der App-Nutzungszeit nach Betriebssystem (Boxplot)
fig1 = px.box(df_U, x='Operating System', y='App Usage Time (min/day)', title='App Usage Time by Operating System')
fig1.show()

In [186]:
# 2. Bildschirm-Zeit im Vergleich zur Batterieverbrauch (Streudiagramm)
fig2 = px.scatter(df_U, x='Screen On Time (hours/day)', y='Battery Drain (mAh/day)', 
                  size='App Usage Time (min/day)', color='Operating System', 
                  title='Screen On Time vs Battery Drain')
fig2.show()

In [187]:
# 3. Anzahl installierter Apps im Vergleich zur Datenverwendung pro Tag (Streudiagramm)
fig3 = px.scatter(df_U, x='Number of Apps Installed', y='Data Usage (MB/day)', 
                  size='App Usage Time (min/day)', color='Device Model',
                  title='Number of Apps Installed vs Data Usage')
fig3.show()


In [188]:
# 5. App-Nutzungszeit basierend auf Geschlecht (Balkendiagramm)
fig5 = px.bar(df_U, x='Gender', y='App Usage Time (min/day)', color='Gender', 
              title='App Usage Time by Gender')
fig5.show()


In [189]:
# 8. Tägliche Bildschirmzeit nach Gerätetyp (Balkendiagramm)
fig8 = px.bar(df_U, x='Device Model', y='Screen On Time (hours/day)', color='Device Model', 
              title='Screen On Time by Device Model')
fig8.show()

Machine-Learning
---

### Multiple Lineare Regression
---

In [190]:
import statsmodels.api as sm
from sklearn.model_selection import train_test_split

In [191]:
df_wage = pd.read_csv("Data/wage.csv", sep="\t")
df_wage.head()

Unnamed: 0,wage,educ,exper,metro
0,2.07,12,7,1
1,2.12,12,35,1
2,2.54,16,20,1
3,2.68,12,24,1
4,3.09,13,4,1


In [192]:
X = df_wage[["educ", "exper", "metro"]]
y = df_wage["wage"]

In [193]:
X = sm.add_constant(X)

In [194]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((668, 4), (330, 4), (668,), (330,))

In [195]:
model_stats = sm.OLS(y_train, X_train).fit()

In [196]:
print(model_stats.summary())

                            OLS Regression Results                            
Dep. Variable:                   wage   R-squared:                       0.267
Model:                            OLS   Adj. R-squared:                  0.264
Method:                 Least Squares   F-statistic:                     80.72
Date:                Mon, 21 Oct 2024   Prob (F-statistic):           1.57e-44
Time:                        21:37:30   Log-Likelihood:                -2083.6
No. Observations:                 668   AIC:                             4175.
Df Residuals:                     664   BIC:                             4193.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        -10.2609      1.342     -7.646      0.0

In [197]:
model_stats.params

const   -10.260884
educ      1.232591
exper     0.137188
metro     2.017623
dtype: float64

In [198]:
educ = 1
exper = 1
metro = 1

wage = model_stats.params[0] + model_stats.params[1] * educ + model_stats.params[2] * exper + model_stats.params[3] * metro
print(f"Dein Gehalt entspricht {wage}")

Dein Gehalt entspricht -6.873481173013789


### Logistische Regression

---

In [199]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [200]:
df['Sex'].replace(['male','female'], [0, 1], inplace=True)

In [201]:
y_titantic = df['Survived']
X_titantic = df[["Pclass","Age","Sex"]]

In [202]:
model = LogisticRegression().fit(X_titantic, y_titantic)


In [203]:
y_pred = model.predict(X_titantic)
y_pred[:5]


array([0, 1, 1, 1, 0])

In [204]:
print("Perished:", model.predict_proba(X_titantic)[:,0][:5]) # Wahrscheinlichkeiten verstorben
print("Survived:", model.predict_proba(X_titantic)[:,1][:5]) # Wahrscheinlichkeiten überlebend


Perished: [0.88823442 0.09450613 0.45138902 0.08562761 0.92707668]
Survived: [0.11176558 0.90549387 0.54861098 0.91437239 0.07292332]


In [205]:
print("Accuracy Score:", accuracy_score(y_titantic,y_pred))

Accuracy Score: 0.7899159663865546


## Erstellung eine Vohersage: 
---


Person 2:

- ***44 Jahre alt, Weiblich, 1. Klasse***


In [206]:
#Pclass, Age, Sex
Female = [[1,44,1]]
print(model.predict(Female)[0])
probability = model.predict_proba(Female)[0][1]
print(f'Probability of survival: {probability:.1%}')

1
Probability of survival: 88.5%


Person 3:

- ***66 Jahre alt, männlich, 1. Klasse***


In [207]:
#Pclass, Age, Sex
Female = [[1,66,0]]
print(model.predict(Female)[0])
probability = model.predict_proba(Female)[0][1]
print(f'Probability of survival: {probability:.1%}')

0
Probability of survival: 23.8%
