# 2. Packages
---

In diesen Skript bearbeiten wir die Grundlagen von Packages.
Python bietet ein breites und umfangreiches Ökosystem an Packages
Sei es von 
- Webframeworks (`Django`), 
- Spieleentwicklung (`Pygame`), 
- Big Data (`Spark`), 
- Daten analyse (`Seaborn`, `Plotly`, `Matplotlib`)
- Machine Learning (`Skit-learn`, `Statsmodels`), 
- Deep Learning (`Tensorflow / Keras`) und viel mehr.
---


Stell sicher das du im richtigen Verzeichnis bist:
---

In [None]:
import os
import warnings 
warnings.filterwarnings('ignore')

# Dein Akttueller Pfad
notebook_path = os.getcwd()
"Current directory:", notebook_path

# (replace '/path/to/directory' ändere es zu dein Pfad)
new_directory = '/Users/riccardo/Desktop/Github/Python-Crashkurs_'
os.chdir(new_directory)

# Bestätige die änderung
notebook_path = os.getcwd()
print("New directory:", notebook_path)


Pandas
---
### Installation:
Wenn wir in einem Jupyter Notebook (`.ipynb` )arbeiten, verwenden wir den Code 
- `%pip install dein_package`, 
um das Pakete zu installieren.

In einer `.py` Datei wird die Eingabe in dem Terminal getätig und zwar wie folgt:
`pip install dein_package`

<img src="/Users/riccardo/Desktop/Github/Python-Crashkurs_/Pic_for_expla/install_package_terminal.png" alt="Terminal package install" width="700"/>

-----

### Wie verwende ich ein Package
Um die Verwendung eines Pakets zu verdeutlichen machen wird es an Pandas fest.
Um das Paket zu verwenden, importieren wir es sowohl in einer `.ipynb-Datei` als auch in einer `.py-Datei` mit dem Befehl:

- `import pandas as pd`


**ACHTUNG:**

Durch den Import mit `import` steht uns das Paket zur Verfügung, und wir können die damit verbundenen Funktionen nutzen.
Wir referenzieren das Paket nicht mit `pandas`, sondern mit `pd`, da wir `as pd` verwenden. Das bedeutet, dass wir beim Aufruf der Pandas-Funktionen anstelle von `pandas` nur noch `pd` schreiben.

------

### Welche Funktionen gibt es nun ? 

Wie finden wir heraus welche Funktion nun Pandas hat ? 
Jedes große Package wie Pandas, Streamlit und viele mehr haben eine Offiziele Dokumentation.
- Die offiziele Dokumentation von Pandas findest du hier: https://pandas.pydata.org/docs/index.html 

Dabei wird erklärt 
- welche Funktion es gibt 
- welche Parameter mitgeben werden können 
- zugleich werden weiter unten manchmal beispiele mitgegeben wie der Code anzuwenden ist.
----



In [None]:
# Wie besproche müssen wir Pandas zunächst installieren:
%pip install pandas

In [1]:
# Importierung von Pandas um auf die Funktionen zugreifen zu können
import pandas as pd

Wir nutzen als erste Funktion 

- [pd.read_csv(filepath_or_buffer="Deine_Datei.csv", sep=",")](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

um Daten einzulesen.

In [None]:
df = pd.read_csv(filepath_or_buffer="Data/titantic.csv",
                 sep=",")
df.head()

Titanic Datensatz:

Beschreibung (Meta-Daten):
- PassengerId: Unique identifier for each passenger.
- Survived: Survival status of the passenger (0 = Not Survived, 1 = Survived).
- Pclass: Passenger class (1 = First class, 2 = Second class, 3 = Third class).
- Sex: Gender of the passenger.
- Age: Age of the passenger.
- SibSp: Number of siblings/spouses aboard the Titanic.
- Parch: Number of parents/children aboard the Titanic.
- Fare: Fare paid by the passenger.
- Embarked: Port of embarkation (C = Cherbourg, Q = Queenstown, S = Southampton).
---

Bei der Importierung der Daten haben wir nun ausversehen eine Spalte hinzugefügt die wir nicht brauchen namenes `"Unnamed: 0"`.
Um eine Spalte aus einem DataFrame zu entfernen, können wir die Funktion 
- [`df.drop()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html) wie folgt verwenden:

- `df.drop(columns=["Spalte"], inplace=True)` entfernt die Spalte dauerhaft aus dem DataFrame, da die Änderung direkt im ursprünglichen DataFrame durchgeführt wird.

- `df = df.drop(columns=["Spalte"])` wird verwendet, wenn der Parameter `inplace` nicht angegeben ist. In diesem Fall muss das Ergebnis entweder in der gleichen oder einer neuen Variablen gespeichert werden. Andernfalls wird die Änderung nur temporär vorgenommen und hat keinen Einfluss auf den DataFrame im weiteren Verlauf des Codes.

In [30]:
df.drop(columns=["Unnamed: 0"], inplace = True)

In [None]:
# überprüfe ob die Spalte wirklich entfernt wurde
df

### Umgang mit NaN-Werten (Not a Number):

NaN Werte sind Daten die nicht richtig erhoben worden oder auch fehler enthalten

**Fehlende Werte:**
Der Umgang mit fehlenden Werten ist ein entscheidender Schritt bei der Datenvorbereitung und sollte für jede Spalte individuell betrachtet werden.

Die zentrale Frage sollte immer lauten: **Kann ich die fehlenden Werte sinnvoll ersetzen?**

***Beispiel: Spalte `"Age"` (Alter) ?***


In [None]:
df.isna().sum()

1. Lösche die Zeilen mit NaN values. ACHTUNG hier werden aus deinem Dataframe ALLE NaN values entfernt


In [9]:
#df = df.dropna()

2. Um alle Zeilen mit fehlenden Werten (NaN) in der 'Age'-Spalte zu löschen, kannst du den folgenden Befehl verwenden:

    **Hinweis**: Dieser Schritt entfernt nur die Zeilen, die NaN-Werte in der angegebenen Spalte enthalten. 
Alle anderen NaN-Werte in anderen Spalten bleiben unverändert.

In [33]:
df = df.dropna(subset=['Age'])

3. NaN-Werte mit dem Durchschnitt der jeweiligen Spalte füllen:

Um die NaN-Werte in der `'Age'`-Spalte durch den Durchschnitt dieser Spalte zu ersetzen, verwende den folgenden Befehl:

In [None]:
#df = df.fillna()

In [9]:
#df["Age"]= df["Age"].fillna(df["Age"].mean()) # nur eine Spalte werden die Daten ersetzt

In [None]:
#df = df.fillna(df.mean()) #<- mean(), mode(), median() / Alle Spalten werden ersetzt oder Brechnungen die eine INT oder FLOAT wiedergeben

In [None]:
df.describe().round(2)

`df.info()` gibt uns eine gesamte Übersicht über die Datentypen für jede Spalte an.

In [None]:
df.info()

Wir sehen das folgende Spalten den Datentypen darstellen als `objects`:
- Name
- Sex
- Ticket
- Cabin
- Embarked

Betrachte die Spalten und entscheide welche Datentypen du verwendets.

In [None]:
df.head()

### Anpassung der Datentypen:

---

Im folgenden werden wir die Datentypen anpassen. Da bei der Importierung fehler enstanden sind

- Dabei nutzen wir die Funktion `.astype("string")` um die jewelige Spalten Datentypen zu ändern.

In [13]:
df["Name"] = df["Name"].astype("string")
df["Sex"] = df["Sex"].astype("category")

# mache weiter und ändere die Datentypen für Ticket, Cabin und Embarked

# - Ticket


# - Cabin 


# - Embarked


Überprüfe ob die Datentypen korrekt geändert wurden:

In [None]:
df.head()

### Datenfilterung:
---
Es gibt zahlreiche Methoden, um Daten zu filtern. Eine dieser Möglichkeiten werden wir nun genauer betrachten und praktisch anwenden.

### Daten Filterun mit einer Bedigung

In [None]:
# Der folgende Datensatz enthält nur Daten über die überlebende
Survived_df = df[df["Survived"] == 1]

Survived_df.head()

In [None]:
# Der folgende Datensatz enthält nur Daten über die verstorbenen
Perished_df = 



Perished_df.head()

Aufgabe: Erstelle einen DataFrame, der nur die Passagiere enthält, die in der 1. Klasse gereist sind. Dafür musst du zunächst herausfinden, wie viele eindeutige *`(unique values)`* Werte die entsprechende Spalte hat.Um richtig filtern zukönnen. 


mit dem Code:
`df["Pclass"].unqiue()`
Dieser Code gibt dir eine Übersicht der verschiedenen Klassen, indem jeder Wert nur einmal angezeigt wird. Dies hilft dir, die Struktur der Daten besser zu verstehen, 
bevor du den Filter auf die 1. Klasse anwendest.

In [None]:
print(df["Pclass"].unique())
# print(df["Pclass"].dtype)

Nun kannst du nach der 1. Klasse filtern da du die `unique values` kennst.

In [None]:
firstClass_df = 

Ein dataframe nur mit den Passagieren die die `2. Klasse` gebucht haben


In [None]:
secondClass_df =

Ein dataframe nur mit den Passagieren die die `3. Klasse` gebucht haben


In [None]:
thridClass_df = 

### Daten Filterung mit mehreren Bedigung
Das Filtern von Daten kann auch auf Basis von zwei oder mehr Bedingungen erfolgen. Im folgenden Beispiel filtern wir die Daten anhand von zwei Bedingungen und speichern das Ergebnis in einer neuen Variablen.

In [None]:
maleSurvived_df = df[(df["Sex"] == "male") & 
                    (df["Survived"] == 1)].round(2)


maleSurvived_df.head()

Aufgabe: Filtere die Daten anhand der folgenden **zwei Bedingungen**:

- Passagiere, die 25 Jahre oder älter sind,
- und Passagiere, die in der 1. Klasse gebucht haben.
Speichere das Ergebnis der gefilterten Daten in einer neuen Variablen.

In [None]:
df_filtered = 

df_filtered

Aufgabe: Filtere die Daten nach den folgenden Bedingungen:

- Passagiere, die in der 3. Klasse gebucht haben,
- und Passagiere, die das Unglück überlebt haben.
Speichere das Ergebnis der gefilterten Daten in einer neuen Variablen.

## World Bank Data:

---

Lade die Folgende Datei herunter in Ilias in den Ordner Data/World_Data_Bank.csv

- Nutze die Funktion `pd.read_csv()` um die Datei einzulesen und speicher sie ab als `df_wb`.

*Stell sicher das du im richtigen Directory bist*

In [None]:
# Daten einlesen
df_wb = 
df_wb

Stell sicher das du keine NaN Werte hast:
- Ersetzte die `NaN` werte nutze dafür gerne den Leitfaden oder den Code von oben

Überprüfe ob die Datentypen richtig formatiert sind:

In [None]:
# Hier überprüfen nach den Datentypen


In [None]:
# Falls nötig ändere die Datentypen



Betrachte den Datensatz und stelle fest wie viele Länder es gibt. 
Als Tipps `unqiue values` in der Spalte "Country"

In [10]:
# Hier nach unqiue values in der Spalte "Country" suchen


Nachdem du erfolgreich festgestellt hast wie viele Länder dein Daten repräsentiert.
Speicher die Länder in Variablen ab.
- `ger_df`
- `usa_df`
- `fra_df`

*Wie gefiltert wird haben wir bereits weiter oben besprochen oder du schaust im Leitfaden nach.*

Visualisierung mit *Plotly*:
---
Für die Visualisierung nutzen wir Plotly da dies die Grundlage ist für die Integration in Streamlit später.


In [None]:
%pip install plotly==5.24.1


Folgende Funktion können wir zur Visualisierung nutzen
- [`px.line()`](https://plotly.com/python/line-charts/) Liniendiagramm
- [`px.box()`](https://plotly.com/python/box-plots/)    Boxplot
- [`px.pie()`](https://plotly.com/python/pie-charts/)   Kuchendiagramm
- [`px.bar()`](https://plotly.com/python/bar-charts/)   Balkendiagramm
- [`px.histogram()`](https://plotly.com/python/histograms/)  Histogramm
- [`px.violin()`](https://plotly.com/python/violin/)     Violin 

und viele mehr findest du auf der offizielen Seite von Plotly.
Plotly: https://plotly.com/python/

---

In [3]:
import plotly.express as px

Wir werden mit `simplen Zeitreihen` beginnen und steigern uns stück für stück.

Als Orientierung kannst du den Code `df_wb.columns` nutzen um die exakte Schreibe weise deiner Spalten zu betrachten:

In [None]:
df_wb.columns

## Im folgeden wirst du in der Funktion den Parameter `titel` haben wo eine Überschrift festgehalten wird, nach diesem Titel erstellst du deine Grafik

### 1. Visualisierung:
---

Schauen wir an welche Parameter wir mitgeben können:

`px.line()`: Ist ein Liniendiagramm
- `dataframe`: Der Datensatz
- `x`: Die x-Achse, wo wir nur die Spalten namen eigeben des Datensatzes
- `y`: Die y-Achse, wo wir nur die Spalten namen eigeben des Datensatzes
- `color`: Die Farbe der Linie nach Ländern eine art Gruppierung
- `title`: Der Titel des Diagramms

In [None]:
fig = px.line(data_frame=ger_df, 
              x="Year", 
              y="Unemployment Rate (%)", 
              title='Unemployment Rate (%) in Germany', 
              color='Country')
fig.show()

### 2. Visualisierung

---

Als weitere Funktion haben wir nun:
`update_xaxes()`,`update_yaxes()`
- `dtick=1`: Wie soll die Skalierung deiner X-Achse sein
- `tickangle`: Die Rotation deiner X-Achsen Werte

Trage gerne andere Werte (`int`) in `dtick` ein um zusehen wie sich die X-Achse ändert und gernauch bei `tickangle`

**Aufgabe:**
Als nächstes nutzt du die Variable `df_wb` und erstellst ein Liniendiagramm mit den gleichen Parametern nur für alle Länder,
während der Great Depression. 
1. Filter die Daten damit du nur den Zeitraum hast der Great_depression 
2. visualisiere Sie.


In [None]:
# Ein Diagramm mit den Daten aller drei Länder in einer Figur
fig = px.line(
              title="Unemployment Rate (%) in Germany, France and US in the financial recession")

fig.update_xaxes(dtick=1, tickangle=1)
fig.update_yaxes(dtick=1, tickangle=1)
fig.show()

### 3. Visualisierung

---
Als nächstes werden wir den ursprünglichen Datensatz nehmen `df` und visualisieren die Daten aller 3 Länder in einer Figur.
Visualisieren dafür 

- *Gestalte bitte den Graphen so das er eine klare und minimalitische Übersicht der Daten wiedergibt.*

1. Filter nur die Daten zwischen 1995 und 2005 
2. Visualisieren bitte die FDI as % of GDP" wieder für alle Länder


In [None]:
# Ein Diagramm mit den Daten aller drei Länder in einer Figur
fig = px.line(



# Entferne den Hastag und vervollständige den Code



)

fig.update_xaxes(dtick=1, tickangle=1)
fig.update_yaxes(dtick=1, tickangle=1)
fig.show()

In [None]:
df_wb.columns

### 4. Visualisierungen
---
Eine neue Funktion, die wir hier einführen, ist `update_layout()`. Diese Funktion ermöglicht uns, das Layout des Diagramms weiter anzupassen:

- `legend_title="Metric"`: Legt den Titel der Legende fest, der erklärt, welche Linie welche Metrik repräsentiert.
- `xaxis_title = "Year"`: Fügt der X-Achse eine Beschriftung hinzu, die die Jahre darstellt.
- `yaxis_title = "Rate (%)"`: Fügt der Y-Achse eine Beschriftung hinzu, die die Rate in Prozent anzeigt (für Arbeitslosenquote und Inflation).

Durch diese Anpassungen wird das Diagramm nicht nur informativer, sondern auch leichter verständlich.

Aufgabe:
1. Filter die Daten nach Frankreich für den Zeitraum 2005 bis 2020
2. Zeige die Visualisierung an

In [None]:
# Daten für Frankreich filtern zwischen 2005 und 2020


fig = px.line( 
              
              y = ["Unemployment Rate (%)", "Inflation Rate (%)"], 
              

# Layout aktualisieren
fig.update_layout(
    legend_title="Metric",  # Legendentitel
    xaxis_title="Year",     # X-Achsen-Titel
    yaxis_title="Rate (%)"  # Y-Achsen-Titel
)

fig.show()

Nun arbeiten wieder mit den Titantic datensatz den wir als `df` abgespeichert haben
---


### 1. Erstellung eines Boxplots
---
`px.box()`

`fig.update_layout`
- Parameter:
    - width (breite) als *`int`*
    - height (höhe) als *`int`* 

**Aufgabe:**
Erstelle ein Boxplot des Alters der Passagiere.


In [None]:
fig = px.box(
             title = "Age Distribution of Passengers")

fig.update_layout(width = 800, 
                  height = 600)  # Setze die Breite und Höhe des Graphen
fig.show()


### 2. Erstellung eines Histogram

Indemfall nutzen wir den `px.histogram()` um die Verteilung der Geschlechter `("Sex")` zu visualisieren

**Aufgabe:**
Erstelle eine Histogramm für die Geschlechter `Sex`

In [None]:
fig = px.histogram(
                    title="Male or Female")

fig.update_layout(width=800, 
                  height = 600)
fig.show()

### 3. Wie viele haben überlebt
Eine weiter mögliche ist eine Lücke `(bargap)` zwischen den Balken zu setzen indem wir 
- `fig.update_layout(bargap=0.2)` hinzufügen.

Der Parameter ist ein Wert zwischen 0 und 1, wobei 0 bedeutet, dass die Balken aneinander kleben und 1 bedeutet, dass die Balken so weit wie möglich voneinander entfernt sind.

In [None]:
fig = px.histogram(
                   title="How many passengers survived?")

fig.update_layout(width=800, 
                  height=600, 
                  bargap=0.2,)  # Setzt eine Lücke von 20% zwischen den Balken

fig.show()

### 3. Kreisdiagramm:

- `data_frame=Survived_df`: Der Datensatz, der für das Diagramm verwendet wird.
- `values='Survived'`: Die Spalte, die die Werte für die Segmentgrößen angibt.
- `names='Pclass'`: Die Spalte, die die Kategorien (Passagierklassen) für die Segmente definiert.
- `title='Survival rate of Pclass'`: Der Titel des Diagramms.
- `hole=0.3`: Macht aus dem Kuchendiagramm ein Donut-Diagramm, indem es die Mitte zu 30 % leer lässt.

In [None]:
fig = px.pie(data_frame=df, 
                values='Survived',
                names='Pclass',
                title='Survival rate of Pclass',
                hole=0.3)

fig.update_layout(width=800, height=600)  
fig.show()

1. `fig = px.pie(...)`: 
    - `hole=0.3`: Erstellt ein Donut-Diagramm  
    - `names="Pclass"`:der Passagierklasse (Pclass) als Kategorie und dem Titel "Verteilung der Passagiere nach Klasse".

2. `fig.update_traces(pull=[0.2, 0.1, 0.4])`: 
    - `pull`:Hebt die Segmente der Klassen 1 und 3 hervor, indem sie aus dem Donut herausgezogen werden. Der Wert in pull bestimmt, wie stark jedes Segment verschoben wird (Klasse 1 um 0.2, Klasse 3 um 0.4).

3. `fig.update_layout()`: 
    - Parameter:
        - `width`: (breite) als *`int`*
        - `height`: (höhe) als *`int`* 

In [None]:
fig = px.pie(df, names="Pclass",
              title="Verteilung der Passagiere nach Klasse",
             hole=0.3)
  
fig.update_traces(pull=[0.2, 0.1, 0.4])  # Hebt die Klassen 1 und 3 hervor
fig.update_layout(width=600, height=600, title_font_size=22, font=dict(size=16))
fig.show()


`fig = px.bar()`
- `y="Pclass"`: Y-Achse zeigt die Passagierklasse.
- `x="Survived"`: X-Achse zeigt den Überlebensstatus.
- `color="Embarked"`: Balken werden nach Einschiffungshäfen farblich markiert.
- `barmode="group"`: Balken sind gruppiert, nicht gestapelt.
- `facet_col="Sex"`: Separate Diagramme für Männer und Frauen (Facetten-Spalten).
- `category_orders`: Legt die Reihenfolge der Kategorien fest (Pclass, Embarked, Sex).

`fig.update_traces()`: 
- `marker_line_width=0`:Entfernt die Linien um die Balken.

In [None]:
pclass_feature = df.Pclass.value_counts()
pclass_feature

fig = px.bar(x=pclass_feature.index,
             y=pclass_feature.values,
             title="Verteilung der Passagiere nach Klasse")

fig.update_layout(title="Verteilung der Passagiere nach Klasse",
                  xaxis_title="Klasse",
                  yaxis_title="Anzahl der Passagiere")

fig.update_xaxes(dtick=1)
fig.show()

In [None]:
fig = px.histogram(
    df,
    x='Survived',
    color='Pclass',
    barmode='group',
    title="Survival Count Plot",
    text_auto=True  # This parameter automatically adds text labels to the bars
)

# Update layout to improve appearance
fig.update_layout(
    xaxis_title='Survived',
    yaxis_title='Count',
    legend_title='Passenger Class',
    font=dict(size=14)  # Optionally adjust the font size of the text labels
)


In [None]:
fig = px.pie(   data_frame=df, 
                values='Survived',
                names='Pclass',
                title='Survival rate of Pclass',
                hole=0.3,
                width=800, height=600)

fig.show()

### Car dataset
---

In [28]:
df_car = pd.read_csv(filepath_or_buffer="Data/car.csv")
df_car.drop(columns=["Unnamed: 0"], inplace = True)
df_car.dropna(inplace = True)

In [None]:
# 3D-Scatterplot mit Farbcodierung basierend auf der Anzahl der Zylinder ('cylinders')
fig = px.scatter_3d(df_car, x='displacement', y='mpg', z='weight',
                    color='cylinders',  # Farbskala basierend auf der Anzahl der Zylinder
                    size='horsepower',  # Punktgröße basierend auf der Leistung (PS)
                    title="3D-Darstellung: Hubraum, Kraftstoffeffizienz und Fahrzeuggewicht",
                    labels={'displacement': 'Hubraum (cc)', 
                            'mpg': 'Meilen pro Gallone (mpg)', 
                            'weight': 'Gewicht (lbs)'})

# Layout-Anpassungen
fig.update_layout(title_x=0.5,  # Titel zentrieren
                  width=800, height=600)

# Zeige das Diagramm an
fig.show()

---
## User Mobile Device beahvior
---

Führe selbstständig eine 
- Daten importierung
- Daten reinigung
- Filter die Daten so wie sie dir am nützlichsten sind
- und Visualisiere die Daten
- Teile deine Beobachtungen


Machine-Learning
---

### Multiple Lineare Regression
---

In [33]:
import statsmodels.api as sm
from sklearn.model_selection import train_test_split

In [None]:
df_wage = pd.read_csv("Data/wage.csv", sep="\t")
df_wage.head()

In [35]:
X = df_wage[["educ", "exper", "metro"]]
y = df_wage["wage"]

In [36]:
X = sm.add_constant(X)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [38]:
model_stats = sm.OLS(y_train, X_train).fit()

In [None]:
print(model_stats.summary())

In [None]:
model_stats.params

In [None]:
educ = 1
exper = 1
metro = 1

wage = model_stats.params[0] + model_stats.params[1] * educ + model_stats.params[2] * exper + model_stats.params[3] * metro
print(f"Dein Gehalt entspricht {wage}")

### Logistische Regression

---

In [42]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [43]:
df['Sex'].replace(['male','female'], [0, 1], inplace=True)

In [44]:
y_titantic = df['Survived']
X_titantic = df[["Pclass","Age","Sex"]]

In [45]:
model = LogisticRegression().fit(X_titantic, y_titantic)


In [None]:
y_pred = model.predict(X_titantic)
y_pred[:5]


In [None]:
print("Perished:", model.predict_proba(X_titantic)[:,0][:5]) # Wahrscheinlichkeiten verstorben
print("Survived:", model.predict_proba(X_titantic)[:,1][:5]) # Wahrscheinlichkeiten überlebend


In [None]:
print("Accuracy Score:", accuracy_score(y_titantic,y_pred))

## Erstellung eine Vohersage: 
---


Person 2:

- ***44 Jahre alt, Weiblich, 1. Klasse***


In [None]:
#Pclass, Age, Sex
Female = [[1,44,1]]
print(model.predict(Female)[0])
probability = model.predict_proba(Female)[0][1]
print(f'Probability of survival: {probability:.1%}')

Person 3:

- ***66 Jahre alt, männlich, 1. Klasse***


In [None]:
#Pclass, Age, Sex
Female = [[1,66,0]]
print(model.predict(Female)[0])
probability = model.predict_proba(Female)[0][1]
print(f'Probability of survival: {probability:.1%}')