# 2. Packages
---

In diesen Skript bearbeiten wir die Grundlagen von Packages.
Python bietet ein breites und umfangreiches Ökosystem an Packages
Sei es von 
- Webframeworks (`Django`), 
- Spieleentwicklung (`Pygame`), 
- Big Data (`Spark`), 
- Daten analyse (`Seaborn`, `plotly`, `Matplotlib`)
- Machine Learning (`Skit-learn`, `Statsmodels`), 
- Deep Learning (`Tensorflow / Keras`) und viel mehr.
---


### Installation:
Wenn wir in einem Jupyter Notebook `.ipynb` arbeiten, verwenden wir den Befehl` %pip install dein_package`, um Pakete zu installieren und nutzen zu können

In einer `.py` Datei wird die Eingabe in dem Terminal getätig und zwar wie folgt:
`pip install dein_package`

<img src="Pic_for_expla/install_package_terminal.png" alt="Terminal package install" width="700"/>


### Wie verwende ich ein Package
Um die Verwendung des Pakets Pandas zu verdeutlichen, nutzen wir folgendes Beispiel:
Um das Paket zu verwenden, importieren wir es sowohl in einer `.ipynb-Datei` als auch in einer `.py-Datei` mit dem Befehl:

- `import pandas as pd`


**ACHTUNG:**

Durch den Import mit `import` steht uns das Paket zur Verfügung, und wir können die damit verbundenen Funktionen nutzen.
Wir referenzieren das Paket nicht mit `pandas`, sondern mit `pd`, da wir `as pd` verwenden. Das bedeutet, dass wir beim Aufruf der Pandas-Funktionen anstelle von `pandas` nur noch `pd` schreiben.

### Welche Funktionen gibt es nun ? 

Wie finden wir heraus welche Funktion nun Pandas hat ? 

Jedes große Package wie Pandas, Streamlit und viele mehr haben eine Offiziele Dokumentation.
- Die offiziele Dokumentation von Pandas findest du hier: https://pandas.pydata.org/docs/index.html 

Dabei wird erklärt 
- welche Funktion es gibt 
- welche Parameter mitgeben werden können 
- zugleich werden weiter unten manchmal beispiele mitgegeben wie der Code anzuwenden ist.


In [None]:
# Wie besproche müssen wir Pandas zunächst installieren:
%pip install pandas

In [1]:
# Importierung von Pandas um auf die Funktionen zugreifen zu können
import pandas as pd

Wir nutzen als erste Funktion 

- [pd.read_csv(filepath_or_buffer="Deine_Datei.csv", sep=",")](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

um Daten einzulesen.

In [2]:
df = pd.read_csv(filepath_or_buffer="https://raw.githubusercontent.com/RiccardoDAndrea/Python-Crashkurs/refs/heads/main/Data/titantic.csv",
                 sep=",")

Titanic Datensatz: https://raw.githubusercontent.com/RiccardoDAndrea/Python-Crashkurs/refs/heads/main/Data/titantic.csv

Beschreibung (Meta-Daten):
- PassengerId: Unique identifier for each passenger.
- Survived: Survival status of the passenger (0 = Not Survived, 1 = Survived).
- Pclass: Passenger class (1 = First class, 2 = Second class, 3 = Third class).
- Sex: Gender of the passenger.
- Age: Age of the passenger.
- SibSp: Number of siblings/spouses aboard the Titanic.
- Parch: Number of parents/children aboard the Titanic.
- Fare: Fare paid by the passenger.
- Embarked: Port of embarkation (C = Cherbourg, Q = Queenstown, S = Southampton).

In [3]:
df.head()

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Bei der Importierung der Daten haben wir nun ausversehen eine Spalte hinzugefügt die wir nicht brauchen namenes `"Unnamed: 0"`.
Um eine Spalte aus einem DataFrame zu entfernen, können wir die Funktion 
- [`df.drop()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html) wie folgt verwenden:

- `df.drop(columns=["Spalte"], inplace=True)` entfernt die Spalte dauerhaft aus dem DataFrame, da die Änderung direkt im ursprünglichen DataFrame durchgeführt wird.

- `df = df.drop(columns=["Spalte"])` wird verwendet, wenn der Parameter `inplace` nicht angegeben ist. In diesem Fall muss das Ergebnis entweder in der gleichen oder einer neuen Variablen gespeichert werden. Andernfalls wird die Änderung nur temporär vorgenommen und hat keinen Einfluss auf den DataFrame im weiteren Verlauf des Codes.

In [4]:
### Aufgabe 
df.drop(columns=["Unnamed: 0"], inplace = True)

In [5]:
# überprüfe ob die Spalte wirklich entfernt wurde
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


`df.info()` gibt uns eine gesamte Übersicht über die Datentypen für jede Spalte an.

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Wir sehen das folgende Spalten den Datentypen darstellen als `objects`:
- Name
- Sex
- Ticket
- Cabin
- Embarked

Betrachte die Spalten und entscheide welche Datentypen du verwendets.

In [7]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [8]:
df["Name"] = df["Name"].astype("string")
df["Sex"] = df["Sex"].astype("category")

# mache weiter und ändere die Datentypen für Ticket, Cabin und Embarked

# - Ticket
df["Ticket"] = df["Ticket"].astype("")

# - Cabin 
df[] = df[].astype()

# - Embarked



Überprüfe ob die Datentypen korrekt geändert wurden:

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [19]:
df.describe().round(2)

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,445.0,446.0,0.38,2.31,29.7,0.52,0.38,32.2
std,257.35,257.35,0.49,0.84,14.53,1.1,0.81,49.69
min,0.0,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,222.5,223.5,0.0,2.0,20.12,0.0,0.0,7.91
50%,445.0,446.0,0.0,3.0,28.0,0.0,0.0,14.45
75%,667.5,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,890.0,891.0,1.0,3.0,80.0,8.0,6.0,512.33


Der nachfolgende Code gibt euch jede Unique Values aus der Spalte Ticket:


In [10]:
df["Ticket"].unique().shape  

(681,)

Filterung der Daten:
---
Es gibt unzähliche Methoden um Daten zu filtern. 
Einer der möglichkeiten werden wir nun besprechen und üben.

### Daten Filterun mit einer Bedigung

In [11]:
# Der folgende Datensatz enthält nur Daten über die überlebende
Survived_df = df[df["Survived"] == 1]

# Der folgende Datensatz enthält nur Daten über die verstorbenen
Perished_df = df[df["Survived"] == 0]



Survived_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


**Aufgabe**: Erstelle bitte im folgenden Ein dataframe nur mit den Passagieren die die `1. Klasse` gebucht haben.
Dafür musste im Vorfeld feststellen wie viele Unique Values deine Spalte hat.

Diese Code haben wir bereits Programmiert du musst nur die Spalte ändern.

In [14]:
# Schreibe ein Code wie du festellen kannst wie viele unique Values es in der Spalte "Pclass" gibt:

# Enterne
df["Pclass"].unique()


array([3, 1, 2])

Nun kannst du filtern da du weißt wie viele unique Values es gibt um was du in der Filterung eintragen musst.

In [None]:
firstClass_df = df[df["Pclass"] == ]

Ein dataframe nur mit den Passagieren die die `2. Klasse` gebucht haben


In [None]:
secondClass_df = df[df[""] == ]

Ein dataframe nur mit den Passagieren die die `3. Klasse` gebucht haben


In [None]:
thridClass_df = 

### Daten Filterun mit mehreren Bedigung
Daten filtern mit zwei Bedigungen oder mehr Bedigungen.
Im folgenden Filtern wir unsere Daten nach zwei Bedigungen speichern dies in einer neuen Variabel.

In [None]:
maleSurvived_df = df[(df["Sex"] == "male") & 
                    (df["Survived"] == 1)].round(2)


maleSurvived_df.head()

Filtere die Daten nach den folgenden **zwei Bedingungen**:

- Personen, die 25 Jahre oder älter sind,
- und Personen, die in der 1. Klasse gebucht haben.

In [16]:
maleSurvived_df = df[(df["Age"] >= ) & 
                    (df["Pclass"] == )].round(2)

maleSurvived_df.describe()

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,147.0,147.0,147.0,147.0,147.0,147.0,147.0,147.0
mean,468.163265,469.163265,0.619048,1.0,43.459184,0.401361,0.278912,79.901088
std,247.792115,247.792115,0.487281,0.0,11.742749,0.531989,0.616911,80.652906
min,1.0,2.0,0.0,1.0,25.0,0.0,0.0,0.0
25%,265.5,266.5,0.0,1.0,35.0,0.0,0.0,30.5
50%,492.0,493.0,1.0,1.0,42.0,0.0,0.0,56.93
75%,666.5,667.5,1.0,1.0,51.0,1.0,0.0,89.55
max,889.0,890.0,1.0,1.0,80.0,2.0,4.0,512.33


Filter nach Leute die die 3. Klassen gebucht haben und Überlebt haben
Speicher bitte die Filterung in einer neuen Variabel.

Visualisierung:
---
Für die Visualisierung nutzen wir Plotly da dies die Grundlage ist für die Integration in Streamlit.


In [None]:
%pip install plotly==5.24.1


Folgende Funktion können wir zur Visualisierung nutzen

- [`px.box()`](https://plotly.com/python/box-plots/)
- [`px.pie()`](https://plotly.com/python/pie-charts/) 
- [`px.bar()`](https://plotly.com/python/bar-charts/)
- [`px.histogram()`](https://plotly.com/python/histograms/)
- [`px.violin()`](https://plotly.com/python/violin/)

und viele mehr findest du auf der offizielen Seite von Plotly.


weitere Visualisierungen findest du unter: https://plotly.com/python/

---

In [10]:
import plotly.express as px

### Erstellung eines Boxplots
`px.box()`
- Parameter: 

    - `data_frame=df`aus welchen Dataframe die Daten visualisiert werden sollen
    - `y="Age"` die Spalte
    - `title="Age Distribution of Passengers"` Ist die überschrift des Boxplots.

`fig.update_layout`
- Parameter:
    - width (breite) als *`int`*
    - height (höhe) als *`int`* 

**Dieses Muster werden sich immer wieder holen**


In [11]:
fig = px.box(data_frame=df, y="Age", title="Age Distribution of Passengers")
fig.update_layout(width=800, height=600)  # Setze die Breite und Höhe des Graphen
fig.show()


### Erstellung eines Histogram

Indemfall nutzen wir den `px.histogram()` um die Verteilung der Geschlechter zu visualisieren
Die Parameter bleiben exakt die gleichen jedoch die Visualsierung ändert sich.

In [12]:
fig = px.histogram(data_frame=df, x="Sex", title="Male or Female")
fig.update_layout(width=800, height=600)
fig.show()

Eine weiter mögliche ist eine Lücke `(bargap)` zwischen den Balken zu setzen indem wir 
- `fig.update_layout(bargap=0.2)` hinzufügen.

Der Parameter ist ein Wert zwischen 0 und 1, wobei 0 bedeutet, dass die Balken aneinander kleben und 1 bedeutet, dass die Balken so weit wie möglich voneinander entfernt sind.

In [13]:
fig = px.histogram(data_frame=df, x="Survived", title="How many passengers survived?")
fig.update_layout(width=800, height=600, bargap=0.2,)  # Setzt eine Lücke von 20% zwischen den Balken
fig.show()

Kreisdiagramm:
---
- `data_frame=Survived_df`: Der Datensatz, der für das Diagramm verwendet wird.
- `values='Survived'`: Die Spalte, die die Werte für die Segmentgrößen angibt.
- `names='Pclass'`: Die Spalte, die die Kategorien (Passagierklassen) für die Segmente definiert.
- `title='Survival rate of Pclass'`: Der Titel des Diagramms.
- `hole=0.3`: Macht aus dem Kuchendiagramm ein Donut-Diagramm, indem es die Mitte zu 30 % leer lässt.

In [14]:
fig = px.pie(data_frame=df, 
                values='Survived',
                names='Pclass',
                title='Survival rate of Pclass',
                hole=0.3)
fig.update_layout(width=800, height=600)  
fig.show()

1. `fig = px.pie(...)`: 
    - `hole=0.3`: Erstellt ein Donut-Diagramm  
    - `names="Pclass"`:der Passagierklasse (Pclass) als Kategorie und dem Titel "Verteilung der Passagiere nach Klasse".

2. `fig.update_traces(pull=[0.2, 0.1, 0.4])`: 
    - `pull`:Hebt die Segmente der Klassen 1 und 3 hervor, indem sie aus dem Donut herausgezogen werden. Der Wert in pull bestimmt, wie stark jedes Segment verschoben wird (Klasse 1 um 0.2, Klasse 3 um 0.4).

3. `fig.update_layout()`: 
    - Parameter:
        - `width`: (breite) als *`int`*
        - `height`: (höhe) als *`int`* 

In [15]:
fig = px.pie(df, names="Pclass",
              title="Verteilung der Passagiere nach Klasse",
             hole=0.3)
  
fig.update_traces(pull=[0.2, 0.1, 0.4])  # Hebt die Klassen 1 und 3 hervor
fig.update_layout(width=600, height=600, title_font_size=22, font=dict(size=16))
fig.show()


`fig = px.bar()`
- `y="Pclass"`: Y-Achse zeigt die Passagierklasse.
- `x="Survived"`: X-Achse zeigt den Überlebensstatus.
- `color="Embarked"`: Balken werden nach Einschiffungshäfen farblich markiert.
- `barmode="group"`: Balken sind gruppiert, nicht gestapelt.
- `facet_col="Sex"`: Separate Diagramme für Männer und Frauen (Facetten-Spalten).
- `category_orders`: Legt die Reihenfolge der Kategorien fest (Pclass, Embarked, Sex).

`fig.update_traces()`: 
- `marker_line_width=0`:Entfernt die Linien um die Balken.

In [16]:
fig = px.scatter_3d(df, x='Pclass', y='Fare', z='Age',
              color='Survived')
fig.show() 

In [17]:
pclass_feature = df.Pclass.value_counts()
pclass_feature
fig = px.bar(x=pclass_feature.index,
             y=pclass_feature.values,
               text = pclass_feature.index)
fig.update_layout(title="Verteilung der Passagiere nach Klasse",
                  xaxis_title="Klasse",
                  yaxis_title="Anzahl der Passagiere")
fig.show()

In [18]:
fig = px.histogram(
    df,
    x='Survived',
    color='Pclass',
    barmode='group',
    title="Survival Count Plot",
    text_auto=True  # This parameter automatically adds text labels to the bars
)

# Update layout to improve appearance
fig.update_layout(
    xaxis_title='Survived',
    yaxis_title='Count',
    legend_title='Passenger Class',
    font=dict(size=14)  # Optionally adjust the font size of the text labels
)


In [19]:
fig = px.pie(data_frame=df, values='Survived',
                names='Pclass',
                title='Survival rate of Pclass',
                hole=0.3,
                width=800, height=600)

fig.show()

Weitere Visualisierungen mit einem Datensatz über die World Data Bank:
---

In [27]:
df_wb = pd.read_csv(filepath_or_buffer="https://raw.githubusercontent.com/RiccardoDAndrea/Python-Crashkurs_/refs/heads/main/Data/Table_1.csv?token=GHSAT0AAAAAACX5A7REJ6JFQWFIRBBXE4ROZYSVVWA")
df_wb.dropna(inplace=True)
df_wb.head()

Unnamed: 0,Country,Year,FDI as % of GDP,Inflation Rate (%),GDP per Capita (constant 2015 $),Unemployment Rate (%)
0,United States,2020,0.64281,1.233584,59394.778327,9.971
1,United States,2019,1.468232,1.81221,61330.645977,4.854
2,United States,2018,1.039454,2.442583,60127.210278,5.156
3,United States,2017,1.941776,2.13011,58703.144078,5.791
4,United States,2016,2.522681,1.261583,57658.670883,6.524


In [28]:
fig = px.line(df_wb.query("Country == 'Germany'"), x="Year", y="GDP per Capita (constant 2015 $)")
fig.show()

Unnamed: 0,Country,Year,FDI as % of GDP,Inflation Rate (%),GDP per Capita (constant 2015 $),Unemployment Rate (%)
0,United States,2020,0.64281,1.233584,59394.778327,9.971
1,United States,2019,1.468232,1.81221,61330.645977,4.854
2,United States,2018,1.039454,2.442583,60127.210278,5.156
3,United States,2017,1.941776,2.13011,58703.144078,5.791
4,United States,2016,2.522681,1.261583,57658.670883,6.524


In [27]:
fig = px.scatter(df_car, x="weight", y="mpg", trendline="lowess", title="Weight vs MPG")
fig.show()

In [34]:
# 3D-Scatterplot mit Farbcodierung basierend auf der Anzahl der Zylinder ('cylinders')
fig = px.scatter_3d(df_car, x='displacement', y='mpg', z='weight',
                    color='cylinders',  # Farbskala basierend auf der Anzahl der Zylinder
                    size='horsepower',  # Punktgröße basierend auf der Leistung (PS)
                    title="3D-Darstellung: Hubraum, Kraftstoffeffizienz und Fahrzeuggewicht",
                    labels={'displacement': 'Hubraum (cc)', 
                            'mpg': 'Meilen pro Gallone (mpg)', 
                            'weight': 'Gewicht (lbs)'})

# Layout-Anpassungen
fig.update_layout(title_x=0.5,  # Titel zentrieren
                  width=800, height=600)

# Zeige das Diagramm an
fig.show()

World Bank data 
---