# Unterricht: Datenanalyse mit Pandas und NumPy
## Thema: Array Operationen und unterschiedliche Datenstrukturen mit numpy

In dieser Lektion werden wir die Array Operationen und unterschiedliche Datenstrukturen lernen

### Lernziele:
- Verstehe der Arrays
- Aggregatsfunktionen
- Schnelligkeit von numpy

In [1]:

import numpy as np
import pandas as pd


In [2]:

# 4. Praxisbeispiele und Aufgaben
# ---------------------------------------
# Praxisbeispiel: DataFrame erstellen und analysieren
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Alter': [25, 30, 35],
    'Stadt': ['Berlin', 'München', 'Hamburg']
}
df = pd.DataFrame(data)   # Erstellen vom DataFrame
print(df)


# Grundlegende Informationen zum DataFrame
print("\nInformationen über den DataFrame:")
print(df.info())

# Statistische Zusammenfassung der numerischen Spalten
print("\nStatistische Zusammenfassung:")
print(df.describe())

# Die ersten 5 Zeilen des DataFrames anzeigen
print("\nErste 5 Zeilen:")
print(df.head())

# Die Spaltennamen anzeigen
print("\nSpaltennamen:")
print(df.columns)

# Anzahl der Zeilen und Spalten
print("\nAnzahl der Zeilen und Spalten:")
print(df.shape)

# Überprüfung auf fehlende Werte
print("\nÜberprüfung auf fehlende Werte:")
print(df.isnull().sum())

# Häufigkeit der Werte in der 'Stadt'-Spalte
print("\nHäufigkeit der Werte in der 'Stadt'-Spalte:")
print(df['Stadt'].value_counts())

# Durchschnittsalter berechnen
print("\nDurchschnittsalter:")
print(df['Alter'].mean())


      Name  Alter    Stadt
0    Alice     25   Berlin
1      Bob     30  München
2  Charlie     35  Hamburg

Informationen über den DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Alter   3 non-null      int64 
 2   Stadt   3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes
None

Statistische Zusammenfassung:
       Alter
count    3.0
mean    30.0
std      5.0
min     25.0
25%     27.5
50%     30.0
75%     32.5
max     35.0

Erste 5 Zeilen:
      Name  Alter    Stadt
0    Alice     25   Berlin
1      Bob     30  München
2  Charlie     35  Hamburg

Spaltennamen:
Index(['Name', 'Alter', 'Stadt'], dtype='object')

Anzahl der Zeilen und Spalten:
(3, 3)

Überprüfung auf fehlende Werte:
Name     0
Alter    0
Stadt    0
dtype: int64

Häufigkeit der Werte in der 'Stadt'-Spalte:
Stadt
Berlin    

### Aufgabe 1:


1.) Für welche Datenstruktur entscheiden Sie sich:
    a.) Große numerische Array   (Numpy-array oder Pandas Series)
    b.) Heterogene Daten   (Numpy-array oder Pandas DataFrame)

In [3]:
### Lösung Aufgabe 1:
# 1. Große numerische Arrays -> NumPy
# 2. Heterogene Daten mit Spalten -> Pandas DataFrame


In [4]:
### Aufgabe 2:

#Sie habe folgende heterogene Daten und sollen Sie analysieren:

#'Name': ['Alice', 'Bob', 'Charlie'],
#'Alter': [25, 30, 35],
#'Gewicht': [60, 80, 75],
#'Größe': [155, 170, 190]
#'Stadt': ['Berlin', 'München', 'Hamburg']



In [5]:
# 3D Modell: Regression zwischen Gewicht, Alter und Größe
X_3D = df[['Alter', 'Größe']]  # Unabhängige Variablen
y_3D = df['Gewicht']            # Abhängige Variable
 
model_3D = LinearRegression()
model_3D.fit(X_3D, y_3D)
 
# Vorhersagen
y_pred_3D = model_3D.predict(X_3D)
 
# Visualisierung 3D
fig = plt.figure(figsize=(10, 4))  # Größe des Diagramms anpassen (Breite, Höhe)
ax = fig.add_subplot(111, projection='3d')
ax.scatter(df['Alter'], df['Größe'], df['Gewicht'], color='blue', label='Datenpunkte')
 
# Erstellen einer Fläche für die Regression
x_range = np.linspace(df['Alter'].min(), df['Alter'].max(), 10)
y_range = np.linspace(df['Größe'].min(), df['Größe'].max(), 10)
x_mesh, y_mesh = np.meshgrid(x_range, y_range)
z_mesh = model_3D.predict(np.array([x_mesh.ravel(), y_mesh.ravel()]).T).reshape(x_mesh.shape)
 
ax.plot_surface(x_mesh, y_mesh, z_mesh, color='red', alpha=0.5)
ax.set_xlabel('Alter')
ax.set_ylabel('Größe')
ax.set_zlabel('Gewicht')
ax.set_title('Lineare Regression: Gewicht vs. Alter und Größe')
plt.show()

KeyError: "['Größe'] not in index"

In [None]:
import pandas as pd

# DataFrame erstellen
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Alter': [25, 30, 35],
    'Gewicht': [60, 80, 75],
    'Größe': [155, 170, 190],
    'Stadt': ['Berlin', 'München', 'Hamburg']
}

df = pd.DataFrame(data)

# Den DataFrame anzeigen
print("DataFrame:")
print(df)

# Grundlegende Informationen über den DataFrame
print("\nInformationen über den DataFrame:")
print(df.info())

# Statistische Zusammenfassung der numerischen Spalten
print("\nStatistische Zusammenfassung der numerischen Daten:")
print(df.describe())

# Die ersten 5 Zeilen des DataFrames anzeigen
print("\nErste 5 Zeilen:")
print(df.head())

# Die Spaltennamen anzeigen
print("\nSpaltennamen:")
print(df.columns)

# Anzahl der Zeilen und Spalten
print("\nAnzahl der Zeilen und Spalten:")
print(df.shape)

# Überprüfung auf fehlende Werte
print("\nÜberprüfung auf fehlende Werte:")
print(df.isnull().sum())

# Häufigkeit der Werte in der 'Stadt'-Spalte
print("\nHäufigkeit der Werte in der 'Stadt'-Spalte:")
print(df['Stadt'].value_counts())

# Durchschnittsalter berechnen
print("\nDurchschnittsalter:")
print(df['Alter'].mean())

# Durchschnittsgewicht berechnen
print("\nDurchschnittsgewicht:")
print(df['Gewicht'].mean())

# Durchschnittliche Größe berechnen
print("\nDurchschnittliche Größe:")
print(df['Größe'].mean())

# Korrelation zwischen Alter, Gewicht und Größe
print("\nKorrelation zwischen Alter, Gewicht und Größe:")
print(df[['Alter', 'Gewicht', 'Größe']].corr())


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# DataFrame erstellen
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Alter': [25, 30, 35],
    'Gewicht': [60, 80, 75],
    'Größe': [155, 170, 190],
    'Stadt': ['Berlin', 'München', 'Hamburg']
}

df = pd.DataFrame(data)

# Korrelation zwischen Alter, Gewicht und Größe berechnen
corr_matrix = df[['Alter', 'Gewicht', 'Größe']].corr()

# Korrelation graphisch darstellen
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", cbar=True, square=True)
plt.title("Korrelation zwischen Alter, Gewicht und Größe")
plt.show()
