Reale Datensätze sind oft unstrukturiert oder enthalten Fehler.

**Pandas** und **NumPy** sind unverzichtbar für die Analyse realer Datensätze, insbesondere wenn es um die Verarbeitung großer Mengen struktureller und numerischer Daten geht. 

Pandas bietet Werkzeuge für Datenimport, Bereinigung und Manipulation, während NumPy für rechenintensive Aufgaben ideal ist. Zusammen ermöglichen sie es, Daten effizient zu analysieren und detaillierte Einblicke zu gewinnen.

# Syllabus

Utilize Python libraries (like Pandas and NumPy) to generate and analyze descriptive statistics for real-world datasets.

---
# Pandas
## Datenstruktur und Manipulation

**Pandas** ist speziell für tabellarische Daten (ähnlich wie Excel-Tabellen) entwickelt und bietet die Datenstrukturen **Series** (eindimensional) und **DataFrame** (mehrdimensional).

siehe
<div style="margin-left: 40px;">  
PCED/Block_4/Datenanalyse mit Pandas + NumPy/Objective 4.1.2 – Understand and Utilize the Relationship Between DataFrame and Series in Pandas/1_beziehung_dataframe_series.ipynb
</div>


<br>

## Vorteile von Pandas für reale Datensätze:
- **Einlesen von Daten** aus verschiedenen Quellen (CSV, Excel, SQL-Datenbanken, JSON, etc.).
- **Datenbereinigung**: Umgang mit fehlenden Werten, Entfernen von Duplikaten und Behandlung von fehlerhaften Daten.
- **Datenmanipulation**: Transformation, Aggregation und Filtern von Daten.
- **Zusammenführung und Verknüpfung von Daten** aus verschiedenen Quellen.

<br>

## Typische Schritte zur Verarbeitung von realen Datensätzen:
<br>

1. **Daten einlesen**:<br>
verschiedene Formate von Dateien können mit Pandas eingelesen werden. Am häufigsten werden CSV-Dateien genutzt.<br>
Weitere Funktionen: `pd.read_excel()`, `pd.read_json()`, `pd.read_sql()`...

```python
import pandas as pd
df = pd.read_csv('file.csv')  # Einlesen einer CSV-Datei
```

<br>  

2. **Datenbereinigung**:<br>
   Reale Datensätze enthalten oft fehlende Werte oder Unstimmigkeiten.

   
   - Fehlende Werte identifizieren:

     ```python
     df.isnull().sum()  # Anzahl der fehlenden Werte pro Spalte
     ```

   - Fehlende Werte auffüllen oder entfernen:

     ```python
     df.fillna(0)  # Fehlende Werte mit 0 ersetzen
     df.dropna()   # Zeilen mit fehlenden Werten entfernen
     ```

<br>

3. **Daten filtern und transformieren**:<br>
   Filtermöglichkeiten, um nur relevante Daten zu selektieren:

   ```python
   df_filtered = df[df['Spalte'] > 50]  # Filtert Zeilen, in denen der Wert in "Spalte" größer als 50 ist
   ```

<br>

<div style="margin-left: 40px;">

   Transformationen wie das Erstellen neuer Spalten basierend auf vorhandenen Daten:

   ```python
   df['neue_Spalte'] = df['Spalte1'] + df['Spalte2']  # Neue Spalte als Summe zweier vorhandener
   ```
</div>
    
<br>

4. **Gruppieren und Aggregieren**:<br>
   In realen Szenarien müssen Daten oft gruppiert und zusammengefasst werden, z.B. zur Berechnung von Summen, Durchschnitten oder anderen Metriken:

   ```python
   df_grouped = df.groupby('Kategorie').agg({'Preis': 'mean', 'Verkaufte_Menge': 'sum'})
   ```

---
# NumPy 
## Numerische Berechnungen und lineare Algebra

**NumPy** ist die Basis für numerische Berechnungen.<br>

Sie wird häufig im Zusammenspiel mit Pandas genutzt, wenn es um die Verarbeitung von großen oder numerisch komplexen Daten geht.

## Vorteile von NumPy für reale Datensätze:

- **Effiziente Speicherung und Verarbeitung von numerischen Daten** (Arrays, Matrizen)
- **Schnelle mathematische Operationen** wie Mittelwert, Standardabweichung etc. oder lineare Algebra
- **Integration mit Pandas**, um numerische Berechnungen auf DataFrames durchzuführen

## NumPy in der Praxis:

<br>

1. **Arrays und Matrizen**:<br>
   NumPy verwendet Arrays, um effizient mit großen Datenmengen umzugehen. Ein 2D-Array kann beispielsweise für Matrizen genutzt werden:

   ```python
   import numpy as np
   arr = np.array([[1, 2, 3], [4, 5, 6]])
   ```

<br>
<div style="margin-left: 40px;">

   Diese Arrays können direkt in Pandas verwendet werden oder umgekehrt:

   ```python
   # NumPy-Array aus einer Pandas-Spalte
   np_array = df['Verkaufte_Menge'].values
   ```
</div>
<br>

2. **Mathematische Operationen**:<br>
   Vielzahl von Funktionen für numerische Berechnungen, wie Mittelwert, Standardabweichung usw:

   ```python
   mean_value = np.mean(np_array)  # Berechnet den Mittelwert
   std_value = np.std(np_array)    # Berechnet die Standardabweichung
   ```

<br>


3. **Elementweise Operationen**:<br>
   elementweise Berechnungen auf Arrays, was in Pandas oft durch `apply()` abgebildet wird:

   ```python
   array_a = np.array([1, 2, 3])
   array_b = np.array([4, 5, 6])
   result = array_a + array_b  # Ergebnis: [5, 7, 9]
   ```

<br>


4. **Statistische Funktionen**:<br>
   viele Funktionen zur Berechnung von statistischen Kennzahlen:

   ```python
   variance = np.var(np_array)  # Berechnet die Varianz
   ```

---
# Integration von Pandas und NumPy

Oft arbeiten Pandas und NumPy zusammen, um numerische Daten effizient zu verarbeiten.

Ein Pandas-DataFrame enthält häufig numerische Daten, die mit NumPy-Arrays umgegangen werden können. Beispielsweise können Spalten eines DataFrames in NumPy-Arrays konvertiert werden, um rechenintensive Operationen durchzuführen.


Man kann beispielsweise die `apply()`-Funktion in Pandas nutzen, um NumPy-Operationen auf DataFrame-Spalten anzuwenden:

```python
# Quadratische Wurzel aller Verkaufsmengen berechnen
df['sqrt_menge'] = df['Verkaufte_Menge'].apply(np.sqrt)
```