# Pandas Grundlagen und Datenquellen

## Inhaltsverzeichnis
1. Grundlegende Konzepte
   - DataFrame und Series
   - Datentypen in Pandas
2. Daten Einlesen
   - CSV Dateien
   - JSON Dateien
   - Excel Dateien
   - Datenbanken (SQL)
   - APIs
3. Daten Inspektion
   - head(), tail(), info(), describe()
   - Datentypen und Speichernutzung
4. Datenmanipulation
   - Filtern und Selektieren
   - Gruppieren und Aggregieren
   - Joins und Merges
5. Praktisches Beispiel: Formel 1 Datenanalyse

## 1. Grundlegende Konzepte


## Importieren der Bibliotheken

In [3]:
import os
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

## 1) Laden des Datensatzes

Hier ist es wichtig den Pfad zu deinen Daten richtig anzugeben. 
Errinnere dich, dass wir den Kernel in einem Container verwenden. 
Du musst den Pfad also so abbilden wie du Ihn siehst wenn du die Daten unter: http://localhost:8888/lab? findest. 

In [6]:
# Lokaler Pfad zu den Daten im Container
path_to_data_folder = os.path.join('work', 'data', 'formula-1-race-data')

Jetzt laden wir die csv als datensatz

In [7]:
df = pd.read_csv(f'{path_to_data_folder}/results.csv')
df.shape

(23777, 18)

In [8]:
print('\nDataFrame info:')
print(df.info())


DataFrame info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23777 entries, 0 to 23776
Data columns (total 18 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   resultId         23777 non-null  int64  
 1   raceId           23777 non-null  int64  
 2   driverId         23777 non-null  int64  
 3   constructorId    23777 non-null  int64  
 4   number           23771 non-null  float64
 5   grid             23777 non-null  int64  
 6   position         13227 non-null  float64
 7   positionText     23777 non-null  object 
 8   positionOrder    23777 non-null  int64  
 9   points           23777 non-null  float64
 10  laps             23777 non-null  int64  
 11  time             6004 non-null   object 
 12  milliseconds     6003 non-null   float64
 13  fastestLap       5383 non-null   float64
 14  rank             5531 non-null   float64
 15  fastestLapTime   5383 non-null   object 
 16  fastestLapSpeed  5383 non-null   object 


In [9]:
print('\nDescriptive statistics:')
display(df.describe(include='all'))


Descriptive statistics:


Unnamed: 0,resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,laps,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed,statusId
count,23777.0,23777.0,23777.0,23777.0,23771.0,23777.0,13227.0,23777,23777.0,23777.0,23777.0,6004,6003.0,5383.0,5531.0,5383,5383.0,23777.0
unique,,,,,,,,39,,,,5758,,,,551,5144.0,
top,,,,,,,,R,,,,+8:22.19,,,,01:17.2,220.611,
freq,,,,,,,,8517,,,,5,,,,28,3.0,
mean,11889.481053,487.203937,226.515961,46.281785,16.965462,11.270303,7.782264,,13.081591,1.601403,45.270598,,6303313.0,41.061676,10.598807,,,18.242293
std,6864.691322,269.904857,231.386102,56.174091,13.644798,7.346436,4.745105,,7.824711,3.665154,30.525404,,1721748.0,17.156435,6.272457,,,26.380824
min,1.0,1.0,1.0,1.0,0.0,0.0,1.0,,1.0,0.0,0.0,,1474899.0,2.0,0.0,,,1.0
25%,5945.0,273.0,55.0,6.0,7.0,5.0,4.0,,7.0,0.0,20.0,,5442948.0,29.0,5.0,,,1.0
50%,11889.0,478.0,154.0,25.0,15.0,11.0,7.0,,13.0,0.0,52.0,,5859428.0,44.0,11.0,,,11.0
75%,17833.0,718.0,314.0,57.0,23.0,17.0,11.0,,19.0,1.0,66.0,,6495440.0,53.0,16.0,,,16.0


## 2) Inspect the data

Show a few rows, basic info and descriptive statistics

In [10]:
#printing the min and max of the 'position' column
print('Position min:', df['position'].min())
print('Position max:', df['position'].max())

Position min: 1.0
Position max: 33.0


In [11]:
max_position = df['position'].max()
max_position_data = df[df['position'] == max_position]
display(max_position_data[['position', 'raceId', 'driverId', 'constructorId']])

Unnamed: 0,position,raceId,driverId,constructorId
18144,33.0,748,539,113


# Welches Team, Welcher Fahrer und welches Rennen? 
## Wer war das Team mit der schlechtesten Position? 

In [30]:
constructors_df = pd.read_csv(f'{path_to_data_folder}/constructors.csv')
constructor_113 = constructors_df[constructors_df['constructorId'] == 113]
display(constructor_113[['constructorId', 'name', 'nationality']])

Unnamed: 0,constructorId,name,nationality
111,113,Kurtis Kraft,American


## Wer war der passende Fahrer? (driver Id 539)

In [31]:
df = pd.read_csv(f"{path_to_data_folder}/drivers.csv", encoding="MacRoman")
df.head()
## TODO: Wer war der Fahrer mit der Id 539?

Unnamed: 0,driverId,driverRef,number,code,forename,surname,dob,nationality,url
0,1,hamilton,44.0,HAM,Lewis,Hamilton,07/01/1985,British,http://en.wikipedia.org/wiki/Lewis_Hamilton
1,2,heidfeld,,HEI,Nick,Heidfeld,10/05/1977,German,http://en.wikipedia.org/wiki/Nick_Heidfeld
2,3,rosberg,6.0,ROS,Nico,Rosberg,27/06/1985,German,http://en.wikipedia.org/wiki/Nico_Rosberg
3,4,alonso,14.0,ALO,Fernando,Alonso,29/07/1981,Spanish,http://en.wikipedia.org/wiki/Fernando_Alonso
4,5,kovalainen,,KOV,Heikki,Kovalainen,19/10/1981,Finnish,http://en.wikipedia.org/wiki/Heikki_Kovalainen


Finde heraus wie viele Results es gibt bei denen Kurtis Kraft also constructorId 113 teilgenomen hat was die durchschnittliche Platzierung war und welche Standardabweichung es von der platzierung gab.

In [14]:
# Filter results for Kurtis Kraft (constructorId 113)
kurtis_kraft_results = df[df['constructorId'] == 113]

# Anzahl der Ergebnisse
num_results = kurtis_kraft_results.shape[0]

# Durchschnittliche Platzierung (nur gültige Platzierungen)
mean_position = kurtis_kraft_results['position'].mean()

# Standardabweichung der Platzierung
std_position = kurtis_kraft_results['position'].std()

print(f"Anzahl der Results: {num_results}")
print(f"Durchschnittliche Platzierung: {mean_position:.2f}")
print(f"Standardabweichung der Platzierung: {std_position:.2f}")

Anzahl der Results: 226
Durchschnittliche Platzierung: 10.30
Standardabweichung der Platzierung: 6.39


## Finde heraus wie viele Punkte das Team insgesamt geholt hat. 

In [32]:
# Gesamtpunkte von Kurtis Kraft (constructorId 113)
total_points = kurtis_kraft_results['points'].sum()
print(f"Gesamtpunkte von Kurtis Kraft: {total_points:.2f}")

Gesamtpunkte von Kurtis Kraft: 130.00


Nun finde heraus was das erste und letzte Rennen war an dem sie teilgenommen haben. 
Erstelle dazu ein neues Dataframe welches alle Rennen behinhaltet und das Datum an dem das rennen war dazu musst du die `races.csv` zusätzlich in ein Dataframe laden. 

In [33]:
# Load races data
races_df = pd.read_csv(f'{path_to_data_folder}/races.csv')

# Merge races with Kurtis Kraft results
kurtis_kraft_races = pd.merge(kurtis_kraft_results, races_df, on='raceId')

# Sort by date and get first and last race
first_race = kurtis_kraft_races.sort_values('date').iloc[0]
last_race = kurtis_kraft_races.sort_values('date').iloc[-1]

print("First race:")
print(f"Date: {first_race['date']}")
print(f"Race: {first_race['name']}")
print(f"Circuit: {first_race['circuitId']}\n")

print("Last race:")
print(f"Date: {last_race['date']}")
print(f"Race: {last_race['name']}")
print(f"Circuit: {last_race['circuitId']}")

First race:
Date: 1950-05-30
Race: Indianapolis 500
Circuit: 19

Last race:
Date: 1960-05-30
Race: Indianapolis 500
Circuit: 19


In [34]:
kurtis_kraft_races.head()

Unnamed: 0,resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,...,fastestLapTime,fastestLapSpeed,statusId,year,round,circuitId,name,date,time_y,url
0,18122,748,516,113,38.0,14,10.0,10,10,0.0,...,,,1,1960,3,19,Indianapolis 500,1960-05-30,,http://en.wikipedia.org/wiki/1960_Indianapolis...
1,18126,748,520,113,48.0,24,14.0,14,14,0.0,...,,,14,1960,3,19,Indianapolis 500,1960-05-30,,http://en.wikipedia.org/wiki/1960_Indianapolis...
2,18129,748,523,113,26.0,19,17.0,17,17,0.0,...,,,8,1960,3,19,Indianapolis 500,1960-05-30,,http://en.wikipedia.org/wiki/1960_Indianapolis...
3,18134,748,528,113,73.0,11,22.0,22,22,0.0,...,,,121,1960,3,19,Indianapolis 500,1960-05-30,,http://en.wikipedia.org/wiki/1960_Indianapolis...
4,18137,748,531,113,5.0,16,25.0,25,25,0.0,...,,,8,1960,3,19,Indianapolis 500,1960-05-30,,http://en.wikipedia.org/wiki/1960_Indianapolis...


In [35]:
from datetime import datetime

# Convert date strings to datetime objects
first_race_date = datetime.strptime(first_race['date'], '%Y-%m-%d')
last_race_date = datetime.strptime(last_race['date'], '%Y-%m-%d')

# Get weekday names
weekdays = {0: 'Monday', 1: 'Tuesday', 2: 'Wednesday', 3: 'Thursday', 
           4: 'Friday', 5: 'Saturday', 6: 'Sunday'}

print(f"First race ({first_race['date']}) was on a {weekdays[first_race_date.weekday()]}")
print(f"Last race ({last_race['date']}) was on a {weekdays[last_race_date.weekday()]}")

First race (1950-05-30) was on a Tuesday
Last race (1960-05-30) was on a Monday


In [36]:
import requests

def geocode_place(query, max_retries=2):
    """Use Nominatim to geocode a place name. Returns (lat, lon, display_name) or None."""
    url = "https://nominatim.openstreetmap.org/search"
    headers = {"User-Agent": "JupyterNotebook - OpenStreetMap Nominatim (example)"}  # polite header
    params = {"q": query, "format": "json", "limit": 1}
    for _ in range(max_retries):
        try:
            #print(f"Try geocoding: {query}")
            r = requests.get(url, params=params, headers=headers, timeout=10)
            r.raise_for_status()
            data = r.json()
            if data:
                #print(f"Found geocode: {data[0]}")
                return float(data[0]["lat"]), float(data[0]["lon"]), data[0].get("display_name", query)
            return None
        except requests.RequestException:
            continue
    return None

In [37]:
def fetch_weather_for_date(lat, lon, date_str):
    """Fetch daily historical weather for a single date from Open-Meteo ERA5 archive."""
    url = "https://archive-api.open-meteo.com/v1/era5"
    params = {
        "latitude": lat,
        "longitude": lon,
        "start_date": date_str,
        "end_date": date_str,
        "daily": "temperature_2m_max,temperature_2m_min,precipitation_sum,windgusts_10m_max,weathercode",
        "timezone": "auto"
    }
    r = requests.get(url, params=params, timeout=20)
    r.raise_for_status()
    return r.json()

Finde über eine Anfrage an eine API heraus wie das Wetter an diesen Tagen war. 

In [38]:
def get_weather_for_race(race_series, date_dt):
    """Try to geocode the race location and fetch weather for the given date."""
    race_name = race_series.get("name") if "name" in race_series.index else str(race_series)
    # Try several geocoding queries to improve chances
    queries = [
        f"{race_name} racetrack",
        f"{race_name} circuit",
        race_name,
    ]
    geocode = None
    for q in queries:
        geocode = geocode_place(q)
        if geocode:
            break

    if not geocode:
        print(f"Kein Geocode für '{race_name}' gefunden. Versuche Wiki-URL falls vorhanden...")
        wiki_url = race_series.get("url")
        if wiki_url:
            # try using the page title from the URL as a fallback query
            fallback_q = wiki_url.rsplit('/', 1)[-1].replace('_', ' ')
            geocode = geocode_place(fallback_q)

    if not geocode:
        print(f"Ort für Rennen '{race_name}' konnte nicht gefunden werden. Wetterabfrage abgebrochen.")
        return

    lat, lon, place_name = geocode
    date_str = date_dt.strftime("%Y-%m-%d")
    try:
        weather = fetch_weather_for_date(lat, lon, date_str)
    except requests.RequestException as e:
        print(f"Wetterdaten konnten nicht abgerufen werden für {place_name} am {date_str}: {e}")
        return

    daily = weather.get("daily", {})
    # Safely extract fields
    temp_max = daily.get("temperature_2m_max", [None])[0]
    temp_min = daily.get("temperature_2m_min", [None])[0]
    precip = daily.get("precipitation_sum", [None])[0]
    windgust = daily.get("windgusts_10m_max", [None])[0]
    weathercode = daily.get("weathercode", [None])[0]

    print(f"Ort: {place_name} (lat={lat:.4f}, lon={lon:.4f})")
    print(f"Datum: {date_str}")
    print(f"Temperatur max/min (°C): {temp_max} / {temp_min}")
    print(f"Niederschlag (mm): {precip}")
    print(f"Windböen max (m/s): {windgust}")
    print(f"Wettercode: {weathercode}")
    print("-" * 60)

# --- Verwendung mit vorhandenen Variablen aus dem Notebook ---
# first_race_date, last_race_date, first_race, last_race sind im Notebook definiert
get_weather_for_race(first_race, first_race_date)
get_weather_for_race(last_race, last_race_date)

Ort: Tim Tam Circuit, Farhill Downs, Indianapolis, Marion County, Indiana, 46237, United States of America (lat=39.6987, lon=-86.0669)
Datum: 1950-05-30
Temperatur max/min (°C): 25.9 / 16.8
Niederschlag (mm): 4.0
Windböen max (m/s): 32.0
Wettercode: 61
------------------------------------------------------------
Ort: Tim Tam Circuit, Farhill Downs, Indianapolis, Marion County, Indiana, 46237, United States of America (lat=39.6987, lon=-86.0669)
Datum: 1960-05-30
Temperatur max/min (°C): 23.3 / 16.1
Niederschlag (mm): 3.4
Windböen max (m/s): 50.0
Wettercode: 61
------------------------------------------------------------


# Verschiedene Methoden zum Einlesen von Daten

In [None]:
# CSV (wie bereits gezeigt)
df_csv = pd.read_csv(f'{path_to_data_folder}/results.csv')

# JSON
# df_json = pd.read_json('example.json')

# Excel
# df_excel = pd.read_excel('example.xlsx')

# SQL Datenbank
# from sqlalchemy import create_engine
# engine = create_engine('sqlite:///example.db')
# df_sql = pd.read_sql('SELECT * FROM table', engine)

# API (wie bereits im Wetter-Beispiel gezeigt)
# response = requests.get('https://api.example.com/data')
# df_api = pd.DataFrame(response.json())

# Demonstration verschiedener Datentypen
print("\nDatentypen im DataFrame:")
print(df_csv.dtypes)

# Speichernutzung
print("\nSpeichernutzung:")
print(df_csv.memory_usage(deep=True))

# Fortgeschrittene Datenmanipulation

## Mehrere Bedingungen beim Filtern

In [None]:
# Mehrere Bedingungen beim Filtern
condition = (df['points'] > 0) & (df['position'] <= 3)
podium_finishes = df[condition]

# Anzeige der Podestplätze
display(podium_finishes[['raceId', 'driverId', 'constructorId', 'position', 'points']])

## Komplexere Gruppierungen

Zeige die Anzahl der Rennen, die jeder Fahrer für jedes Team gefahren ist, sowie die durchschnittlichen Punkte und Platzierungen.

In [None]:
# Komplexere Gruppierungen
grouped_stats = df.groupby(['constructorId', 'position']).agg({
    'points': ['sum', 'mean', 'count'],
    'status': 'count'
}).reset_index()

# Anzeige der gruppierten Statistiken
grouped_stats = grouped_stats.rename(columns={"count": "anzahl_rennen"})
display(grouped_stats)

## Verschiedene Join-Arten demonstrieren

Zeige, wie man Informationen aus mehreren DataFrames kombiniert.

In [None]:
# Verschiedene Join-Arten demonstrieren
merged_df = pd.merge(
    df,
    constructors_df,
    on='constructorId',
    how='left'
)

# Anzeige des zusammengeführten DataFrames
display(merged_df.head())

# Übungsaufgaben für Studierende

## 1. Wetter-Analyse für Monaco Grand Prix
Erstelle eine Analyse des Wetters beim Monaco Grand Prix über die Jahre:
- Lade alle Monaco-Rennen aus dem Datensatz
- Hole für jedes Rennen die historischen Wetterdaten
- Erstelle eine Visualisierung der Temperatur- und Niederschlagsentwicklung
- Untersuche, ob es Korrelationen zwischen Wetter und Rennresultaten gibt

## 2. Team Performance-Analyse
Analysiere die Entwicklung eines Teams über die Zeit:
- Wähle ein traditionelles Team wie Ferrari oder McLaren
- Berechne die durchschnittliche Punktzahl pro Saison
- Identifiziere die erfolgreichsten und schwächsten Perioden
- Visualisiere die Performance-Entwicklung

## 3. Fahrer-Vergleich
Erstelle einen detaillierten Vergleich zwischen zwei Fahrern:
- Vergleiche Podiumsplatzierungen
- Analysiere Head-to-Head Rennen als Teamkollegen
- Berechne durchschnittliche Qualifikations- und Rennpositionen
- Visualisiere die Ergebnisse

## 4. Streckenanalyse
Untersuche verschiedene Rennstrecken:
- Finde die Strecke mit den meisten Überholmanövern
- Analysiere die durchschnittliche Anzahl von Ausfällen pro Strecke
- Vergleiche die Wetterbedingungen verschiedener Strecken
- Identifiziere "Spezialistenstrecken" für bestimmte Teams/Fahrer

## 5. Pit-Stop Analyse
Untersuche den Einfluss von Boxenstopps:
- Berechne durchschnittliche Pit-Stop-Zeiten pro Team
- Analysiere den Einfluss der Anzahl der Stopps auf das Endergebnis
- Finde Rennen, die durch Pit-Stop-Strategien gewonnen wurden

In [None]:
# Beispielcode für die erste Aufgabe (Monaco-Wetter-Analyse)
def analyze_monaco_weather():
    # Lade alle Monaco-Rennen
    monaco_races = races_df[races_df['name'].str.contains('Monaco', case=False)]
    
    # Erstelle DataFrame für Wetterdaten
    weather_data = []
    
    for _, race in monaco_races.iterrows():
        race_date = datetime.strptime(race['date'], '%Y-%m-%d')
        result = get_weather_for_race(race, race_date)
        if result:
            weather_data.append({
                'year': race_date.year,
                'temperature': result.get('temperature', None),
                'precipitation': result.get('precipitation', None)
            })
    
    return pd.DataFrame(weather_data)

# Führe die Analyse aus
# monaco_weather = analyze_monaco_weather()
# display(monaco_weather)