In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import matplotlib.cm as cm

import warnings
warnings.filterwarnings("ignore", category=FutureWarning)


In [2]:
# Patrick Johns

# Deine vorhandene Klasse für zeitbasierte Splits
from sklearn.base import BaseEstimator, TransformerMixin

class TimeBasedTrainTestSplit(BaseEstimator, TransformerMixin):
    def __init__(self, year_column='year', test_year=None):
        """
        Initialisiert den Splitter.
        :param year_column: Name der Spalte, die das Jahr enthält
        :param test_year: Das Jahr, das für die Tests verwendet wird
        """
        self.year_column = year_column
        self.test_year = test_year

    def fit(self, X, y=None):
        """
        Diese Methode ist notwendig, um sich an die Scikit-Learn-Schnittstelle zu halten.
        Hier ist kein Training nötig, daher wird nichts gemacht.
        """
        return self

    def transform(self, X, y=None):
        """
        Führt den eigentlichen Split basierend auf dem Jahr durch.
        :param X: Der DataFrame mit den Daten
        :param y: Zielvariable, falls benötigt
        :return: Train- und Test-Daten
        """
        if self.test_year is None:
            raise ValueError("Es muss ein Testjahr angegeben werden!")

        # Aufteilen der Daten in Trainings- und Testdatensätze
        X_train = X[X[self.year_column] < self.test_year]
        X_test = X[X[self.year_column] == self.test_year]

        if y is not None:
            y_train = y[X[self.year_column] < self.test_year]
            y_test = y[X[self.year_column] == self.test_year]
            return X_train, X_test, y_train, y_test
        return X_train, X_test




# Main

In [3]:
# Laden des avocado CSV file
file_path = 'avocado-updated-2020.csv'

# Read the CSV file
avocado_data = pd.read_csv(file_path)

# Display the columns of the dataset
avocado_data.columns


FileNotFoundError: [Errno 2] No such file or directory: 'avocado-updated-2020.csv'

In [None]:
# Überprüfung auf fehlende Werte (NaN)
missing_values = avocado_data.isnull().sum()

# Überblick über die Anzahl der fehlenden Werte pro Spalte
missing_values


Ermilltung, wieviele Jahre an Daten wir zur verfügung haben

## Analyse der Zeitreihe

In [None]:
# Schauen wir uns die eindeutigen Jahre im Datensatz an
unique_years = avocado_data['year'].unique()
unique_years


Erkennnis: Zum Tranieren und Testen kann zwischen 2015-2019 und 2020 getrennt werden.

Die beiden Visualisierungen geben uns einige interessante Einblicke in die Avocado-Daten:

**Durchschnittlicher Preis pro Jahr**: Der Preis der Avocados schwankte über die Jahre. Man kann beobachten, dass es in bestimmten Jahren Preisanstiege gab. Es wäre interessant, mögliche Ursachen für diese Schwankungen, wie saisonale Effekte oder Änderungen in der Nachfrage, zu untersuchen.

**Gesamtes Verkaufsvolumen pro Jahr**: Hier siehst man, wie sich das Verkaufsvolumen über die Jahre verändert hat. Es gibt einige deutliche Veränderungen, wobei das Volumen in bestimmten Jahren höher ist. Dies könnte auf Marktdynamiken, Anbaubedingungen oder Verbraucherpräferenzen hinweisen.

In [None]:
# Patrick Johns

# Überblick über die durchschnittlichen Preise pro Jahr
average_price_per_year = avocado_data.groupby('year')['average_price'].mean()

# Überblick über das Verkaufsvolumen pro Jahr
total_volume_per_year = avocado_data.groupby('year')['total_volume'].sum()

# Visualisierung der durchschnittlichen Preise pro Jahr
plt.figure(figsize=(10, 5))
plt.plot(average_price_per_year.index, average_price_per_year.values, marker='o')
plt.title('Durchschnittlicher Avocado-Preis pro Jahr')
plt.xlabel('Jahr')
plt.ylabel('Durchschnittlicher Preis')
plt.grid(True)
plt.show()

# Visualisierung des gesamten Verkaufsvolumens pro Jahr
plt.figure(figsize=(10, 5))
plt.bar(total_volume_per_year.index, total_volume_per_year.values, color='green')
plt.title('Gesamtes Verkaufsvolumen von Avocados pro Jahr')
plt.xlabel('Jahr')
plt.ylabel('Verkaufsvolumen')
plt.grid(True)
plt.show()


## Analyse der Regionen

**Gesamtes Verkaufsvolumen nach Region**: Das erste Diagramm zeigt, wie viel Avocados in den verschiedenen Regionen verkauft wurden. Regionen mit größerem Verkaufsvolumen sind weiter oben in der Liste.

**Durchschnittlicher Preis nach Region**: Das zweite Diagramm zeigt die durchschnittlichen Preise pro Region. Du kannst erkennen, dass die Preise je nach Region unterschiedlich sind.

Diese Visualisierungen bieten einen guten Überblick darüber, wo die meisten Avocados verkauft werden und wo sie teurer oder günstiger sind. Wenn du weitere Analysen benötigst oder andere Details untersuchen möchtest, lass es mich wissen!

Detailliertere Analyse der Avocado-Daten nach Regionen, unter Verwendung von Plotly für die Visualisierung. 
Verkaufsvolumen und die durchschnittlichen Preise von Avocados in verschiedenen Regionen der USA.

In [None]:
# Patrick Johns

# Gruppiere den avocado_data nach 'geography' und berechne den durchschnittlichen Preis und das gesamte Verkaufsvolumen
avg_price_region = avocado_data.groupby('geography')['average_price'].mean()
total_volume_region = avocado_data.groupby('geography')['total_volume'].sum()

# Sortiere nach Verkaufsvolumen für bessere Darstellung
total_volume_region_sorted = total_volume_region.sort_values(ascending=False)

# Erstellen eines Balkendiagramms für das Verkaufsvolumen pro Region
plt.figure(figsize=(12, 6))
plt.bar(total_volume_region_sorted.index, total_volume_region_sorted.values, color='skyblue')
plt.xticks(rotation=90)
plt.title('Gesamtes Verkaufsvolumen von Avocados nach Region')
plt.xlabel('Region')
plt.ylabel('Verkaufsvolumen')
plt.tight_layout()
plt.show()

# Sortiere nach durchschnittlichem Preis für bessere Darstellung
avg_price_region_sorted = avg_price_region.sort_values(ascending=False)

# Erstellen eines Balkendiagramms für den durchschnittlichen Preis pro Region
plt.figure(figsize=(12, 6))
plt.bar(avg_price_region_sorted.index, avg_price_region_sorted.values, color='lightgreen')
plt.xticks(rotation=90)
plt.title('Durchschnittlicher Avocado-Preis nach Region')
plt.xlabel('Region')
plt.ylabel('Durchschnittlicher Preis (in USD)')
plt.tight_layout()
plt.show()


Es scheint, dass die Spalte "geography" in deem Datensatz  unterschiedliche Hierarchien von Regionen enthält, z.B. Staaten, regionale Märkte oder größere Gebiete (wie "Total U.S."). Um dies zu überprüfen und zu analysieren, können wir die einzigartigen Werte der "geography"-Spalte genauer betrachten.

Wir fügen eine neue Spalte namens "geography_level" hinzu, die die geografischen Ebenen wie folgt klassifiziert:

Level 0: Für "Total U.S." (gesamtnational).
Level 1: Für größere Regionen oder Bundesstaaten (z.B. "California", "Great Lakes").
Level 2: Für Städte oder Metropolregionen (z.B. "Albany", "Chicago").

In [None]:
# Patrick Johns

# Definieren der Städte mit ihren Koordinaten
static_coordinates = [
    ('Albany', 42.6526, -73.7562),
    ('Atlanta', 33.749, -84.388),
    ('Baltimore/Washington', 39.2904, -76.6122),
    ('Boise', 43.615, -116.2023),
    ('Boston', 42.3601, -71.0589),
    ('Buffalo/Rochester', 43.1566, -77.6088),
    ('California', 36.7783, -119.4179),
    ('Charlotte', 35.2271, -80.8431),
    ('Chicago', 41.8781, -87.6298),
    ('Cincinnati/Dayton', 39.1031, -84.512),
    ('Columbus', 39.9612, -82.9988),
    ('Dallas/Ft. Worth', 32.7767, -96.797),
    ('Denver', 39.7392, -104.9903),
    ('Detroit', 42.3314, -83.0458),
    ('Grand Rapids', 42.9634, -85.6681),
    ('Great Lakes', 45.0, -84.0),
    ('Harrisburg/Scranton', 40.2732, -76.8867),
    ('Hartford/Springfield', 41.7627, -72.6743),
    ('Houston', 29.7604, -95.3698),
    ('Indianapolis', 39.7684, -86.1581),
    ('Jacksonville', 30.3322, -81.6557),
    ('Las Vegas', 36.1699, -115.1398),
    ('Los Angeles', 34.0522, -118.2437),
    ('Louisville', 38.2527, -85.7585),
    ('Miami/Ft. Lauderdale', 25.7617, -80.1918),
    ('Midsouth', 35.1495, -90.0489),
    ('Nashville', 36.1627, -86.7816),
    ('New Orleans/Mobile', 29.9511, -90.0715),
    ('New York', 40.7128, -74.006),
    ('Northeast', 41.5, -75.0),
    ('Northern New England', 44.0, -71.5),
    ('Orlando', 28.5383, -81.3792),
    ('Philadelphia', 39.9526, -75.1652),
    ('Phoenix/Tucson', 33.4484, -112.074),
    ('Pittsburgh', 40.4406, -79.9959),
    ('Plains', 39.0119, -98.4842),
    ('Portland', 45.5152, -122.6784),
    ('Raleigh/Greensboro', 35.7796, -78.6382),
    ('Richmond/Norfolk', 37.5407, -77.436),
    ('Roanoke', 37.2709, -79.9414),
    ('Sacramento', 38.5816, -121.4944),
    ('San Diego', 32.7157, -117.1611),
    ('San Francisco', 37.7749, -122.4194),
    ('Seattle', 47.6062, -122.3321),
    ('South Carolina', 33.8361, -81.1637),
    ('South Central', 34.7465, -92.2896),
    ('Southeast', 32.3182, -86.9023),
    ('Spokane', 47.6588, -117.426),
    ('St. Louis', 38.627, -90.1994),
    ('Syracuse', 43.0481, -76.1474),
    ('Tampa', 27.9506, -82.4572),
    ('Total U.S.', 39.8283, -98.5795),
    ('West', 39.1178, -120.013),
    ('West Tex/New Mexico', 31.9686, -99.9018)
]


In [None]:
# Patrick Johns

# Funktion zur Klassifizierung der geographischen Ebenen
def classify_geography(geo):
    if geo == 'Total U.S.':
        return '0'  # Gesamtnation
    elif geo in ['California',
                 'Great Lakes',
                 'Midsouth',
                 'Northeast',
                 'Northern New England',
                 'Plains',
                 'South Carolina',
                 'South Central',
                 'Southeast',
                 'West',
                 'West Tex/New Mexico']:
        return '1'  # Regionen oder Bundesstaaten
    else:
        return '2'  # Städte und Metropolregionen

# Neue Spalte für geographische Ebenen basierend auf der Funktion hinzufügen
avocado_data['geography_level'] = avocado_data['geography'].apply(classify_geography)

# Erste Zeilen anzeigen, um das Ergebnis zu überprüfen
avocado_data[['geography', 'geography_level']].head()


Hinzufügen eine Spalte 'latitude', 'longitude'


In [None]:
# Patrick Johns

# Konvertiere die Koordinaten in ein DataFrame
coordinates_df = pd.DataFrame(static_coordinates, columns=['geography', 'latitude', 'longitude'])

# Mergen der avocado_data mit den Koordinaten basierend auf der Spalte 'geography'
avocado_data = pd.merge(avocado_data, coordinates_df, how='left', on='geography')

# Anzeigen der ersten Zeilen, um das Ergebnis zu überprüfen
avocado_data[['geography', 'latitude', 'longitude']].head()

Der DataFrame für die Level 1 Regionen mit den aggregierten Summen enthält die Spalten:

geography: Name der Region.
average_price: Durchschnittlicher Preis der Avocados.
total_volume: Gesamtes Verkaufsvolumen in dieser Region.
latitude und longitude: Koordinaten der Regionen.

In [None]:
# Patrick Johns

# Aggregieren der Level 1 Daten nach 'geography', sodass nur eine Zeile pro Region vorhanden ist
level_1_aggregated = avocado_data[avocado_data['geography_level'] == '1'].groupby('geography').agg({
    'average_price': 'mean',
    'total_volume': 'sum',
    'latitude': 'first',
    'longitude': 'first'
}).reset_index()

level_1_aggregated


In [None]:
# Patrick Johns

# Verwende die aggregierten Level-1-Daten für den Plot
level_1_aggregated = level_1_aggregated.copy()

# Erstellen der Textbeschreibung für jede Region in Level 1
level_1_aggregated['text'] = (
    level_1_aggregated['geography'] +
    '<br>Durchschnittspreis: $' + level_1_aggregated['average_price'].round(2).astype(str) +
    '<br>Verkaufsvolumen: ' + level_1_aggregated['total_volume'].astype(int).astype(str)
)

# Sicherstellen, dass Markergröße nicht zu klein ist (mindestens 10)
marker_size = level_1_aggregated['total_volume'] / level_1_aggregated['total_volume'].max() * 50
marker_size[marker_size < 10] = 10  # Set minimum size to 10

# Erstellen der Plotly-Figur für Level 1
fig_level_1 = go.Figure()

# Füge die Marker hinzu
fig_level_1.add_trace(go.Scattergeo(
    locationmode='USA-states',
    lon=level_1_aggregated['longitude'],
    lat=level_1_aggregated['latitude'],
    text=level_1_aggregated['text'],
    mode='markers',
    marker=dict(
        size=marker_size,  # Größe relativ zum Volumen, Mindestgröße 10
        opacity=0.7,
        color=level_1_aggregated['average_price'],
        colorscale='Viridis',
        colorbar_title='Durchschnittspreis'
    )
))

# Layout anpassen, einschließlich der Plot-Größe
fig_level_1.update_layout(
    title='Durchschnittspreis und Verkaufsvolumen von Avocados nach Level 1 Regionen',
    geo=dict(
        scope='usa',
        projection_type='albers usa',
        showland=True,
        landcolor="rgb(250, 250, 250)",
        subunitcolor="rgb(217, 217, 217)",
        countrycolor="rgb(217, 217, 217)",
        countrywidth=0.5,
        subunitwidth=0.5
    ),
    width=1200,  # Setze eine größere Breite
    height=800   # Setze eine größere Höhe
)

# Plot anzeigen
fig_level_1.show()


In [None]:
# Patrick Johns

# Aggregieren der Level 2 Daten nach 'geography', sodass nur eine Zeile pro Region vorhanden ist
level_2_aggregated = avocado_data[avocado_data['geography_level'] == '2'].groupby('geography').agg({
    'average_price': 'mean',
    'total_volume': 'sum',
    'latitude': 'first',
    'longitude': 'first'
}).reset_index()

level_2_aggregated

In [None]:
# Patrick Johns

# Verwende die aggregierten Level-1-Daten für den Plot
level_2_aggregated = level_2_aggregated.copy()

# Erstellen der Textbeschreibung für jede Region in Level 1
level_2_aggregated['text'] = (
    level_2_aggregated['geography'] +
    '<br>Durchschnittspreis: $' + level_2_aggregated['average_price'].round(2).astype(str) +
    '<br>Verkaufsvolumen: ' + level_2_aggregated['total_volume'].astype(int).astype(str)
)

# Sicherstellen, dass Markergröße nicht zu klein ist (mindestens 10)
marker_size = level_2_aggregated['total_volume'] / level_2_aggregated['total_volume'].max() * 50
marker_size[marker_size < 10] = 10  # Set minimum size to 10

# Erstellen der Plotly-Figur für Level 1
fig_level_2 = go.Figure()

# Füge die Marker hinzu
fig_level_2.add_trace(go.Scattergeo(
    locationmode='USA-states',
    lon=level_2_aggregated['longitude'],
    lat=level_2_aggregated['latitude'],
    text=level_2_aggregated['text'],
    mode='markers',
    marker=dict(
        size=marker_size,  # Größe relativ zum Volumen, Mindestgröße 10
        opacity=0.7,
        color=level_1_aggregated['average_price'],
        colorscale='Viridis',
        colorbar_title='Durchschnittspreis'
    )
))

# Layout anpassen, einschließlich der Plot-Größe
fig_level_2.update_layout(
    title='Durchschnittspreis und Verkaufsvolumen von Avocados nach Level 1 Regionen',
    geo=dict(
        scope='usa',
        projection_type='albers usa',
        showland=True,
        landcolor="rgb(250, 250, 250)",
        subunitcolor="rgb(217, 217, 217)",
        countrycolor="rgb(217, 217, 217)",
        countrywidth=0.5,
        subunitwidth=0.5
    ),
    width=1200,  # Setze eine größere Breite
    height=800   # Setze eine größere Höhe
)

# Plot anzeigen
fig_level_2.show()


## Korrelationen 

In [None]:
# Mark Fischer

# Konvertiere das Datum in ein datetime-Format und extrahiere Kalenderwoche und Jahr
avocado_data['date'] = pd.to_datetime(avocado_data['date'])
avocado_data['week'] = avocado_data['date'].dt.isocalendar().week
avocado_data['year'] = avocado_data['date'].dt.year

# Filter für San Francisco, organic small bags only (ohne large und xlarge bags), Jahr 2015
sf_data_2015_only_small = avocado_data.loc[(avocado_data['geography'] == 'San Francisco') &
                                           (avocado_data['type'] == 'organic') &
                                           (avocado_data['small_bags'] > 0) &
                                           (avocado_data['large_bags'] == 0) &
                                           (avocado_data['xlarge_bags'] == 0) &
                                           (avocado_data['year'] == 2015)].copy()

# Konvertiere das Datum und extrahiere den Monat
sf_data_2015_only_small['date'] = pd.to_datetime(sf_data_2015_only_small['date'])
sf_data_2015_only_small['month'] = sf_data_2015_only_small['date'].dt.month

# Berechne das durchschnittliche monatliche Volumen für Farbcodierung
volume_colors_monthly = sf_data_2015_only_small.groupby('month')['total_volume'].mean()

# Erstelle die Boxplot-Daten basierend auf monatlichen Durchschnittspreisen
monthly_boxplot_data = [sf_data_2015_only_small[sf_data_2015_only_small['month'] == month]['average_price']
                        for month in sf_data_2015_only_small['month'].unique()]

# Erstelle den Plot mit sowohl horizontalem als auch vertikalem gestrichelten Grid
fig, ax = plt.subplots(figsize=(14, 8))
box = ax.boxplot(monthly_boxplot_data, patch_artist=True, showmeans=True)

# Wende die Farbgebung basierend auf dem monatlichen Volumen an
cmap = plt.cm.viridis
for patch, volume in zip(box['boxes'], volume_colors_monthly):
    color = cmap(volume / max(volume_colors_monthly))
    patch.set_facecolor(color)

# Füge eine Farbskala hinzu, um Volumen darzustellen
sm = plt.cm.ScalarMappable(cmap=cmap, norm=plt.Normalize(vmin=volume_colors_monthly.min(), vmax=volume_colors_monthly.max()))
sm.set_array([])
fig.colorbar(sm, ax=ax, label='Average Total Volume')

# Setze Titel und Achsenbeschriftungen
ax.set_title('Monthly Average Price for Organic Small Bags in San Francisco (2015) with Volume Colored Boxplots')
ax.set_xlabel('Month')
ax.set_ylabel('Average Price')
ax.set_xticklabels(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])

# Füge ein gestricheltes Grid sowohl horizontal als auch vertikal hinzu
ax.grid(True, linestyle='--', which='both', color='grey', alpha=0.7)

# Zeige den Plot an
plt.show()

Erkenntnis: Es gibt Abhängigkeiten zum Preis und der Jahreszeit
Wir werden Jahreszeiten und Anbaugebiete/Entfrneungen zu Anbaugebiete berücksichtigen 

In [None]:
# Patrick Johns

# Ensure the date column is datetime
avocado_data['date'] = pd.to_datetime(avocado_data['date'])

# Create the scatter plot separating by type
plt.figure(figsize=(8, 6))

# Scatter plot for 'conventional' avocados
plt.scatter(avocado_data[avocado_data['type'] == 'conventional']['total_volume'],
            avocado_data[avocado_data['type'] == 'conventional']['average_price'],
            color='blue', label='Conventional')

# Scatter plot for 'organic' avocados
plt.scatter(avocado_data[avocado_data['type'] == 'organic']['total_volume'],
            avocado_data[avocado_data['type'] == 'organic']['average_price'],
            color='green', label='Organic')

# Adding titles and labels
plt.title('Price vs Total Volume of Avocados (Separated by Type)', fontsize=14)
plt.xlabel('Total Volume', fontsize=12)
plt.ylabel('Average Price ($)', fontsize=12)

# Adding legend to distinguish between 'conventional' and 'organic'
plt.legend()

plt.grid(True)
plt.show()


Erkenntnis: Bio und konventioenne Avocados unterscheiden sich schark zwischen Volumen und Preis

In [None]:
# Re-adding the '1/total_volume' column for calculation
avocado_data['1/total_volume'] = 1 / avocado_data['total_volume']

# Creating two plots to separate 'conventional' and 'organic'
plt.figure(figsize=(14, 6))

# Plot 1: Conventional Avocados
plt.subplot(1, 2, 1)
plt.scatter(avocado_data[avocado_data['type'] == 'conventional']['average_price'],
            avocado_data[avocado_data['type'] == 'conventional']['1/total_volume'],
            color='blue', label='Conventional')
plt.title('Conventional: Inverse Volume vs Price')
plt.xlabel('Average Price ($)')
plt.ylabel('1 / Total Volume')
plt.grid(True)

# Plot 2: Organic Avocados
plt.subplot(1, 2, 2)
plt.scatter(avocado_data[avocado_data['type'] == 'organic']['average_price'],
            avocado_data[avocado_data['type'] == 'organic']['1/total_volume'],
            color='green', label='Organic')
plt.title('Organic: Inverse Volume vs Price')
plt.xlabel('Average Price ($)')
plt.grid(True)

plt.tight_layout()
plt.show()


## Analyse von zwei Städten (Los Angeles and New York)

In [None]:
# Filtering for Los Angeles and New York
plt.figure(figsize=(14, 12))

# Plot 1: Los Angeles Conventional
plt.subplot(2, 2, 1)
plt.scatter(avocado_data[(avocado_data['geography'] == 'Los Angeles') & (avocado_data['type'] == 'conventional')]['average_price'],
            avocado_data[(avocado_data['geography'] == 'Los Angeles') & (avocado_data['type'] == 'conventional')]['1/total_volume'],
            color='blue', label='Los Angeles - Conventional')
plt.title('Los Angeles Conventional: Inverse Volume vs Price')
plt.xlabel('Average Price ($)')
plt.ylabel('1 / Total Volume')
plt.grid(True)

# Plot 2: Los Angeles Organic
plt.subplot(2, 2, 2)
plt.scatter(avocado_data[(avocado_data['geography'] == 'Los Angeles') & (avocado_data['type'] == 'organic')]['average_price'],
            avocado_data[(avocado_data['geography'] == 'Los Angeles') & (avocado_data['type'] == 'organic')]['1/total_volume'],
            color='green', label='Los Angeles - Organic')
plt.title('Los Angeles Organic: Inverse Volume vs Price')
plt.xlabel('Average Price ($)')
plt.grid(True)

# Plot 3: New York Conventional
plt.subplot(2, 2, 3)
plt.scatter(avocado_data[(avocado_data['geography'] == 'New York') & (avocado_data['type'] == 'conventional')]['average_price'],
            avocado_data[(avocado_data['geography'] == 'New York') & (avocado_data['type'] == 'conventional')]['1/total_volume'],
            color='blue', label='New York - Conventional')
plt.title('New York Conventional: Inverse Volume vs Price')
plt.xlabel('Average Price ($)')
plt.ylabel('1 / Total Volume')
plt.grid(True)

# Plot 4: New York Organic
plt.subplot(2, 2, 4)
plt.scatter(avocado_data[(avocado_data['geography'] == 'New York') & (avocado_data['type'] == 'organic')]['average_price'],
            avocado_data[(avocado_data['geography'] == 'New York') & (avocado_data['type'] == 'organic')]['1/total_volume'],
            color='green', label='New York - Organic')
plt.title('New York / Los Angeles: Inverse Volume vs Price')
plt.xlabel('Average Price ($)')
plt.grid(True)

plt.tight_layout()
plt.show()


Erkenntnis: Die Städte verhalten sich untereinander unterschiedlich. Wie werden in Regionen oder Städt aufteilen

In [None]:
import pandas as pd
from geopy.distance import geodesic

# Fiktive Daten: Geografische Koordinaten für Kalifornien und Mexiko (Hauptanbaugebiete)
california_coords = (36.7783, -119.4179)  # Kalifornien (Zentrum)
mexico_coords = (23.6345, -102.5528)      # Mexiko (Zentrum)

# Umwandeln der geografischen Koordinaten der Regionen in DataFrame
static_coordinates = [
    ('Albany', 42.6526, -73.7562),
    ('Atlanta', 33.749, -84.388)
]

df = pd.DataFrame(static_coordinates, columns=['city', 'latitude', 'longitude'])

# Distanz zu Kalifornien und Mexiko berechnen
df['dist_to_california'] = df.apply(lambda row: geodesic((row['latitude'], row['longitude']), california_coords).kilometers, axis=1)
df['dist_to_mexico'] = df.apply(lambda row: geodesic((row['latitude'], row['longitude']), mexico_coords).kilometers, axis=1)

# Demografische Daten hinzufügen (hier nur 2 Werte, weil wir 2 Städte haben)
#df['avg_income'] = [55000, 62000]  # Beispiel-Einkommen für jede Region

# Klima-Daten hinzufügen (nur 2 Werte)
#df['avg_temp'] = [12.5, 18.2]  # Durchschnittstemperatur der Region

# Saisonale Merkmale (2 Werte)
#df['season'] = ['Winter', 'Sommer']  # Beispiel: Hinzufügen von Jahreszeiten

# Wettbewerb (2 Werte): Anzahl der Supermärkte pro 1000 Einwohner
#df['supermarket_density'] = [3.5, 2.2]

# Vorschau des DataFrames
print(df)



In [None]:
# Plotting the quantiles for price/total volume ratio over time for Los Angeles

# Step 1: Calculate the price to volume ratio for Los Angeles
avocado_data_la = avocado_data[avocado_data['geography'] == 'Los Angeles'].copy()

# Step 1: Calculate the correlation between price and 1/total_volume over time (monthly)
avocado_data_la['1/total_volume'] = 1 / avocado_data_la['total_volume']

# Group by month and calculate the correlation between price and 1/total_volume for each month
davocado_data_la_monthly_corr = avocado_data_la.resample('M', on='date').apply(lambda x: x['average_price'].corr(x['1/total_volume']))

# Step 2: Plot the correlation over time
plt.figure(figsize=(10, 6))
plt.plot(davocado_data_la_monthly_corr.index, davocado_data_la_monthly_corr, label='Price vs 1/Total Volume Correlation', color='purple')

# Adding titles and labels
plt.title('Correlation Between Price and 1/Total Volume Over Time (Los Angeles)', fontsize=14)
plt.xlabel('Time', fontsize=12)
plt.ylabel('Correlation Coefficient', fontsize=12)
plt.grid(True)
plt.show()


Erkenntis: Bis auf einige Ausreißer ist eine hohe Korrellation zwischen Preis und 1/Total Volume zu erkennen.

In [None]:
# Patrick Johns

# Defining the function to classify regions into West Coast and East Coast
def classify_region(geography):
    west_coast_regions = ['California', 'Portland', 'Seattle', 'Los Angeles', 'San Francisco']
    east_coast_regions = ['New York', 'Boston', 'Miami', 'Philadelphia', 'Baltimore/Washington',
                          'Atlanta', 'Tampa', 'Orlando', 'Hartford/Springfield', 'Raleigh/Greensboro', 'Richmond/Norfolk']
    
    if geography in west_coast_regions:
        return 'West Coast'
    elif geography in east_coast_regions:
        return 'East Coast'
    else:
        return 'Other'

# Applying the classification function to create the new region columns
avocado_data['coast'] = avocado_data['geography'].apply(classify_region)

# Creating binary columns for easier analysis
avocado_data['is_west_coast'] = avocado_data['coast'] == 'West Coast'
avocado_data['is_east_coast'] = avocado_data['coast'] == 'East Coast'

# Displaying the updated dataframe to the user
avocado_data


In [None]:
# Correlation between price and 1/total_volume for East Coast and West Coast regions
# Adding 1/total_volume column
avocado_data['1/total_volume'] = 1 / avocado_data['total_volume']

# Step 1: Calculate correlation for East Coast and West Coast regions

# East Coast Correlation for 1/total_volume
df_east_coast = avocado_data[avocado_data['is_east_coast']].copy()
df_east_coast_corr_inv = df_east_coast.resample('M', on='date').apply(lambda x: x['average_price'].corr(x['1/total_volume']))

# West Coast Correlation for 1/total_volume
df_west_coast = avocado_data[avocado_data['is_west_coast']].copy()
df_west_coast_corr_inv = df_west_coast.resample('M', on='date').apply(lambda x: x['average_price'].corr(x['1/total_volume']))

# Step 2: Plotting the correlation over time for both regions
plt.figure(figsize=(10, 6))

# East Coast plot (price vs 1/total volume)
plt.plot(df_east_coast_corr_inv.index, df_east_coast_corr_inv, label='East Coast: Price vs 1/Total Volume', color='blue')

# West Coast plot (price vs 1/total volume)
plt.plot(df_west_coast_corr_inv.index, df_west_coast_corr_inv, label='West Coast: Price vs 1/Total Volume', color='green')

# Adding titles and labels
plt.title('Correlation Between Price and 1/Total Volume Over Time (East Coast vs West Coast)', fontsize=14)
plt.xlabel('Time', fontsize=12)
plt.ylabel('Correlation Coefficient', fontsize=12)
plt.legend()

plt.grid(True)
plt.show()

Erkenntnis: Die Korrellation Ost und West laufen auseinander.

# Schnelle Überprüfung LinearRegression

In [None]:
# Nehmen wir das Jahr 2020 zum trainiren
# Anwendung der Klasse auf avocado_data
splitter = TimeBasedTrainTestSplit(year_column='year', test_year=2019)

# Beispielannahme: y ist der 'average_price', den du vorhersagen möchtest
X = avocado_data.drop(columns=['average_price'])  # Merkmale außer average_price
y = avocado_data['average_price']  # Zielvariable: average_price

# Train-Test-Split anwenden
X_train, X_test, y_train, y_test = splitter.transform(X, y)

# Ergebnisse überprüfen
print(f"Trainingsdaten: {X_train.shape}, Testdaten: {X_test.shape}")
print(f"Zielvariable Trainingsdaten: {y_train.shape}, Zielvariable Testdaten: {y_test.shape}")


In [None]:
# Patrick Johns

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Zielvariable und Merkmale trennen
X = avocado_data.drop(columns=['average_price', 'date'])  # Merkmale
y = avocado_data['average_price']  # Zielvariable

# Train-Test-Split mit dem TimeBasedTrainTestSplit
splitter = TimeBasedTrainTestSplit(year_column='year', test_year=2020)
X_train, X_test, y_train, y_test = splitter.transform(X, y)

# Definieren der numerischen und kategorischen Spalten
numerical_features = X_train.select_dtypes(include=['float64', 'int64']).columns
categorical_features = ['geography']

# Erstellen eines Preprocessing-Schritts
preprocessor = ColumnTransformer(
    transformers=[
        ('num', SimpleImputer(strategy='median'), numerical_features),  # Fehlende numerische Werte mit Median füllen
        ('cat', OneHotEncoder(drop='first', sparse_output=True), categorical_features)  # One-Hot-Encoding der geografischen Spalte
    ]
)

# Erstellen der Pipeline mit Vorverarbeitung und Modell (z.B. Lineare Regression)
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),  # Vorverarbeitungsschritte
    ('scaler', StandardScaler(with_mean=False)),  # Skalierung ohne Zentrierung (sparse matrices)
    ('model', LinearRegression())  # Modellschritt (z.B. Lineare Regression)
])

# Pipeline auf den Trainingsdaten trainieren
pipeline.fit(X_train, y_train)

# Vorhersage auf den Testdaten
y_pred = pipeline.predict(X_test)

# Evaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R²-Score: {r2}")


In [None]:
# Patrick Johns

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Zielvariable und Merkmale trennen
X = avocado_data.drop(columns=['average_price', 'date'])  # Merkmale
y = avocado_data['average_price']  # Zielvariable

# Train-Test-Split mit dem TimeBasedTrainTestSplit
splitter = TimeBasedTrainTestSplit(year_column='year', test_year=2020)
X_train, X_test, y_train, y_test = splitter.transform(X, y)

# Definieren der numerischen und kategorischen Spalten
numerical_features = X_train.select_dtypes(include=['float64', 'int64']).columns
categorical_features = ['geography']

# Erstellen eines Preprocessing-Schritts
preprocessor = ColumnTransformer(
    transformers=[
        ('num', SimpleImputer(strategy='median'), numerical_features),  # Fehlende numerische Werte mit Median füllen
        ('cat', OneHotEncoder(drop='first', sparse_output=True), categorical_features)  # One-Hot-Encoding der geografischen Spalte
    ]
)

# Erstellen der Pipeline mit Vorverarbeitung und Modell (z.B. Lineare Regression)
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),  # Vorverarbeitungsschritte
    ('scaler', StandardScaler(with_mean=False)),  # Skalierung ohne Zentrierung (sparse matrices)
    ('model', LinearRegression())  # Modellschritt (z.B. Lineare Regression)
])

# Definieren der Parameter für GridSearch
param_grid = {
    'model__fit_intercept': [True, False],  # Achsenabschnitt einbeziehen oder nicht
    'model__n_jobs': [None, -1]  # Anzahl der Jobs für paralleles Berechnen (None=1 Job, -1=alle Kerne)
}

# GridSearchCV aufsetzen
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='r2')  # R²-Score verwenden

# Grid Search auf den Trainingsdaten anwenden
grid_search.fit(X_train, y_train)

# Beste Parameter und Modell anzeigen
print("Beste Parameterkombination:", grid_search.best_params_)

# Vorhersage auf den Testdaten mit dem besten Modell
y_pred = grid_search.predict(X_test)

# Evaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R²-Score: {r2}")


In [None]:

# Nehmen wir an, dass `date` in den ursprünglichen Daten enthalten war. Du kannst sie wieder zu `X_train` und `X_test` hinzufügen
X_test_with_date = X_test.copy()
X_test_with_date['date'] = avocado_data.loc[X_test.index, 'date']

# Erstellen eines DataFrames für die tatsächlichen und vorhergesagten Werte mit den Testdaten
results = pd.DataFrame({
    'date': pd.to_datetime(X_test_with_date['date']),
    'y_real': y_test,
    'y_pred': y_pred
})

# Sortiere die Ergebnisse nach Datum
results = results.sort_values(by='date')

# Scatterplot erstellen
plt.figure(figsize=(14, 7))
plt.scatter(results['date'], results['y_real'], label='Tatsächlicher Preis (y_real)', color='blue', alpha=0.6)
plt.scatter(results['date'], results['y_pred'], label='Vorhergesagter Preis (y_pred)', color='red', alpha=0.6)
plt.title('Tatsächlicher vs. vorhergesagter Preis im Zeitverlauf (Scatterplot)')
plt.xlabel('Datum')
plt.ylabel('Durchschnittlicher Preis')
plt.legend()
plt.grid(True)
plt.show()


In [None]:
# Patrick Johns

import dash
from dash import dcc, html
from dash.dependencies import Input, Output

# Annahme: X_test_with_date enthält die geografischen Daten und 'date'
X_test_with_date['date'] = pd.to_datetime(X_test_with_date['date'])

# Erstelle einen DataFrame, der sowohl die tatsächlichen als auch die vorhergesagten Werte enthält
results = pd.DataFrame({
    'date': X_test_with_date['date'],
    'geography': X_test_with_date['geography'],
    'y_real': y_test,
    'y_pred': y_pred
})

# Liste der verfügbaren geografischen Regionen
available_geographies = results['geography'].unique()

# Definieren einer Standard-Geografie ("Los Angeles")
default_geography = 'Los Angeles'

# Erstellen der Dash-App
app = dash.Dash(__name__)

# Layout der App
app.layout = html.Div([
    html.H1("Avocado Preis Vorhersage nach Geografie"),

    # Checkbox für die Auswahl von Geografien (nebeneinander)
    dcc.Checklist(
        id='geography-selector',
        options=[{'label': geography, 'value': geography} for geography in available_geographies],
        value=[default_geography],  # Standardmäßig ist 'Total U.S.' ausgewählt
        labelStyle={'display': 'inline-block', 'margin-right': '10px'}  # Inline und mit Abstand
    ),
    
    # Zeitreihen-Plot
    dcc.Graph(id='price-time-series')
])

# Callback zur Aktualisierung des Plots basierend auf den ausgewählten Regionen
@app.callback(
    Output('price-time-series', 'figure'),
    [Input('geography-selector', 'value')]
)
def update_time_series(selected_geographies):
    # Filtere die Daten nach den ausgewählten Geografien
    filtered_data = results[results['geography'].isin(selected_geographies)]
    
    # Gruppiere die Daten nach Datum und berechne den Durchschnittspreis und die Vorhersage für jede Region
    grouped_data = filtered_data.groupby('date').agg({
        'y_real': 'mean',
        'y_pred': 'mean'
    }).reset_index()

    # Erstellen des Plots
    fig = go.Figure()

    # Tatsächlicher Preis
    fig.add_trace(go.Scatter(x=grouped_data['date'], y=grouped_data['y_real'],
                             mode='lines', name='Tatsächlicher Preis (y_real)', line=dict(color='blue')))

    # Vorhergesagter Preis
    fig.add_trace(go.Scatter(x=grouped_data['date'], y=grouped_data['y_pred'],
                             mode='lines', name='Vorhergesagter Preis (y_pred)', line=dict(color='red', dash='dash')))

    # Layout anpassen
    fig.update_layout(
        title='Tatsächlicher vs. vorhergesagter Preis im Zeitverlauf',
        xaxis_title='Datum',
        yaxis_title='Durchschnittlicher Preis',
        xaxis=dict(type='date'),
        height=600
    )

    return fig

# Starte die Dash-App
if __name__ == '__main__':
    app.run_server(debug=True)


Erkenntnis: Teilweise laufen die Schätzungen den tatsächlichen Werten nach. 