# Schokoladenverkaufsanalyse 


## Beschreibung

Dieser Datensatz enthält Verkaufsinformationen von Schokoladenprodukten weltweit, mit Angaben zu Verkäufern, Ländern, Produkten, Mengen und versendeten Kartons. Ziel der EDA ist es, Verkaufszahlen zu verstehen, wichtige Trends zu erkennen und erste Erkenntnisse für bessere Geschäftsentscheidungen zu gewinnen.


## Spaltenbeschreibung:


| Spalte             | Bedeutung                                |
|--------------------|------------------------------------------|
| Sales Person	         | Name des Verkäufers                      |
|Country	             | Land, in dem verkauft wurde              |
| Product            | Name/Typ des Schokoladenprodukts         |
| Date            | Verkaufsdatum                            |
| Amount            | Verkaufte Einzelmengen (enthält fehler "$")                   |
| Boxes Shipped  | Anzahl der Kartons, die verschickt wurden |





In [None]:
# 1. Gesamtaufgabe / Anforderungsliste:
"""
Ziel dieses Projekts ist es, den bereitgestellten Schokoladenverkaufsdatensatz mithilfe von Pandas und Plotly zu analysieren. Folgende Aufgaben sind zu bearbeiten:

- Daten einlesen und ersten Überblick verschaffen
- Datentypen und fehlende Werte analysieren
- Wichtige statistische Kennzahlen berechnen (Durchschnittswerte, Summen)
- Verkaufs- und Versandtrends erkennen
- Top-Produkte und Top-Länder analysieren
- Visuelle Darstellungen zur besseren Dateninterpretation erstellen
- Saisonale Schwankungen im Verkaufsverhalten untersuchen
- Wichtige Erkenntnisse aus den Daten formulieren
- Beantwortung von Quizfragen zur Wiederholung der wichtigsten EDA-Konzepte

Alle Schritte sollen klar dokumentiert werden. Nutze Kommentare, um deine Analysen zu erläutern.
"""

In [1]:
# Testen ob Jupyter Notebook in VS Code funktioniert
print("Hello World!")

Hello World!


In [None]:
# erforderliche Bibliotheken importieren

import pandas as pd
import plotly.express as px


In [8]:
# 1. CSV-Datei laden
df = pd.read_csv("../data/Chocolate Sales.csv")


In [9]:
# 2. Spaltennamen anzeigen
print(df.columns.tolist())

['Sales Person', 'Country', 'Product', 'Date', 'Amount', 'Boxes Shipped']


In [None]:
# 3. Überblick: Erste 10 Zeilen anzeigen
df.head(10)

Unnamed: 0,Sales Person,Country,Product,Date,Amount,Boxes Shipped
0,Jehu Rudeforth,UK,Mint Chip Choco,04-Jan-22,"$5,320",180
1,Van Tuxwell,India,85% Dark Bars,01-Aug-22,"$7,896",94
2,Gigi Bohling,India,Peanut Butter Cubes,07-Jul-22,"$4,501",91
3,Jan Morforth,Australia,Peanut Butter Cubes,27-Apr-22,"$12,726",342
4,Jehu Rudeforth,UK,Peanut Butter Cubes,24-Feb-22,"$13,685",184
5,Van Tuxwell,India,Smooth Sliky Salty,06-Jun-22,"$5,376",38
6,Oby Sorrel,UK,99% Dark & Pure,25-Jan-22,"$13,685",176
7,Gunar Cockshoot,Australia,After Nines,24-Mar-22,"$3,080",73
8,Jehu Rudeforth,New Zealand,50% Dark Bites,20-Apr-22,"$3,990",59
9,Brien Boise,Australia,99% Dark & Pure,04-Jul-22,"$2,835",102


In [11]:
# 4. Form (Zeilen und Spalten)
print(f"Der Datensatz hat {df.shape[0]} Zeilen und {df.shape[1]} Spalten.")

Der Datensatz hat 1094 Zeilen und 6 Spalten.


In [12]:
# 5. Datentypen anzeigen
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1094 entries, 0 to 1093
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Sales Person   1094 non-null   object
 1   Country        1094 non-null   object
 2   Product        1094 non-null   object
 3   Date           1094 non-null   object
 4   Amount         1094 non-null   object
 5   Boxes Shipped  1094 non-null   int64 
dtypes: int64(1), object(5)
memory usage: 51.4+ KB


In [None]:
# 6. Korrekte Datentypen verwenden

## 1. Spalte Sales Person zur Datentyp String konvetieren
df['Sales Person'] = df["Sales Person"].astype(str)

## 2. Spalte Country zur Datentyp String konvetieren
df['Country'] = df['Country'].astype(str)

## 3. Spalte Sales Person zur Datentyp String konvetieren
df["Product"] = df['Product'].astype(str)

## 4. Spalte "Date" - in Datetime-Format umwandeln
df['Date'] = pd.to_datetime(df['Date'], format='%d-%b-%y')

## 3. Spalte "Amount" - $ entfernen und in float umwandeln
df['Amount'] = df['Amount'].replace('[\$,]', '', regex=True).astype(float)

## 5. Spalte "Boxes Shipped" - sicherstellen, dass es Integer sind
df['Boxes Shipped'] = df['Boxes Shipped'].astype(int)


invalid escape sequence '\$'


invalid escape sequence '\$'


invalid escape sequence '\$'



In [30]:
# 7. Datentypen erneut anzeigen
print(df.dtypes)

Sales Person             object
Country                  object
Product                  object
Date             datetime64[ns]
Amount                  float64
Boxes Shipped             int64
dtype: object


In [None]:
# 8. Fehlende Werte prüfen
print(df.isnull().sum())

Sales Person     0
Country          0
Product          0
Date             0
Amount           0
Boxes Shipped    0
dtype: int64


In [34]:
# 9. Durchschnittliche Menge pro Verkauf
print(f"Durchschnittliche Menge pro Verkauf: {df['Amount'].mean():.2f}")


Durchschnittliche Menge pro Verkauf: 5652.31


In [32]:
# 9. Durchschnittlich verschickte Kartons
print(f"Durchschnittlich verschickte Kartons: {df['Boxes Shipped'].mean():.2f}")

Durchschnittlich verschickte Kartons: 161.80


In [None]:
# 10. Top 5 Produkte nach Menge
top5_products = df.groupby('Product')['Amount'].sum().sort_values(ascending=False).head(5)
print(top5_products)

Product
Smooth Sliky Salty     349692.0
50% Dark Bites         341712.0
White Choc             329147.0
Peanut Butter Cubes    324842.0
Eclairs                312445.0
Name: Amount, dtype: float64


In [None]:
# 11. Top 3 Länder nach Gesamtverkäufen
top3_countrys = df.groupby('Country')['Amount'].sum().sort_values(ascending=False).head(3)
print(top3_countrys)

Country
Australia    1137367.0
UK           1051792.0
India        1045800.0
Name: Amount, dtype: float64


In [47]:
# 12. Liniendiagramm: Verkäufe über Zeit

# Datum als Datetime (falls noch nicht)
df["Date"] = pd.to_datetime(df['Date'])

# Nur numerische Spalten summieren, nicht alle
sales_per_month = df.groupby(df['Date'].dt.to_period('M'))['Amount'].sum().reset_index()

# Datum wieder in Timestamp umwandeln
sales_per_month['Date'] = sales_per_month['Date'].dt.to_timestamp()


fig = px.line(sales_per_month, x='Date', y='Amount', title='Gesamtverkaufsmengen über Zeit')
fig.show()

In [57]:
# 13. Balkendiagramm: Meistverkaufte Produkte
fig = px.bar(top5_products, x=top5_products.index, y=top5_products.values,
             labels={'x':'Produkt', 'y':'Verkaufte Menge'},
             title='Top 5 meistverkaufte Schokoladenprodukte')
fig.show()

In [58]:
# 13. Kuchendiagramm: Verkäufe nach Ländern
country_sales = df.groupby('Country')['Amount'].sum()
fig = px.pie(values=country_sales.values, names=country_sales.index,
             title='Verkäufe nach Ländern')
fig.show()

In [60]:
# 14. Saisonale Trends: Monatliche Verkaufsentwicklung
monthly_sales = df.copy()
monthly_sales['Month'] = monthly_sales['Date'].dt.month
monaths_trends = monthly_sales.groupby('Month')['Amount'].sum()

fig = px.line(monaths_trends, x=monaths_trends.index, y=monaths_trends.values,
              labels={'x':'Monat', 'y':'Gesamtmenge'},
              title='Saisonale Trends im Schokoladenverkauf')
fig.show()

In [None]:
# 15. Verkäufer mit meisten verschickten Kartons (Absteigend sortieren)
seller_cartons = df.groupby('Sales Person')['Boxes Shipped'].mean().sort_values(ascending=False)
print(seller_cartons.head(5))

Sales Person
Karlen McCaffrey       205.489362
Jan Morforth           196.435897
Dotty Strutley         190.361111
Beverie Moffet         184.280000
Dennison Crosswaite    178.918367
Name: Boxes Shipped, dtype: float64
