# Aufgabe 2: The World of Fashion

## 📜 Datensatzübersicht

Dieser Datensatz enthält **3.400 Datensätze** zu Modeeinzelhandelsumsätzen und erfasst verschiedene Details zu Kundenkäufen, darunter Artikeldetails, Kaufbeträge, Bewertungen und Zahlungsmethoden. 
Er ist nützlich für die Analyse des Kundenkaufverhaltens, der Produktpopularität und der Zahlungspräferenzen.

## 🔍 Wichtige Erkenntnisse

- Der Datensatz enthält **3.400 Transaktionen**.
- Fehlende Werte:
  - **Purchase Amount (USD)**: 650 fehlende Werte
  - **Review Rating**: 324 fehlende Werte
- **Payment Method** umfasst mehrere Kategorien (ermöglicht Analyse der Zahlungstrends).
- **Date Purchase** liegt im Format **TT-MM-JJJJ** vor (geeignet für Zeitreihenanalyse).
- Der Datensatz eignet sich zur Analyse von **Verkaufstrends**, **Kundenpräferenzen** und **Zahlungsverhalten** im Modeeinzelhandel.

## 📊 Mögliche Anwendungsfälle

- **Verkaufsanalyse**: Verstehen, welche Modeartikel sich am besten verkaufen.
- **Kundeneinblicke**: Analyse des Kaufverhaltens und der Ausgabemuster.
- **Trendprognose**: Erkennen saisonaler Trends im Modeeinzelhandel.
- **Bevorzugte Zahlungsmethoden**: Verstehen, wie Kunden am liebsten bezahlen.

## 📂 Spaltenbeschreibung

| Spaltenname               | Datentyp       | Beschreibung |
|----------------------------|----------------|--------------|
| Customer Reference ID     | Ganze Zahl     | Eindeutige Kennung für jeden Kunden |
| Item Purchased             | Zeichenfolge   | Name des gekauften Modeartikels |
| Purchase Amount (USD)      | Schwimmzahl    | Kaufpreis des Artikels in USD (650 fehlende Werte) |
| Date Purchase              | Zeichenfolge   | Datum des Kaufs (Format: TT-MM-JJJJ) |
| Review Rating              | Schwimmzahl    | Kundenbewertung (Skala 1 bis 5; 324 fehlende Werte) |
| Payment Method             | Zeichenfolge   | Verwendete Zahlungsmethode (z. B. Kreditkarte, Bargeld) |

---

## ✅ Aufgabenstellung

- Lade den Datensatz in Pandas.
- Verschaffe dir einen ersten Überblick (Anzahl Zeilen/Spalten, Spaltennamen, fehlende Werte).
- Konvertiere das Kaufdatum (`Date Purchase`) in ein Datumstyp-Format.
- Berechne Durchschnittswerte für Kaufbeträge und Bewertungen.
- Finde die beliebtesten Artikel und Zahlungsmethoden.
- Erstelle verschiedene Visualisierungen (Balkendiagramme, Kuchendiagramme, Histogramme, Zeitreihendiagramme).
- Untersuche Zusammenhänge zwischen Kaufbetrag und Bewertung.
- Analysiere saisonale Trends und segmentiere Kunden basierend auf ihrem Kaufverhalten.

---

> **Hinweis**: Führe alle Analysen schrittweise durch, erkläre deine Vorgehensweise mit kurzen Kommentaren und beschrifte deine Diagramme verständlich!

---

**Viel Erfolg!** 🚀


In [1]:
# Testen ob Jupyter Notebook funktioniert

print("Hello World!")

Hello World!


In [4]:
# erforderliche Bibliotheken

import pandas as pd
import plotly.express as px 

In [6]:
# Laden die CSV Datei hoch (Fashion_Retail_Sales)
df = pd.read_csv("../data/Fashion_Retail_Sales.csv")

In [None]:
# Spaltennamen auslesen
# Google Schlagwörter: how to get columns names in pandas
# Beispielsquelle: https://www.boardinfinity.com/blog/how-to-get-column-names-in-pandas/
print(df.columns.to_list())


['Customer Reference ID', 'Item Purchased', 'Purchase Amount (USD)', 'Date Purchase', 'Review Rating', 'Payment Method']


In [None]:
# Ändere die Spaltennamen zur ['customer id', 'item name', 'amount usd', 'date', 'review rating', 'payment method']
# Googleschlagwörter: how to change csv column name in pandas
#Beispielsquelle: https://www.geeksforgeeks.org/rename-column-name-with-an-index-number-of-the-csv-file-in-pandas/

df = df.rename(columns={df.columns[0]:"customer id", df.columns[1]:'item name', df.columns[2]:'amount usd', df.columns[3]:'date', df.columns[4]:'review rating'
                        ,df.columns[5]:'payment method'})
print(df.columns.to_list())




['customer id', 'item name', 'amount usd', 'date', 'review rating', 'payment method']


In [None]:
# Verschaffe dir einen Übersicht über die Datenset indem du die ersten 10 Zeilen anzeigst 
# Googleschlagwörter: 'how to show  rows of data in pandas'
# quelle: https://pandas.pydata.org/docs/user_guide/indexing.html
df.head(10)


Unnamed: 0,customer id,item name,amount usd,date,review rating,payment method
0,4018,Handbag,4619.0,05-02-2023,,Credit Card
1,4115,Tunic,2456.0,11-07-2023,2.0,Credit Card
2,4019,Tank Top,2102.0,23-03-2023,4.1,Cash
3,4097,Leggings,3126.0,15-03-2023,3.2,Cash
4,3997,Wallet,3003.0,27-11-2022,4.7,Cash
5,4080,Onesie,2914.0,11-12-2022,4.5,Credit Card
6,4055,Jacket,2571.0,08-07-2023,1.3,Cash
7,3973,Trousers,2419.0,10-11-2022,4.6,Cash
8,4044,Jeans,4771.0,19-05-2023,4.1,Cash
9,4010,Loafers,4233.0,11-06-2023,,Credit Card


In [None]:
# Gebe die Datentypen von Spalten zurück
# google Suchbegriff: how to get datatype of columns in pandas
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html
df.dtypes

customer id         int64
item name          object
amount usd        float64
date               object
review rating     float64
payment method     object
dtype: object

In [None]:
# Datentypen der Spalte 'item name' und 'payment method' zur String umwandeln (optional)
# Google Suchbegriffe: 
# Quelle: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html

df.astype({'item name': str, 'payment method': str}).dtypes

customer id         int64
item name          object
amount usd        float64
date               object
review rating     float64
payment method     object
dtype: object

In [33]:
# Datentypen von Spalte Date umwandeln beispiel --> '2023-02-05' 
# Google Suchbegriff: How to change data types to date in pandas
# Beispielsquelle: https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html
df['date'] = pd.to_datetime(df['date'], format='%d-%m-%Y')



In [None]:
# Zeige die ersten 5 Zeilen von Spalte Date und vergleiche es mit ursprünglichen Datentyp 
print(df['date'].head(5))

0   2023-02-05
1   2023-07-11
2   2023-03-23
3   2023-03-15
4   2022-11-27
Name: date, dtype: datetime64[ns]


In [None]:
# Finde heraus wie viele Zeileen je Spalte keine Daten entählt
# Google Suchbegriff: how to get count of blank rows in pandas
# Beispielsquelle: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.count.html
df.count()


customer id       3400
item name         3400
amount usd        2750
date              3400
review rating     3076
payment method    3400
dtype: int64

In [43]:
# 1. Liniendiagramm: Verkäufe (amount usd) über Zeit

# Gruppieren und NUR die 'amount usd' Spalte summieren
sales_per_month = df.groupby(df['date'].dt.to_period('M'))['amount usd'].sum().reset_index()

# Zeitraum wieder in Timestamp zurückverwandeln
sales_per_month['date'] = sales_per_month['date'].dt.to_timestamp()

# Jetzt plotten
fig = px.line(sales_per_month, x='date', y='amount usd', title='Monatlicher Umsatztrend')
fig.show()


In [44]:
# 2. Flächendiagramm (Area Chart): Verkäufe über Zeit
fig = px.area(sales_per_month, x='date', y='amount usd', title='Monatlicher Umsatztrend (Fläche)')
fig.show()


In [45]:
# 3. Balkendiagramm: Top 10 meistverkaufte Artikel
top_items = df['item name'].value_counts().head(10)

fig = px.bar(x=top_items.index, y=top_items.values,
             labels={'x':'Artikel', 'y':'Anzahl der Verkäufe'},
             title='Top 10 meistverkaufte Artikel')
fig.show()


In [46]:
# 4. Ringdiagramm (Donut Chart): Verteilung der Zahlungsmethoden
fig = px.pie(df, names='payment method', hole=0.4,
             title='Verteilung der Zahlungsmethoden (Donut Chart)')
fig.show()


In [47]:
# 5. Streudiagramm: Zusammenhang zwischen Bewertung und Kaufbetrag
fig = px.scatter(df, x='review rating', y='amount usd',
                 title='Zusammenhang zwischen Bewertung und Kaufbetrag')
fig.show()


In [48]:
# 6. Kombiniertes Diagramm (Scatter + Line): Durchschnittlicher Kaufbetrag pro Monat
monthly_avg = df.groupby(df['date'].dt.to_period('M'))['amount usd'].mean().reset_index()
monthly_avg['date'] = monthly_avg['date'].dt.to_timestamp()

fig = px.scatter(monthly_avg, x='date', y='amount usd', title='Durchschnittlicher Kaufbetrag pro Monat')
fig.add_scatter(x=monthly_avg['date'], y=monthly_avg['amount usd'], mode='lines', name='Trendlinie')
fig.show()


In [51]:
# 7. Histogramm: Verteilung der Kaufbeträge
fig = px.histogram(df, x='amount usd', nbins=50,
                   title='Verteilung der Kaufbeträge')
fig.show()


In [52]:
# 8. Boxplot: Kaufbeträge nach Zahlungsmethode
fig = px.box(df, x='payment method', y='amount usd',
             title='Kaufbeträge nach Zahlungsmethode')
fig.show()
