<a href="https://colab.research.google.com/github/nicomasterschool/Data-Analytics-Portfolio/blob/main/Morning_Opening_EDA_Challenges.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Kundensegment-,Sales- & Profit-Analysee 🔍💵**

>In diesem Notebook führen wir eine **Analyse der Kundensegmente und Verkaufsdaten** durch. Unser Ziel ist es, den Umsatz und Gewinn pro Kundensegment genauer zu untersuchen und potenzielle Faktoren zu identifizieren, die die Profitabilität beeinflussen könnten. Dabei greifen wir auf **grundlegende Techniken der explorativen Datenanalyse** (EDA) zurück. Die Daten werden direkt aus der **Unicorn-DB**, einer **Postgres-Datenbank**, abgerufen.

#### **🗄️ Setup**

1. Python Pakete importieren 📦
2. Datenbankverbindung einrichten🔌


#####📦 Import der Python Pakete



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sqlalchemy as sa
from scipy.stats import f_oneway

#####🔌 Datenbankverbindung herstellen
> Wichtig: Die Verbindung mit SQLAlchemy erfolgt immer in zwei Schritten 🔐:
1.   Erstelle eine Engine mit der korrekten url
2.   Stelle eine Verbindung (connection) her

⚠️ Hier sollten keine Änderungen vorgenommen werden!

In [None]:
unicorn_url = "postgresql://Test:bQNxVzJL4g6u@ep-noisy-flower-846766-pooler.us-east-2.aws.neon.tech/Unicorn"
engine = sa.create_engine(unicorn_url)
connection = engine.connect().execution_options(isolation_level="AUTOCOMMIT")

#####✅ Datset laden

In [None]:
#Query in DataFrame schreiben

query_database = """
SELECT  *
FROM orders o
LEFT JOIN order_details od USING(order_id)
LEFT JOIN product USING(product_id)
RIGHT JOIN customers USING(customer_id)
"""
df = pd.read_sql(sa.text(query_database),connection)
df = df.dropna()

##### ➕ Gender Spalte hinzufügen

In [None]:
# Liste mit einzigartigen CustomerIDs
unique_customers = df['customer_id'].unique()

# Zufällige Geschlechter für jede CustomerID generieren
np.random.seed(42)  # Für Reproduzierbarkeit
gender_mapping = {customer: np.random.choice(['Male', 'Female']) for customer in unique_customers}

# Neue Gender-Spalte basierend auf CustomerID hinzufügen
df['gender'] = df['customer_id'].map(gender_mapping)

`###**📊 Unicorn Data Viz & `EDA Challenges**

#### **Challenge 1**: Analyse der Umsatzverteilung: Auffälligkeiten und Anomalien erkennen

>Die Sales-Geschäftsabteilung will prüfen, ob es in den letzten Jahren einige ungewöhnliche Muster bei den Bestellumsätzen (order_sales) gegeben hat. Folgendes gilt es zu prüfen:

1.   Verdächtig hohe oder niedrige Bestellumsätze
2.   Umsatzentwicklung über die Jahre analysieren

##### **Vereteilung order order_sales analysieren!**

In [None]:
# ✍️ Dein Python Code hier:


#####⚠️ **Lösung:**

```
#Summary statistcs
df.order_sales.describe()

#Histogramm plotten
plt.hist(df["order_sales"], bins = 2000)
plt.xlim(0,1000)
plt.title("Verteilung Order Sales")
plt.ylabel("Anzahl Bestellungen")
plt.xlabel("Bestellwert")
```



##### **Umsatzentwicklung über die Jahre analysieren**

In [None]:
# ✍️ Dein Python Code hier:


######⚠️ **Lösung:**

```
# Extrahierung des shipping Jahres aus der Spalte shipping_date
df["shipping_year"]=df["shipping_date"].dt.year.astype("Int64")

# Gruppierung nach Jahr und Aggregation des order_profits
groupby_shipping_year_order_sales = df.groupby("shipping_year").agg({"order_sales":"sum"}).reset_index()

# Barchart (Umsatzentwicklung über die Jahre) plotten
plt.bar(groupby_shipping_year_order_sales["shipping_year"], groupby_shipping_year_order_sales["order_sales"])
plt.title("Umsatzentwicklung über die Jahre")
plt.ylabel("Summe Bestellwert")
plt.xlabel("Jahr")
```



####**Challenge 2:** Signifikante Unterschiede im order_sales zwischen den verschiedenen customer_segment? (EDA und Data Viz)

##### **ANOVA-Test**
>Der ANOVA-Test (Analysis of Variance) wird verwendet, um zu prüfen, ob es signifikante Unterschiede zwischen den Mittelwerten von mehr als zwei Gruppen gibt.

In [None]:
# ✍️ Dein Python Code hier:


#####⚠️ **Lösung:**

```
# Einteilung Umsatz nach Kundensegment
corporate_sales = df[df['customer_segment'] == 'Corporate']['order_sales']
consumer_sales = df[df['customer_segment'] == 'Consumer']['order_sales']
home_office_sales = df[df['customer_segment'] == 'Home Office']['order_sales']

# ANOVA-Test
anova_result = f_oneway(corporate_sales, consumer_sales, home_office_sales)


# Interpretation der Ergebnisse
if anova_result.pvalue < 0.05:
    print("Es gibt signifikante Unterschiede zwischen den Kundensegmenten.")
else:
    print("Es gibt keine signifikanten Unterschiede zwischen den Kundensegmenten.")
```



##### **Visualisierung der Umsatzverteilung mithilfe eine Boxplots**

In [None]:
# ✍️ Dein Python Code hier:


⚠️ **Lösung:**

```
# Boxplot: Umsatz nach Kundensegment
plt.figure(figsize=(8, 6))
sns.boxplot(x='customer_segment', y='order_sales', data=df)
plt.title("Umsatzverteilung nach Kundensegment")
plt.xlabel("Kundensegment")
plt.ylabel("Order Sales")
plt.ylim(-20,800)
```



####**Challenge 3:** Umsatzanalyse nach Kundensegment (EDA und Data Viz)
>**These 1**: Das Kundensegment "Corporate" generiert den höchsten durchschnittlichen Sales, da es häufig größere Unternehmen bedient, die in großen Mengen bestellen.

>**These 2**: Innerhalb eines Segments geben männliche Kunden im Durchschnitt mehr aus als weibliche Kundinnen, insbesondere in segmentierten Kategorien wie "Home Office".

Erstelle ein **gruppierte Ansicht** und visualisiere die Dimensionen anschließend mit einem **grouped bar plot**!

In [None]:
# ✍️ Dein Python Code hier:



#####⚠️ **Lösung:**


```
# Erstellen eines groupby DataFrames nach "Gender" & "customer_segment". Agg nach "order_profits"
df_grouped = df.groupby(["gender", "customer_segment"])["order_profits"].mean().rename("Profit_Durchschnitt").reset_index()

# Extrahieren der eindeutigen Kundensegmente ("customer_segment"), um sie später für die Achsenbeschriftung zu verwenden.
customer_segment_unique = df_grouped["customer_segment"].unique()

# Erstellen der x-Positionen für die Balken (je Kundensegment).
x = np.arange(len(customer_segment_unique))


# Filtern der Daten für "Male" und "Female", um separate Datenrahmen zu erstellen.
df_grouped_male = df_grouped[df_grouped["gender"] == "Male"]
df_grouped_female = df_grouped[df_grouped["gender"] == "Female"]

# Plotten des Balkendiagramms für "Male" und "Female"
#    Verschieben der x-Position um -width/2, damit die Balken für Männer links von der zentralen Position stehen.
width = 0.35 #  Festlegen der Breite der Balken.
plt.bar(x - width/2, df_grouped_male["Profit_Durchschnitt"], width, label="Male", color='blue')
plt.bar(x + width/2, df_grouped_female["Profit_Durchschnitt"], width, label="Female", color='pink')

# Hinzufügen von Titel, Achsenbeschriftungen und Legende.
plt.title('Durchschnittlicher Profit pro Kundensegment & Geschlecht')  # Titel des Plots
plt.xlabel('Kundensegment')                        # Beschriftung der x-Achse
plt.ylabel('Profit_Durchschnitt')                               # Beschriftung der y-Achse
plt.xticks(x, labels=shipping_region_unique)
plt.legend()
plt.show()
```



####**Challenge 4:** Korrelationen – Welche Faktoren beeinflussen die Profitabilität?
>1. Welche Faktoren beeinflussen den order_profit_ratio am stärksten?
>2. Gibt es positive oder negative Korrelationen zu anderen Variablen wie order_sales, shipping_duration, oder customer_segment?

In [None]:
# ✍️ Dein Python Code hier:


#####⚠️ **Lösung:**

```
# Auswahl der numerischen Variablen für die Korrelation
numerical_cols = ['order_profit_ratio', 'order_sales', 'order_profits',"order_discount"]
correlation_matrix = df[numerical_cols].corr()
correlation_matrix.sort_values(by="order_discount",ascending=True)

# Heatmap erstellen
sns.heatmap(correlation_matrix,annot=True, cmap="coolwarm", fmt=".2f", cbar=True)
```



####**Challenge 5:** Dashboard zusammenstellen!

> Der Fachbereich möchte gerne vier deiner Visualisierungen in Form eines Dashboards zur Verfügung gestellt bekommen. Erstelle dafür ein Dashboard mithilfe von Subplots und integriere vier Visualisierungen deiner Wahl.







In [None]:
# ✍️ Dein Python Code hier:


#####⚠️ **Lösung:**

```
#Canvas erstellen mit subplots
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10, 8))

# Plotten des Balkendiagramms "Profit pro Kundensegment & Geschlecht"
axes[0,0].bar(x - width/2, grouped_data_men["order_sales"], width, label="Male", color='blue')
axes[0,0].bar(x + width/2, grouped_data_female["order_sales"], width, label="Female", color='pink')
axes[0,0].set_title('Durchschnittlicher Profit pro Kundensegment & Geschlecht',fontsize=10)  # Titel des Plots
axes[0,0].set_xlabel('Kundensegment')                        # Beschriftung der x-Achse
axes[0,0].set_ylabel('Profit_Durchschnitt')                               # Beschriftung der y-Achse
axes[0,0].set_xticks(x, labels=unique_cat )
axes[0,0].legend()
```

