## **Ertragsberechnung Potenzieller Kunden mit Regelbasierter Klassifizierung**

### Geschäftsproblem

Ein Mobilapplikationsunternehmen möchte anhand bestimmter demografischer und nutzungsbezogener Informationen
neue Kundenprofile erstellen und für diese Segmente den durchschnittlichen Ertrag prognostizieren,
den neue Kunden dem Unternehmen einbringen könnten.
Beispiel: Es soll bestimmt werden, wie viel ein 25-jähriger männlicher Nutzer aus der Türkei,
der ein iOS-Gerät verwendet, dem Unternehmen durchschnittlich einbringen kann.


### Datensatz

Dieser Datensatz enthält Kauftransaktionen in der mobilen Anwendung sowie einige demografische Informationen über die Nutzer.
- **Price:** Ausgabenbetrag des Kunden
- **Platform:** Gerätetyp, über den sich der Kunde verbindet
- **Gender:** Geschlecht des Kunden
- **Region:** Herkunftsland des Kunden
- **Age:** Alter des Kunden


**AUFGABE 1:** Beantworten Sie die folgenden Fragen.  

**Frage 1:** Lesen Sie die Datei customers.csv ein und zeigen Sie allgemeine Informationen über den Datensatz an.

In [1]:
import pandas as pd
pd.set_option("display.max_rows", None)

df = pd.read_csv("C:\\Users\\nesri\\repos\\Kunden_ertragsberechnung_regelbasiert\\customers.csv")
df.head()

Unnamed: 0,PRICE,PLATFORM,GENDER,REGION,AGE
0,39,android,male,bra,17
1,39,android,male,bra,17
2,49,android,male,bra,17
3,29,android,male,tur,17
4,49,android,male,tur,17


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   PRICE     5000 non-null   int64 
 1   PLATFORM  5000 non-null   object
 2   GENDER    5000 non-null   object
 3   REGION    5000 non-null   object
 4   AGE       5000 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 195.4+ KB


**Frage 2:** Wie viele eindeutige PLATTFORMEN gibt es? Wie sind ihre Häufigkeiten?

In [3]:
df["PLATFORM"].nunique()

2

In [4]:
df["PLATFORM"].value_counts()

PLATFORM
android    2974
ios        2026
Name: count, dtype: int64

**Frage 3:** Wie viele eindeutige PREISE gibt es?

In [5]:
df["PRICE"].nunique()

6

**Frage 4:** Wie viele Verkäufe gibt es für jeden PREIS?

In [6]:
df["PRICE"].value_counts()

PRICE
29    1305
39    1260
49    1031
19     992
59     212
9      200
Name: count, dtype: int64

**Frage 5:** Wie viele Verkäufe gibt es aus jedem LAND?

In [7]:
df["REGION"].value_counts()

REGION
usa    2065
bra    1496
deu     455
tur     451
fra     303
can     230
Name: count, dtype: int64

In [8]:
df.pivot_table(values="PRICE",index="REGION",aggfunc="count").sort_values(by="PRICE", ascending=False)

Unnamed: 0_level_0,PRICE
REGION,Unnamed: 1_level_1
usa,2065
bra,1496
deu,455
tur,451
fra,303
can,230


**Frage 6:** Wie viel wurde insgesamt durch Verkäufe in den einzelnen LÄNDERN eingenommen?

In [9]:
df.groupby("REGION")["PRICE"].sum()

REGION
bra    51354
can     7730
deu    15485
fra    10177
tur    15689
usa    70225
Name: PRICE, dtype: int64

In [10]:
df.pivot_table(values="PRICE", index="REGION", aggfunc="sum").sort_values(by="PRICE", ascending=False)


Unnamed: 0_level_0,PRICE
REGION,Unnamed: 1_level_1
usa,70225
bra,51354
tur,15689
deu,15485
fra,10177
can,7730


**Frage 7:** Wie viele Verkäufe gibt es für jede PLATTFORM?”

In [12]:
df["PLATFORM"].value_counts()

PLATFORM
android    2974
ios        2026
Name: count, dtype: int64

**Frage 8:** Wie sind die durchschnittlichen PREISE pro LAND?

In [13]:
df.groupby("REGION")["PRICE"].mean()

REGION
bra    34.327540
can    33.608696
deu    34.032967
fra    33.587459
tur    34.787140
usa    34.007264
Name: PRICE, dtype: float64

In [15]:
# Alternativ mit agg
df.groupby("REGION").agg({"PRICE": "mean"})

Unnamed: 0_level_0,PRICE
REGION,Unnamed: 1_level_1
bra,34.32754
can,33.608696
deu,34.032967
fra,33.587459
tur,34.78714
usa,34.007264


**Frage 9:** Wie sind die durchschnittlichen PREISE pro PLATTFORM?”

In [17]:
df.groupby("PLATFORM").agg({"PRICE": "mean"})

Unnamed: 0_level_0,PRICE
PLATFORM,Unnamed: 1_level_1
android,34.174849
ios,34.069102


**Frage 10:** Wie sind die durchschnittlichen PREISE nach REGION und PLATTFORM?

In [22]:
df.groupby(by=["REGION", 'PLATFORM']).agg({"PRICE": "mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,PRICE
REGION,PLATFORM,Unnamed: 2_level_1
bra,android,34.387029
bra,ios,34.222222
can,android,33.330709
can,ios,33.951456
deu,android,33.869888
deu,ios,34.268817
fra,android,34.3125
fra,ios,32.776224
tur,android,36.229437
tur,ios,33.272727


**AUFGABE 2:** Wie sind die durchschnittlichen Einnahmen nach REGION, PLATTFORM, GESCHLECHT und ALTER?”

In [27]:
df.groupby(["REGION", 'PLATFORM', "GENDER", "AGE"]).agg({"PRICE": "mean"}).head()


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
REGION,PLATFORM,GENDER,AGE,Unnamed: 4_level_1
bra,android,female,15,38.714286
bra,android,female,16,35.944444
bra,android,female,17,35.666667
bra,android,female,18,32.255814
bra,android,female,19,35.206897


**AUFGABE 3:** Sortieren Sie die Ergebnisse absteigend nach PRICE und speichern Sie sie als agg_df.