# Customer Personality Analysis

Kurze Erklärung - executive summary

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## Inhaltsverzeichnis
* [1. Problemdefinition & Zielsetzung](#1. Problemdefinition & Zielsetzung)
* [2. Data Collection](#2. Data Collection)
* [3. Get to know the Data](#3. Get to know the Data)
    * [3.1 Daten sichten](#3.1 Daten sichten)
    * [3.2 Daten bereinigen](#3.2 Daten bereinigen)
    * [3.3 Daten transformieren](#3.3 Daten transformieren)
* [4. Modellauswahl](#4. Modellauswahl)
* [5. Modell aufsetzen](#5. Modell aufsetzen)
* [6. Modell trainieren](#6. Modell trainieren)
* [7. Ergebnisse](#7. Ergebnisse)
* [8. Limitationen & Ausblick](#8. Limitationen & Ausblick)
* [9. Fazit](#9. Fazit)
* [10. Quellenangaben](#10. Quellenangaben)

## 1. Problemdefinition & Zielsetzung <a class="anchor" id="1. Problemdefinition & Zielsetzung"></a>

Der Praktische Teil der Projektarbeit umfasst die Durchführung einer Datenanalyse. Dabei werden folgende Punkte abgebildet:

a. Darstellung der **Problemfrage und Erläuterung des Ansatzes**
b. Laden der Daten und Anführen der benötigten Module/Pakete
c. Sichtung der Daten bzw. **Datenexploration**
d. **Bereinigung des Datensatzes**
e. **Transformation des Datensatzes** (in Bezug auf Analysemodell in Punkt f)
f. Anwendung und Evaluierung eines **Analyse-, Machine Learning Modelles**
g. **Unterstützende Visualisierungen/Darstellungen der Erkenntnisse** aus den Schritten Punkten a
bis f der der Datenanalyse
h. **Ergebnisdokumentation der Analyse** inkl. entsprechender Visualisierungen

CRISP-DM ??

a. Eingehende **Problemstellung und Zielsetzung**, welche auch eindeutige und messbaren Kriterien zur Messung des Erfolgs der Datenanalyse darlegen
b. Erläuterung der **Quelle, Dimensionen und Ausprägungen des/der verwendeten Datenset(s)**
c. **Begründungen, weshalb Schritte zur Datenexploration, -bereinigungen und Transformation
gewählt wurden** inklusive Unterstützung passender Visualisierungen und Dokumentation der Ergebnisse der jeweiligen Schritte
d. **Erläuterung über die Auswahl des gewählten Analyse- bzw. Machine Learning Modelles** inklusive der Darlegung der Vor- und Nachteile des Modelles
e. **Ergebnispräsentation des Modelles bzw. der Datenanalyse** und eine Erläuterung, die darlegt, wie die Datenanalyse schlussendlich bei der Entscheidungsfindung unterstützt, die Zielsetzung (siehe Punkt a) erfüllt bzw. das jeweilige Problem löst
f. **Limitationen der Datenanalyse** und ein kurzer Ausblick auf weitere Optimierungsmöglichkeiten

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Eine Einleitung in die Datenanalyse ist gegeben <br>
- [ ] Das Problem wurde anschaulich dargelegt <br>
- [ ] Das Ziel der Datenanalyse wurde beschrieben und die zu Grunde liegende Hypothese wurde anschaulich dargelegt <br>
- [ ] Bewertungskriterien der Datenanalyse wurden eingeführt und in Bezug auf die Datenanalyse begründet <br>
- [ ] Die Struktur der Datenanalyse wurde beschrieben <br>
- [ ] Notiz: Die Dokumentation sollte nicht länger als ½ Seite sein <br>
    </div>

In [2]:
# Importieren der relevanten Python Packages

import pandas as pd

! Workflow Visualisierung

## 2. Data Collection <a class="anchor" id="2. Data Collection"></a>

Laden des für das Projekt verwendeten Datensatzes:

In [3]:
```Da der Ausgangsdatensatz die Daten alle in einer Spalte darstellt, wurden die Daten so geladen, dass die durch Tabstopp
getrennten Daten sofort in Spalten aufgeteilt werden (siehe dazu sep "\t" als seperator). 
Das Ergebnis ist der für dieses Projekt zu verwendende "marketing" Dataframe``` 

marketing = pd.read_csv(r"src/marketing_campaign.csv", sep="\t")

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Die Quelle des Datensets wurde erläutert <br>
- [ ] Die Dimensionen des Datensets sind erklärt <br>
- [ ] Erste Informationen über das Datenset wurden präsentiert <br>
- [ ] Notiz: Die Dokumentation sollte nicht länger als eine ½ Seite sein <br>
    </div>

## 3. Get to know the Data <a class="anchor" id="3. Get to know the Data"></a>

### 3.1 Daten sichten <a class="anchor" id="3.1 Daten sichten"></a>

In [4]:
marketing.shape

(2240, 29)

In [5]:
marketing.head(10)

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,173,...,5,0,0,0,0,0,0,3,11,0
5,7446,1967,Master,Together,62513.0,0,1,09-09-2013,16,520,...,6,0,0,0,0,0,0,3,11,0
6,965,1971,Graduation,Divorced,55635.0,0,1,13-11-2012,34,235,...,6,0,0,0,0,0,0,3,11,0
7,6177,1985,PhD,Married,33454.0,1,0,08-05-2013,32,76,...,8,0,0,0,0,0,0,3,11,0
8,4855,1974,PhD,Together,30351.0,1,0,06-06-2013,19,14,...,9,0,0,0,0,0,0,3,11,1
9,5899,1950,PhD,Together,5648.0,1,1,13-03-2014,68,28,...,20,1,0,0,0,0,0,3,11,0


In [8]:
marketing.describe()

Unnamed: 0,ID,Year_Birth,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
count,2240.0,2240.0,2216.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,...,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0
mean,5592.159821,1968.805804,52247.251354,0.444196,0.50625,49.109375,303.935714,26.302232,166.95,37.525446,...,5.316518,0.072768,0.074554,0.072768,0.064286,0.013393,0.009375,3.0,11.0,0.149107
std,3246.662198,11.984069,25173.076661,0.538398,0.544538,28.962453,336.597393,39.773434,225.715373,54.628979,...,2.426645,0.259813,0.262728,0.259813,0.245316,0.114976,0.096391,0.0,0.0,0.356274
min,0.0,1893.0,1730.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
25%,2828.25,1959.0,35303.0,0.0,0.0,24.0,23.75,1.0,16.0,3.0,...,3.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
50%,5458.5,1970.0,51381.5,0.0,0.0,49.0,173.5,8.0,67.0,12.0,...,6.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
75%,8427.75,1977.0,68522.0,1.0,1.0,74.0,504.25,33.0,232.0,50.0,...,7.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
max,11191.0,1996.0,666666.0,2.0,2.0,99.0,1493.0,199.0,1725.0,259.0,...,20.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,11.0,1.0


In [11]:
marketing.isna().sum()

ID                      0
Year_Birth              0
Education               0
Marital_Status          0
Income                 24
Kidhome                 0
Teenhome                0
Dt_Customer             0
Recency                 0
MntWines                0
MntFruits               0
MntMeatProducts         0
MntFishProducts         0
MntSweetProducts        0
MntGoldProds            0
NumDealsPurchases       0
NumWebPurchases         0
NumCatalogPurchases     0
NumStorePurchases       0
NumWebVisitsMonth       0
AcceptedCmp3            0
AcceptedCmp4            0
AcceptedCmp5            0
AcceptedCmp1            0
AcceptedCmp2            0
Complain                0
Z_CostContact           0
Z_Revenue               0
Response                0
dtype: int64

In [14]:
marketing.dtypes

ID                       int64
Year_Birth               int64
Education               object
Marital_Status          object
Income                 float64
Kidhome                  int64
Teenhome                 int64
Dt_Customer             object
Recency                  int64
MntWines                 int64
MntFruits                int64
MntMeatProducts          int64
MntFishProducts          int64
MntSweetProducts         int64
MntGoldProds             int64
NumDealsPurchases        int64
NumWebPurchases          int64
NumCatalogPurchases      int64
NumStorePurchases        int64
NumWebVisitsMonth        int64
AcceptedCmp3             int64
AcceptedCmp4             int64
AcceptedCmp5             int64
AcceptedCmp1             int64
AcceptedCmp2             int64
Complain                 int64
Z_CostContact            int64
Z_Revenue                int64
Response                 int64
dtype: object

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Erste explorative Sichtungen für das Datenset wurden durchgeführt<br>
- [ ] Welche und wie viele Daten sind verfügbar? (Format, relevante Infos, weitere Daten benötigt?) <br>
- [ ] Die explorativen Sichtungen wurden durch passende Visualisierungen unterstützt (2-3 Visuals)<br>
    - [ ] Gibt es fehlende Werte?<br>
    - [ ] Was sind die Datentypen der Dimensionen?<br>
    - [ ] Wie ist die Verteilung der Daten?<br>
    - [ ] Wie ist die Ausgewogenheit der Daten?<br>
    - [ ] Was sind Min, Max, Mean, …?<br>
    - [ ] Wie korrelieren die Daten miteinander?<br>
    - [ ] Ist Korrelation gleich Kausalität?<br>
    - [ ] Was sind Beispieldatensätze?<br>
    - [ ] Wie verhalten sich Daten über einen Zeitverlauf?<br>
- [ ] Notiz: Die Dokumentation sollte nicht länger als eine 1 Seite sein<br>
    </div>

### 3.2 Daten bereinigen <a class="anchor" id="3.2 Daten bereinigen"></a>

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Schritte zur Datenbereinigung (3-4 passende Schritte) wurden durchgeführt <br>
    - [ ] Inkonsistente Datentypen wurden bereinigt <br>
    - [ ] Mit fehlenden Daten wurde umgegangen <br>
    - [ ] Ausreißer wurden behoben <br>
    - [ ] Duplikate wurden entfernt <br>
- [ ] Ergebnisse der Datenbereinigung wurden präsentiert <br>
- [ ] Schritte und Ergebnisse der Datenbereinigung wurden dokumentiert <br>
    </div>

### 3.3 Daten transformieren <a class="anchor" id="3.3 Daten transformieren"></a>

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Schritte zur Datentransformation (3-4 passende Schritte) wurden durchgeführt <br>
    - [ ] Kategorisches Encoding <br>
    - [ ] Normalisierung <br>
    - [ ] Standardisierung <br>
    - [ ] Skalierung von Werten zu definierten Wertebereich <br>
    - [ ] Filterung oder Gruppierung von Merkmalen <br>
    - [ ] Merkmale zusammenfassen oder aufteilen <br>
- [ ] Schritte und Ergebnisse der Datentransformation wurden dokumentiert und in Hinblick auf das verwendete Modell begründet <br>
- [ ] Das für das Modell final genutzte Datenset wird präsentiert und beschrieben <br>
    </div>

## 4. Modellauswahl <a class="anchor" id="4. Modellauswahl"></a>

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Das genutzte Modell für die Datenanalyse wird begründet inklusive der Vor- und Nachteile und der Voraussetzungen <br>
- [ ] Es wird eine Erstabschätzung vorgenommen, ob die Voraussetzungen für das Modell mit dem Datenset erfüllt sind <br>
- [ ] Notiz: Bei der Modellauswahl kann sich auf 1 Modell beschränkt werden, wobei Gruppen 2-3 Modelle aufgreifen sollten <br>
    </div>

## 5. Modell aufsetzen <a class="anchor" id="5. Modell aufsetzen"></a>

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Das Datenset wird für das Trainieren des Modells vorbereitet <br>
- [ ] Das Modell wird initial aufgesetzt und Hyperparameter ausgewählt <br>
- [ ] Vorbereitung des Datensets und Wahl der Hyperparameter wurden beschrieben bzw. begründet <br>
    </div>

## 6. Modell trainieren <a class="anchor" id="6. Modell trainieren"></a>

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Das Modell wird initial trainiert, für eine Vorhersage verwendet und Ergebnisse interpretiert (auch visuell) mit Bewertungskriterien <br>
- [ ] Weitere Optimierungspotenziale für weitere Schritte wurden dargelegt <br>
    </div>

## 7. Ergebnisse <a class="anchor" id="7. Ergebnisse"></a>

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Die Gesamtergebnisse wurden erläutert und interpretiert <br>
- [ ] Die Ergebnisdarstellung wird durch Visualisierungen unterstützt <br>
- [ ] Die anfänglichen Bewertungskriterien werden aufgegriffen <br>
- [ ] Eine kritische Bewertung der Zielerreichung und die Unterstützung für Stakeholder wird dargestellt <br>
- [ ] Notiz: Die Dokumentation sollte nicht länger als eine ½ Seite sein <br>
    </div>

## 8. Limitationen & Ausblick <a class="anchor" id="8. Limitationen & Ausblick"></a>

<div class="alert alert-block alert-info">
<b>Taskliste:</b><br>
- [ ] Die Limitationen der Datenanalyse wurden dargelegt <br>
- [ ] Weitere Optimierungspotenziale wurden aufgegriffen und erläutert <br>
- [ ] Notiz: Die Dokumentation sollte nicht länger als eine ½ Seite sein <br>
    </div>

## 9. Fazit <a class="anchor" id="9. Fazit"></a>

<div class="alert alert-block alert-info">
<b>Taskliste (Generelles):</b><br>
- [ ] Die Unterlagen sind in der korrekten Ordnerstruktur bereitgestellt <br>
- [ ] Die Dokumentation ist anschaulich und nachvollziehbar <br>
- [ ] Der Code ist fehlerfrei und dokumentiert <br>
- [ ] Wiederholender Code ist in Funktionen zusammengefasst oder aus der Datenanalyse ausgelagert <br>
- [ ] Namenskonventionen, Zeilenlimits und Ähnliches sind eingehalten worden <br>
- [ ] Die Struktur der Datenanalyse ist verständlich für Dritte <br>
- [ ] Es werden verschiedene Visualisierungen aufgegriffen, die ordentlich beschriftet sind und die Datenanalyse unterstützen <br>
    </div>

## 10. Quellenangaben <a class="anchor" id="10. Quellenangaben"></a>

**Abschlusspräsentation**

Die Präsentation der Datenanalyse ist eine komprimierte Wiedergabe der vor den Kommiliton*innen des Kurses. Pro Student*in ist eine **Präsentationszeit von ca. 15 Minuten** vorgesehen.

a. Eingangsfrage, Zielsetzung bzw. Problemstellung
b. Erläuterung des Datensets inkl. Visualisierungen der Daten
c. Schritte zur Bereinigung und Transformation
d. (Kurze) Erläuterung des Analyse- & ML-Modelles (Voraussetzungen, Funktionsweise und Wahl der Hyperparameter)
e. Ergebnisse der Datenanalyse und (kurze) Darlegung weiterer Optimierungsbedarfe

Anmerkung: Die Präsentation wird nicht bewertet. Sie dient hauptsächlich zum Teilen von Wissen,
Methoden und Ansätzen zwischen den Kommiliton*innen.

Als Indikation: Es sollten nicht mehr als 10 Folien gezeigt werden bei einer Einzelarbeit und 20 Folien bei
einer Gruppenarbeit.