<div>
    <img style="float:right;" src="images/smi-logo.png"/>
    <div style="float:left;color:#58288C;"><h1>Datenanalyse und Datenmanagement</h1></div>
</div>

---
# Notebook V: Datasets
In diesem Notebook werden mehrere Data Analytics Problemstellungen mit zugehörigen Datensätzen vorgesetellt.


## Aufgabenstellung 
Zu einem dieser Datensätze sind folgende Aufgaben zu bearbeiten. Es ist empfehlenswert, das Notebook entlang dieser Aufgaben zu gliedern. Hinweise zu Bewertungskriterien und Abgabeformalia sind der jeweiligen Seminarunterlage und dem Anschreiben des Prüfungsmanagements zu entnehmen.

1. Formuliere das Research Problem präzise
2. Lies die Daten aus der Datenbank ein und bereite ein DataFrame für die Analyse vor
3. Datenexploration  
    3.1. Untersuche die Merkmale einzeln mit deskriptiver Statistik und geeigneten Visualisierungen  
    3.2. Ordne deine Untersuchungsergebnisse, sodass ein "roter Faden" entsteht
    3.3. Untersuche Zusammenhänge zwischen den Merkmalen mit Kreuztabellen oder Scatterplots
8. Formuliere als Hypothese, welche 2-3 zentralen Zusammenhänge ein Entscheidungsbaum identifizieren müsste
9. Erläutere in 3-4 Sätzen mögliche Probleme beim Einsatz eines Entscheidungsbaummodells längerfristig auftreten könnten.  
   _Beispiele: Ist mit stabiler Modellgüte über die Zeit zu rechnen? Könnten Saisonaleffekte (z.B. Weihnachten) zu Störungen führen? Ist zu Störungen zu rechnen, wenn zukünftig andere Zielkunden analysiert werden (z.B. jüngere Zielgruppen, Geschäftskunden, ...)_

## Datensätze

Dazu stehen folgende Datensätze zur Auswahl, die nachfolgend vorgestellt werden. 

> 1. [Zielgruppentargeting](#dataset1)
> 2. [Kündigungsprävention Telco / Deutschland](#dataset2)
> 3. [Kündigungsprävention Telco / Asien](#dataset3)
> 4. [Kundenaktivierung Audiobook-App](#dataset4)
> 5. [Kündigungsprävention Zeitungsverlag](#dataset5)
> 6. [Bewertung Kundenstamm Retail Banking](#dataset6)
> 7. [Immobilienbewertung](#dataset7)

Sie befinden sich in der SQLite Datenbank ```exercises.db```, die noch im ZIP-Format komprimiert ist.
Um direkt einen Einblick in den Aufbau zu erhalten, entpacken wir die Datenbank zunächst und stellen eine Verbindung her.

In [None]:
!unzip -o -d data data/exercises.zip
%load_ext sql
%sql sqlite:///data/exercises.db

---
### 1. Zielgruppentargeting <a id="dataset1"/>

#### Hintergrund
Im Marketing wird eine Promotion-Kampagne entwickelt. Die Zielgruppe kann aus einem Kundenstamm von 6400 Kunden rekrutiert werden.

#### Business Problem
Da die Stückkosten der Kampagne zur Aussendung erheblich sind, sollen die Streuverluste (Anteil non-responder) durch intelligentes Targeting (= Zielgruppenauswahl) minimiert werden.

#### Datengrundlage

- Kundenprofil: Wohnumgebung (zip_code), kommt er/sie aus "kunden-werben-kunden" (is_referral), Kontaktpräferenz (channel)
- Transaktionshistorie: wie lange ist die letzte Transaktion her (recency) und Kundenumsatz (history)
- Wurden Discount-Angebote oder BOGO-Angebote (Buy One Get One Free) früher ausgesprochen?
- Welche Kampagne war zuletzt aktiv / welches Angebot wurde zuletzt gemacht (offer)?
- Hat der Kunde das Angebot angenommen (conversion)?

#### Datenauszug

In [None]:
%sql SELECT * FROM targeting LIMIT 5

---
### 2. Kündigungsprävention Telco / Deutschland <a id="dataset2"/>

#### Hintergrund

Das CRM-Team eines Telekommunikationsunternehmens entwickelt eine Kampagne zur Kündigungsprävention bei Privatkunden. Um sie an das Unternehmen zu binden, sollen Gratismonate und Rabatte gegen Abschluss einer Vertragsverlängerung angeboten werden.

#### Business Problem

Damit die Kampagne wirtschaftlich erfolgreich sein kann, ist es erforderlich, nur Kunden mit hohem Kündigungsrisiko anzusprechen. Andernfalls würde die Kampagne unnötige Rabatte vergeben und direkt entgangene Umsätze zur Folge haben.

#### Datengrundlage

Der Datensatz umfass folgende Informationen:
- Customers who left within the last month – the column is called Churn
- Services that each customer has signed up for – phone, multiple lines, internet, online security, online backup, device protection, tech support, and streaming TV and movies
- Customer account information – how long they’ve been a customer, contract, payment method, paperless billing, monthly charges, and total charges
-Demographic info about customers – gender, age range, and if they have partners and dependents

#### Datenauszug

In [None]:
%sql SELECT * FROM telco_churn_ger LIMIT 5

---
### 3. Kündigungsprävention Telco / Asien <a id="dataset3"/>

#### Hintergrund

Das CRM-Team eines Telekommunikationsunternehmens entwickelt eine Kampagne zur Kündigungsprävention bei Privatkunden. Um sie an das Unternehmen zu binden, sollen Gratismonate und Rabatte gegen Abschluss einer Vertragsverlängerung angeboten werden.

#### Business Problem

Damit die Kampagne wirtschaftlich erfolgreich sein kann, ist es erforderlich, nur Kunden mit hohem Kündigungsrisiko anzusprechen. Andernfalls würde die Kampagne unnötige Rabatte vergeben und direkt entgangene Umsätze zur Folge haben.

#### Datengrundlage

Der Datensatz umfasst folgende Merkmale:

- Aggregate of Total Revenue: The overall monthly revenue earned in Rupees by the carrier in the months August & September 2015.
- Aggregate of SMS Revenue: The revenue earned through the SMS service used by the subscriber.
- Aggregate of Data Revenue: The revenue earned through the Data service used by the subscriber.
- Aggregate of Off Net Revenue: The revenue earned by the calls etc. made to the off-network (not the same network as the subscriber) customers by the carrier’s -present subscriber.
- Aggregate of On Net Revenue: The revenue earned by the calls etc. made to the on-network (on the same network as the subscriber) customers by the carrier’s present subscriber.
- Network Age: The time passed since the subscriber started using the services of the carrier.
- User Type: This detail helps in knowing if the user is subscribed to a 2G or 3G service.
- Aggregate of Complaint Count: The number of complaints made by the subscribers.
- Favorite Other Network: This information can certainly have a huge impact on churn ratio as it gives the information about which other network or operator the subscribers makes the most of the calls to and thus might influence the customer to move to that network to save money.
- Aggregate of Data Volume: The volume of the data service used by the subscriber.
- Class: Did the customer churn or remain active.


#### Datenauszug

In [None]:
%sql SELECT * FROM telco_churn_asia LIMIT 5

---
### 4. Kundenaktivierung Audiobook-App <a id="dataset4"/>

#### Hintergrund

Die Subscriptions einer Audiobook-App sind unter Druck, zahlreiche Kunden hören auf die App zu nutzen und kaufen keine weiteren Bücher. Im CRM sind zahlreiche Informationen zur App-Nutzung pro Kunde zusammengeführt. Auf der Basis möchte das Management genauer verstehen, was vor sich geht.

#### Business Problem

Um Anhaltspunkte für mögliche Maßnahmen zu erhalten, es es erforderlich im Rückblick zu verstehen, welche Kunden in den letzten sechs Monaten gekündigt haben. Mit diesem Input sollen in Kreativworkshops Maßnahmen für Risikokunden im Kundenbestand entwickelt werden. Die Zielgruppe für diese Maßnahmen ist ebenso zu ermitteln.

#### Datengrundlage

- Book_length(mins)_overall: is the sum of the lengths of purchases.
- Book_length(mins)_avg: is the sum of the lengths of purchases divided by the number of purchases. Notice we don't need the number of purchases column because we ca get it from Book_length(mins)_overall / Book_length(mins)_avg.
- Price_overall & Price_avg: Same as Book length, the price variable is almost always a good predictor.
- Review: is boolean. It shows if the customer left a review. If so, Review10/10 saves the review left by the user. While most users don't left a review we fill the missing reviews by avrage review column.
- Minutes_listened: is a measure of engagement, the total of minutes the user listen to audiobooks.
- Completion: is the Minutes_listened / Book_length(mins)_overall.
- Support_Request: Shows the total number of support request (forgotten password to assistance).
- Last_Visited_mins_Purchase_date: the bigger the difference, the bigger sooner the engagement. If the value is 0, we are sure the customer has never accessed what he/she has bought.
- The data was gathered from the audiobook app, the input data represents 2 years worth of engagement. We are doing supervised learning so we need target. We took extra 6 month to check if the user converted or not. 1 if the customer buys in the next 6 months, 0 if the customer didn't.
- target: 1 if the customer bought again in the last 6 months of data. 0 if the customer did not buy again.

#### Datenauszug

In [None]:
%sql SELECT * FROM audiobook_churn LIMIT 5

---
### 5. Kündigungsprävention Zeitungsverlag <a id="dataset5"/>

#### Hintergrund
Die Printbranche ist seit Jahrzehnten in der Krise und neben immer neuen Digitalangeboten ist ein möglichst effizientes Bestandskundenmanagement überlebensnotwendig. Analog zu Fitnessstudios gibt es zahlreiche "Schläfer" - Kunden, die das Produkt wenig nutzen, aber trotzdem Abonnent bleiben. In einer letzten telefonischen Bestandskundenkampagne wurden mehr Kündigungen ausgelöst als Upsell.

#### Business Problem
Bei der Planung zukünftiger Marketingkampagnen ist es unerlässlich, "Schläferkunden" im schwindenden Abonnentenbestand nicht aufzuschrecken und durch ungünstige Kontakte zum Kündigen zu bewegen. 

#### Datengrundlage

Der Datensatz enthält 
- demographische Daten zum Abonnenten, 
- zu wöchentlichen Zahlungen, 
- dem Zustellrhythmus, 
- zugekauften Daten zum Regionentyp von Nielsen ([Prizm](https://en.wikipedia.org/wiki/Claritas_Prizm)), 
- dem Kanal den das Abo abgeschlossen wurde sowie
- die Information, ob der Kunde heute noch Abonnent ist.

#### Datenauszug

In [None]:
%sql SELECT * FROM newspaper_churn LIMIT 5

---
### 6. Bewertung Kundenstamm Retail Banking <a id="dataset6"/>

#### Hintergrund

Das Privatkundengeschäft einer Bank soll im Zuge einer strategischen Neuausrichtung verkauft werden. Neben dem Filial- und Geldautomatennetz ist der Kundenstamm das wesentliche Asset.

#### Business Problem

Da das Privatkundengeschäft zuletzt vernachlässigt wurde, haben viele Kunden trotz der hohen Wechselbarrieren (Aufwand des Kontoumzugs) die Bank verlassen. Zur Bewertung des Kundenbestands ist ein ausführliches Verständnis über dessen Zusammensetzung erforderlich. Daneben muss die Bank das Kündigungsverhalten erklären: Wieviele und welche Kunden lösen ihr Konto auf? Verliert die Bank Topkunden gemessen an Einkommen und Kreditwürdigkeit? Welche Kunden im verbleibenden Kundenbestand sind als potenzielle Kündiger anzusehen?

#### Datengrundlage

Der Datensatz enthält
- demographische Informationen zum Kunden
- Dauer des Kundenverhältnisses (tenure)
- Kontostand (balance)
- Anzahl der bezogenen Produkte (z.B. Altersvorsorge, Versicherungen, Bausparvertrag, ...)
- Mitglied im Loyalty-Programm (IsActiveMember)
- Aus Überweisungsdaten geschätztes Gehalt (EstimatedSalary)
- Kontoauflösung in den letzten 12 Monaten (Exited)

#### Datenauszug

In [None]:
%sql SELECT * FROM bank_churn LIMIT 5

---
### 7. Immobilienberwertung <a id="dataset7"/>

#### Hintergrund

Ein internationaler Immobilienentwickler möchte auf dem deutschen Markt Fuß fassen und plant den Markteintritt durch erste Grundstücks- und Bestandsimmobilienkäufe. Parallel werden mit Architekten Neubauten und Altbausanierungen konkret geplant.

#### Business Problem

Für einen erfolgreichen Markteintritt ist ein genaues Verständnis gefragter Lagen, Grundrisse und Ausstattungsmerkmale erforderlich. Als gefragt kann eine Lage/Merkmal vereinfacht gelten, wenn die Mietkosten über dem Median liegen. Inbesondere relevant ist die Raumanzahl, Wohnfläche und Ausstattung wie Heizungstyp, Küche, Balkon etc. Diese Merkmale sollten zwischen Stadt und Land unterschieden werden - näherungsweise genügt hier die Unterscheidung zwischen einer Lage in deutschen Großstädten (>500.000 Einwohner) und dem Rest (vgl. hierzu [Wikipedia](https://de.wikipedia.org/wiki/Liste_der_Großstädte_in_Deutschland#Tabelle)).

Das Architekturbüro wird daraufhin Excellisten mit geplanten Wohneinheiten anfertigen - zur Validierung müssen wir wissen, mit wie hohen Mieteinnahmen zu rechnen sein wird.

#### Datengrundlage

Der Datensatz enthält angebotene Mietobjekte in ganz Deutschland:
- Regionalinformation
- Warmmiete (obj_totalRent), Kaltmiete (obj_baseRent), Nebenkosten (obj_serviceCharge) und Heizkosten (heatingCost)
- Informationen zur Heizung (heatingType), Neubau (newlyConst), Baujahr (yearConstructed)
- Anzahl Räume (noRomms), Stockwerk (obj_floor), Anzahl Stockwerke (numberOfFloors), Wohnfläche (livingSpace), Art der Wohnung (typeOfFlat)
- Niveau der Ausstattung (obj_interiorQual), Zustand (obj_condition) und Jahr der letzten Renovierung (lastRefurbish)
- Haustiererlaubnis (petsAllowed)
- Vorhandensein von Parkplätzen, Küche, Keller, Balkon, Garten, Aufzug...
- Handelt es sich um betreutes Wohnen (assistedLiving), ist das Objekt behindertengerecht (barrierFree)
- Anzahl der Bilder im Inserat
- Maximal mögliche Internetanbindung

#### Datenauszug

In [None]:
%sql SELECT * FROM housing_ger LIMIT 5