<h3>Customer Churn - Wieso gehen Kunden weg? - ANN </h3>

In diesem Abschnitt geht es darum, mit einem ANN herauszufinden, ob Kunden bei bestimmten Bedingungen gehen oder bleiben.

Für das Training wird ein ANN eingesetzt.

>
>Dataset:  https://www.kaggle.com/datasets/blastchar/telco-customer-churn [Letzter Zugriff: 14.06.2024]
>
>Telco Customer Churn - Focused customer retention programs
>
>Siehe auch: https://community.ibm.com/community/user/businessanalytics/blogs/steven-macko/2019/07/11/telco-customer-churn-1113 [Letzter Zugriff: 14.06.2024]

In [1]:
# Imports.
import tensorflow as tf
import pandas     as pd
import numpy      as np
import seaborn    as sn

import matplotlib.pyplot as plt

In [6]:
churn_df = pd.read_csv('./data/datasets/telcoc_customer_churn.zip', compression='zip')
churn_df.head(3)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes


In [3]:
churn_df.shape

(7043, 21)

Data Exploration und Feature Engineering.:

Das Dataset hat 21 Features, die vielleicht nicht alle gleich wichtig sind.

Die Features haben numerische und kategorische Werte. Features, die kategorische Werten haben, können mit On-Hot-Enocde oder Label-Enocder behandelt werden. 

Bei Features mit numerischen Werten können wir Outliers finden und eliminieren.

In [4]:
# Zeige Spalten an.
churn_df.columns

Index(['customerID', 'gender', 'SeniorCitizen', 'Partner', 'Dependents',
       'tenure', 'PhoneService', 'MultipleLines', 'InternetService',
       'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
       'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
       'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn'],
      dtype='object')

In [5]:
# Zeige Datentypen an.
churn_df.dtypes

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

Nach dem Betrachten der Features kann festgestellt werden, dass die Spalte mit der KundenID uns keinen wichtigen Informationen liefert, diese können wir löschen.

Zudem ist zu sehen, das numerische Werte als Objekte angegeben sind.

In [7]:
dataset = churn_df.drop(['customerID'], axis="columns")

In [10]:
# Mit .values können sich Werte angeschaut werden => wirklich als int/float hinterlegt? 
# - Features, die numerisch sein sollten, können durch den Namen identifiziert werden
dataset.SeniorCitizen.values

array([0, 0, 0, ..., 0, 1, 0], dtype=int64)

In [11]:
# Hört sich nach einer Zahl an, ist als String hinterlegt.
dataset.TotalCharges.values

array(['29.85', '1889.5', '108.15', ..., '346.45', '306.6', '6844.5'],
      dtype=object)

In [19]:
float(" 6 ")

6.0

In [16]:
# Nutze Lambda und .apply.:
# - Problem:
#    - Es gibt Werte die nicht als Float gecastet werden können.
#dataset['TotalCharges'].apply(lambda x: float(x))

ValueError: could not convert string to float: ''

In [31]:
# Alternativ können wir das nutzen.: 
# - Siehe: https://pandas.pydata.org/docs/reference/api/pandas.to_numeric.html
# - Werte bei den es Scheitert, werden mit NaN ersetzt => später füllen. 
#  - errors='coerce' => NaN 
pd.to_numeric(dataset['TotalCharges'], errors='coerce')

0         29.85
1       1889.50
2        108.15
3       1840.75
4        151.65
         ...   
7038    1990.50
7039    7362.90
7040     346.45
7041     306.60
7042    6844.50
Name: TotalCharges, Length: 7043, dtype: float64

Damit kann auch noch mehr.:

In [32]:
dataset[ pd.to_numeric(dataset['TotalCharges'], errors='coerce').isnull() ] 
# Diese Einträge können wir löschen.

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
488,Female,0,Yes,Yes,0,No,No phone service,DSL,Yes,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,,No
753,Male,0,No,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,,No
936,Female,0,Yes,Yes,0,Yes,No,DSL,Yes,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,,No
1082,Male,0,Yes,Yes,0,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,,No
1340,Female,0,Yes,Yes,0,No,No phone service,DSL,Yes,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,,No
3331,Male,0,Yes,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,19.85,,No
3826,Male,0,Yes,Yes,0,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,,No
4380,Female,0,Yes,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,,No
5218,Male,0,Yes,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,,No
6670,Female,0,Yes,Yes,0,Yes,Yes,DSL,No,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,,No


In [34]:
dataset = dataset[dataset['TotalCharges'] != ' ']

In [35]:
dataset.shape

(7032, 20)