<a href="https://colab.research.google.com/github/awildt01/Predicting-Churn/blob/main/churn_de.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Churn Prediction

In einer allgemeineren Definition ist *Churn* eine Kennzahl, die die Anzahl der Kunden angibt, die  in einem bestimmten Zeitraum kündigen . Um die Abwanderung zu berechnen, müssen Sie lediglich die Anzahl der Kunden addieren, die Ihr Produkt/Ihre Dienstleistung im analysierten Zeitraum gekündigt haben.

//
<p align=center>
<img src="https://vanessamiranda.github.io/images/Customerchurn/customerchurn.jpg" width="60%"></p>



Die Abwanderungsrate wird im Allgemeinen über einen bestimmten Zeitraum berechnet, sei es jährlich, halbjährlich oder monatlich. Beispiel: Wenn jeden Monat einer von 20 Kunden Ihr Produkt kündigt, bedeutet dies, dass die Abwanderungsrate für Ihr Produkt 5 % beträgt.
Sie können auch die Abwanderungsrate, die den Prozentsatz der Konten darstellt, die gekündigt werden, im Vergleich zum aktiven Kundenstamm wie folgt berechnen:

**Abwanderungsrate : Gesamtzahl gekündigter Kunden / Gesamtzahl aktiver Kunden im letzten Monat**

Die Kundenabwanderung wirkt sich auf die Rentabilität aus, besonders in Branchen, in denen die Einnahmen stark von Abonnements abhängig sind (z. B. Banken, Telefon- und Internetdienstanbieter, Pay-TV-Unternehmen, Versicherungsunternehmen usw.). Es wird geschätzt, dass die Gewinnung eines neuen Kunden bis zu fünfmal mehr kosten kann, als die Bindung eines bestehenden Kunden. Daher ist die Kundenabwanderungsanalyse unerlässlich für ein Unternehmen. Das Ziel dieses Projektes ist es, die Churn für eine Unternehmen zu verstehen und vorherzusagen.

Das Ziel der Churn Prediction ist es, diese abwanderungsgefährdeten Kunden zu identifizieren, bevor sie das Unternehmen verlassen, und präventive Maßnahmen zu ergreifen, um sie zu halten. Dies kann bedeutsam sein, da die Neukundengewinnung oft teurer ist als die Bindung bestehender Kunden.

## Datenbeschaffung

Das Datenmodul stammenn aus der DataIBM Business Analytics und ist ein Beispiel als Telco Customer Churn. Die Kundenabwanderungsdaten von Telekommunikationsunternehmen enthalten Informationen über ein fiktives Telekommunikationsunternehmen, das im dritten Quartal 7043 Kunden in Kalifornien Telefon- und Internetdienste zu Hause bereitgestellt hat. Es zeigt an, welche Kunden ihren Service verlassen, geblieben oder sich für ihn angemeldet haben. Für jeden Kunden sind mehrere wichtige Daten sowie ein Zufriedenheitswert, ein Abwanderungswert und ein CLTV-Index (Customer Lifetime Value) enthalten.

* *Website [neste link](https://community.ibm.com/community/user/businessanalytics/blogs/steven-macko/2019/07/11/telco-customer-churn-1113).*



### Die Herausforderung der Analyse

Eine der Haupt Herausforderungen besteht darin, genaue Vorhersagen darüber zu treffen, welche Kunden wahrscheinlich abwandern werden. Dies erfordert eine gründliche Analyse einer Vielzahl von Daten, die das Kundenverhalten und die Interaktionen mit dem Unternehmen beschreiben. Jedoch können Datenqualität und -quantität eine Herausforderung darstellen, da Unternehmen möglicherweise nicht über ausreichende oder qualitativ hochwertige Daten verfügen, um präzise Vorhersagen zu treffen.

Ein weiteres Problem ist die Bewältigung von unbalancierten Daten, da die Anzahl der abwandernden Kunden oft viel kleiner ist als die Anzahl der nicht abwandernden Kunden. Dies kann zu Verzerrungen führen und die Leistung des Modells beeinträchtigen. Es ist wichtig, Techniken zur Bewältigung von unbalancierten Daten anzuwenden, um genaue Vorhersagen zu gewährleisten.

Zusätzlich können komplexe Kundenverhaltensmuster und Wechselwirkungen zwischen verschiedenen Merkmalen eine Herausforderung darstellen. Das Identifizieren relevanter Merkmale und das Verständnis ihrer Auswirkungen auf das Churn-Verhalten erfordert oft Fachkenntnisse und fortgeschrittene Analysetechniken.

Die Vorhersagegenauigkeit ist ein weiteres Anliegen, da Vorhersagemodelle oft Overfitting oder Underfitting zeigen können. Overfitting tritt auf, wenn das Modell zu stark an die Trainingsdaten angepasst ist und nicht in der Lage ist, auf neuen Daten gut zu generalisieren. Underfitting hingegen tritt auf, wenn das Modell zu einfach ist und nicht in der Lage ist, die zugrunde liegenden Muster der Daten zu erfassen.

Datenschutz und Datenschutz sind ebenfalls wichtige Aspekte bei der Churn-Analyse, da sie den Umgang mit sensiblen Kundeninformationen betreffen. Es ist entscheidend sicherzustellen, dass alle Datenschutzbestimmungen eingehalten werden und dass Kundeninformationen sicher und vertraulich behandelt werden.

Trotz dieser Herausforderungen bietet die Churn-Analyse Unternehmen die Möglichkeit, Kundenbeziehungen zu stärken und langfristige Kundenloyalität aufzubauen. Durch den Einsatz fortgeschrittener Analysetechniken und die Berücksichtigung von Datenschutzbestimmungen können Unternehmen präzise Vorhersagen treffen und wirksame Strategien zur Kundenbindung entwickeln.

### Wörterbuch der Variablen
* *dicionário de variáveis.*
    * *Die Beschreibung der Spaltennamen [neste link](https://community.ibm.com/community/user/businessanalytics/blogs/steven-macko/2019/07/11/telco-customer-churn-1113).*


**customerID** **->** Customer ID.

**gender** **->** Whether the customer is a male or a female.

**SeniorCitizen** **->** Indicates if the customer is 65 (1, 0).

**Partner** **->** Whether the customer has a partner or not (Yes, No).

**Dependents** **->** Indicates if the customer lives with any dependents: Yes, No. Dependents could be children, parents, grandparents, etc.

**tenure** **->** Number of months the customer has stayed with the company

**PhoneService**  **->** Whether the customer has a phone service or not (Yes, No).

**MultipleLines** **->** Indicates if the customer subscribes to multiple telephone lines with the company: (Yes, No, No phone service).

**InternetService**  **->** Indicates if the customer subscribes to Internet service with the company: No, DSL, Fiber Optic, Cable.

**OnlineSecurity**  **->** Indicates if the customer subscribes to an additional online security service provided by the company: Yes, No.

**OnlineBackup**  **->** Indicates if the customer subscribes to an additional online backup service provided by the company: Yes, No.

**DeviceProtection**  **->** Indicates if the customer subscribes to an additional device protection plan for their Internet equipment provided by the company:Yes, No.

**TechSupport**  **->** Indicates if the customer subscribes to an additional technical support plan from the company with reduced wait times: Yes, No

**StreamingTV**  **->**  Indicates if the customer uses their Internet service to stream television programing from a third party provider: Yes, No. The company does not charge an additional fee for this service.

**StreamingMovies**  **->** Indicates if the customer uses their Internet service to stream movies from a third party provider: Yes, No. The company does not charge an additional fee for this service.

**Contract**  **->** Indicates the customer’s current contract type: Month-to-Month, One Year, Two Year.

**PaperlessBilling**  **->** Indicates if the customer has chosen paperless billing: Yes, No.

**PaymentMethod**  **->** Indicates how the customer pays their bill: Bank Withdrawal, Credit Card, Mailed Check.

**MonthlyCharges**  **->** Indicates the customer’s current total monthly charge for all their services from the company.

**TotalCharges**  **->** Indicates the customer’s total charges, calculated to the end of the quarter specified above.

**Churn**  **->** Churn






In [1]:
# importar os pacotes necessários
# !pip install bar_chart_race -q
# !pip install plotly

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import plotly.express as px
import plotly.graph_objects as go
import plotly.graph_objects as go
from plotly.subplots import make_subplots

import bokeh.io
import bokeh.plotting
from bokeh.io import show, output_file
from bokeh.models import ColumnDataSource, FactorRange
from bokeh.plotting import figure, show
from bokeh.transform import factor_cmap
from bokeh.models import Range1d
from bokeh.models import LabelSet

# para não limitar a visualização do número de colunas
pd.set_option('display.max_columns', None)

# renderers
import plotly.io as pio
pio.renderers.default = 'colab'

sns.set_style()
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

# importar os dados
DATA_PATH = "https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/WA_Fn-UseC_-Telco-Customer-Churn.csv"
df = pd.read_csv(DATA_PATH)

In [None]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [None]:
print("Linhas:\t\t{}".format(df.shape[0]))
print("Colunas:\t{}".format(df.shape[1]))

Linhas:		7043
Colunas:	21
