# **Churn Prediction** - TÍTULO PROVISÓRIO

A taxa de *churn*, também chamado taxa de atrito ou rotatividade de cliente, é a taxa na qual clientes para de fazer negócios com uma entidade, ou seja, a taxa de evasão dos clientes. Em serviços por assinatura como Spotify, Netflix ou TV por assinatura, ela seria representada pelos clientes que cancelaram a assinatura em determinado período.

Uma empresa pode utilizar o *churn* para comparar com a taxa de crescimento e determinar se a empresa está tendo ganhos ou perdas. Além disso, a melhor taxa de *churn* é que ele não ocorra, no entanto é quase impossível que isso ocorra e é muito difícil estimar um valor que seja verdadeiro para todos os tipos de negócios, mas, por exemplo, para SaaS o *churn* sugerido fica entre 5% e 7% ao ano.

Um questionamento importante a se fazer é: **quais são os motivos para o *churn* acontecer?**
- Entrega de valor menor do que foi prometido;
- A reputação do produto está manchada;
- Os clientes encontraram uma alternativa nos concorrentes;
- Os clientes não necessitam ou não têm mais insteresse no produto;
- Cliente encerrou a operação que necessitava do produto; e
- Muitos outros motivos.

**Mas como um modelo de *Machine Learning* pode auxiliar com o *churn*?**

Construindo um modelo de *Machine Learning* utilizando dados dos clientes que pararam de fazer negócios na empresa, podemos prever quais clientes ainda fazem negócios, no entanto estão prestes a parar e, assim, tomar as medidas necessárias para que esses clientes continuem com a empresa.

Por isso, o objetivo desse projeto é avaliar diferentes modelos de *Machine Learning* e analisar qual que apresenta os melhores resultados para prever o *churn* do conjunto de dados utilizado.

## **Obtenção dos Dados**

O conjunto de dados utilizado neste projeto foram, originalmente, disponibilizados pela [plataforma de ensino da IBM Developer](https://developer.ibm.com/technologies/data-science/patterns/predict-customer-churn-using-watson-studio-and-jupyter-notebooks/#) e é referente a um problema comum em uma empresa de telecomunicações.

O conjunto de dados completo está disponível nesse [link]().

Além disso, não são disponibilizadas informações explícitas sobre o conjunto de dados, no entanto com os nomes das colunas podemos ter um maior entendimento a respeito do problema.

## **Importando as bibliotecas**

In [1]:
# Importando as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurando o notebook
sns.set(style="white")
%matplotlib inline

## **Carregando o conjunto de dados**

In [2]:
# Carregando os dados
df = pd.read_csv("./Dataset/WA_Fn-UseC_-Telco-Customer-Churn.csv")

# Visualizando as 5 primeiras do conjunto de dados
print("As 5 primeiras entradas do conjunto de dados:\n")
df.head()

As 5 primeiras entradas do conjunto de dados:



Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


## **Análise Exploratória dos Dados**

**01 - Nomes das Colunas**

In [6]:
# Colunas
pd.DataFrame(df.columns)

Unnamed: 0,0
0,customerID
1,gender
2,SeniorCitizen
3,Partner
4,Dependents
5,tenure
6,PhoneService
7,MultipleLines
8,InternetService
9,OnlineSecurity


Pelos nomes das colunas, já podemos ter um maior entendimento sobre o conjunto de dados:
- A coluna `customerID` nada agrega ao nosso projeto, pois é apenas um código de identificação dos clientes;
- A coluna `Churn` identifica se o cliente deixou ou não de utilizar o serviço da empresa;
- Também temos colunas que identificam algumas características dos clientes como Gênero (`gender`); se é idoso ou não (`SeniorCitizen`); e se tem dependentes (`Dependents`);
- Além disso, temos colunas que indicam os tipos de serviços, a forma de pagamento e como é feito a cobrança dos clientes.

https://resultadosdigitais.com.br/blog/o-que-e-churn/

https://www.hashmicro.com/blog/churn-rate-definition/

https://en.wikipedia.org/wiki/Churn_rate

https://www.investopedia.com/terms/c/churnrate.asp

https://rockcontent.com/br/blog/churn-rate/