<a href="https://colab.research.google.com/github/FerrazThales/Churn_prediction/blob/main/Churn_Prediction_para_uma_empresa_de_Telecomunica%C3%A7%C3%B5es.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img width="32%" src="https://github.com/FerrazThales/FerrazThales/blob/main/logo_gif.gif?raw=true">

[Thales Ferraz üë®‚Äçüíª | Data Scientist](https://thalesferraz.medium.com/)

* Visite tamb√©m o meu artigo sobre esta an√°lise no [Medium]()

* Visite mais projetos do meu portf√≥lio no [Github](https://bit.ly/3DQyZHu)

* Vamos trocar mais id√©ias sobre Data Science no [LinkedIn](https://www.linkedin.com/in/thalesdefreitasferraz/)?


# *Voc√™ vai aprender por aqui*

* O que √© **Churn** e como isso pode ser **importante** para o seu neg√≥cio.
* Quais os **tipos de dados** s√£o os melhores para serem utilizados neste problema.
* x
* x
* x

# Churn Prediction

Clientes s√£o considerados um dos grandes **ativos** de um neg√≥cio. Em um cen√°rio **competitivo**, em que o cliente possui in√∫meras op√ß√µes de escolhas, √© necess√°rio tentar fornecer a melhor experi√™ncia poss√≠vel para os seus consumidores.

*Churn rate*, ou simplesmente *churn*, representa a **taxa de evas√£o** da sua base de clientes. Em servi√ßos como Spotify ou Netflix ela representaria a **taxa de cancelamento** de assinaturas em um determinado per√≠odo.

<p align=center>
<img src="https://cdn.pixabay.com/photo/2017/10/03/19/17/bad-review-2813741_960_720.png" width="40%"></p>

Esta taxa de cancelamento √© de extrema import√¢ncia para o **gerenciamento** e sua an√°lise ao longo do tempo pode mostrar que existe algum **problema** que deve ser **atacado**. J√° que se considera que os custos  para conquistar um **novo** cliente pode ser at√© 15x maior do que o para reter um cliente **atual**.

Uma an√°lise preditiva de *Churn* ajudar√° a identificar **potenciais cancelamentos** com um tempo de anteced√™ncia. Desta forma, possibilita a empresa a promover a√ß√µes direcionadas para tentar **reter** os clientes que est√£o insatisfeitos. Ou at√© mesmo, avaliar se compensa manter estes clientes considerando as **receitas** que eles proporcionam.

## Obten√ß√£o dos Dados

Os dados utilizados neste projeto foram **originalmente** disponibilizados na [plataforma de ensino da IBM Developer](https://developer.ibm.com/technologies/data-science/patterns/predict-customer-churn-using-watson-studio-and-jupyter-notebooks/#), e tratam de um problema **t√≠pico** de uma companhia de **telecomunica√ß√µes**. O *dataset* completo pode ser encontrado [neste link](https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/WA_Fn-UseC_-Telco-Customer-Churn.csv).

√â importante ressalar que estes tipos de dados s√£o extremamente utilizados para elaborar uma **estrat√©gia de neg√≥cios**, portanto n√£o s√£o f√°ceis de se obter informa√ß√µes **atualizadas**.


Para um melhor entendimento de nosso banco de dados foi elaborado um **pequeno dicion√°rio** das vari√°veis:

* *customerID*: identifica√ß√£o √∫nica do usu√°rio na empresa.
* *gender*: g√™nero do usu√°rio.
* *SeniorCitizen*:
* *Partner*:
* *Dependents*: Se o cliente possui dependentes.
* *tenure*:
* *PhoneService*: Se o cliente optou por servi√ßos telef√¥nicos.
* *MultipleLines*:
* *InternetService*: Se o cliente optou por servi√ßos de internet.
* *OnlineSecurity*:
* *OnlineBackup*:
* *DeviceProtection*:
* *TechSupport*:
* *StreamingTV*: Se o cliente optou por servi√ßos de streaming na TV.
* *StreamingMovies*: Se o cliente optou por servi√ßos de streaming para Filmes.
* *Contract*: Tipo de contrato do cliente (mensal, anual ou de dois anos).
* *PaperlessBilling*:
* *PaymentMethod*: Forma de pagamento (cheque eletr√¥nico - [sim, existiu](https://www1.folha.uol.com.br/fsp/1996/1/31/dinheiro/12.html); um cheque por e-mail - [sim,existiu](https://forum.wordreference.com/threads/a-mailed-check-must-clear-the-bank.866139/) ; transfer√™ncia banc√°ria e cart√£o de cr√©dito.
* *MonthlyCharges*:
* *TotalCharges*:
* *Churn*: Se o cliente abandonou a empresa.

In [4]:
# importar os m√≥dulos necess√°rios
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# importar os dados
endereco_dos_dados = "https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/WA_Fn-UseC_-Telco-Customer-Churn.csv"
df = pd.read_csv(endereco_dos_dados)

# ver as 5 primeiras entradas
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


## An√°lise Explorat√≥ria dos Dados

In [11]:
#Avaliando o tamanho do dataset
print('Este dataset cont√©m:')
print('{:,} entradas'.format(df.shape[0]).replace(',','.'))
print('{} vari√°veis'.format(df.shape[1]))

Este dataset cont√©m:
7.043 entradas
21 vari√°veis


In [16]:
#Tipo de vari√°veis de nossa base de dados
pd.DataFrame(df.dtypes,columns=['Tipo de Dados'])

Unnamed: 0,Tipo de Dados
customerID,object
gender,object
SeniorCitizen,int64
Partner,object
Dependents,object
tenure,int64
PhoneService,object
MultipleLines,object
InternetService,object
OnlineSecurity,object


Existem muitas vari√°veis do tipo *object* que precisam ser **convertidas** por vari√°veis **n√∫mericas** para melhorar a **perfomance** de nossos algoritmos.

In [22]:
#Avaliando a quantidade de valores ausentes
pd.DataFrame(df.isnull().sum(),columns=['Quantidade de valores ausentes'])

Unnamed: 0,Quantidade de valores ausentes
customerID,0
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0
OnlineSecurity,0


## Instru√ß√µes para o modelo de churn prediction

ENTENDA O SEU PROBLEMA
* Olhar o todo e delimitar o escopo do projeto
* Como a solu√ß√£o vai ser usada?
* Quais s√£o as solu√ß√µes j√° existentes?
* Qual abordagem usar?
    * Aprendizado Supervisionado
    * Aprendizado N√£o Supervisionado
    * Aprendizado Por Refor√ßo
* Qual √© a m√©trica de performance?
* Qual a performance m√≠nima esperada para atingir o objetivo?
* Liste as premissas b√°sicas do projeto
* Pesquise sobre *churn rate* no Google
* Veja os servi√ßos que outras empresas de Telecom oferecem 

EXPLORAR OS DADOS
* Estudar cada atributo e suas caracter√≠sticas:
    * Nome
    * Tipo
        * Categ√≥rica
        * Num√©rica
            * int
            * float
        * Estruturada
        * N√£o Estruturada
        * etc
    * % de valores ausentes
    * Ru√≠do nos dados e tipo de ru√≠do (outliers, estoc√°sticos, erros de arredondamento)
    * Tipo de distribui√ß√£o
        * Gaussiana
        * Uniforme
        * Logar√≠tmica
        * etc
* Identificar a vari√°vel alvo (target)
* Visualizar os dados
* Estudar a correla√ß√£o entre os dados
* Ver o balanceamento das classes
* Identificar as transforma√ß√µes que podem ser aplicadas
* Identificar os dados extras que podem ser √∫teis


PREPARA√á√ÉO DOS DADOS
* Limpeza dos Dados
    * Consertar ou remover outliers
    * Preencher os valores faltantes ou eliminar as linhas/colunas
        * Zero
        * M√©dia
        * Mediana
        * Frequ√™ncia
* Sele√ß√£o de atributos
    * Eliminar os atributos (*features*) que n√£o cont√™m informa√ß√µes √∫teis

* *Feature Engineering*
    * Discretizar vari√°veis cont√≠nuas
    * Decompor *features* (categ√≥ricas, data, tempo)
    * Aplicar transforma√ß√µes √†s vari√°veis
    * Agregar *features* para gerar novas
    
* *Feature Scaling*
    * Normalizar ou padronizar *features*

* Dividir entre treino, teste e valida√ß√£o

CONSTRUIR MODELO(S) DE MACHINE LEARNING
* Analisar as vari√°veis mais significativas para cada algoritmo
* *Hyperparameters Tuning* (se necess√°rio)
* Uso de *cross-validation*
* Verificar o desempenho do(s) modelo(s) e considerar m√©todos *Ensemble*