# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [37]:
#!pip install pandas numpy openpyxl nbformat ipykernel plotly
#pandas precisa do numpy e do openpyxl para algumas coisas
#plotly precisa do nbformat e do ipykernel para algumas projeções de gráficos.

In [38]:
import pandas as pd
import plotly

#importação e visualização dos dados:
df = pd.read_csv('cancelamentos.csv')
df

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [39]:
df.describe()

Unnamed: 0,CustomerID,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
count,881664.0,881664.0,881663.0,881663.0,881664.0,881664.0,881664.0,881664.0,881664.0
mean,225398.667955,39.373153,31.256312,15.807496,3.604437,12.965722,631.616223,14.480868,0.567107
std,129531.845091,12.442362,17.255713,8.586241,3.070216,8.258058,240.802865,8.596203,0.495476
min,2.0,18.0,1.0,1.0,0.0,0.0,100.0,1.0,0.0
25%,113621.75,29.0,16.0,9.0,1.0,6.0,480.0,7.0,0.0
50%,226125.5,39.0,32.0,16.0,3.0,12.0,661.0,14.0,1.0
75%,337739.25,48.0,46.0,23.0,6.0,19.0,830.0,22.0,1.0
max,449999.0,65.0,60.0,30.0,10.0,30.0,1000.0,30.0,1.0


In [40]:
df.notnull().count()

CustomerID                881666
idade                     881666
sexo                      881666
tempo_como_cliente        881666
frequencia_uso            881666
ligacoes_callcenter       881666
dias_atraso               881666
assinatura                881666
duracao_contrato          881666
total_gasto               881666
meses_ultima_interacao    881666
cancelou                  881666
dtype: int64

In [41]:
df.isnull().count()

CustomerID                881666
idade                     881666
sexo                      881666
tempo_como_cliente        881666
frequencia_uso            881666
ligacoes_callcenter       881666
dias_atraso               881666
assinatura                881666
duracao_contrato          881666
total_gasto               881666
meses_ultima_interacao    881666
cancelou                  881666
dtype: int64

In [42]:
df.info() #verificando as linhas preenchidas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 12 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   CustomerID              881664 non-null  float64
 1   idade                   881664 non-null  float64
 2   sexo                    881664 non-null  object 
 3   tempo_como_cliente      881663 non-null  float64
 4   frequencia_uso          881663 non-null  float64
 5   ligacoes_callcenter     881664 non-null  float64
 6   dias_atraso             881664 non-null  float64
 7   assinatura              881661 non-null  object 
 8   duracao_contrato        881663 non-null  object 
 9   total_gasto             881664 non-null  float64
 10  meses_ultima_interacao  881664 non-null  float64
 11  cancelou                881664 non-null  float64
dtypes: float64(9), object(3)
memory usage: 80.7+ MB


In [43]:
#excluindo as linhas não preenchidas
df = df.drop('CustomerID', axis=1)
df = df.dropna() #drop de NaN

In [44]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


In [45]:
#analisando o cancelamento
#0 - não; 1 - sim
df['cancelou'].value_counts() #conta os valores

cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

In [46]:
#vendo o percentual
df['cancelou'].value_counts(normalize=True)
#normalize=True mostra em percentual (normalizado)

cancelou
1.0    0.567105
0.0    0.432895
Name: proportion, dtype: float64

In [47]:
df['cancelou'].value_counts(normalize=True).map("{:.1%}".format)
#formata em percentual com 1 casa decimal

cancelou
1.0    56.7%
0.0    43.3%
Name: proportion, dtype: object

In [48]:
import plotly.express as px
#para apresentar os graficos
#olhar documentação do plotly

In [49]:
#para criar o grafico com px (para vermos graficamente o quanto diminui)
'''for coluna in df.columns:
    grafico = px.histogram(df, x=coluna, color='cancelou')
    grafico.show()'''

"for coluna in df.columns:\n    grafico = px.histogram(df, x=coluna, color='cancelou')\n    grafico.show()"

In [50]:
#analisando as causas de cancelamentos:
#ligações do call center -> se o cliente fez mais de 4 ligações p/ o call center ele cancela;
#dias de atraso -> se o cliente atrasou mais de 15 dias, ele vai cancelar;
#tipo de contrato -> se o contrato for mensal o cliente vai cancelar;


In [51]:
#resolvendo os problemas:
df = df[df['ligacoes_callcenter'] <= 4]
df = df[df['duracao_contrato'] != 'Monthly']
df = df[df['dias_atraso'] <= 20]
df


Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
6,58.0,Female,49.0,12.0,3.0,16.0,Standard,Quarterly,821.00,24.0,1.0
7,55.0,Female,37.0,8.0,4.0,15.0,Premium,Annual,445.00,30.0,1.0
9,64.0,Female,3.0,25.0,2.0,11.0,Standard,Quarterly,415.00,29.0,1.0
13,48.0,Female,35.0,25.0,1.0,13.0,Basic,Annual,518.00,17.0,1.0
19,42.0,Male,15.0,16.0,2.0,14.0,Premium,Quarterly,262.00,16.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


In [52]:
# para vermos a diferença de percentual se nós diminuirmos esses problemas
df['cancelou'].value_counts(normalize=True)

cancelou
0.0    0.816037
1.0    0.183963
Name: proportion, dtype: float64

In [53]:
#para criar os graficos com percentual menor
'''for coluna in df.columns:
    grafico = px.histogram(df, x=coluna, color='cancelou')
    grafico.show()'''

"for coluna in df.columns:\n    grafico = px.histogram(df, x=coluna, color='cancelou')\n    grafico.show()"