# Python Insights - Analisando Dados com Python

## Case - Cancelamento de Clientes
### Você foi contratado por uma empresa de mais de 800 mil clientes para um projeto de dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

### Precisando melhorar seus resultados a empresa quer entender os principais motivos de cancelamento e quais ações mais eficientes para reduzir esse número.

### Importar a base da dados

In [9]:
#  Importar a base da dados

#  Visualizar a base de dados
import pandas as pd

tabela = pd.read_csv("cancelamentos.csv")
display(tabela)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


### Tratar erros: Excluir dados irrelevantes para a análise como colunas e linhas em branco.

In [10]:
### Tratar erros: Excluir dados irrelevantes para a análise como colunas e linhas em branco.
tabela = tabela.dropna() # Exclusão de linhas vazias na tabela

#Exclusão de dados irrelevantes para a análise, como ID do usuário na tabela
tabela = tabela.drop("CustomerID", axis=1) # axis=0 -> Exclui linhas, axis=1 -> Exclui coluna.
display(tabela.info)

<bound method DataFrame.info of         idade    sexo  tempo_como_cliente  frequencia_uso  \
0        30.0  Female                39.0            14.0   
1        65.0  Female                49.0             1.0   
2        55.0  Female                14.0             4.0   
3        58.0    Male                38.0            21.0   
4        23.0    Male                32.0            20.0   
...       ...     ...                 ...             ...   
881661   42.0    Male                54.0            15.0   
881662   25.0  Female                 8.0            13.0   
881663   26.0    Male                35.0            27.0   
881664   28.0    Male                55.0            14.0   
881665   31.0    Male                48.0            20.0   

        ligacoes_callcenter  dias_atraso assinatura duracao_contrato  \
0                       5.0         18.0   Standard           Annual   
1                      10.0          8.0      Basic          Monthly   
2                  

### Análise inicial dos dados

In [11]:
### Análise inicial dos dados (Entender como estão os canecelamentos)
display(tabela["cancelou"].value_counts(normalize=True))
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format)) # Porcentagem de clientes que cancelaram


cancelou
1.0    0.567105
0.0    0.432895
Name: proportion, dtype: float64

cancelou
1.0    56.7%
0.0    43.3%
Name: proportion, dtype: object

In [12]:
display(tabela["duracao_contrato"].value_counts(normalize=True).map("{:.1%}".format))
display(tabela["duracao_contrato"].value_counts(normalize=True))

duracao_contrato
Annual       40.2%
Quarterly    40.0%
Monthly      19.8%
Name: proportion, dtype: object

duracao_contrato
Annual       0.401964
Quarterly    0.400448
Monthly      0.197588
Name: proportion, dtype: float64

### Analisando a duração do contrato

In [13]:
# Analisando a duração do contrato
display(tabela.groupby("duracao_contrato").mean(numeric_only=True)) #Identficado que a média de cancelamentos é de 100% para os planos mensais


Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Annual,38.842165,31.446186,15.880213,3.263401,12.465156,651.697738,14.236107,0.46076
Monthly,41.552407,30.538555,15.499274,4.985649,15.007267,550.616435,15.478012,1.0
Quarterly,38.830938,31.419916,15.886662,3.265245,12.460863,651.427783,14.234544,0.460255


### Removendo da análise o plano mensal para continuar analisando a base de dados

In [14]:
### Removendo da análise o plano mensal para continuar analisando a base de dados
tabela = tabela[tabela["duracao_contrato"]!="Monthly"]
display(tabela)
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
2,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
5,51.0,Male,33.0,25.0,9.0,26.0,Premium,Annual,129.00,8.0,1.0
6,58.0,Female,49.0,12.0,3.0,16.0,Standard,Quarterly,821.00,24.0,1.0
7,55.0,Female,37.0,8.0,4.0,15.0,Premium,Annual,445.00,30.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
881661,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


cancelou
0.0    381666
1.0    325788
Name: count, dtype: int64

cancelou
0.0    53.9%
1.0    46.1%
Name: proportion, dtype: object

### Chegamos agora em menos da metade dos cancelamentos, mas ainda é muito, seguimos com uma análise mais profunda.

In [15]:

display(tabela["assinatura"].value_counts(normalize=True))
display(tabela.groupby("assinatura").mean(numeric_only=True))

assinatura
Standard    0.339648
Premium     0.338138
Basic       0.322215
Name: proportion, dtype: float64

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
assinatura,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Basic,38.904813,32.316031,15.876921,3.310021,12.507054,648.642614,14.240814,0.475188
Premium,38.817814,30.977869,15.889673,3.235886,12.433427,653.337633,14.23115,0.452338
Standard,38.790478,31.048621,15.883393,3.249275,12.45069,652.566793,14.23428,0.454714


In [None]:
### Iniciar a análise através de gráficos
import plotly.express as px
for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou", width=600)
    grafico.show()

In [None]:
### Com os gráficos identificamos que:
#### Acima de 20 dias de atraso, 100% dos clientes cancelam.
#### Acima de 5 ligações para o call center, todos cancelam.
tabela = tabela[tabela["ligacoes_callcenter"]<5]
tabela = tabela[tabela["dias_atraso"]<=20]
display(tabela)
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

### Se resolvermos isso, já caímos para 18% de cancelamento
### Claro que 100% é irreal, porém com isso já temos as principais causas de cancelamento
### 1°- Pagamento Mensal
### 2°- Necessidade de ligação para o call center
### 3°- Atraso de pagamento

### Iniciar as informações através de gráficos

### Depois de todas as análises, podemos identificar onde se encontram o maior número de cancelamentos, claro que fazendo mais tratamentos seria possível reduzir em 0 os cancelamentos, mas se tornaria inviável para a empresa.
### Então podria ter sido definido uma meta de cancelamentos de 20%, que já seria bem melhor do que os 50% anteriores.