<a href="https://colab.research.google.com/github/henriquesbarai/Analise_de_dados_diagnostica/blob/main/Cancelamento_de_clientes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto de Análise de Dados

## Case - Cancelamento de Clientes
"*Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente, a empresa percebeu que, da sua base total de clientes, a maioria é de clientes inativos, que já cancelaram o serviço. Precisando melhorar seus resultados, ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.*"

Base de dados: https://drive.google.com/file/d/11GesbxiTPbtCKCoWJ941Rj_iPolCj2m5/view?usp=drive_link

## Entendendo o projeto

Vamos dividir o projeto em 6 passos:

1.   **Importação da base de dados**: tornar a base disponível para o trabalho;
2.   **Visualização a base de dados**: entender quais são os dados que vamos analisar;
3.   **Tratamento dos dados**: remover possíveis problemas na base de dados e informações desnecessárias;
4.   **Análise inicial dos dados**: entender como os cancelamentos estão acontecendo;
5.   **Análise profunda dos dados**: determinar as principais causas;
6.   **Solução**: propor uma possível forma de se resolver o problema pelo que a empresa está passando.

Para este projeto, utilizaremos as bibliotecas a seguir:


*   Pandas: contém as ferramentas que possibilitam a realização de análises de dados.
*   Plotly: contém as ferramentas que possibilitam a criação de gráficos.

In [1]:
import pandas as pd
import plotly.express as px

## Desenvolvendo o projeto

Vamos seguir o passo a passo que criamos.

### 1. Importação da base de dados

Comecemos então pela importação da base de dados:

In [2]:
# Obtendo o ID da base de dados através do link
url = 'https://drive.google.com/file/d/11GesbxiTPbtCKCoWJ941Rj_iPolCj2m5/view?usp=drive_link'
id = url.split('/')[-2]

# Importando o arquivo para o código
path = 'https://drive.google.com/uc?export=download&id='+id

# Criando dataframe do Pandas através da base de dados fornecida
base = pd.read_csv(path)

### 2. Visualização da base de dados

Com a base de dados importada e o dataframe do Pandas criado, podemos visualizar os dados:

In [3]:
display(base)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,2.0,30.0,Female,39.0,14.0,5.0,18.0,Standard,Annual,932.00,17.0,1.0
1,3.0,65.0,Female,49.0,1.0,10.0,8.0,Basic,Monthly,557.00,6.0,1.0
2,4.0,55.0,Female,14.0,4.0,6.0,18.0,Basic,Quarterly,185.00,3.0,1.0
3,5.0,58.0,Male,38.0,21.0,7.0,7.0,Standard,Monthly,396.00,29.0,1.0
4,6.0,23.0,Male,32.0,20.0,5.0,8.0,Basic,Monthly,617.00,20.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
881661,449995.0,42.0,Male,54.0,15.0,1.0,3.0,Premium,Annual,716.38,8.0,0.0
881662,449996.0,25.0,Female,8.0,13.0,1.0,20.0,Premium,Annual,745.38,2.0,0.0
881663,449997.0,26.0,Male,35.0,27.0,1.0,5.0,Standard,Quarterly,977.31,9.0,0.0
881664,449998.0,28.0,Male,55.0,14.0,2.0,0.0,Standard,Quarterly,602.55,2.0,0.0


Aqui, já podemos ver que temos uma informação que não vai ajudar na nossa análise, a coluna *CustomerID*, pois ela é única para cada cliente e não nos informa nada que possa ser relacionado a um possível cancelamento. Todas as outras colunas serão úteis para nós.

Uma última observação relevante aqui é de que, na coluna *cancelou*, o número 1 indica que aquele cliente cancelou o serviço, enquanto 0 indica que ele ainda é um cliente ativo.

### 3. Tratamento dos dados

Podemos começar a etapa de tratamento dos dados. Vamos, primeiramente, descartar as colunas irrelevantes para a análise (no caso, apenas a coluna *CostumerID*).

In [4]:
base = base.drop("CustomerID", axis = 1)

Agora, precisamos verificar também se não possuímos linhas com informações vazias.

In [5]:
display(base.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

Podemos ver que, sim, temos linhas com informações vazias, na coluna *assinatura*, por exemplo, mas são um total despresível perto do valor total de linhas da base de dados. Assim, não haverá nenhuma perda relevante de informações caso removamos essas linhas, que é o que faremos.

In [6]:
base = base.dropna()
display(base.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

### 4. Análise inicial dos dados

Com os dados já tratados, podemos começar a nossa análise. Para isso, vamos entender como se encontra atualmente a proporção de cancelamentos.

In [7]:
display(base["cancelou"].value_counts())   # conta o total dos valores
display(base["cancelou"].value_counts(normalize=True))   # informa as proporções relativas ao total

1.0    499993
0.0    381666
Name: cancelou, dtype: int64

1.0    0.567105
0.0    0.432895
Name: cancelou, dtype: float64

Podemos ver que, atualmente, na base de dados da empresa, temos 56,7% de clientes inativos e apenas 43,3% de clientes ativos. Vamos tentar analisar mais profundamente as informações da base de dados para tentar encontrar possíveis explicações para esse valor indesejado.

Para nos ajudar na busca de informações relevantes, vamos criar gráficos para visualizar a distribuição dos cancelamentos de acordo com cada coluna da base. Utilizaremos agora a biblioteca *plotly.express* que já havíamos importado.

In [None]:
for coluna in base.columns:
    grafico = px.histogram(base, x=coluna, color="cancelou", width=600)
    grafico.show()

Os gráficos que chamam mais atenção são os com as seguintes informações.

*   **Duração do contrato**: todos os clientes com plano mensal cancelam o serviço;
*   **Ligações para o call center**: todos os clientes que realizam mais de 5 ligações cancelam o serviço;
*   **Idade**: todos os clientes com mais de 50 anos cancelam o serviço;
*   **Dias de atraso**: todos os clientes que atrasam mais de 20 dias cancelam o serviço;
*   **Sexo**: proporcionalmente, mulheres cancelam mais do que homens.

Vamos olhar com mais atenção para essas informações.

### 5. Análise profunda dos dados

Em primeiro lugar, note que todos os clientes com plano mensal cancelaram o pedido. Vejamos esse dado de maneira mais profunda.

In [9]:
# Obtendo a porcentagem de clientes em cada tipo de contrato
display(base["duracao_contrato"].value_counts(normalize=True))

# Exibindo uma tabela com a média referente a cada tipo de contrato com relação às outras informações da base de dados
display(base.groupby("duracao_contrato").mean(numeric_only=True))

Annual       0.401964
Quarterly    0.400448
Monthly      0.197588
Name: duracao_contrato, dtype: float64

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
duracao_contrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Annual,38.842165,31.446186,15.880213,3.263401,12.465156,651.697738,14.236107,0.46076
Monthly,41.552407,30.538555,15.499274,4.985649,15.007267,550.616435,15.478012,1.0
Quarterly,38.830938,31.419916,15.886662,3.265245,12.460863,651.427783,14.234544,0.460255


O fato de todos o contratos **mensais** serem cancelados corresponde a quase 20% do total de clientes da empresa. Vamos ver abaixo o impacto que teríamos com a remoção deste formato.

In [10]:
base = base[base["duracao_contrato"]!="Monthly"]
display(base["cancelou"].value_counts(normalize=True))

0.0    0.539492
1.0    0.460508
Name: cancelou, dtype: float64

Observe que, sem essa modalidade de contrato, os cancelamentos caem de 56,7% para 46%.

Olhemos com mais atenção agora para as ligações para o callcenter.

In [11]:
display(base["ligacoes_callcenter"].value_counts(normalize=True))
display(base.groupby("ligacoes_callcenter").mean(numeric_only=True))

0.0     0.175098
1.0     0.173746
2.0     0.165529
3.0     0.126564
4.0     0.087094
5.0     0.048467
10.0    0.045261
7.0     0.044741
6.0     0.044577
9.0     0.044466
8.0     0.044458
Name: ligacoes_callcenter, dtype: float64

Unnamed: 0_level_0,idade,tempo_como_cliente,frequencia_uso,dias_atraso,total_gasto,meses_ultima_interacao,cancelou
ligacoes_callcenter,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0.0,35.89055,31.873678,16.011883,11.303647,696.941234,13.634419,0.213475
1.0,35.993304,31.895352,16.089101,11.320249,698.78284,13.699366,0.212786
2.0,36.733929,31.754645,16.014807,11.312167,696.901322,13.711829,0.221769
3.0,40.559896,31.719828,15.99732,11.716255,679.73866,13.794679,0.312672
4.0,43.197955,31.184776,15.835186,12.579664,648.215543,14.287592,0.477984
5.0,42.162331,30.83137,15.675338,14.659123,566.900267,15.27164,0.92318
6.0,41.567859,30.517123,15.552702,14.924911,548.751885,15.496195,1.0
7.0,41.367307,30.516302,15.506887,15.008593,550.554444,15.492102,1.0
8.0,41.538153,30.494213,15.45269,14.99593,548.480734,15.455551,1.0
9.0,41.565707,30.490368,15.52559,15.12283,547.738446,15.562274,1.0


Podemos ver que o número de cancelamentos começa a crescer consideravelmente a partir da terceira ligação, tendo um salto para mais de 90% na quinta ligação e para 100% a partir da sexta, o que corresponde a mais de 20% do total de clientes. Vamos ver como ficariam os cancelamentos resolvendo mais esse problema.

In [12]:
base = base[base["ligacoes_callcenter"]<5]
display(base["cancelou"].value_counts(normalize=True))

0.0    0.735916
1.0    0.264084
Name: cancelou, dtype: float64

Resolvendo essa questão da necessidade excessiva de ligações para o callcenter, além da questão do contrato mensal, reduzimos a taxa de cancelamento de 46% para 26,5%, uma redução total de 30%.

Vamos ver agora o impacto que teríamos resolvendo as questões relacionadas à idade, ao atraso e ao sexo dos clientes.

In [13]:
base = base[base["idade"]<=50]
display(base["cancelou"].value_counts(normalize=True))

0.0    0.813593
1.0    0.186407
Name: cancelou, dtype: float64

In [14]:
base = base[base["dias_atraso"]<=20]
display(base["cancelou"].value_counts(normalize=True))

0.0    0.879113
1.0    0.120887
Name: cancelou, dtype: float64

In [15]:
base = base[base["sexo"]=="Male"]
display(base["cancelou"].value_counts(normalize=True))

0.0    0.918971
1.0    0.081029
Name: cancelou, dtype: float64

Podemos concluir que atacar todas essas questões é fundamental para a empresa, pois, dos 56,7% de cancelamentos, 48,5% estão de alguma forma associados a elas.

### 6. Solução

Com base nas análises feitas, podemos ver que possíveis passos a serem tomados visando diminuir a taxa de cancelamentos são:

*   Oferecer um desconto nas modalidades de contrato **trimestral** e **anual** de forma a desmotivar a contratação do plano **mensal**;
*   Realizar uma pesquisa para saber quais são os principais motivos das ligações que o callcenter recebe, visando otimizar essas ligações para reduzir o número de ocorrências;
*   Entrar em contato com o cliente que atrasou o pagamento antes de esse atraso ultrapassar os **20 dias**;
*   Realizar uma pesquisa de satisfação com os clientes para entender o porquê da maior taxa de cancelamento entre **mulheres** e pessoas **acima de 50 anos**, possivelmente sendo necessária uma adaptação dos serviços da empresa para melhor satisfazer esses públicos.