### Case - Analise de cancelamento de clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

PASSOS:
1. importar base de dados
2. visualizar a base de dados
3. resolver os problemas de dados
   a. informações inuteis
   b. informações com erro de formato/tipo
   c. informações vazias
4. analise inicial (qtd clientes que cancelaram, % desses clientes, etc)
5. analise das causas de cancelamento

In [5]:
import pandas as pd
import plotly.express as px

Biblioteca PLOTLY: https://plotly.com/

Biblioteca PANDAS: https://pandas.pydata.org/docs/user_guide/index.html

In [6]:
tabela=pd.read_csv(r'/content/drive/MyDrive/2_REPOSITORIOS/PYTHON/PTH_008_DASH_CANC_CLIENTES/Aula 2 - Python Insights-20250604T103709Z-1-001/Aula 2 - Python Insights/cancelamentos_sample.csv')
tabela.shape

(50000, 12)

In [7]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [8]:
tabela.info()
print('-----------------------------------------------------------------------------------------')
tabela.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 12 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   CustomerID              50000 non-null  float64
 1   idade                   50000 non-null  float64
 2   sexo                    49997 non-null  object 
 3   tempo_como_cliente      49998 non-null  float64
 4   frequencia_uso          50000 non-null  float64
 5   ligacoes_callcenter     50000 non-null  float64
 6   dias_atraso             50000 non-null  float64
 7   assinatura              50000 non-null  object 
 8   duracao_contrato        50000 non-null  object 
 9   total_gasto             50000 non-null  float64
 10  meses_ultima_interacao  50000 non-null  float64
 11  cancelou                50000 non-null  float64
dtypes: float64(9), object(3)
memory usage: 4.6+ MB
-----------------------------------------------------------------------------------------


Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,349936.0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,100634.0,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.0,29.0,1.0
2,301263.0,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,119358.0,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.0,12.0,1.0
4,130955.0,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.0,15.0,1.0


In [9]:
#APAGAR INFORMAÇÕES INUTEIS
tabela=tabela.drop(columns='CustomerID')
tabela.info()
tabela.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   50000 non-null  float64
 1   sexo                    49997 non-null  object 
 2   tempo_como_cliente      49998 non-null  float64
 3   frequencia_uso          50000 non-null  float64
 4   ligacoes_callcenter     50000 non-null  float64
 5   dias_atraso             50000 non-null  float64
 6   assinatura              50000 non-null  object 
 7   duracao_contrato        50000 non-null  object 
 8   total_gasto             50000 non-null  float64
 9   meses_ultima_interacao  50000 non-null  float64
 10  cancelou                50000 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.2+ MB


Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.0,29.0,1.0
2,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.0,12.0,1.0
4,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.0,15.0,1.0


In [10]:
#APAGANDO LINHAS COM VALORES VAZIOS
tabela=tabela.dropna()
tabela.info()
tabela.head()

<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   49996 non-null  float64
 1   sexo                    49996 non-null  object 
 2   tempo_como_cliente      49996 non-null  float64
 3   frequencia_uso          49996 non-null  float64
 4   ligacoes_callcenter     49996 non-null  float64
 5   dias_atraso             49996 non-null  float64
 6   assinatura              49996 non-null  object 
 7   duracao_contrato        49996 non-null  object 
 8   total_gasto             49996 non-null  float64
 9   meses_ultima_interacao  49996 non-null  float64
 10  cancelou                49996 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.6+ MB


Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.0,29.0,1.0
2,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.0,12.0,1.0
4,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.0,15.0,1.0


In [11]:
#VERIFICANDO QUANTOS CLIENTES CANCELARAM (EM NUMEROS ABSOLUTOS)
tabela['cancelou'].value_counts()

Unnamed: 0_level_0,count
cancelou,Unnamed: 1_level_1
1.0,28393
0.0,21603


In [12]:
#VERIFICANDO QUANTOS CLIENTES CANCELARAM (EM PROPORÇÃO)
tabela['cancelou'].value_counts(normalize=True)

Unnamed: 0_level_0,proportion
cancelou,Unnamed: 1_level_1
1.0,0.567905
0.0,0.432095


In [13]:
#VERIFICANDO QUANTOS CLIENTES CANCELARAM (EM PORCENTAGEM)
tabela['cancelou'].value_counts(normalize=True).map('{:.1%}'.format)

Unnamed: 0_level_0,proportion
cancelou,Unnamed: 1_level_1
1.0,56.8%
0.0,43.2%


In [14]:
##ENTENDER COMO CADA COLUNA DA BASE DE DADOS IMPACTA NO CANCELAMENTO
for coluna in tabela.columns:
    grafico=px.histogram(tabela,x=coluna,color='cancelou',text_auto=True)
    grafico.show()

Output hidden; open in https://colab.research.google.com to view.

ANALISES/SUGESTÕES:
1. todos os clientes que ligaram mais de quatro vezes para o call center cancelaram;

	Sugestão: criar alerta para clientes que ligam para o call center mais de duas vezes;
2. todos os clientes que possuem assinatura mensal cancelaram;

	Sugestão: desconto em outras modalidades de contrato para migração do cliente
3. todos os clientes que ficaram com mais de 20 dias atrasados cancelaram;

	Sugestão: criar alerta para time de cobrança de 10 dias para contato de renegociação;

In [15]:
#RESOLVENDO OS PROBLEMAS LEVANTADOS
tabela=tabela[tabela['ligacoes_callcenter']<=4]
tabela=tabela[tabela['dias_atraso']<=20]
tabela=tabela[tabela['duracao_contrato']!='Monthly']

#VERIFICANDO QUANTOS CLIENTES CANCELARAM (EM PORCENTAGEM)
tabela['cancelou'].value_counts(normalize=True).map('{:.1%}'.format)


Unnamed: 0_level_0,proportion
cancelou,Unnamed: 1_level_1
0.0,81.6%
1.0,18.4%


CONCLUSÕES:

Resolvendo os três problemas levantados, idealmente, é possível reduzir o numero de cancelamentos de 43% pra 18%.