# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [13]:
#Passo a passo 
#passo 1: importar a base de dados
#passo 2: visualizaer a base de dados
#passo 3: tratar a base de dados
#passo 4: analisar a base de dados(quantos clientes cancelaram, qual o % de clientes)
#passo 5: analise detalhada causa do cancelamento dos clientes

In [18]:
#!pip install pandas openpyxl numpy nbformat plotly ipykernel
#Passo 1: importar a base de dados
#Pandas = --> biblioteca de manipulação de dados
#plotly --> biblioteca de visualização de dados, graficos
import pandas as pd

data_frame = pd.read_csv("cancelamentos_sample.csv") #read_csv = ler arquivo csv

#Passo 2: visualizar a base de dados(2 obj : entender as informacoes + enconrtrar problemas)

#informacoes inuteis --> informacoes que nao vao ajudar na analise
#drop = eliminar colunas 
#index = linhas
data_frame = data_frame.drop(columns = "CustomerID") 
display(data_frame) #display so funciona em jupyter notebook = pynb

Unnamed: 0,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
49995,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


In [19]:
#passo 3: tratar a base de dados
#Imformações inuteis
#imformacoes no formato errado
#informacoes vazias ou nulas

display(data_frame.info()) #info() = mostra as informacoes do dataframe
data_frame = data_frame.dropna() #dropna() = elimina as linhas com valores nulos
display(data_frame.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   50000 non-null  float64
 1   sexo                    49997 non-null  object 
 2   tempo_como_cliente      49998 non-null  float64
 3   frequencia_uso          50000 non-null  float64
 4   ligacoes_callcenter     50000 non-null  float64
 5   dias_atraso             50000 non-null  float64
 6   assinatura              50000 non-null  object 
 7   duracao_contrato        50000 non-null  object 
 8   total_gasto             50000 non-null  float64
 9   meses_ultima_interacao  50000 non-null  float64
 10  cancelou                50000 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.2+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   49996 non-null  float64
 1   sexo                    49996 non-null  object 
 2   tempo_como_cliente      49996 non-null  float64
 3   frequencia_uso          49996 non-null  float64
 4   ligacoes_callcenter     49996 non-null  float64
 5   dias_atraso             49996 non-null  float64
 6   assinatura              49996 non-null  object 
 7   duracao_contrato        49996 non-null  object 
 8   total_gasto             49996 non-null  float64
 9   meses_ultima_interacao  49996 non-null  float64
 10  cancelou                49996 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.6+ MB


None

In [20]:
#passo 4 : analisar a base de dados(quantos clientes cancelaram, qual o % de clientes)
#contar na coluna cancelou os valores sim e nao
display(data_frame["cancelou"].value_counts()) #value_counts() = conta os valores unicos de uma coluna
#em percentual
display(data_frame["cancelou"].value_counts(normalize=True)) #normalize = True --> transforma em percentual
#display(data_frame["cancelou"].value_counts(normalize = True).map("{:.1%}".format)) 
#map("{:.1%}".format) --> formata o percentual para 1 casa decimal


cancelou
1.0    28393
0.0    21603
Name: count, dtype: int64

cancelou
1.0    0.567905
0.0    0.432095
Name: proportion, dtype: float64

In [29]:
# Passo 5: Análise das causas dos cancelamentos (como as colunas da base impactam no cancelamento)
# gráficos/dashboards
# !pip install plotly
import plotly.express as px

# criar o grafico com título personalizado para cada coluna
for coluna in data_frame.columns:
    # Criar título personalizado baseado na coluna
    titulo = f"📊 Análise de Cancelamentos por {coluna.replace('_', ' ').title()}"
    
    grafico = px.histogram(data_frame, x=coluna, color="cancelou", 
                          title=titulo,
                          labels={'cancelou': 'Cancelou', coluna: coluna.replace('_', ' ').title()})
    # exibir o grafico
    grafico.show()

In [22]:
# clientes do contrato mensal TODOS cancelam
    # ofercer desconto nos planos anuais e trimestrais
# clientes que ligam mais do que 4 vezes para o call center, cancelam
    # criar um processo para resolver o problema do cliente em no máximo 3 ligações
# clientes que atrasaram mais de 20 dias, cancelaram
    # política de resolver atrasos em até 10 dias (equipe financeira)

data_frame = data_frame[data_frame["duracao_contrato"]!="Monthly"]
data_frame = data_frame[data_frame["ligacoes_callcenter"]<=4]
data_frame = data_frame[data_frame["dias_atraso"]<=20]

display(data_frame["cancelou"].value_counts())
# em percentual
display(data_frame["cancelou"].value_counts(normalize=True))

cancelou
0.0    21446
1.0     4821
Name: count, dtype: int64

cancelou
0.0    0.816462
1.0    0.183538
Name: proportion, dtype: float64