# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes




In [1]:
# Passo a passo
# Passo 1: Importar a base de dados
import pandas as pd
tabela = pd.read_csv("cancelamentos_sample.csv")
print(tabela)

ModuleNotFoundError: No module named 'pandas'

In [None]:
# Passo 2: Visualizar a base de dados (entender a base + identificar problemas)
# Informações que não te ajudam
# CustomerID

tabela = tabela.drop(columns=tabela.columns[0]) #Removendo a coluna 
print(tabela)

       idade    sexo  tempo_como_cliente  frequencia_uso  ligacoes_callcenter  \
0       23.0    Male                13.0            22.0                  2.0   
1       49.0    Male                55.0            16.0                  3.0   
2       30.0    Male                 7.0             1.0                  0.0   
3       26.0    Male                40.0             5.0                  3.0   
4       27.0  Female                17.0            30.0                  5.0   
...      ...     ...                 ...             ...                  ...   
49995   62.0  Female                35.0             7.0                  2.0   
49996   36.0    Male                43.0            21.0                  2.0   
49997   55.0    Male                42.0             8.0                  1.0   
49998   40.0  Female                14.0            19.0                  1.0   
49999   64.0    Male                41.0            29.0                  5.0   

       dias_atraso assinatu

In [None]:
# Passo 3: Corrigir os problemas da base de dados (tratamento de dados)
# Valores vazios
print(tabela.info()) #Vizualizando as colunas e informações
tabela = tabela.dropna()
print(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   50000 non-null  float64
 1   sexo                    49997 non-null  object 
 2   tempo_como_cliente      49998 non-null  float64
 3   frequencia_uso          50000 non-null  float64
 4   ligacoes_callcenter     50000 non-null  float64
 5   dias_atraso             50000 non-null  float64
 6   assinatura              50000 non-null  object 
 7   duracao_contrato        50000 non-null  object 
 8   total_gasto             50000 non-null  float64
 9   meses_ultima_interacao  50000 non-null  float64
 10  cancelou                50000 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.2+ MB
None
<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Cou

In [None]:
# Passo 4: Análise Inicial -> quantos clientes cancelaram e qual o % de clientes
# Contar as colunas que cancelou
print(tabela["cancelou"].value_counts())

print(tabela["cancelou"].value_counts(normalize=True))

cancelou
1.0    28393
0.0    21603
Name: count, dtype: int64
cancelou
1.0    0.567905
0.0    0.432095
Name: proportion, dtype: float64


In [None]:
# Passo 5: Análise da causa de cancelamento dos clientes
# comparar as outras colunas da tabela com a coluna de cancelamento
import plotly.io as pio
pio.renderers.default = 'browser'

import plotly.express as px

# Criando o Gráfico
grafico = px.histogram(tabela, x="duracao_contrato", color="cancelou", text_auto=True) 
# Exibindo o Gráfico
grafico.show()

In [None]:
# Colunas dinâmica
for coluna in tabela.columns:
    
    grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)
    grafico.show()

In [None]:
# Usuarios do contrato mensal sempre cancelam 
    # Evitar o contrato mensal e incentivar ( Com Desconto ) os contratos anuais e trimestrais

# Todos os usuários que ligaram mais de 4X para o call center, cancelam o serviço
    # Criar um processo que quando um usuário ligou 3 vezes para o call center, alerta vermelho

# Usuário que atrasaram o pagamento mais de 20 dias, cancelaram.
    # Criar um alerta para o atraso do pagamento bater 15 dias, entrar em contato

# duracao_contrato -> diferente de mensal
tabela = tabela[tabela["duracao_contrato"]!="Monthly"] # Selecionando uma coluna da tabela com a condição que não tenha o plano (Mensal = Monthly)

# ligacoes_callcenter <= 4
tabela = tabela[tabela["ligacoes_callcenter"]<=4] # Selecionando uma coluna da tabela com condição de ligações menores de 4 vezes

# atraso_pagamento <= 20 dias
tabela = tabela[tabela["dias_atraso"]<=20]

print(tabela["cancelou"].value_counts(normalize=True)) # Selecionando a tabelha e retirando atraso no pagamento menores que 20 dias 

grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)
grafico.show()



cancelou
0.0    0.816462
1.0    0.183538
Name: proportion, dtype: float64
