# Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

In [2]:
### Passo 1: Importar a base de dados
import pandas as pd # Biblioteca para análises e manipulação de dados

tabela = pd.read_csv("cancelamentos_sample.csv")

In [3]:
### Passo 2: Visualizar a base de dados (2 objetivo: entender as informações + encontrar problemas)

display(tabela)

Unnamed: 0,CustomerID,idade,sexo,tempo_como_cliente,frequencia_uso,ligacoes_callcenter,dias_atraso,assinatura,duracao_contrato,total_gasto,meses_ultima_interacao,cancelou
0,349936.0,23.0,Male,13.0,22.0,2.0,1.0,Standard,Annual,909.58,23.0,0.0
1,100634.0,49.0,Male,55.0,16.0,3.0,6.0,Premium,Monthly,207.00,29.0,1.0
2,301263.0,30.0,Male,7.0,1.0,0.0,8.0,Basic,Annual,768.78,7.0,0.0
3,119358.0,26.0,Male,40.0,5.0,3.0,8.0,Premium,Annual,398.00,12.0,1.0
4,130955.0,27.0,Female,17.0,30.0,5.0,6.0,Basic,Annual,507.00,15.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
49995,195680.0,62.0,Female,35.0,7.0,2.0,8.0,Basic,Annual,232.00,15.0,1.0
49996,43477.0,36.0,Male,43.0,21.0,2.0,30.0,Basic,Quarterly,928.00,30.0,1.0
49997,169273.0,55.0,Male,42.0,8.0,1.0,12.0,Basic,Monthly,326.00,27.0,1.0
49998,310693.0,40.0,Female,14.0,19.0,1.0,17.0,Premium,Quarterly,826.76,12.0,0.0


In [4]:
### Passo 3: Resolver os problemas da base de dados (tratamento de dados)

## Excluir informções "inúteis" para entender o problema
tabela = tabela.drop(columns= "CustomerID")

## Verificar se as informções estão categorizados com o tipo correto e se existem células vazias no DataFrame
display(tabela.info())

## Excluir as linhas que possuem células vazias
tabela = tabela.dropna()
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   50000 non-null  float64
 1   sexo                    49997 non-null  object 
 2   tempo_como_cliente      49998 non-null  float64
 3   frequencia_uso          50000 non-null  float64
 4   ligacoes_callcenter     50000 non-null  float64
 5   dias_atraso             50000 non-null  float64
 6   assinatura              50000 non-null  object 
 7   duracao_contrato        50000 non-null  object 
 8   total_gasto             50000 non-null  float64
 9   meses_ultima_interacao  50000 non-null  float64
 10  cancelou                50000 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.2+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   49996 non-null  float64
 1   sexo                    49996 non-null  object 
 2   tempo_como_cliente      49996 non-null  float64
 3   frequencia_uso          49996 non-null  float64
 4   ligacoes_callcenter     49996 non-null  float64
 5   dias_atraso             49996 non-null  float64
 6   assinatura              49996 non-null  object 
 7   duracao_contrato        49996 non-null  object 
 8   total_gasto             49996 non-null  float64
 9   meses_ultima_interacao  49996 non-null  float64
 10  cancelou                49996 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.6+ MB


None

In [5]:
### Passo 4: Análise inicial (quantos clientes cancelaram, qual a % de clientes)

## Contar os valores na coluna "cancelou"
print(tabela["cancelou"].value_counts())

## Em percentual
print(tabela["cancelou"].value_counts(normalize=True))

cancelou
1.0    28393
0.0    21603
Name: count, dtype: int64
cancelou
1.0    0.567905
0.0    0.432095
Name: proportion, dtype: float64


In [12]:
    ### Passo 5: Análise da causa dos cancelamentos dos clientes

    # Biblioteca de gráficos
    import plotly.express as px

    ## Entender como cada coluna na base de dados impacta no cancelamento do cliente

    # Criar e exibir gráficos para cada coluna
    for coluna in tabela.columns:
        grafico = px.histogram(tabela, x = coluna, color = "cancelou", text_auto = True)
        # Exibir gráfico
        grafico.show()

In [13]:
### Passo 6: Identificando os maiores problemas
# Clientes que ligaram mais de 4 vezes para o call center concelam
    # Vamos criar um alerta quando o cliente ligar a terceira vez

# Todos os clientes do contrato mensal cancelam
    # Vamos dar desconto em outros contratos

# Todos os clientes que atrasaram mais de 20 dias, cancelam
    # Ligar um alerta pro time de cobrança quando o cliente bater 10 dias de atraso

# Caso resolvessemos esse problema, como ficaria a taxa de cancelamento?

In [14]:
### Passo 7: Resolver os problemas detectados
## Problema do call center
# Olhar a minha base excluindo o problema do call center

# Filtrar a tabela de acordo com condições
condicao = tabela["ligacoes_callcenter"]<5
tabela = tabela[condicao]

## Problema de dias de atraso
condicao = tabela["dias_atraso"]<=20
tabela = tabela[condicao]

## Problema duração contrato
condicao = tabela["duracao_contrato"]!= "Monthly"
tabela = tabela[condicao]

print(tabela["cancelou"].value_counts(normalize=True))

cancelou
0.0    0.816462
1.0    0.183538
Name: proportion, dtype: float64
