# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.


In [None]:
# Passo 1: Importar a base de dados
    # pandas -> trabalhar com base de dados
    # plotly -> trabalhar com gráficos dinâmicos no Python
    # numpy e openpyxl -> da mais funcionalidade ao pandas
    # nbformat e ipykernel -> da mais funcionalidade ao plotly
    # ! utilizado por causa do arquivo ipynb para instalação de bibliotecas

!pip install pandas numpy openpyxl nbformat ipykernel plotly
import pandas as pd

# Passo 2: Visualizar a base de dados
    # entender quais informações eu tenho disponíveis
    # procurar os problemas da base de dados

tabela = pd.read_csv("cancelamentos.csv")
tabela = tabela.drop(columns="CustomerID")
display(tabela)



In [14]:
# Passo 3: Corrigir os problemas da base de dados
display(tabela.info()) # verifica as info da tabela
tabela = tabela.dropna() # dropna vem de nan - informação vazia, nesse caso vai jogar fora todos os valores vazios
#dropduplicate para jogar informações duplicadas fora
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881666 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881664 non-null  float64
 1   sexo                    881664 non-null  object 
 2   tempo_como_cliente      881663 non-null  float64
 3   frequencia_uso          881663 non-null  float64
 4   ligacoes_callcenter     881664 non-null  float64
 5   dias_atraso             881664 non-null  float64
 6   assinatura              881661 non-null  object 
 7   duracao_contrato        881663 non-null  object 
 8   total_gasto             881664 non-null  float64
 9   meses_ultima_interacao  881664 non-null  float64
 10  cancelou                881664 non-null  float64
dtypes: float64(8), object(3)
memory usage: 74.0+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 881659 entries, 0 to 881665
Data columns (total 11 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   idade                   881659 non-null  float64
 1   sexo                    881659 non-null  object 
 2   tempo_como_cliente      881659 non-null  float64
 3   frequencia_uso          881659 non-null  float64
 4   ligacoes_callcenter     881659 non-null  float64
 5   dias_atraso             881659 non-null  float64
 6   assinatura              881659 non-null  object 
 7   duracao_contrato        881659 non-null  object 
 8   total_gasto             881659 non-null  float64
 9   meses_ultima_interacao  881659 non-null  float64
 10  cancelou                881659 non-null  float64
dtypes: float64(8), object(3)
memory usage: 80.7+ MB


None

In [15]:
# Passo 4: Análise dos cancelamentos
display(tabela["cancelou"].value_counts())
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))


cancelou
1.0    499993
0.0    381666
Name: count, dtype: int64

cancelou
1.0    56.7%
0.0    43.3%
Name: proportion, dtype: object

In [16]:
# duração do contrato não pode ser mensal
tabela = tabela[tabela["duracao_contrato"]!="Monthly"]

# em percentual = normalizado (normalize=True)
display(tabela["cancelou"].value_counts(normalize=True))

cancelou
0.0    0.539492
1.0    0.460508
Name: proportion, dtype: float64

In [None]:
# Passo 5: Análise das Causas dos cancelamentos dos clientes
import plotly.express as px
# cria o gráfico 
# para cada coluna da tabela, quero criar um gráfico
for coluna in tabela.columns:

    grafico = px.histogram(tabela, x=coluna, color="cancelou", text_auto=True)
    # exibe o grafico
    grafico.show()



In [17]:
# causas de cancelamento

# todos os clientes de contrato mensal, cancelaram
    # vamos das desconto nos contratos anuais e trimestrais
# todos os clientes com mais de 20 dias de atraso cancelaram o serviço
    # criar um sistema de cobrança dos clientes que com 10 dias de atraso a gente fala
# todos os clientes que ligaram mais de 4x no call center, cancelaram
    # criar uma alerta para um cliente que ligou mais de 2x
# se resolver esses 3 problemas, quanto cai o cancelamento?


# nessa parte o antigo valor da tabela vai ser o novo valor com uma condição em colchetes
# duração do contrato não pode ser mensal
tabela = tabela[tabela["duracao_contrato"]!="Monthly"] # mantem as linhas da coluna duração que for diferente de mensal

# atrasos só podem ser de até 20 dias
tabela = tabela[tabela["dias_atraso"]<=20] # mantem as linhas da coluna dias de atraso que for menores que 20 dias


# ligações no call center só pode ser de até 4 ligações
tabela = tabela[tabela["ligacoes_callcenter"]<=4] # mantem as linhas da coluna ligação call center que forem menores que 4


# em percentual = normalizado

display(tabela["cancelou"].value_counts(normalize=True))
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))



# o numero de cancelamento cai de 56% para 18%

cancelou
0.0    0.816037
1.0    0.183963
Name: proportion, dtype: float64

cancelou
0.0    81.6%
1.0    18.4%
Name: proportion, dtype: object