# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
# Passo a passo
# Passo 1: Importar base de dados
# Passo 2: Visualizar base de dados
# Passo 3: Corrigir cagadas da base de dados
# Passo 4: Análise dos cancelamentos
# Passo 5: Análise da causa dos cancelamentos (como as colunas impactam no cancelamento?)

# !pip install pandas numpy openpyxl nbformat ipykernel plotly
# Passo a passo do projeto
# Passo 1: Importar a base de dados
import pandas as pd

tabela = pd.read_csv("cancelamentos_sample.csv")

# Passo 2: Visualizar a base de dados----------------------------------------

# Removendo a coluna CustomerID, pois não é relevante para a análise
tabela = tabela.drop(columns="CustomerID")

# Renomeando uma coluna
tabela.rename(columns={'tempo_como_cliente': 'tempo_de_cliente'}, inplace=True)

display(tabela)
# colunas inúteis - informações que não te ajudam, te atrapalham
# Procurar: Informações inúteis, informações erradas, campos vazios.

In [13]:
# Passo 3: Corrigir as cagadas da base de dados
display(tabela.info())

# Valores vazios - excluir as linhas que têm valores vazios
tabela = tabela.dropna()

display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   50000 non-null  float64
 1   sexo                    49997 non-null  object 
 2   tempo_de_cliente        49998 non-null  float64
 3   frequencia_uso          50000 non-null  float64
 4   ligacoes_callcenter     50000 non-null  float64
 5   dias_atraso             50000 non-null  float64
 6   assinatura              50000 non-null  object 
 7   duracao_contrato        50000 non-null  object 
 8   total_gasto             50000 non-null  float64
 9   meses_ultima_interacao  50000 non-null  float64
 10  cancelou                50000 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.2+ MB


None

<class 'pandas.core.frame.DataFrame'>
Index: 49996 entries, 0 to 49999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   idade                   49996 non-null  float64
 1   sexo                    49996 non-null  object 
 2   tempo_de_cliente        49996 non-null  float64
 3   frequencia_uso          49996 non-null  float64
 4   ligacoes_callcenter     49996 non-null  float64
 5   dias_atraso             49996 non-null  float64
 6   assinatura              49996 non-null  object 
 7   duracao_contrato        49996 non-null  object 
 8   total_gasto             49996 non-null  float64
 9   meses_ultima_interacao  49996 non-null  float64
 10  cancelou                49996 non-null  float64
dtypes: float64(8), object(3)
memory usage: 4.6+ MB


None

In [14]:
# Passo 4: Análise inicial dos cancelamentos

# quantas pessoas cancelaram e quantas não cancelaram
display(tabela["cancelou"].value_counts())

# em percentual
display(tabela["cancelou"].value_counts(normalize=True))
display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

cancelou
1.0    28393
0.0    21603
Name: count, dtype: int64

cancelou
1.0    0.567905
0.0    0.432095
Name: proportion, dtype: float64

cancelou
1.0    56.8%
0.0    43.2%
Name: proportion, dtype: object

In [None]:
# Passo 5: Análise das causas dos cancelamentos (como as colunas da base impactam no cancelamento)
# gráficos/dashboards
!pip install plotly
import plotly.express as px

# criar o grafico

for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou")
    # exibir o grafico
    grafico.show()

ModuleNotFoundError: No module named 'plotly'

In [30]:
# clientes do contrato mensal TODOS cancelam
    # ofercer desconto nos planos anuais e trimestrais
# clientes que ligam mais do que 4 vezes para o call center, cancelam
    # criar um processo para resolver o problema do cliente em no máximo 3 ligações
# clientes que atrasaram mais de 20 dias, cancelaram
    # política de resolver atrasos em até 10 dias (equipe financeira)

tabela = tabela[tabela["duracao_contrato"]!="Monthly"]
tabela = tabela[tabela["ligacoes_callcenter"]<=4]
tabela = tabela[tabela["dias_atraso"]<=20]

display(tabela["cancelou"].value_counts())
# em percentual
display(tabela["cancelou"].value_counts(normalize=True))


cancelou
0.0    21446
1.0     4821
Name: count, dtype: int64

cancelou
0.0    0.816462
1.0    0.183538
Name: proportion, dtype: float64

In [2]:
# !pip install nbformat --upgrade

Collecting nbformat
  Downloading nbformat-5.9.2-py3-none-any.whl (77 kB)
     ---------------------------------------- 77.6/77.6 kB ? eta 0:00:00
Installing collected packages: nbformat
  Attempting uninstall: nbformat
    Found existing installation: nbformat 5.7.0
    Uninstalling nbformat-5.7.0:
      Successfully uninstalled nbformat-5.7.0
Successfully installed nbformat-5.9.2


ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
conda-repo-cli 1.0.41 requires requests_mock, which is not installed.
conda-repo-cli 1.0.41 requires clyent==1.2.1, but you have clyent 1.2.2 which is incompatible.
conda-repo-cli 1.0.41 requires nbformat==5.4.0, but you have nbformat 5.9.2 which is incompatible.
conda-repo-cli 1.0.41 requires requests==2.28.1, but you have requests 2.31.0 which is incompatible.
