# Python Insights - Analisando Dados com Python

### Case: Cancelamento de Clientes - Serviço de Streaming

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados, ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

In [10]:
#!pip install pandas openpyxl numpy nbformat plotly ipykernel

#### Passo 1: Importar a base de dados

#### Passo 2: Visualizar a base de dados 

In [None]:
import pandas as pd

tabela = pd.read_csv("cancelamentos.csv")
tabela = tabela.drop(columns="CustomerID")

display(tabela)

#### Passo 3: Resolver problemas da base de dados 
- Informações inúteis
- Informações vazias
- Informações no formato errado

In [None]:
display(tabela.info())

#clientes com informações vazias -> descartar pois não vai prejudicar em nada por serem poucos
tabela = tabela.dropna()
display(tabela.info())

#### Passo 4: Análise exploratória inicial
- Quantos clientes cancelaram
- Qual a % de clientes

In [None]:
# contar na coluna 'cancelou' os valores
display(tabela["cancelou"].value_counts())
#1.0 -> cancelou
#0.0 -> não cancelou

#percentual
display(tabela["cancelou"].value_counts(normalize=True))
#1.0 -> 56,7% cancelaram
#0.0 -> 43,3% não cancelaram

display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))

#### Passo 5: Análise da causa dos cancelamentos dos clientes
*Como cada coluna da base de dados impacta no cancelamento do cliente*
- Criar gráficos & Exibir gráficos

In [None]:
import plotly.express as px

for coluna in tabela.columns:
    #cria o gráfico
    grafico = px.histogram(tabela, x=coluna, color="cancelou")
    #exibe o gráfico
    grafico.show()

#### Passo 6: Filtrar informações partir dos insights da análise
*Como meus dados vão se comportar, assim que aplicar as "soluções" propostas?*
- Testar comportamento EXCLUINDO o problema do callcenter
    - CONDIÇÃO: ligações callcenter <= 4
    - RETORNO: 64% não cancelaram | 36% cancelaram
- Testar comportamento EXCLUINDO o problema do atraso no pagamento
    - CONDIÇÃO: dias de atraso <=20
    - RETORNO: 73% não cancelaram | 27% cancelaram
- Testar comportamento EXCLUINDO o problema do contrato
    - CONDIÇÃO: diferente de mensal
    - RETORNO: 82% não cancelaram | 18% cancelaram

In [None]:
#condição resolvendo o problema do callcenter
tabela = tabela[tabela["ligacoes_callcenter"] <= 4]
display(tabela["cancelou"].value_counts(normalize=True))

#condição resolvendo o problema dos dias de atraso
tabela = tabela[tabela["dias_atraso"] <= 20]
display(tabela["cancelou"].value_counts(normalize=True))

#condição resolvendo o problema da duração do contrato
tabela = tabela[tabela["duracao_contrato"] != "Monthly"]
display(tabela["cancelou"].value_counts(normalize=True))

# Observações + Soluções após análise:

- Clientes que ligaram +de 4x para o callcenter -> cancelaram
    - Criar um alerta quando o cliente ligar a 3a vez

- Todos os clientes do contrato mensal -> cancelaram
    - Aplicar desconto nos outros contratos

- Todos os clientes que atrasaram +de 20 dias no pagamento -> cancelaram
    - Criar alerta no time de cobrança quando o cliente bater 10 dias de atraso