# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
#!pip install pandas openpyxl numpy nbformat plotly ipykernel 

#Formato de ipynb , usado em projetos de banco de dados 
#roda um cédula de cada vez, como mini códigos

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting nbformat
  Downloading nbformat-5.10.4-py3-none-any.whl.metadata (3.6 kB)
Collecting plotly
  Downloading plotly-6.0.1-py3-none-any.whl.metadata (6.7 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Collecting fastjsonschema>=2.15 (from nbformat)
  Downloading fastjsonschema-2.21.1-py3-none-any.whl.metadata (2.2 kB)
Collecting jsonschema>=2.6 (from nbformat)
  Downloading jsonschema-4.23.0-py3-none-any.whl.metadata (7.9 kB)
Collecting narwhals>=1.15.1 (from plotly)
  Downloading narwhals-1.34.1-py3-none-any.whl.metadata (9.2 kB)
Collecting attrs>=22.2.0 (from jsonschema>=2.6->nbformat)
  Downloading attrs-25.3.0-py3-none-any.whl.metadata (10 kB)
Collecting jsonschema-specifications>=2023.03.6 (from jsonschema>=2.6->nbformat)
  Downloading jsonschema_specifications-2024.10.1-py3-none-any.whl.metadata (3.0 kB)
Collecting referencing

In [None]:
#  passo a passo
# Passo 1: importar a base de dados
import pandas as pd #importar com apelido no caso pd

tabela = pd.read_csv("cancelamentos_sample.csv")

# Passo 2: Visualizar a base de dados (entender informações + encontrar problemas)
# print(tabela)

#Passo 3

#informações inuteis
tabela = tabela.drop(columns="CustomerID")
display(tabela)

In [None]:
# Passo 3: Resolver os problemas da base de dados

#informações no formato errado
#iformações vazias

display(tabela.info())
tabela = tabela.dropna() #joga fora informações vazias
display(tabela.info())

# int -> número inteiro
# float -> número com vígula
# object -> texto

In [None]:
# Passo 4: Análise Incial (quantos clientes cancelaram)
# contar na coluna cancelou os valores
display(tabela["cancelou"].value_counts())
#agora em percentual
display(tabela["cancelou"].value_counts(normalize=True))
#normalize é calcular a proporção

#display(tabela["cancelou"].value_counts(normalize=True).map("{:.1%}".format))
#formata para porcentagem

In [None]:
# Passo 5: Análise a causa dos cancelamentos dos clientes

#quero entender como cada coluna afeta o cancelamento do clinte
# criando gráficos
import plotly.express as px

#para cada coluna na tabela, irá criar um gráfico o exibindo
for coluna in tabela.columns:
    #crie o grafico
    grafico = px.histogram(tabela, x=coluna , color="cancelou") #histograma é um tipo de gráfico que mostra oq vc qr localizar
    #exibe o grafico
    grafico.show()


#formatação, guias , edição visual no gráfico em
#poty.com/python/historiograms/

In [None]:
#Quando os clientes ligam mais de 4 vezes pro callcenter, eles cancelaram 
    #Emitir um alerta, quando ligar mais de 3 vezes

#Todos os clientes do contrato mensal cancelam
    #por um desconto nos outros planos

#Todos clientes que atrasam mais de 20 dias cancelam
    # ligar um alerta pro time de cobrança , quando o cliente bater 10 dias de atraso

#Se eu resolver esses 3 problemas, como fica a taxa de cancelamento?

#callcenter - olhar minha base, excluindo o problema do call center
condicao = tabela["ligacoes_callcenter"] <= 4
tabela = tabela[condicao]
#o novo valor da minha tabela é o antigo valor passando uma condição

#dias_ atraso - olhar minha base, excluindo os clientes q atrasaram 20 dias 
condicao1 = tabela["dias_atraso"] <= 20
tabela = tabela[condicao1]

#duracao_contrato - olhar minha base, excluindo o contrtos mensais
condicao2 = tabela["duracao_contrato"] != "Monthly"
tabela = tabela[condicao2]

display(tabela["cancelou"].value_counts(normalize=True))

#Kagle, base de dados para pegar


cancelou
0.0    0.817004
1.0    0.182996
Name: proportion, dtype: float64