# Python Insights - Analisando Dados com Python

### Case - Cancelamento de Clientes

Você foi contratado por uma empresa com mais de 800 mil clientes para um projeto de Dados. Recentemente a empresa percebeu que da sua base total de clientes, a maioria são clientes inativos, ou seja, que já cancelaram o serviço.

Precisando melhorar seus resultados ela quer conseguir entender os principais motivos desses cancelamentos e quais as ações mais eficientes para reduzir esse número.

Base de dados e arquivos: https://drive.google.com/drive/folders/1uDesZePdkhiraJmiyeZ-w5tfc8XsNYFZ?usp=drive_link

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import openpyxl

In [None]:
tabela = pd.read_csv("cancelamentos.csv")

In [None]:
display(tabela.info())

In [None]:
#Tirando linhas com valores null dropna: deleta valores vazios
tabela = tabela.dropna()
display(tabela.info())

In [None]:
#retirando colunas que não seram úteis durante a análise axis:diz o eixo que vai ser excluído l=0 c=1
#se fosse mais de uma coluna seria: ["CustomerID","OutraColuna"]

tabela = tabela.drop("CustomerID", axis=1)

display(tabela)



In [None]:
#analisar a coluna cancelou, utilizando normalize para ver o percentual
#map para ficar o percentual bonitinho
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))

In [None]:
display(tabela["duracao_contrato"].value_counts(normalize=True))

In [None]:
#agrupando por coluna especifica mean(poderia ser count,sum...) tira a média de acordo com esse agrupamente
#durante a esse processo foi visto que todo tipo de contrato mensal cancela
tabela.groupby("duracao_contrato").mean()

In [None]:
#excluindo todo mundo que é mensal
#verificando a taxa de cancelamento retirando os contratos mensais

tabela = tabela[tabela["duracao_contrato"]!="Monthly"]
display(tabela["cancelou"].value_counts(normalize=True).map("{:.2%}".format))

In [None]:
#plotly.express permite criar gráficos 
#mudando as cores de acordo com o cancelou
#cria um for para exibir cada coluna da tabela relacionando com a coluna de cancelamento
for coluna in tabela.columns:
    grafico = px.histogram(tabela, x=coluna, color="cancelou")
    grafico.show()

In [None]:
tabela = tabela[tabela["ligacoes_callcenter"]<5]

tabela = tabela[tabela["dias_atraso"]<=20]

display(tabela["cancelou"].value_counts(normalize=True))

#com os gráficos foi possivel nortar mais dois problemas: quando ligava mais de 5 vezes no callcenter e mais de 20 dias de atraso
#solucionando esses tres fatores diminuiu bastante o cancelamento 

