In [None]:
import pandas as pd

In [None]:
# Lendo arquivo
table = pd.read_csv('cancelamentos.csv')
display(table)

In [None]:
#Removendo a coluna CustomerID porque não tem importância para a análise dos dados
table = table.drop('CustomerID', axis=1)
display(table)

Identificando os dados

In [None]:
display(table.info())

Pode verifica-se que temos um total de 881.666 linhas de informações. Mas nem todas essas linhas apresentam valores reais, algumas estão em branco.
Assim irei remover as informações nulas para não ter conflito de informação.

## Tratando e removendo os valores nulos e duplicados

In [None]:
table = table.dropna()
display(table.info())

In [None]:
#Podemos ver que das 881.666 linhas de informações que tinha-mos, 7 dessas informações mostrava valores nulos

In [None]:
#table.duplicated().sum()

In [None]:
#Temos no nossa conjunto de dados um total de 440827 valores duplicados, por isso remover eles é essencial 

In [None]:
#table = table.drop_duplicates()

## Análise Exploratória


 Estatística

In [None]:
table.describe()

In [None]:
#Variância é como os dados estão afastado um dos outros. (Calculo é a raiz quadrada o que representa o std)
#Desvio padrão representa como os dados estão desviando entre a média(mean)
table['cancelou'].var()

Analisando quantas pessoas cancelaram e quantas não cancelaram?


In [None]:
display(table['cancelou'].value_counts())

In [None]:
display(table['cancelou'].value_counts(normalize=True).map('{:.1%}'.format))

Nota-se que 56,7% das pessoas estão cancelando o serviço, ou seja, mais da metade dos clientes. Vamos verificar de onde estao surgindo esses cancelamentos.

## Verificando os cancelamentos por Contrato

In [None]:
display(table['duracao_contrato'].value_counts())
display(table['duracao_contrato'].value_counts(normalize=True).map('{:.1%}'.format))

Podemos ver que existem 3 tipos de contratos, Anual, Trimestral e Mensal. 
Com essa análise temos que contratos Anuais e Trimestrais possuem uma contagem próxima, porém Mensal mostra uma diferença de 20%.
Iremos analisar como estão distribuídos os dados de cancelamentos por tipo de contrato

## Analisando as informações dos Contratos

In [None]:
#Analisando o contrato mensal
display(table.groupby('duracao_contrato').mean(numeric_only=True))

#Para o contrato Mensal temos a média de 1 para os cancelamentos, ou seja, todos ou praticamente todos cancelaram o contrato


## Removendo o Contrato Mensal

In [None]:
#Como vimos que o contrato Mensal representa um alto valor de cancelamentos, iremos remover para analisar os outros
table = table[table['duracao_contrato']!='Monthly']
display(table)

In [None]:
display(table['cancelou'].value_counts())
display(table['cancelou'].value_counts(normalize=True).map('{:.1%}'.format))

Podemos ver que mesmo sem a informação das assinaturas Mensais a porcentagem de cancelamento teve uma queda e passou a ser 43%. 
Mesmo assim é um valor considerável alto, e para isso a analise continua sendo feito até chegarmos num valor aceitável, longe dos 50%.

## Análisando as Assinaturas

In [None]:
#Verificando quais os tipos de assinatura o conjunto de dados possui
display(table['assinatura'].value_counts(normalize=True))

Aqui podemos ver que tem a mesma quantidade para cada tipo de assinatura, ou seja, praticamente 1/3.

In [None]:
#Agrupando as informações por assinaturas e obter a média
display(table.groupby('assinatura').mean(numeric_only=True))

Neste caso temos que a média dos cancelamentos são próximos, e portanto não podemos excluir nenhuma informação por tratar de dados praticamente iguais.

## Análise Gráfica

Criando um gŕafico para entender melhor as informações, porque analisando apenas números fica difícil.

In [None]:
pip install plotly.express

In [None]:

pip show nbformat


In [None]:
pip install --upgrade nbformat


In [None]:


# Análise das causas dos cancelamentos (como as colunas da base impactam no cancelamento)
import plotly.express as px

for coluna in table.columns:
    grafico = px.histogram(table, x=coluna, color="cancelou")
    # exibir o grafico
    grafico.show()