### Passos para resolver o problema do Projeto:
1. Importar a base de dados
2. Visualizar a base de dados
3. Tratamento de erros (resolver as cagadas da base de dados)
4. Realizar análise inicial da base de dados (entender como estão os cancelamentos)
5. Realizar análise profunda da base de dados (encontrar as causas dos cancelamentos)



### 1. Importar a base de dados
É necessário também importar bibliotecas. Estas são conjuntos de ferramentas que auxiliam a resolver um determinado problema.

In [None]:
# Importando biblioteca
import pandas

# Importando base de dados
tabela = pandas.read_csv("cancelamentos.csv")
""" A variável tabela recebe os valores do arquivo cancelamentos.csv lidos por meio da biblioteca pandas """

### 2. Visualizar a tabela
Por meio do método display() podemos ler os dados de cada coluna presentes na variável tabela. Basta inserir o nome da variável como parâmetro.

In [None]:
# Visualização da tabela
display(tabela) # display é melhor que print para mostrar uma tabela. Não está presente em formato py.

### 3. Tratamento de erros
Busca verificar e eliminar dados que atrapalhem durante a análise de dados. Geralmente são dados sem serventia ou que apresentam falta de informações.

Por exemplo:

In [None]:
display(tabela.info())
""" É notado que em cada coluna (idade, sexo etc) se tem valores menores que 881665 (total de linhas) 
na coluna Non-Null. Isso identifica que existe linhas com elementos vazios que devem ser retiradas da tabela """
tabela = tabela.dropna() # deleta linhas com valores vazios
display(tabela.info()) # agora temos 881659 linhas sem valores vazios. Note que cada atributo apresenta esse valor




In [None]:
""" Na tabela também é visto que existe a coluna CustomerID. Esta não apresenta valor algum para o tratamento
de dados, logo pode ser eliminado """
tabela = tabela.drop("CustomerID", axis = 1) # axis = 1 remove coluna. Axis = 0 remove linhas
display(tabela) # não existe mais a coluna CustomerID
# Observação: irá dar erro nesta seção uma vez que a coluna CustomerID não existir mais.

### 4. Realizar análise inicial da base de dados (entender como estão os cancelamentos)
Primeiro será preciso exibir a coluna dos cancelamentos, identificando quantos cancelaram e quantos não cancelaram.

In [None]:
display(tabela["cancelou"].value_counts()) # value_counts irá contar quantas vezes um tipo de valor reaparece na tabela
# O resultado da tabela acima: 499993 cancelaram e 381666 não cancelaram
display(tabela["cancelou"].value_counts(normalize=True)) # Transformou em porcentagem

In [None]:
display(tabela["duracao_contrato"].value_counts(normalize=True))
# o número de contratos por mês é bem menor do que anualmente ou trimestralmente

In [None]:
display(tabela.groupby("duracao_contrato").mean(numeric_only=True)) # groupby organiza a tabela se baseando nos valores de uma coluna
# mean realiza uma média

""" Pode ser observado que a média de cancelamento dos contratos mensais é muito maior que o resto visto que é de 100%"""

In [None]:
""" Agora será verificado como os dados irão se comportar caso valor mensal seja retirado da tabela"""
tabela=tabela[tabela["duracao_contrato"] != "Monthly"]
display(tabela["cancelou"].value_counts(normalize=True)) 
# A maior parte dos contratos anuais e trimestrais não cancelaram

### 5. Realizar análise profunda da base de dados (encontrar as causas dos cancelamentos)
Devido a necessidade de analisar muitos dados, a utilização da tabela não é tão eficiente por não ser muito visual. Então será feito gráficos para facilitar a leitura.


In [None]:
import plotly.express as px

for coluna in tabela.columns: # columns é o espaço onde estão os atributos. 
# for identifica que para cada variável coluna, esta recebe o nome da coluna da tabela.
    grafico = px.histogram(tabela, x = coluna, color = "cancelou") # o histograma precisa de 3 informações: tabela, eixo x e cor
# com isso, cada coluna será comparada com a coluna cancelou para buscar por erros
    grafico.show() # será criado um gráfico para cada coluna da tabela

### Resultado
Por meio dos gráficos é vísivel que os fatores relacionados ao cancelamento envolvem clientes com idade acima de 50 anos, que ligaram 5 ou mais vezes para o call center e tiveram mais de 20 dias de atraso. Com isso, se faz necessário entender e sanar os problemas enfrentados pelo call center na resolução das dificuldades dos clientes, evitando assim que as ligações se aproximem de 5 tentativas e que o tempo de espera se mantenha abaixo de 21 dias de atraso.