In [None]:
# COMENTARIOS

#! Analise de dados:
# Todo projeto de analise de dados chega em forma de problemas, desafios;
# + Exemplo: 26% dos nossos clientes cancelaram, porque isso aconteceu?
# - Usar as bases de dados disponiveis, analisar e descobrir o porque do problema;
# 
# - Python trabalha bem com uma base de dados grande e inteira;
# - Mas informação que nao te ajuda, te atrapalha, com isso é bom remover dados
# que sao irrelevantes para se ter mais desempenho;
# 
# - Porque fazer analise no python e nao no excel e powerBI:
#   + Enquanto nos outros vc tem que fazer manualmente a criação dos graficos, no python basta fazer um loop
#  que percorre as colunas e geram os graficos desejados. Dentre outros beneficios;
# 
#! TRATAMENTO da base de dados:
# - Dificil dizer quais os problemas da base de dados, por isso é importante visualizar
# as informacoes depois que faz a leitura;
# - Ficar atento se as informações estão com o tipo correto (Primeiro problema a ser tratado)
#   + Exemplo: coluna de meses deve ser do tipo numero.
#     Ou seja, colunas que remetem a string devem ter o valores sendo string;
# - Informaçoes vazias. Colunas que tem valores vazios;
#   + Tem diversas formas de tratar esse problema. Quando são colunas completamente vazias
# pode se remover a coluna. Mas quando sao linhas, tem que analisar como aqueles valores afetam
# sua analise dos dados;
# 
#! GRAFICOS:
# - Todo grafico no python é feito em duas etapas, criação e exibição;
# 
#! GLOSSARIO:
# - Churn: termo usado pelas empresas que significa cancelamento de um serviço;
# 
#! COMANDOS:
#* -> pandas:
#? - columns:
#   - Array com o nome das colunas;
# 
#? - drop:
#   - Deleta uma linha ou coluna da tabela;
#   - Tabelas no python é formado por axis (eixos) que podem ser:
#     - axis = 0 -> eixo da linha
#     - axis = 1 -> eixo da coluna
#   + Exemplo:
#     + drop(numero_linha, axis=0)
#     + drop('nome_coluna', axis=1)
# 
#? - dropna:
#   - Remove valores vazios;
#   - Recebe dois parametros:
#     + how: quando apagar. 'all' quando todas tiverem vazias. 'any' quando alguma tiver vazia;
#     + axis: eixo da coluna;
#   + Exemplo: data.dropna(how='all', axis=1)
# 
#? - info:
#   - Mostra um resumo da base de dados, mostrando a quantidade de colunas, linhas,
# quantidade de valores preenchidos e vazios, e como o python ta visualizando os dados,
# ou seja, o tipo.
# 
#? - to_numeric:
#   - Converte os dados para o tipo numerico (float64 ou int64), identificado automaticamente;
#   - Com ele também é possível tratar os dados quando o valor na linha nao pode ser convertido
# para numerico, por exemplo um texto;
#   - Tem 3 opcoes para tratar os erros:
#     + ignore: Ignorar a conversao desse dado;
#     + raise: Desistir da conversao completa;
#     + coerce: Forçar a conversao e deixar vazio, ou seja, NaN;
#   + Exemplo: pd.to_numeric(data['TotalGasto'], errors="coerce")
# 
#? - value_counts:
#   - Conta a quantidade de cada valor na coluna;
#   - Pode ser passado o parametro 'normalize=True' que faz o retorno ser em %;
#   + Exemplo: data['Churn'].value_counts(normalize=True);
# 
#* -> plotly:
#? - show:
#   - exibe o grafico apos sua criacao;
# 
#? - 'nome_grafico':
#   - Cria um grafico de acordo com seu nome;
#   - O primeiro parametro é a tabela, depois tem os eixos e as cores e demais parametros;
#   + Exemplo: histogram: px.histogram(data, x="MesesComoCliente", color="Churn")
# 
#! LIBS:
# * tabula:
#   - Ler tabelas em PDF;
#   - Docs: https://tabula-py.readthedocs.io/en/latest/
# 
# * plotly:
#   - Graficos e dashboards;
#   - Docs: https://plotly.com/python/histograms/
# 
#! OBS:
#   - O tipo 'object' que aparece no comando info é uma string;
#   - No python tudo é identificado pela identação, ou seja, se é criado uma função, um loop, tudo que fazer parte
# deles, devem estar com um tab para dentro;

In [None]:
# IMPORTACOES
import pandas as pd
import plotly.express as px

In [None]:
# LEITURA E TRATAMENTO

# Lendo a base de dados
data = pd.read_csv('telecom_users.csv')

# Deletando colunas desnecessárias
data = data.drop('Unnamed: 0', axis=1)

# Convertendo dados para o tipo correto, neste caso numerico
data['TotalGasto'] = pd.to_numeric(data['TotalGasto'], errors="coerce")

# Tratar informacoes vazias
# colunas completamente vazias
data = data.dropna(how='all', axis=1)

# linhas com info vazias
data = data.dropna(how='any', axis=0)

# Analise dos dados
# conta os valores
print(data['Churn'].value_counts())

# valor em porcentagem e formatado
perc = data['Churn'].value_counts(normalize=True).map('{:.2%}'.format)
print(perc)

In [None]:
# ANALISE DOS DADOS

# Percorre as colunas e gera os graficos concatenando a coluna com o cancelamento
for coluna in data.columns:
    # Criar grafico
    grafico = px.histogram(data, x=coluna, color="Churn", text_auto=True)

    # Exibir grafico
    grafico.show()
