<h1 style="color: red">Fundamentos para Análise de dados</h1>

<h2 style="color: blue"> Usando Pandas</h2>

In [None]:
# Primeira coisa a se fazer sempre é importar as bibliotecas que iremos usar.
import pandas as pd

<h3 style="color: green">Passo 1: Importar base de dados</h3>

<p style ='text-align:justify;'>Devemos importar a base de dados para manipular no python.
Mas quais são os tipos de arquivos suportados pelo pandas?
Alguns exemplos são <b>HTML, CSV, XLS, JSON, SQL, GBQ, HDF5</b> entre outros.
Aqui está a <a href="https://pandas.pydata.org/docs/user_guide/io.html">lista de todos as extensões suportadas</a> tanto para importação quanto para exportação.
<br>
Para importar uma base da dados, por exemplo um xlsx, usando o pandas devemos usar o comando:</p>

In [None]:
# Vamos atribuir o read da base de dados à uma variável em python para que possamos manipular
tabela = pd.read_excel("nome_do_arquivo.xlsx") # Assim, acabamos de importar uma base de dados em xlsx e atribuí-la
# a uma variável
# Podemos visualizar a base de dados atraves do comando print(tabela) ou usando o comando(somente no Jupyter):
display(tabela)

<h3 style="color: green">Passo 2: Tratamento dos dados</h3>

 <p style ='text-align:justify'>É sempre importante  fazer uma verificação de informações na base de dados usando o comando abaixo, assim teremos uma noção de linhas e colunas não preenchidas, o tipo dos dados que preenchem uma célula, entre outas informações que podemos extrair.</p>

In [None]:
print(tabela.info()) # Aqui ele mostra as informações da tabela, como por exemplo a quantidade de colunas e quais 
# são essas tabelas, quantas linhas não nulas existem em cada coluna e o tipo de dado contido em cada coluna

<p style ='text-align:justify'>Há uma ideia fundamental na parte de Análise de Dados que deve ser aplicada nesse passo, que é: <b style="color: #1E90FF">Todo Dado que você não usa, te atrapalha.</b> Aqui devemos fazer o tratamento da tabela:</p> 
<ol style ='text-align:justify;'> 
    <li>Excluir colunas desnecessárias;</li>
    <li>Converter tipos dos Dados que forem necessários;</li>
    <li>Excluir linhas e colunas vazias.</li>
</ol>
<br>
<p style ='text-align:justify;'>Podemos então fazer:</p>

In [None]:
# Para excluir uma coluna ou linha qualquer, independente de vazia ou não, pode-se ser usado o método:
tabela = tabela.drop("NOME_DA_LINHA_OU_COLUNA", axis= 0 ou 1) # O atributo axis é usado para desiginar se será usado linha
# ou coluna. Para todos os efeitos, considere que: axis = 0 -> linha e axis = 1 -> coluna.

In [None]:
# Para transformar um object para um float64, podemos usar:
tabela["NOME _DA_COLUNA"] = pd.to_numeric(tabela["NOME_DA_COLUNA"], errors=parametro) # Existem 3 parametros
# possíveis para o tratamento de erros. Esses 3 são: 
# - "raise":  Emite uma mensagem de erro;
# - "coerce": Deixa a célula em branco:
# - "ignore": Ignora o erro e segue para a próxima linha.

In [None]:
# Para excluir linhas e colunas vazias, podemos fazer, respectivamente:
tabela = tabela.dropna(how = "any", axis = 0) # Excluindo uma linha que tenha qualquer campo vazio. Para que aquele
# campo vazio não venha falsear resultados e influenciar na análise. Mas tome cuidado nessa parte por, caso a 
# de dados, excluída pela exclusão das linhas, seja significante, isso pode refletir nos resultdos. POr exemplo,
# se temos uma base de  dados com 5000 linhas, não faz diferença excluir 10, 20 linhas, entrentanto, se tivermos
# uma base de dados com 100 linhas, essas 10 ou 20 linhas a menos fazem diferença.
tabela = tabela.dropna(how = "all", axis = 1) # Excluindo coluna que tem todos os campos vazios.

In [None]:
# Agora podemos repetir o comando:
print(tabela.info()) # e verificar se está tudo certo para começar a análise.

<h3 style="color: green">Passo 3: Análise inicial</h3>

<p style ='text-align:justify'>Primeiro devemos definir o que vamos análisar, para então saber o que devemos fazer e considerar na análise da base de dados. Por exemplo, vamos supor que queremos analisar a quantidade e a porcentagem de uma coluna da nossa base de dados. Para uma análise superficial inicial, podemos usar os comandos abaixo para realizar isso:</p>

In [None]:
print(tabela["NOME_DA_COLUNA"].value_counts()) # Usado para mostra a quantidade de cada opção de preenchimento da
# tabela.
print(tabela["NOME_DA_COLUNA"].value_counts(normalize = True).map("{:.2%}".format)) # Para exibir o resultado acima
# porém em porcentagem.

<p style ='text-align: justify'> Note que usamos o argumento "normalize = True" no método value_count(), isso faz a normlaização da quantidade de linhas na tabela. Em Fìsica e Matemática, uma normalização leva um valor x para 1, desse modo, o número de tabelas se torna 1, e então é calculado a proporção de cada dado com esse novo valor. Em seguida, usamos o método .map() passando um formato como argumento que faz com que o dado seja apresentado segundo o formato passado pro .map(). Na primeira linha de comando da célula acima, podemos ver que o método value_count é passado sem argumento, isso faz com que seja usado o argumento padrão, que nesse caso é "normalize = False".</p>
<p style ='text-align: justify'>Enfim, existem vários métodos para fazer a análise inicial da base de dados de acordo com que queremos extrair dela.</p>

<h3 style="color: green">Passo 4: Análise aprofundada</h3>

<p style="text-align: justify"> Nessa parte, podemos buscar uma relação entre cada coluna da tabela para entender o que pode estar causando os resultados encontrados no passo anterior. Desse modo podemos analisar o gráfico de comparação de cada uma das outras colunas com a coluna analisada. Para isso devemos importar o módulo: </p>

In [None]:
# Para plotar cada um dos gráficos
!pip install plotly
import plotly.express as pltx

<p style="text-align: justify">Para gerar cada um dos gráficos, podemos usar um laço de repetição, para não precisar repetir os comandos manualmente para cada coluna comparada.</p>
<p style="text-align: justify">Podemos consutar os tipos de gráficos <a href="https://plotly.com/python-api-reference/index.html">aqui.</a> Assim, podemos escolher dentre vários tipos, o que melhor se encaixa na nossa análise.</p>

In [None]:
for coluna in tabela.columns:
    grafico = pltx.histogram(tabela, x=coluna, color="NOME_DA_COLUNA-ANALISADA")
    # Para exibir o gráfico
    grafico.show()

<p style="text-align: justify">A partir daqui podemos analisar de maneira gráfica, visual, a possível relação entre os dados apresentados na DB e então escrever a conclusão da análise.</p>