# **Análise e visualização de dados**
> Parte 1


Hoje, vamos começar a analisar os nossos dados. Vimos até aqui o trabalho duro que é organizar e pré-processar os dados para que tenhamos o mínimo de erros no momento de extrair as informações deles.  
Chegou o momento de entendermos os nossos dados!

### **Como sempre, começamos importando as bibliotecas**

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## **ℹ️ Sobre o nosso conjunto de dados**
O conjunto de dados intitulado "**Hábitos estudantis *vs* performance acadêmica**" é uma adaptação do dataset **Student Habits vs Academic Performance**, disponível no kaggle.
> O link para o conjunto de dados original é: [Student Habits vs Academic Performance](https://www.kaggle.com/datasets/jayaantanaath/student-habits-vs-academic-performance)

A adaptação do conjunto de dados envolveu apenas a tradução das variáveis e classificações do inglês para o português.

### **Dicionário de dados**

| variável       | coluna                         | descrição                                                                 |
|----------------------------------------------|--------------------------------|---------------------------------------------------------------------------|
| Identificador do estudante                   | id_estudante                   | Código único para identificar cada estudante                              |
| Idade                                         | idade                          | Idade do estudante em anos                                                |
| Sexo                                          | sexo                           | Sexo indicado pelo estudante       |
| Horas de estudo por dia                      | horas_estudo_dia              | Quantidade média de horas dedicadas ao estudo por dia                     |
| Horas em redes sociais                       | horas_redes_sociais           | Tempo médio diário gasto em redes sociais (em horas)                      |
| Horas assistindo Netflix                     | horas_netflix                 | Tempo médio diário assistindo à Netflix (em horas)                        |
| Trabalho de meio período                     | trabalho_meio_periodo         | Indica se o estudante trabalha meio período (sim ou não)                  |
| Percentual de presença                       | percentual_presenca           | Frequência do estudante nas aulas, em percentual                          |
| Horas de sono                                | horas_sono                    | Tempo médio diário de sono (em horas)                                     |
| Qualidade da dieta                           | qualidade_dieta               | Avaliação subjetiva da alimentação (ruim, razoável, bom)                  |
| Frequência de exercícios                     | freq_exercicios               | Número médio de dias por semana em que o estudante pratica exercícios     |
| Nível de escolaridade dos pais               | nivel_educacao_pais           | Maior nível de escolaridade entre os pais (ex: ensino médio, mestrado)    |
| Qualidade da internet                        | qualidade_internet            | Avaliação subjetiva da qualidade da conexão de internet (ruim, média, boa)|
| Avaliação da saúde mental                    | avaliacao_saude_mental        | Autoavaliação da saúde mental em uma escala numérica                      |
| Participação em atividades extracurriculares | participacao_extracurricular  | Indica se o estudante participa de atividades extracurriculares (sim ou não) |
| Nota no exame final                          | nota_exame                    | Desempenho do estudante no exame final (0 a 100)                          |


## **Análise exploratória de dados**

A análise exploratória de dados é o processo inicial de investigação de um conjunto de dados. Através dela, podemos **resumir as principais características, identificar padrões, tendências, valores ausentes e outliers**, geralmente por meio de estatísticas descritivas e visualizações.

### **❗ Lembrem de inserir os dados antes de ler**
Relembrando:
1. Abre o menu de arquivos (ícone de pasta à esquerda);
2. Clica na opção de upload;
3. Insere o arquivo com os dados.

### **Lendo e exibindo os dados**

In [None]:
df_estudantes = pd.read_csv('/content/habitos-estudantis_performance-academica.csv')
df_estudantes.info()

In [None]:
df_estudantes.head()

### **Verificando a estrutura e os dados**
Antes de partir para análise, devemos sempre verificar os nossos dados. É assim que descobrimos se o conjunto foi bem organizado e está pronto para ser analisado.  
E se os dados estiverem bagunçados?
> Esse é o momento de parar a análise, ir no conteúdo do módulo anterior e executar o pré-processamento de dados, aplicando os princípios que vimos.


#### **Valores ausentes**

In [None]:
df_estudantes.isnull().sum()

Parece que demos sorte. Não há nenhum valor ausente, então, podemos partir para a próxima verificação: se as variáveis categóricas foram devidamente padronizadas.

#### **Padrões das variáveis categóricas**

In [None]:
for coluna in df_estudantes.columns:
  if df_estudantes[coluna].dtype == 'object' and coluna != "id_estudante":

    print(f'{coluna}: {df_estudantes[coluna].unique()}')

Já estamos acostumados ao loop `for` e também à nossa função de verificar os valores únicos, a `unique`. Porém, temos algo novo nesse código: a linha `if df_estudantes[coluna].dtype == 'object' and coluna != "id_estudante":`.  
Explicando passo a passo:
* `if` é uma estrutura de decisão (ou estrutura condicional), que siginifica **se**. É através dela que podemos fazer comparações ou conferir os nossos dados;
* `df_estudantes[coluna].dtype == 'object'`: aqui estamos verificando se a nossa coluna é do tipo `object`. Vejam que pela primeira vez usamos o verdadeiro símbolo de **igual**, o ==. Sim, na programação, dizer que algo é igual a outra coisa, implica em `algo == outra_coisa`;
* `and`: semelhante à busca de artigos, representa o **e**, um operador lógico. Ou seja, estamos dizendo que queremos conferir o tipo da coluna **E** o nome da coluna;
* Além do igual, estamos vendo também o símbolo de diferente, o `!=`. E nesse caso, ele está dizendo que o nome da coluna deve ser diferente de `id_estudante`.

### **Estatística descritiva**
Estatísticas descritivas são **medidas que resumem e descrevem as principais características de um conjunto de dados**. Elas ajudam a entender a distribuição, tendência central e dispersão dos dados, sem tirar conclusões além do que está na amostra.

### **Variáveis categóricas**

In [None]:
for coluna in df_estudantes.columns:
  if df_estudantes[coluna].dtype == 'object' and coluna != "id_estudante":
    display(df_estudantes[coluna].value_counts())

Uma das formas mais comuns de avaliarmos variáveis categóricas é através da frequência das ocorrências, ou seja, quantas vezes cada ocorrência apareceu?

E é isso que estamos fazendo no código acima. Conferimos cada coluna que possui variáveis categóricas e pedimos para contar os valores, exibindo a frequência de cada um.

#### **Exibindo os percentuais**
E se quisermos percentuais ao invés da contagem?

In [None]:
qualidade_internet = df_estudantes['qualidade_internet'].value_counts(normalize=True)

qualidade_internet = qualidade_internet * 100

display(qualidade_internet)

O que precisamos fazer é **normalizar** os nossos dados — basicamente, calcular o percentual. Assim:
* Usamos `normalize=True` na nossa função, pedindo para ela normalizar os valores — aqui, os dados serão normalizados como frações e exibidas como números de ponto flutuante (ex.: 0.40);
* Calculamos o nosso percentual através da linha `qualidade_internet = qualidade_internet * 100`, que atualiza todos os valores, multiplicando-os por 100.

#### **Visualizando as frequências**
Ainda melhor do que calcular, é poder visualizar as nossas frequências. E, para isso, podemos começar a usar alguns tipos de gráficos.

##### **Gráfico de barras**
O gráfico de barras (tanto horizontais quanto gráficos de colunas — gráfico de barras na vertical) exibem retângulos proporcionais aos valores que eles representam. É um tipo de gráfico útil para comparar o número de ocorrências de cada valor que estamos avaliando.

In [None]:
dados_educacao_pais = df_estudantes['nivel_educacao_pais'].value_counts()

plt.figure(figsize=(6, 5))                      #tamanho da figura
plt.title("Grau de escolarização dos pais")     #título
plt.xlabel("Grau de escolarização")             #rótulo no eixo X
plt.ylabel("Contagem")                          #rótulo no eixo Y

#gráfico de barras
fig = sns.barplot(x=dados_educacao_pais.index,
                  y=dados_educacao_pais.values)

fig.bar_label(fig.containers[0])                #adiciona os valores nas barras


plt.savefig('grau-escolarizacao.png')           #salva a figura

plt.show()                                      #mostra o gráfico

Tem muita coisa acontecendo nesse código, mas vamos lá:
* `dados_educacao_pais = df_estudantes['nivel_educacao_pais'].value_counts()`: estamos "filtrando" os nossos dados, guardando apenas as frequências da coluna `nivel_educacao_pais`;
* `plt.figure(figsize=(6, 3))`: aqui é para definir o tamanho da figura. Dentro do `figszie`, inserimos dois números que são respectivamente, a largura e a altura da figura;
* As linhas também são relacionadas à estrutura da figura:
    * `plt.title("Grau de escolarização dos pais") `: título da visualização;
    * `plt.xlabel("Grau de escolarização")`: rótulo no eixo X — a variável que aparece no eixo X;
    * `plt.ylabel("Contagem")`: rótulo no eixo Y — nesse caso, a contagem ou frequência.
* Aqui é gerada a nossa figura:   
    `fig = sns.barplot(x=dados_educacao_pais.index, y=dados_educacao_pais.values)`  
    Estamos criando um gráfico de barras, onde no eixo X temos os índices (cada categoria relacionada ao nível de escolaridade) e no eixo Y os valores (a quantidade de vezes que cada nível de escolaridade apareceu nos dados).
* A linha `fig.bar_label(fig.containers[0])` é responsável por inserir o valor associado à cada barra no nosso gráfico;
* `plt.savefig('grau-escolarizacao.png')` é a linha que salva a nossa figura — notem que devemos inserir um nome para o arquivo (`grau-escolarizacao`) e também adicionar o seu tipo (`.png`);
* Por fim: `plt.show()` para exibir o gráfico.      

**Observação**: as imagens salvas também ficam na área de arquivos (ícone 📁, no menu à esquerda) e devem ser devidamente baixadas no seu computador caso queiram armazená-las.

#### **📝 Exercício**
Completem o código abaixo com:
* O tamanho da figura;
* O título do gráfico;
* O rótulo para o eixo X;
* O rótulo para o eixo Y;
* O nome do arquivo e a extensão para salvarmos a figura.

In [None]:
qualidade_dieta = df_estudantes['qualidade_dieta'].value_counts()

plt.figure(figsize=())
plt.title()
plt.xlabel()
plt.ylabel()

fig = sns.barplot(x=qualidade_dieta.index,
                  y=qualidade_dieta.values)

fig.bar_label(fig.containers[0])

plt.savefig()

plt.show()

### **Variáveis numéricas**
São as variáveis que podem ser medidas em uma escala quantitativa, ou seja, possuem um valor numérico associado.

In [None]:
df_estudantes.describe()

A função `describe` percorre todas as colunas do nosso DataFrame que possuem tipo numérico (`int64` ou `float64`), calcula e exibe as estatísticas relacionadas no formato de tabela.

Vamos entender melhor cada uma das estatísticas que aparecem:

| Função | Estatística | Explicação |
|-------------|-------------------|------------|
| **count**   | Contagem          | Número total de valores não-nulos em cada coluna. Mostra quantos dados você realmente tem para análise. Se for menor que o esperado, pode indicar valores faltantes. |
| **mean**    | Média             | A soma de todos os valores dividida pela contagem. Representa o "ponto de equilíbrio" dos dados, mas pode ser influenciada por valores extremos. |
| **std**     | Desvio padrão     | Mede a dispersão dos dados em relação à média. Valores pequenos indicam dados concentrados próximos à média; valores grandes mostram dados mais espalhados. |
| **min**     | Mínimo            | O menor valor encontrado na coluna. Útil para identificar limites inferiores e possíveis anomalias. |
| **25%**     | Primeiro quartil  | Valor abaixo do qual estão 25% dos dados. Marca o início da "caixa" num boxplot. |
| **50%**     | Mediana           | Valor do meio quando os dados estão ordenados. Divide o conjunto exatamente ao meio e não é afetada por valores extremos como a média. |
| **75%**     | Terceiro quartil  | Valor abaixo do qual estão 75% dos dados. Marca o final da "caixa" num boxplot. |
| **max**     | Máximo            | O maior valor encontrado na coluna. Útil para identificar limites superiores e possíveis anomalias. |

A distância entre o primeiro e terceiro quartil (chamada amplitude interquartil) mostra onde a maioria dos seus dados está concentrada. Comparar mínimo e máximo revela a amplitude total do conjunto. Se a média e a mediana forem muito diferentes, provavelmente há valores extremos influenciando os resultados.

Mais uma vez notamos números decimais muito extensos. Então, trouxemos uma explicação mais aprofundada para vocês:
> Isso decorre da forma como os números de ponto flutuante são armazenados no computador. Um computador não compreende números da mesma forma que nós, humanos. Dentro da máquina, os números viram conjuntos de 0s e 1s, os chamados números binários. O problema está no fato de que muitas frações decimais não podem ser representadas precisamente como frações binárias. Então, os números decimais de ponto flutuante que digitamos acabam sendo armazenados de forma apenas aproximada, na forma de números binários de ponto flutuante.   
*(Adaptado de: [Aritmética de ponto flutuante: problemas e limitações](https://docs.python.org/pt-br/3/tutorial/floatingpoint.html#floating-point-arithmetic-issues-and-limitations))*

In [None]:
for coluna in df_estudantes.columns:
    if df_estudantes[coluna].dtype != 'object':

        display(df_estudantes[coluna].agg(['min', 'max', 'mean', 'median', 'std']))

Também é possível extrair as estatísticas das colunas através da função `agg`. Aplicando nela em uma determinada coluna e especificando as estatísticas desejadas — nesse caso inserimos `'min', 'max', 'mean', 'median'` e `'std'` —, são exibidos os resultados.

#### **Visualizando distribuições**
Nas variáveis numéricas, também é muito importante verificar as distribuições de frequências — quantas vezes cada valor apareceu no nosso conjunto.

Uma das formas de verificar isso nós já vimos, é através do `value_counts`. Agora, vamos entender como ficaria essa distribuição quando construímos a sua representação gráfica, o **histograma**.

In [None]:
df_estudantes['avaliacao_saude_mental'].value_counts()

##### **Histograma**
O [histograma](https://pt.wikipedia.org/wiki/Histograma) é um gráfico que apresenta, de maneira ordenada, as frequências para cada classe ou valor no conjunto de dados. Geralmente, é usado para dados contínuos, em que os intervalos de classe representam a extensão dos dados.  
Nesse tipo de gráfico, a base de cada retângulo representa uma classe ou categoria, e a altura representa a quantidade ou a frequência absoluta com que o valor da classe ocorre no conjunto de dados.

In [None]:
plt.figure(figsize=(6, 3))
plt.title("Distribuição da avaliação de saúde mental")
plt.xlabel("Avaliação")
plt.ylabel("Contagem")

fig = sns.histplot(df_estudantes,
                   x=df_estudantes['avaliacao_saude_mental'],
                   discrete=True)

#adiciona os valores nas barras
fig.bar_label(fig.containers[0])

#adiciona todos os valores no eixo X
plt.xticks(ticks=df_estudantes['avaliacao_saude_mental'].unique())

#ajusta o limite do eixo Y
plt.ylim(0, 140)

plt.show()

Nessa construção de gráfico, temos duas novas linhas:
* `plt.xticks(ticks=df_estudantes['avaliacao_saude_mental'].unique())`: através dela nós inserimos todas as marcações no eixo X — notem que todas as notas de avaliação (de 1 à 10) aparecem no eixo de Avaliação;
* `plt.ylim(0, 140)`: ela ajusta o limite do nosso eixo Y. Caso essa linha não fosse utilizada, o nosso gráfico pararia na marca dos 100 no eixo Y (na parte de Contagem), então, para uma melhor visualização, colocamos o limite como 140.


## **Prontos para a parte 2?**
Por ser um módulo conjunto — envolvendo análise e visualização —, optamos por dividir o conteúdo em dois notebooks. Então, até aqui, vimos a análise exploratória de dados e algumas das visualizações associadas.   

No próximo notebook, abordaremos alguns gráficos que servem para exibir relações nos dados e como podemos quantificar essas relações.

---
<p align="left">
    <small>
    <strong>Ciência de Dados para Pesquisa </strong></br>
    <I> Módulo 3 - Análise e visualização de dados </I>
    </small>
</p>