# **An√°lise e visualiza√ß√£o de dados**
> Parte 1


Hoje, vamos come√ßar a analisar os nossos dados. Vimos at√© aqui o trabalho duro que √© organizar e pr√©-processar os dados para que tenhamos o m√≠nimo de erros no momento de extrair as informa√ß√µes deles.  
Chegou o momento de entendermos os nossos dados!

### **Como sempre, come√ßamos importando as bibliotecas**

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## **‚ÑπÔ∏è Sobre o nosso conjunto de dados**
O conjunto de dados intitulado "**H√°bitos estudantis *vs* performance acad√™mica**" √© uma adapta√ß√£o do dataset **Student Habits vs Academic Performance**, dispon√≠vel no kaggle.
> O link para o conjunto de dados original √©: [Student Habits vs Academic Performance](https://www.kaggle.com/datasets/jayaantanaath/student-habits-vs-academic-performance)

A adapta√ß√£o do conjunto de dados envolveu apenas a tradu√ß√£o das vari√°veis e classifica√ß√µes do ingl√™s para o portugu√™s.

### **Dicion√°rio de dados**

| vari√°vel       | coluna                         | descri√ß√£o                                                                 |
|----------------------------------------------|--------------------------------|---------------------------------------------------------------------------|
| Identificador do estudante                   | id_estudante                   | C√≥digo √∫nico para identificar cada estudante                              |
| Idade                                         | idade                          | Idade do estudante em anos                                                |
| Sexo                                          | sexo                           | Sexo indicado pelo estudante       |
| Horas de estudo por dia                      | horas_estudo_dia              | Quantidade m√©dia de horas dedicadas ao estudo por dia                     |
| Horas em redes sociais                       | horas_redes_sociais           | Tempo m√©dio di√°rio gasto em redes sociais (em horas)                      |
| Horas assistindo Netflix                     | horas_netflix                 | Tempo m√©dio di√°rio assistindo √† Netflix (em horas)                        |
| Trabalho de meio per√≠odo                     | trabalho_meio_periodo         | Indica se o estudante trabalha meio per√≠odo (sim ou n√£o)                  |
| Percentual de presen√ßa                       | percentual_presenca           | Frequ√™ncia do estudante nas aulas, em percentual                          |
| Horas de sono                                | horas_sono                    | Tempo m√©dio di√°rio de sono (em horas)                                     |
| Qualidade da dieta                           | qualidade_dieta               | Avalia√ß√£o subjetiva da alimenta√ß√£o (ruim, razo√°vel, bom)                  |
| Frequ√™ncia de exerc√≠cios                     | freq_exercicios               | N√∫mero m√©dio de dias por semana em que o estudante pratica exerc√≠cios     |
| N√≠vel de escolaridade dos pais               | nivel_educacao_pais           | Maior n√≠vel de escolaridade entre os pais (ex: ensino m√©dio, mestrado)    |
| Qualidade da internet                        | qualidade_internet            | Avalia√ß√£o subjetiva da qualidade da conex√£o de internet (ruim, m√©dia, boa)|
| Avalia√ß√£o da sa√∫de mental                    | avaliacao_saude_mental        | Autoavalia√ß√£o da sa√∫de mental em uma escala num√©rica                      |
| Participa√ß√£o em atividades extracurriculares | participacao_extracurricular  | Indica se o estudante participa de atividades extracurriculares (sim ou n√£o) |
| Nota no exame final                          | nota_exame                    | Desempenho do estudante no exame final (0 a 100)                          |


## **An√°lise explorat√≥ria de dados**

A an√°lise explorat√≥ria de dados √© o processo inicial de investiga√ß√£o de um conjunto de dados. Atrav√©s dela, podemos **resumir as principais caracter√≠sticas, identificar padr√µes, tend√™ncias, valores ausentes e outliers**, geralmente por meio de estat√≠sticas descritivas e visualiza√ß√µes.

### **‚ùó Lembrem de inserir os dados antes de ler**
Relembrando:
1. Abre o menu de arquivos (√≠cone de pasta √† esquerda);
2. Clica na op√ß√£o de upload;
3. Insere o arquivo com os dados.

### **Lendo e exibindo os dados**

In [None]:
df_estudantes = pd.read_csv('/content/habitos-estudantis_performance-academica.csv')
df_estudantes.info()

In [None]:
df_estudantes.head()

### **Verificando a estrutura e os dados**
Antes de partir para an√°lise, devemos sempre verificar os nossos dados. √â assim que descobrimos se o conjunto foi bem organizado e est√° pronto para ser analisado.  
E se os dados estiverem bagun√ßados?
> Esse √© o momento de parar a an√°lise, ir no conte√∫do do m√≥dulo anterior e executar o pr√©-processamento de dados, aplicando os princ√≠pios que vimos.


#### **Valores ausentes**

In [None]:
df_estudantes.isnull().sum()

Parece que demos sorte. N√£o h√° nenhum valor ausente, ent√£o, podemos partir para a pr√≥xima verifica√ß√£o: se as vari√°veis categ√≥ricas foram devidamente padronizadas.

#### **Padr√µes das vari√°veis categ√≥ricas**

In [None]:
for coluna in df_estudantes.columns:
  if df_estudantes[coluna].dtype == 'object' and coluna != "id_estudante":

    print(f'{coluna}: {df_estudantes[coluna].unique()}')

J√° estamos acostumados ao loop `for` e tamb√©m √† nossa fun√ß√£o de verificar os valores √∫nicos, a `unique`. Por√©m, temos algo novo nesse c√≥digo: a linha `if df_estudantes[coluna].dtype == 'object' and coluna != "id_estudante":`.  
Explicando passo a passo:
* `if` √© uma estrutura de decis√£o (ou estrutura condicional), que siginifica **se**. √â atrav√©s dela que podemos fazer compara√ß√µes ou conferir os nossos dados;
* `df_estudantes[coluna].dtype == 'object'`: aqui estamos verificando se a nossa coluna √© do tipo `object`. Vejam que pela primeira vez usamos o verdadeiro s√≠mbolo de **igual**, o ==. Sim, na programa√ß√£o, dizer que algo √© igual a outra coisa, implica em `algo == outra_coisa`;
* `and`: semelhante √† busca de artigos, representa o **e**, um operador l√≥gico. Ou seja, estamos dizendo que queremos conferir o tipo da coluna **E** o nome da coluna;
* Al√©m do igual, estamos vendo tamb√©m o s√≠mbolo de diferente, o `!=`. E nesse caso, ele est√° dizendo que o nome da coluna deve ser diferente de `id_estudante`.

### **Estat√≠stica descritiva**
Estat√≠sticas descritivas s√£o **medidas que resumem e descrevem as principais caracter√≠sticas de um conjunto de dados**. Elas ajudam a entender a distribui√ß√£o, tend√™ncia central e dispers√£o dos dados, sem tirar conclus√µes al√©m do que est√° na amostra.

### **Vari√°veis categ√≥ricas**

In [None]:
for coluna in df_estudantes.columns:
  if df_estudantes[coluna].dtype == 'object' and coluna != "id_estudante":
    display(df_estudantes[coluna].value_counts())

Uma das formas mais comuns de avaliarmos vari√°veis categ√≥ricas √© atrav√©s da frequ√™ncia das ocorr√™ncias, ou seja, quantas vezes cada ocorr√™ncia apareceu?

E √© isso que estamos fazendo no c√≥digo acima. Conferimos cada coluna que possui vari√°veis categ√≥ricas e pedimos para contar os valores, exibindo a frequ√™ncia de cada um.

#### **Exibindo os percentuais**
E se quisermos percentuais ao inv√©s da contagem?

In [None]:
qualidade_internet = df_estudantes['qualidade_internet'].value_counts(normalize=True)

qualidade_internet = qualidade_internet * 100

display(qualidade_internet)

O que precisamos fazer √© **normalizar** os nossos dados ‚Äî basicamente, calcular o percentual. Assim:
* Usamos `normalize=True` na nossa fun√ß√£o, pedindo para ela normalizar os valores ‚Äî aqui, os dados ser√£o normalizados como fra√ß√µes e exibidas como n√∫meros de ponto flutuante (ex.: 0.40);
* Calculamos o nosso percentual atrav√©s da linha `qualidade_internet = qualidade_internet * 100`, que atualiza todos os valores, multiplicando-os por 100.

#### **Visualizando as frequ√™ncias**
Ainda melhor do que calcular, √© poder visualizar as nossas frequ√™ncias. E, para isso, podemos come√ßar a usar alguns tipos de gr√°ficos.

##### **Gr√°fico de barras**
O gr√°fico de barras (tanto horizontais quanto gr√°ficos de colunas ‚Äî gr√°fico de barras na vertical) exibem ret√¢ngulos proporcionais aos valores que eles representam. √â um tipo de gr√°fico √∫til para comparar o n√∫mero de ocorr√™ncias de cada valor que estamos avaliando.

In [None]:
dados_educacao_pais = df_estudantes['nivel_educacao_pais'].value_counts()

plt.figure(figsize=(6, 5))                      #tamanho da figura
plt.title("Grau de escolariza√ß√£o dos pais")     #t√≠tulo
plt.xlabel("Grau de escolariza√ß√£o")             #r√≥tulo no eixo X
plt.ylabel("Contagem")                          #r√≥tulo no eixo Y

#gr√°fico de barras
fig = sns.barplot(x=dados_educacao_pais.index,
                  y=dados_educacao_pais.values)

fig.bar_label(fig.containers[0])                #adiciona os valores nas barras


plt.savefig('grau-escolarizacao.png')           #salva a figura

plt.show()                                      #mostra o gr√°fico

Tem muita coisa acontecendo nesse c√≥digo, mas vamos l√°:
* `dados_educacao_pais = df_estudantes['nivel_educacao_pais'].value_counts()`: estamos "filtrando" os nossos dados, guardando apenas as frequ√™ncias da coluna `nivel_educacao_pais`;
* `plt.figure(figsize=(6, 3))`: aqui √© para definir o tamanho da figura. Dentro do `figszie`, inserimos dois n√∫meros que s√£o respectivamente, a largura e a altura da figura;
* As linhas tamb√©m s√£o relacionadas √† estrutura da figura:
    * `plt.title("Grau de escolariza√ß√£o dos pais") `: t√≠tulo da visualiza√ß√£o;
    * `plt.xlabel("Grau de escolariza√ß√£o")`: r√≥tulo no eixo X ‚Äî a vari√°vel que aparece no eixo X;
    * `plt.ylabel("Contagem")`: r√≥tulo no eixo Y ‚Äî nesse caso, a contagem ou frequ√™ncia.
* Aqui √© gerada a nossa figura:   
    `fig = sns.barplot(x=dados_educacao_pais.index, y=dados_educacao_pais.values)`  
    Estamos criando um gr√°fico de barras, onde no eixo X temos os √≠ndices (cada categoria relacionada ao n√≠vel de escolaridade) e no eixo Y os valores (a quantidade de vezes que cada n√≠vel de escolaridade apareceu nos dados).
* A linha `fig.bar_label(fig.containers[0])` √© respons√°vel por inserir o valor associado √† cada barra no nosso gr√°fico;
* `plt.savefig('grau-escolarizacao.png')` √© a linha que salva a nossa figura ‚Äî notem que devemos inserir um nome para o arquivo (`grau-escolarizacao`) e tamb√©m adicionar o seu tipo (`.png`);
* Por fim: `plt.show()` para exibir o gr√°fico.      

**Observa√ß√£o**: as imagens salvas tamb√©m ficam na √°rea de arquivos (√≠cone üìÅ, no menu √† esquerda) e devem ser devidamente baixadas no seu computador caso queiram armazen√°-las.

#### **üìù Exerc√≠cio**
Completem o c√≥digo abaixo com:
* O tamanho da figura;
* O t√≠tulo do gr√°fico;
* O r√≥tulo para o eixo X;
* O r√≥tulo para o eixo Y;
* O nome do arquivo e a extens√£o para salvarmos a figura.

In [None]:
qualidade_dieta = df_estudantes['qualidade_dieta'].value_counts()

plt.figure(figsize=())
plt.title()
plt.xlabel()
plt.ylabel()

fig = sns.barplot(x=qualidade_dieta.index,
                  y=qualidade_dieta.values)

fig.bar_label(fig.containers[0])

plt.savefig()

plt.show()

### **Vari√°veis num√©ricas**
S√£o as vari√°veis que podem ser medidas em uma escala quantitativa, ou seja, possuem um valor num√©rico associado.

In [None]:
df_estudantes.describe()

A fun√ß√£o `describe` percorre todas as colunas do nosso DataFrame que possuem tipo num√©rico (`int64` ou `float64`), calcula e exibe as estat√≠sticas relacionadas no formato de tabela.

Vamos entender melhor cada uma das estat√≠sticas que aparecem:

| Fun√ß√£o | Estat√≠stica | Explica√ß√£o |
|-------------|-------------------|------------|
| **count**   | Contagem          | N√∫mero total de valores n√£o-nulos em cada coluna. Mostra quantos dados voc√™ realmente tem para an√°lise. Se for menor que o esperado, pode indicar valores faltantes. |
| **mean**    | M√©dia             | A soma de todos os valores dividida pela contagem. Representa o "ponto de equil√≠brio" dos dados, mas pode ser influenciada por valores extremos. |
| **std**     | Desvio padr√£o     | Mede a dispers√£o dos dados em rela√ß√£o √† m√©dia. Valores pequenos indicam dados concentrados pr√≥ximos √† m√©dia; valores grandes mostram dados mais espalhados. |
| **min**     | M√≠nimo            | O menor valor encontrado na coluna. √ötil para identificar limites inferiores e poss√≠veis anomalias. |
| **25%**     | Primeiro quartil  | Valor abaixo do qual est√£o 25% dos dados. Marca o in√≠cio da "caixa" num boxplot. |
| **50%**     | Mediana           | Valor do meio quando os dados est√£o ordenados. Divide o conjunto exatamente ao meio e n√£o √© afetada por valores extremos como a m√©dia. |
| **75%**     | Terceiro quartil  | Valor abaixo do qual est√£o 75% dos dados. Marca o final da "caixa" num boxplot. |
| **max**     | M√°ximo            | O maior valor encontrado na coluna. √ötil para identificar limites superiores e poss√≠veis anomalias. |

A dist√¢ncia entre o primeiro e terceiro quartil (chamada amplitude interquartil) mostra onde a maioria dos seus dados est√° concentrada. Comparar m√≠nimo e m√°ximo revela a amplitude total do conjunto. Se a m√©dia e a mediana forem muito diferentes, provavelmente h√° valores extremos influenciando os resultados.

Mais uma vez notamos n√∫meros decimais muito extensos. Ent√£o, trouxemos uma explica√ß√£o mais aprofundada para voc√™s:
> Isso decorre da forma como os n√∫meros de ponto flutuante s√£o armazenados no computador. Um computador n√£o compreende n√∫meros da mesma forma que n√≥s, humanos. Dentro da m√°quina, os n√∫meros viram conjuntos de 0s e 1s, os chamados n√∫meros bin√°rios. O problema est√° no fato de que muitas fra√ß√µes decimais n√£o podem ser representadas precisamente como fra√ß√µes bin√°rias. Ent√£o, os n√∫meros decimais de ponto flutuante que digitamos acabam sendo armazenados de forma apenas aproximada, na forma de n√∫meros bin√°rios de ponto flutuante.   
*(Adaptado de: [Aritm√©tica de ponto flutuante: problemas e limita√ß√µes](https://docs.python.org/pt-br/3/tutorial/floatingpoint.html#floating-point-arithmetic-issues-and-limitations))*

In [None]:
for coluna in df_estudantes.columns:
    if df_estudantes[coluna].dtype != 'object':

        display(df_estudantes[coluna].agg(['min', 'max', 'mean', 'median', 'std']))

Tamb√©m √© poss√≠vel extrair as estat√≠sticas das colunas atrav√©s da fun√ß√£o `agg`. Aplicando nela em uma determinada coluna e especificando as estat√≠sticas desejadas ‚Äî nesse caso inserimos `'min', 'max', 'mean', 'median'` e `'std'` ‚Äî, s√£o exibidos os resultados.

#### **Visualizando distribui√ß√µes**
Nas vari√°veis num√©ricas, tamb√©m √© muito importante verificar as distribui√ß√µes de frequ√™ncias ‚Äî quantas vezes cada valor apareceu no nosso conjunto.

Uma das formas de verificar isso n√≥s j√° vimos, √© atrav√©s do `value_counts`. Agora, vamos entender como ficaria essa distribui√ß√£o quando constru√≠mos a sua representa√ß√£o gr√°fica, o **histograma**.

In [None]:
df_estudantes['avaliacao_saude_mental'].value_counts()

##### **Histograma**
O [histograma](https://pt.wikipedia.org/wiki/Histograma) √© um gr√°fico que apresenta, de maneira ordenada, as frequ√™ncias para cada classe ou valor no conjunto de dados. Geralmente, √© usado para dados cont√≠nuos, em que os intervalos de classe representam a extens√£o dos dados.  
Nesse tipo de gr√°fico, a base de cada ret√¢ngulo representa uma classe ou categoria, e a altura representa a quantidade ou a frequ√™ncia absoluta com que o valor da classe ocorre no conjunto de dados.

In [None]:
plt.figure(figsize=(6, 3))
plt.title("Distribui√ß√£o da avalia√ß√£o de sa√∫de mental")
plt.xlabel("Avalia√ß√£o")
plt.ylabel("Contagem")

fig = sns.histplot(df_estudantes,
                   x=df_estudantes['avaliacao_saude_mental'],
                   discrete=True)

#adiciona os valores nas barras
fig.bar_label(fig.containers[0])

#adiciona todos os valores no eixo X
plt.xticks(ticks=df_estudantes['avaliacao_saude_mental'].unique())

#ajusta o limite do eixo Y
plt.ylim(0, 140)

plt.show()

Nessa constru√ß√£o de gr√°fico, temos duas novas linhas:
* `plt.xticks(ticks=df_estudantes['avaliacao_saude_mental'].unique())`: atrav√©s dela n√≥s inserimos todas as marca√ß√µes no eixo X ‚Äî notem que todas as notas de avalia√ß√£o (de 1 √† 10) aparecem no eixo de Avalia√ß√£o;
* `plt.ylim(0, 140)`: ela ajusta o limite do nosso eixo Y. Caso essa linha n√£o fosse utilizada, o nosso gr√°fico pararia na marca dos 100 no eixo Y (na parte de Contagem), ent√£o, para uma melhor visualiza√ß√£o, colocamos o limite como 140.


## **Prontos para a parte 2?**
Por ser um m√≥dulo conjunto ‚Äî envolvendo an√°lise e visualiza√ß√£o ‚Äî, optamos por dividir o conte√∫do em dois notebooks. Ent√£o, at√© aqui, vimos a an√°lise explorat√≥ria de dados e algumas das visualiza√ß√µes associadas.   

No pr√≥ximo notebook, abordaremos alguns gr√°ficos que servem para exibir rela√ß√µes nos dados e como podemos quantificar essas rela√ß√µes.

---
<p align="left">
    <small>
    <strong>Ci√™ncia de Dados para Pesquisa </strong></br>
    <I> M√≥dulo 3 - An√°lise e visualiza√ß√£o de dados </I>
    </small>
</p>