# 📊 Análise Estatística de Notas
Este notebook realiza uma análise estatística detalhada sobre os dados de desempenho dos alunos, com base nos arquivos `notas.csv` e `notas_pivoteadas.csv`.

In [2]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import skew, kurtosis, pearsonr

%matplotlib inline


In [3]:

df_notas = pd.read_csv('notas.csv')
df_pivot = pd.read_csv('notas_pivoteadas.csv')


In [4]:

print("\n=== Primeiras linhas de notas.csv ===")
print(df_notas.head())

print("\n=== Primeiras linhas de notas_pivoteadas.csv ===")
print(df_pivot.head())



=== Primeiras linhas de notas.csv ===
   AlunoID     Código                          Disciplina Unidade 1 Unidade 2  \
0        1  DC/CCN061  PROCESSAMENTO DE LINGUAGEM NATURAL       7,1       9,4   
1        1  DC/CCN040               SEGURANÇA EM SISTEMAS       9,3       8,5   
2        1  DC/CCN038               SISTEMAS DISTRIBUÍDOS       8,0      10,0   
3        1  DC/CCN071   TÓPICOS EM ENGENHARIA DE SOFTWARE       9,4       9,0   
4        1  DC/CCN032                  COMPUTAÇÃO GRÁFICA       8,0       7,0   

  Unidade 3 Unidade 4 Unidade 5 Prova Final Resultado  Faltas Situação  
0      10,0       NaN       NaN         NaN       8,8      10       AM  
1       8,1       NaN       NaN         NaN       8,6      14       AM  
2       9,0       NaN       NaN         NaN       9,0      14       AM  
3       7,5       NaN       NaN         NaN       8,6      12       AM  
4      10,0       NaN       NaN         NaN       8,3      10       AM  

=== Primeiras linhas de notas_pivot

In [5]:

print("\n=== Estatísticas Descritivas (notas.csv) ===")
print(df_notas.describe())



=== Estatísticas Descritivas (notas.csv) ===
           AlunoID       Faltas
count  1332.000000  1332.000000
mean     20.939940     5.165165
std      13.179886     5.867025
min       1.000000     0.000000
25%       9.000000     0.000000
50%      20.000000     4.000000
75%      34.000000     8.000000
max      40.000000    60.000000


In [13]:

if 'nota' in df_notas.columns:
    notas = df_notas['nota'].dropna()
    media = notas.mean()
    desvio = notas.std()
    cv = (desvio / media) * 100

    print(f"\nMédia: {media:.2f}")
    print(f"Desvio Padrão: {desvio:.2f}")
    print(f"Coeficiente de Variação (CV): {cv:.2f}%")
    print(f"Assimetria (Skewness): {skew(notas):.2f}")
    print(f"Curtose (Kurtosis): {kurtosis(notas):.2f}")


In [None]:


plt.figure(figsize=(8, 5))
sns.histplot(notas, bins=10, kde=True)
plt.title('Distribuição das Notas')
plt.xlabel('Nota')
plt.ylabel('Frequência')
plt.show()


KeyError: 'nota'

In [12]:

if 'disciplina' in df_notas.columns:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x='disciplina', y='nota', data=df_notas)
    plt.title('Boxplot das Notas por Disciplina')
    plt.xticks(rotation=45)
    plt.show()


In [None]:

print("\n=== Correlação entre Variáveis Numéricas (Notas Pivotadas) ===")
numeric_cols = df_pivot.select_dtypes(include=np.number).columns

if len(numeric_cols) > 1:
    correlation_matrix = df_pivot[numeric_cols].corr()
    print(correlation_matrix)

    plt.figure(figsize=(10, 8))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
    plt.title('Heatmap de Correlação entre Disciplinas (Pivotadas)')
    plt.show()


In [None]:

if len(numeric_cols) >= 2:
    var1 = numeric_cols[0]
    var2 = numeric_cols[1]
    coef, p = pearsonr(df_pivot[var1].dropna(), df_pivot[var2].dropna())
    print(f"\nCorrelação de Pearson entre '{var1}' e '{var2}':")
    print(f"Coeficiente: {coef:.2f}, p-valor: {p:.4f}")


In [None]:

if len(numeric_cols) >= 2:
    plt.figure(figsize=(8,6))
    sns.scatterplot(x=var1, y=var2, data=df_pivot)
    plt.title(f'Dispersão entre {var1} e {var2}')
    plt.xlabel(var1)
    plt.ylabel(var2)
    plt.show()


In [None]:

print("\n=== Número de registros ===")
print(f"Notas.csv: {df_notas.shape}")
print(f"Notas Pivotadas: {df_pivot.shape}")
