In [0]:
%pip install kagglehub

Importando os dados diretamente do Kaggle

link: https://www.kaggle.com/datasets/nabeelqureshitiii/student-performance-dataset?resource=download



In [0]:
import kagglehub
import pandas as pd
import numpy as np
from scipy.stats import mode
import matplotlib.pyplot as plt



# Download latest version
path = kagglehub.dataset_download("nabeelqureshitiii/student-performance-dataset")
df = pd.read_csv(f"{path}/student_performance.csv")


Vizualizando se há dados vazios ou nulos

In [0]:
#avaliar se existe valores faltantes no nosso dado
df.isna().sum()
df.isnull().sum()


Extraindo as horas de estudos semanais, e a grade de notas alcançadas

In [0]:
def media_aritmetica(coluna):
    return coluna.mean()

In [0]:
def media_geometrica(coluna):
    coluna = coluna[coluna > 0]
    return np.exp(np.log(coluna).mean()) if len(coluna) > 0 else np.nan

In [0]:
def media_ponderada(colune):
    pesos = np.ones(len(colune))
    return (colune * pesos).sum() / pesos.sum() if len(colune) > 0 else np.nan

In [0]:
def media_harmonica(coluna):
    coluna = coluna[coluna > 0]
    return len(coluna) / (1 / coluna).sum() if len(coluna) > 0 else np.nan

In [0]:
def mediana(coluna):
    coluna = np.sort(coluna)
    n = len(coluna)
    return (coluna[n//2 - 1] + coluna[n//2]) / 2 if n % 2 == 0 else coluna[n//2]

In [0]:
def moda(coluna):
    coluna = np.sort(coluna)
    return mode(coluna, keepdims=False)[0]

In [0]:
def ponto_medio(coluna):
    return (coluna.min() + coluna.max()) / 2

In [0]:
def media_por_frequencia(coluna):
    freq_table = coluna.value_counts().sort_index()
    valores_unicos = freq_table.index.to_numpy()
    frequencias = freq_table.values
    return (valores_unicos * frequencias).sum() / frequencias.sum()

In [0]:
df.head(5)

In [0]:
print('- - - - - - - - - - - - - - - - - - - - - - - - - - - - ')
print('A escolha foi de um dataset do Kaggle que mostra as notas')
print('por tempo de estudo de alunas. Foi possivel notar que os ')
print('alunos que constumam estudar mais horas, possuem as melhores')
print('notas, conforme o gráfico abaixo.')
print('- - - - - - - - - - - - - - - - - - - - - - - - - - - - ')
print('O RESULTADO DAS HORAS SEMANAIS DE ESTUDO POR ALUNOS FOI:')
print('- - - - - - - - - - - - - - - - - - - - - - - - - - - - ')


# selecionando qual coluna eu quero usar nas apurações
col = df['weekly_self_study_hours']


media_aritmetica_resultado = media_aritmetica(col)
print(f"Resultado da média aritmética: {media_aritmetica_resultado:.3f}")

media_geometrica_resultado = media_geometrica(col)
print(f"Resultado da média geométrica: {media_geometrica_resultado:.3f}")

media_ponderada_resultado = media_ponderada(col)
print(f"Resultado da média ponderada: {media_ponderada_resultado:.3f}")

media_harmonica_resultado = media_harmonica(col)
print(f"Resultado da média harmônica: {media_harmonica_resultado:.3f}")

mediana_resultado = mediana(col)
print(f"Resultado da mediana: {mediana_resultado:.3f}")

moda_resultado = moda(col)
print(f"Resultado da moda: {moda_resultado}")

ponto_medio_resultado = ponto_medio(col)
print(f"Resultado do ponto médio: {ponto_medio_resultado:.3f}")

media_freq_resultado = media_por_frequencia(col)
print(f"Resultado da média por frequência: {media_freq_resultado:.3f}")

In [0]:
media_por_grade = df.groupby('grade')['weekly_self_study_hours'].mean()
boxplot = df.boxplot(column='weekly_self_study_hours', by='grade', grid=False)
plt.title('Horas de Estudo Semanais Agrupado por Nota')
plt.suptitle('')
plt.xlabel('Nota')
plt.ylabel('Horas de estudos semanais')

# Adiciona o rótulo da média em cada boxplot
for i, (grade, media) in enumerate(media_por_grade.items()):
    plt.text(i + 1, media, f'{media:.2f}', ha='center', va='bottom', color='red', fontweight='bold')

plt.show()