Em cenários acadêmicos, o desempenho dos alunos pode ser influenciado por diversos fatores, sendo as horas de estudo uma das mais óbvias. No entanto, o cansaço também pode ser um fator relevante, onde estudar por muitas horas seguidas pode resultar em uma menor eficiência, refletindo em notas mais baixas. Portanto, a proposta aqui é:

Restringir o tempo máximo de estudo a 24 horas. Garantir que a nota final nunca ultrapasse o valor máximo de 100. Considerar se o aluno está "cansado" (0 para não cansado e 1 para cansado), o que impacta negativamente a nota.

Horas de Estudo: Um valor entre 0 e 24, onde quanto mais tempo o aluno estuda, maior a nota. No entanto, o efeito do estudo tem limites, e a produtividade começa a cair após um certo número de horas. Cansado: Um valor binário (0 ou 1), onde "1" indica que o aluno está cansado, resultando em uma redução na nota final. Nota: O desempenho final (nota) é calculado com base nas horas de estudo, mas limitado ao valor máximo de 100. Se o aluno está cansado, a nota é reduzida. As notas são geradas com base em uma função linear, multiplicando as horas de estudo por um fator aleatório (para simular variações na eficiência), e se o aluno estiver cansado, subtraímos pontos da nota final.

In [63]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

In [64]:
# Gerar Seed:
np.random.seed()
n_samples = 10_000

# gerar Arrays:
horas_estudo = np.random.uniform(0,24,n_samples)
cansado = np.random.choice([0,1], n_samples)
nota = np.minimum(horas_estudo * np.random.uniform(3,5), 100)- (cansado * 10)

In [65]:
pd.Series(nota).sort_values()

7239     -9.973536
9494     -9.940371
7560     -9.929573
6804     -9.893387
9834     -9.883205
           ...    
5407    100.000000
3452    100.000000
4101    100.000000
8448    100.000000
1865    100.000000
Length: 10000, dtype: float64

In [66]:
nota = np.clip(nota, 0, 100)

In [67]:
# Garantir os valores corretos
data = pd.DataFrame({
    'Horas de estudo': horas_estudo,
    'Cansado': cansado,
    'Nota':nota
})
data.sort_values('Nota').head()

Unnamed: 0,Horas de estudo,Cansado,Nota
2471,0.246469,1,0.0
6606,0.65837,1,0.0
3835,0.966404,1,0.0
7865,1.066886,1,0.0
4280,0.640427,1,0.0


In [68]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Horas de estudo  10000 non-null  float64
 1   Cansado          10000 non-null  int32  
 2   Nota             10000 non-null  float64
dtypes: float64(2), int32(1)
memory usage: 195.4 KB


In [69]:
# Treinamento:
# Dividir treino e teste >>
X = data[["Horas de estudo","Cansado"]]
y = data[["Nota"]]

In [70]:
# Criar variáveis de treino e teste:
X_train, X_teste, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)