In [67]:
import pandas as pd
import random
import os

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

from sklearn.preprocessing import LabelEncoder

## 1) Criando dados ficticios

In [68]:
data = {
    'Media_Total': [random.uniform(5, 10) for _ in range(1000)],
}

# Gerando o coeficiente com base na média
data['Coeficiente'] = [media * random.uniform(0.8, 1.2) for media in data['Media_Total']]

sexos = ['Masculino', 'Feminino']
data['Sexo'] = [random.choice(sexos) for _ in range(1000)]

# Gere aleatoriamente a idade dos alunos entre 18 e 30 anos
data['Idade'] = [random.randint(18, 40) for _ in range(1000)]

df = pd.DataFrame(data)

### 1.1) Normalizando e limpando dados

In [69]:
df = pd.DataFrame(data)
# df['Introducao_a_Programacao_Aprovado'] = [1 if x > 6.0 else 0 for x in df['Introducao_a_Programacao']]
# df['Estrutura_de_Dados_Aprovado'] = [1 if x > 6.0 else 0 for x in df['Estrutura_de_Dados']]

# Codifique o sexo usando one-hot encoding
df = pd.get_dummies(df, columns=['Sexo'], drop_first=True)

# Normalize a idade usando Min-Max Scaling
scaler = MinMaxScaler()
df['Idade'] = scaler.fit_transform(df[['Idade']])

### 1.2) Criando uma coluna de destino (classificação de desempenho)

In [70]:
def classificar_desempenho(row):
    # and row['Introducao_a_Programacao'] >= 0.7 and row['Estrutura_de_Dados'] >= 0.7:
    if row['Media_Total'] >= 7.5 and row['Coeficiente'] >= 0.8:
        return 'Bem'
    # and row['Introducao_a_Programacao'] >= 0.6 and row['Estrutura_de_Dados'] >= 0.6:
    elif row['Media_Total'] >= 6 and row['Coeficiente'] >= 0.65:
        return 'Médio'
    else:
        return 'Mal'

df['Desempenho'] = df.apply(classificar_desempenho, axis=1)

df

Unnamed: 0,Media_Total,Coeficiente,Idade,Sexo_Masculino,Desempenho
0,7.109372,7.527783,0.454545,True,Médio
1,5.772105,6.254761,0.772727,True,Mal
2,9.684233,8.371971,0.727273,False,Bem
3,6.175388,6.822981,0.090909,True,Médio
4,9.282977,9.284262,0.681818,False,Bem
...,...,...,...,...,...
995,5.943505,5.885452,1.000000,True,Mal
996,7.203379,5.882683,0.181818,False,Médio
997,7.376908,7.065676,0.590909,False,Médio
998,7.257377,7.522668,0.636364,True,Médio


### 1.3) Dividir os dados em recursos (X) e rótulos (y)

In [71]:
X = df[['Media_Total', 'Coeficiente', 'Idade', 'Sexo_Masculino']]
y = df['Desempenho']

## 2) Dados de treinamento e teste

### 2.1) Modelos Simples

#### 2.1.1) Divisão dos dados

In [72]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#### 2.1.2) Salvando dados

In [73]:

diretorioModeloSimples = './ModelosSimples'
if not os.path.exists(diretorioModeloSimples):
    os.makedirs(diretorioModeloSimples)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./ModelosSimples/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./ModelosSimples/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./ModelosSimples/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./ModelosSimples/y_test.csv', index=False)

### 2.2) Redes Neurais

#### 2.2.1) Pré-processando dados

In [74]:
# Codificar as classes de desempenho em valores numéricos
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

#### 2.2.2) Divisão dos dados

In [75]:
X_train, X_temp, y_train, y_temp  = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

#### 2.2.3) Salvando dos dados

In [76]:
diretorioRedesNeurais = './RedesNeurais'
if not os.path.exists(diretorioRedesNeurais):
    os.makedirs(diretorioRedesNeurais)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./RedesNeurais/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./RedesNeurais/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./RedesNeurais/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./RedesNeurais/y_test.csv', index=False)

# Salvar os dados de validacao
pd.DataFrame(X_val).to_csv('./RedesNeurais/X_val.csv', index=False)
pd.DataFrame(y_val).to_csv('./RedesNeurais/y_val.csv', index=False)