In [18]:
import pandas as pd
import random
import os

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

from sklearn.preprocessing import LabelEncoder

## 1) Criando dados ficticios

In [19]:
media_portugues = [random.uniform(0, 10) for _ in range(1000)]

media_matematica = [random.uniform(0, 10) for _ in range(1000)]

media_geral = [(media_p + media_m) / 2 for media_p, media_m in zip(media_portugues, media_matematica)]

data = {
    'Media_Portugues': media_portugues,
    'Media_Matematica': media_matematica,
    'Media_Geral': media_geral
}

sexos = ['Masculino', 'Feminino']
data['Sexo'] = [random.choice(sexos) for _ in range(1000)]

data['Idade'] = [random.randint(18, 40) for _ in range(1000)]

df = pd.DataFrame(data)

### 1.1) Normalizando e limpando dados

In [20]:
df = pd.DataFrame(data)

# Codificando o sexo usando one-hot encoding
df = pd.get_dummies(df, columns=['Sexo'], drop_first=True)

# Normalizando a idade 
scaler = MinMaxScaler()
df['Idade'] = scaler.fit_transform(df[['Idade']])

### 1.2) Criando uma coluna de destino (classificação de desempenho)

In [21]:
def classificar_desempenho(row):
    if row['Media_Geral'] >= 7.5 and row['Media_Matematica'] >= 0.7 and row['Media_Portugues'] >= 0.7:
        return 'Bem'
    elif row['Media_Geral'] >= 6 and row['Media_Matematica'] >= 0.7 and row['Media_Portugues'] >= 0.7:
        return 'Médio'
    else:
        return 'Mal'

df['Desempenho'] = df.apply(classificar_desempenho, axis=1)

df

Unnamed: 0,Media_Portugues,Media_Matematica,Media_Geral,Idade,Sexo_Masculino,Desempenho
0,0.955999,1.037034,0.996517,0.318182,False,Mal
1,9.437032,4.987412,7.212222,1.000000,False,Médio
2,2.022655,6.026846,4.024751,0.772727,True,Mal
3,2.265626,6.048284,4.156955,0.909091,True,Mal
4,2.141681,3.921512,3.031597,0.954545,True,Mal
...,...,...,...,...,...,...
995,9.988901,7.147788,8.568345,0.136364,False,Bem
996,4.684159,0.637092,2.660625,0.181818,True,Mal
997,0.680489,9.375166,5.027828,0.909091,True,Mal
998,6.249319,5.133453,5.691386,0.500000,True,Mal


### 1.3) Dividir os dados em recursos (X) e rótulos (y)

In [22]:
X = df[['Media_Portugues', 'Media_Matematica', 'Media_Geral', 'Idade', 'Sexo_Masculino']]
y = df['Desempenho']

## 2) Dados de treinamento e teste

### 2.1) Modelos Simples

#### 2.1.1) Divisão dos dados

In [23]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#### 2.1.2) Salvando dados

In [24]:

diretorioModeloSimples = './ModelosSimples'
if not os.path.exists(diretorioModeloSimples):
    os.makedirs(diretorioModeloSimples)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./ModelosSimples/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./ModelosSimples/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./ModelosSimples/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./ModelosSimples/y_test.csv', index=False)

### 2.2) Redes Neurais

#### 2.2.1) Pré-processando dados

In [25]:
# Codificar as classes de desempenho em valores numéricos
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

#### 2.2.2) Divisão dos dados

In [26]:
X_train, X_temp, y_train, y_temp  = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

#### 2.2.3) Salvando dos dados

In [27]:
diretorioRedesNeurais = './RedesNeurais'
if not os.path.exists(diretorioRedesNeurais):
    os.makedirs(diretorioRedesNeurais)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./RedesNeurais/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./RedesNeurais/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./RedesNeurais/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./RedesNeurais/y_test.csv', index=False)

# Salvar os dados de validacao
pd.DataFrame(X_val).to_csv('./RedesNeurais/X_val.csv', index=False)
pd.DataFrame(y_val).to_csv('./RedesNeurais/y_val.csv', index=False)