In [11]:
import pandas as pd
import random
import os

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

from sklearn.preprocessing import LabelEncoder

## 1) Criando dados ficticios

In [12]:
media_portugues = [random.uniform(0, 10) for _ in range(1000)]

media_matematica = [random.uniform(0, 10) for _ in range(1000)]

media_geral = [(media_p + media_m) / 2 for media_p, media_m in zip(media_portugues, media_matematica)]

data = {
    'Media_Portugues': media_portugues,
    'Media_Matematica': media_matematica,
    'Media_Geral': media_geral
}

sexos = ['Masculino', 'Feminino']
data['Sexo'] = [random.choice(sexos) for _ in range(1000)]

data['Idade'] = [random.randint(18, 40) for _ in range(1000)]

df = pd.DataFrame(data)

### 1.1) Normalizando e limpando dados

In [13]:
df = pd.DataFrame(data)

# Codificando o sexo usando one-hot encoding
df = pd.get_dummies(df, columns=['Sexo'], drop_first=True)

# Normalizando a idade 
scaler = MinMaxScaler()
df['Idade'] = scaler.fit_transform(df[['Idade']])

### 1.2) Criando uma coluna de destino (classificação de desempenho)

In [14]:
def classificar_desempenho(row):
    if row['Media_Geral'] >= 7.5 and row['Media_Matematica'] >= 0.7 and row['Media_Portugues'] >= 0.7:
        return 'Bem'
    elif row['Media_Geral'] >= 6 and row['Media_Matematica'] >= 0.7 and row['Media_Portugues'] >= 0.7:
        return 'Médio'
    else:
        return 'Mal'

df['Desempenho'] = df.apply(classificar_desempenho, axis=1)

df

Unnamed: 0,Media_Portugues,Media_Matematica,Media_Geral,Idade,Sexo_Masculino,Desempenho
0,0.254140,5.470456,2.862298,0.681818,False,Mal
1,0.347529,4.233260,2.290395,0.500000,False,Mal
2,6.864482,2.421667,4.643075,0.954545,True,Mal
3,6.449356,8.865914,7.657635,1.000000,True,Bem
4,7.056579,7.085572,7.071075,0.363636,False,Médio
...,...,...,...,...,...,...
995,1.082245,1.971197,1.526721,0.818182,False,Mal
996,8.567669,4.679496,6.623582,1.000000,False,Médio
997,0.091390,0.696538,0.393964,0.545455,True,Mal
998,5.505087,8.054507,6.779797,0.045455,False,Médio


### 1.3) Dividir os dados em recursos (X) e rótulos (y)

In [15]:
X = df[['Media_Portugues', 'Media_Matematica', 'Media_Geral', 'Idade', 'Sexo_Masculino']]
y = df['Desempenho']

## 2) Dados de treinamento e teste

### 2.1) Modelos Simples

#### 2.1.1) Divisão dos dados

In [16]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#### 2.1.2) Salvando dados

In [17]:

diretorioModeloSimples = './ModelosSimples'
if not os.path.exists(diretorioModeloSimples):
    os.makedirs(diretorioModeloSimples)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./ModelosSimples/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./ModelosSimples/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./ModelosSimples/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./ModelosSimples/y_test.csv', index=False)

### 2.2) Redes Neurais

#### 2.2.1) Pré-processando dados

In [18]:
# Codificar as classes de desempenho em valores numéricos
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

#### 2.2.2) Divisão dos dados

In [19]:
X_train, X_temp, y_train, y_temp  = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

#### 2.2.3) Salvando dos dados

In [20]:
diretorioRedesNeurais = './RedesNeurais'
if not os.path.exists(diretorioRedesNeurais):
    os.makedirs(diretorioRedesNeurais)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./RedesNeurais/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./RedesNeurais/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./RedesNeurais/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./RedesNeurais/y_test.csv', index=False)

# Salvar os dados de validacao
pd.DataFrame(X_val).to_csv('./RedesNeurais/X_val.csv', index=False)
pd.DataFrame(y_val).to_csv('./RedesNeurais/y_val.csv', index=False)