In [31]:
import pandas as pd
import random
import os

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

from sklearn.preprocessing import LabelEncoder

## 1) Criando dados ficticios

In [32]:
data = {
    'Media_Total': [random.uniform(5, 10) for _ in range(1000)],
}

# Gerando o coeficiente com base na média
data['Coeficiente'] = [media * random.uniform(0.8, 1.2) for media in data['Media_Total']]

sexos = ['Masculino', 'Feminino']
data['Sexo'] = [random.choice(sexos) for _ in range(1000)]

# Gere aleatoriamente a idade dos alunos entre 18 e 30 anos
data['Idade'] = [random.randint(18, 40) for _ in range(1000)]

df = pd.DataFrame(data)

### 1.1) Normalizando e limpando dados

In [33]:
df = pd.DataFrame(data)
# df['Introducao_a_Programacao_Aprovado'] = [1 if x > 6.0 else 0 for x in df['Introducao_a_Programacao']]
# df['Estrutura_de_Dados_Aprovado'] = [1 if x > 6.0 else 0 for x in df['Estrutura_de_Dados']]

# Codificando o sexo usando one-hot encoding
df = pd.get_dummies(df, columns=['Sexo'], drop_first=True)

# Normalizando a idade usando Min-Max Scaling
scaler = MinMaxScaler()
df['Idade'] = scaler.fit_transform(df[['Idade']])

### 1.2) Criando uma coluna de destino (classificação de desempenho)

In [34]:
def classificar_desempenho(row):
    # and row['Introducao_a_Programacao'] >= 0.7 and row['Estrutura_de_Dados'] >= 0.7:
    if row['Media_Total'] >= 7.5 and row['Coeficiente'] >= 0.8:
        return 'Bem'
    # and row['Introducao_a_Programacao'] >= 0.6 and row['Estrutura_de_Dados'] >= 0.6:
    elif row['Media_Total'] >= 6 and row['Coeficiente'] >= 0.65:
        return 'Médio'
    else:
        return 'Mal'

df['Desempenho'] = df.apply(classificar_desempenho, axis=1)

df

Unnamed: 0,Media_Total,Coeficiente,Idade,Sexo_Masculino,Desempenho
0,7.903690,7.315770,0.136364,True,Bem
1,8.059979,6.612193,0.909091,True,Bem
2,8.891411,10.469422,0.500000,False,Bem
3,6.014949,5.848858,0.318182,True,Médio
4,6.588561,5.966468,0.545455,False,Médio
...,...,...,...,...,...
995,7.866227,8.330339,0.500000,False,Bem
996,9.806077,9.664202,0.181818,True,Bem
997,7.938591,7.256169,0.227273,False,Bem
998,5.149519,4.829014,0.045455,True,Mal


### 1.3) Dividir os dados em recursos (X) e rótulos (y)

In [35]:
X = df[['Media_Total', 'Coeficiente', 'Idade', 'Sexo_Masculino']]
y = df['Desempenho']

## 2) Dados de treinamento e teste

### 2.1) Modelos Simples

#### 2.1.1) Divisão dos dados

In [36]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#### 2.1.2) Salvando dados

In [37]:

diretorioModeloSimples = './ModelosSimples'
if not os.path.exists(diretorioModeloSimples):
    os.makedirs(diretorioModeloSimples)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./ModelosSimples/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./ModelosSimples/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./ModelosSimples/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./ModelosSimples/y_test.csv', index=False)

### 2.2) Redes Neurais

#### 2.2.1) Pré-processando dados

In [38]:
# Codificar as classes de desempenho em valores numéricos
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

#### 2.2.2) Divisão dos dados

In [39]:
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.3, random_state=42)

#### 2.2.3) Salvando dos dados

In [40]:
diretorioRedesNeurais = './RedesNeurais'
if not os.path.exists(diretorioRedesNeurais):
    os.makedirs(diretorioRedesNeurais)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./RedesNeurais/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./RedesNeurais/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./RedesNeurais/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./RedesNeurais/y_test.csv', index=False)