In [42]:
import pandas as pd
import random
import os

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import LabelEncoder

## 1) Criando dados ficticios

In [43]:
data = {
    'Media_Total': [random.uniform(5, 10) for _ in range(1000)],
}

# Gerando o coeficiente com base na média
data['Coeficiente'] = [media * random.uniform(0.8, 1.2) for media in data['Media_Total']]

# Adicionando as notas nas disciplinas
data['Introducao_a_Programacao'] = [random.uniform(0, 10) for _ in range(1000)]
data['Estrutura_de_Dados'] = [random.uniform(0, 10) for _ in range(1000)]

### 1.1) Adicionando a coluna de aprovação em cada disciplina

In [44]:
df = pd.DataFrame(data)
df['Introducao_a_Programacao_Aprovado'] = [1 if x > 6.0 else 0 for x in df['Introducao_a_Programacao']]
df['Estrutura_de_Dados_Aprovado'] = [1 if x > 6.0 else 0 for x in df['Estrutura_de_Dados']]

### 1.2) Criando uma coluna de destino (classificação de desempenho)

In [45]:
def classificar_desempenho(row):
    if row['Media_Total'] >= 7.5 and row['Coeficiente'] >= 0.8 and row['Introducao_a_Programacao'] >= 0.7 and row['Estrutura_de_Dados'] >= 0.7:
        return 'Bem'
    elif row['Media_Total'] >= 6 and row['Coeficiente'] >= 0.65 and row['Introducao_a_Programacao'] >= 0.6 and row['Estrutura_de_Dados'] >= 0.6:
        return 'Médio'
    else:
        return 'Mal'

df['Desempenho'] = df.apply(classificar_desempenho, axis=1)

df

Unnamed: 0,Media_Total,Coeficiente,Introducao_a_Programacao,Estrutura_de_Dados,Introducao_a_Programacao_Aprovado,Estrutura_de_Dados_Aprovado,Desempenho
0,8.658702,7.529665,4.572613,0.083527,0,0,Mal
1,5.269240,4.785637,6.329305,7.003009,1,1,Mal
2,8.977446,9.853000,7.372162,0.690647,1,0,Médio
3,8.760039,7.009478,2.526649,1.661359,0,0,Bem
4,6.055427,5.755192,1.972583,5.441494,0,0,Médio
...,...,...,...,...,...,...,...
995,8.516731,8.819100,2.572038,3.915188,0,0,Bem
996,7.898556,6.919436,5.893331,5.191784,0,0,Bem
997,9.853482,9.116896,0.806071,9.975290,0,1,Bem
998,7.685811,7.876297,5.117693,1.814657,0,0,Bem


### 1.3) Dividir os dados em recursos (X) e rótulos (y)

In [46]:
X = df[['Media_Total', 'Coeficiente', 'Introducao_a_Programacao', 'Estrutura_de_Dados', 'Introducao_a_Programacao_Aprovado', 'Estrutura_de_Dados_Aprovado']]
y = df['Desempenho']

## 2) Dados de treinamento e teste

### 2.1) Modelos Simples

#### 2.1.1) Divisão dos dados

In [47]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#### 2.1.2) Salvando dados

In [48]:

diretorioModeloSimples = './ModelosSimples'
if not os.path.exists(diretorioModeloSimples):
    os.makedirs(diretorioModeloSimples)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./ModelosSimples/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./ModelosSimples/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./ModelosSimples/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./ModelosSimples/y_test.csv', index=False)

### 2.2) Redes Neurais

#### 2.2.1) Pré-processando dados

In [49]:
# Codificar as classes de desempenho em valores numéricos
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

#### 2.2.2) Divisão dos dados

In [50]:
X_train, X_temp, y_train, y_temp  = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

#### 2.2.3) Salvando dos dados

In [51]:
diretorioRedesNeurais = './RedesNeurais'
if not os.path.exists(diretorioRedesNeurais):
    os.makedirs(diretorioRedesNeurais)

# Salvar os dados de treinamento
pd.DataFrame(X_train).to_csv('./RedesNeurais/X_train.csv', index=False)
pd.DataFrame(y_train).to_csv('./RedesNeurais/y_train.csv', index=False)

# Salvar os dados de teste
pd.DataFrame(X_test).to_csv('./RedesNeurais/X_test.csv', index=False)
pd.DataFrame(y_test).to_csv('./RedesNeurais/y_test.csv', index=False)

# Salvar os dados de validacao
pd.DataFrame(X_val).to_csv('./RedesNeurais/X_val.csv', index=False)
pd.DataFrame(y_val).to_csv('./RedesNeurais/y_val.csv', index=False)