In [None]:
import pandas as pd
import os

# Caminho para os arquivos CSV do treinamento e do teste
train_dir = '/home/carlosguttemberg/Downloads/helen/trainset/'
test_dir = '/home/carlosguttemberg/Downloads/helen/testset/'

# Carregar os arquivos CSV em um DataFrame para treino
train_files = [os.path.join(train_dir, f) for f in os.listdir(train_dir) if f.endswith('.csv')]
df_train = pd.concat([pd.read_csv(f) for f in train_files], ignore_index=True)

# Carregar os arquivos CSV em um DataFrame para teste
test_files = [os.path.join(test_dir, f) for f in os.listdir(test_dir) if f.endswith('.csv')]
df_test = pd.concat([pd.read_csv(f) for f in test_files], ignore_index=True)


In [None]:
# Supondo que df_train e df_test já estejam carregados com os dados

# Gerar dinamicamente os nomes das colunas para as features
features = [f'x_{i}' for i in range(68)] + [f'y_{i}' for i in range(68)]

# Selecionar as features e a variável alvo para o conjunto de treino
X_train = df_train[features]
y_train = df_train['p_rx']  # Substitua por sua variável alvo

# Selecionar as features e a variável alvo para o conjunto de teste
X_test = df_test[features]
y_test = df_test['p_rx']  # Substitua por sua variável alvo

# Exibir as primeiras linhas para verificação
print(X_train.head())
print(y_train.head())
print(X_test.head())
print(y_test.head())

In [None]:
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error

# Treinar um modelo de regressão (pode ser qualquer modelo que você deseje)
model = Ridge()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular o erro no conjunto de teste
mse = mean_squared_error(y_test, y_pred)
print(f'Erro quadrático médio no conjunto de teste: {mse:.4f}')


In [None]:
import matplotlib.pyplot as plt

# Plotar as previsões contra os valores reais
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.7, color='blue')
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linestyle='dashed')  # Linha de perfeição
plt.title('Previsões vs Valores Reais')
plt.xlabel('Valores Reais (Ground Truth)')
plt.ylabel('Previsões do Modelo')
plt.grid(True)

# Explicação do gráfico
'''plt.text(0.5, 0.8, 'Este gráfico compara os valores reais (ground truth)\n'
                   'com as previsões feitas pelo modelo treinado.\n'
                   'A linha vermelha representa a previsão perfeita.',
         fontsize=12, color='black', transform=plt.gca().transAxes, ha='center')'''

plt.show()


In [None]:
# Calcular o erro absoluto para cada previsão
error = abs(y_test - y_pred)

# Plotar o erro para cada amostra
plt.figure(figsize=(10, 6))
plt.bar(range(len(error)), error, alpha=0.7, color='orange')
plt.title('Erro Absoluto das Previsões')
plt.xlabel('Amostra')
plt.ylabel('Erro Absoluto')
plt.grid(True)

# Explicação do gráfico
'''plt.text(0.5, 0.8, 'Este gráfico mostra o erro absoluto para cada amostra.\n'
                   'Quanto maior a barra, maior a diferença entre a previsão\n'
                   'e o valor real. Um bom modelo tem barras pequenas.',
         fontsize=12, color='black', transform=plt.gca().transAxes, ha='center')'''

plt.show()
