In [None]:
import dask.dataframe as dd
from dask_ml.datasets import make_regression
from sqlalchemy import create_engine
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
import joblib
from dask.distributed import Client

# Conectar al clúster de Dask
client = Client('tcp://dask_scheduler:8786')
print(client)

# Generar el conjunto de datos
X, y = make_regression(n_samples=1000000, n_features=2, random_state=42)  # Conjunto de datos grande

# Convertir a DataFrame de Dask
df_X = dd.from_dask_array(X, columns=['feature1', 'feature2'])
df_y = dd.from_dask_array(y, columns=['target'])

# Convertir a DataFrame de pandas
df_X = df_X.compute()
df_y = df_y.compute()

# Combinar características y objetivo en un solo DataFrame
df = df_X
df['target'] = df_y

# Conectar a la base de datos PostgreSQL
engine = create_engine('postgresql://user:password@postgres_db:5432/test_db')

# Guardar el conjunto de datos en la base de datos
df.to_sql('test_data', engine, if_exists='replace', index=False)
print("Datos guardados en la base de datos.")

# Leer los datos de la base de datos
df = pd.read_sql('SELECT * FROM test_data', engine)

# Preparación de los datos
X = df[['feature1', 'feature2']]
y = df['target']

# División de los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenamiento del modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Guardar el modelo entrenado
joblib.dump(model, '/shared-data/model.joblib')
print("Modelo guardado exitosamente.")

# Evaluación del modelo
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
