In [None]:
# 1. Carga de datos
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import classification_report, mean_squared_error

# Carga de datos
file_path = 'wines_dataset.csv'  # Cambia esto por tu ruta

# Leer los datos
df = pd.read_csv(file_path, sep='|')

# 3. Divide en train y test
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42, stratify=df['class'])

# 4. Target
# Análisis de distribución del target se realiza en la fase de modelado

# 5. Comprensión de variables
# Se identifican variables numéricas y categóricas
num_features = ['fixed_acidity', 'volatile_acidity', 'citric_acid', 'residual_sugar', 
                'chlorides', 'free_sulfur_dioxide', 'total_sulfur_dioxide', 'density', 
                'pH', 'sulphates', 'alcohol']
cat_features = ['class']

# 6. Feat. Red. Preliminar
# No se eliminan variables antes del preprocesamiento

# 10. Duplicados
df = df.drop_duplicates()

# 11. Missings
# Pipeline para columnas numéricas
num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),  # Imputación
    ('scaler', StandardScaler())  # Escalado
])

# 12. Anomalías y errores (No implementado explícitamente en este código)

# 13. Outliers (No implementado explícitamente en este código)

# 14. Feature Engineering
# Codificación para variables categóricas
cat_pipeline = Pipeline([
    ('encoder', OneHotEncoder(drop='first'))  # Codificación One-Hot (evitando colinealidad)
])

# 15. Feature Reduction (Filtrado por importancia se puede añadir después del entrenamiento)

# Preprocesador
preprocessor = ColumnTransformer([
    ('num', num_pipeline, num_features),
    ('cat', cat_pipeline, cat_features)
])

# 2. Problema de Machine Learning (Clasificación y Regresión)

# Pipeline de Clasificación (para class)
clf_pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])

# 16. Escoger métrica del modelo (Clasificación)
# Entrenamiento Clasificación
clf_pipeline.fit(train_df, train_df['class'])

# Predicción Clasificación
y_pred_clf = clf_pipeline.predict(test_df)
print("Clasificación Report:")
print(classification_report(test_df['class'], y_pred_clf))

# Pipeline de Regresión (para quality)
reg_pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(random_state=42))
])

# Entrenamiento Regresión
reg_pipeline.fit(train_df, train_df['quality'])

# 16. Escoger métrica del modelo (Regresión)
# Predicción Regresión
y_pred_reg = reg_pipeline.predict(test_df)
print("MSE Regresión:", mean_squared_error(test_df['quality'], y_pred_reg))
