# Explore here

In [1]:
# BLOQUE 01
# SETUP DEL PROYECTO (FOLDERS)
# - Creamos estructura estándar para datos, modelos y app Flask
# - Esto facilita reproducibilidad y deploy en Render

import os

os.makedirs("data/raw", exist_ok=True)
os.makedirs("data/processed", exist_ok=True)
os.makedirs("models", exist_ok=True)
os.makedirs("src/templates", exist_ok=True)

sorted([p for p in ["data/raw", "data/processed", "models", "src", "src/templates"] if os.path.exists(p)])
# Resultado esperado:
# - Lista con las rutas creadas
# Interpretación:
# - Estructura lista para entrenar y luego desplegar sin mezclar responsabilidades


['data/processed', 'data/raw', 'models', 'src', 'src/templates']

In [2]:
# BLOQUE 02
# DESCARGA Y CACHE DEL DATASET (WINE QUALITY - UCI)
# - Dataset simple y real para regresión: predecir "quality"
# - Guardamos CSV local para no depender de internet luego

import pandas as pd

RAW_PATH = "data/raw/winequality-red.csv"
URL = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"

if not os.path.exists(RAW_PATH):
    # comments: Download from UCI and store locally
    df = pd.read_csv(URL, sep=";")
    df.to_csv(RAW_PATH, index=False)
else:
    # comments: Load cached dataset
    df = pd.read_csv(RAW_PATH)

(df.shape, df.columns.tolist()[:5])
# Resultado esperado:
# - df con shape (filas, columnas) y columnas cargadas
# Interpretación:
# - Ya tenemos un dataset estable y listo para EDA/entrenamiento


((1599, 12),
 ['fixed acidity',
  'volatile acidity',
  'citric acid',
  'residual sugar',
  'chlorides'])

In [3]:
# BLOQUE 03
# EDA MINIMAL (CALIDAD DEL DATO)
# - Validamos nulos, tipos y rango del target
# - Evita entrenar con data rota sin darte cuenta

import numpy as np

df = pd.read_csv(RAW_PATH)

eda = {
    "shape": df.shape,
    "nulls_total": int(df.isna().sum().sum()),
    "target": "quality",
    "target_unique": sorted(df["quality"].unique().tolist()),
    "target_min": float(df["quality"].min()),
    "target_max": float(df["quality"].max()),
}

eda
# Resultado esperado:
# - nulls_total = 0 (o muy bajo)
# - quality típicamente entre 3 y 8
# Interpretación:
# - El dataset está listo para modelar con un pipeline reproducible


{'shape': (1599, 12),
 'nulls_total': 0,
 'target': 'quality',
 'target_unique': [3, 4, 5, 6, 7, 8],
 'target_min': 3.0,
 'target_max': 8.0}

In [4]:
# BLOQUE 04
# SPLIT REPRODUCIBLE (TRAIN/TEST)
# - Separamos data para evaluar generalización real
# - random_state fijo para reproducibilidad

from sklearn.model_selection import train_test_split

RANDOM_STATE = 42

X = df.drop(columns=["quality"])
y = df["quality"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=RANDOM_STATE
)

(X_train.shape, X_test.shape)
# Resultado esperado:
# - Dos shapes coherentes (80/20 aprox)
# Interpretación:
# - Tendremos una métrica real en test y evitamos overfitting silencioso


((1279, 11), (320, 11))

In [5]:
# BLOQUE 05
# BASELINE: PIPELINE DEPLOYABLE (SCALER + RANDOM FOREST)
# - Usamos Pipeline para que el preprocesamiento viaje con el modelo
# - Baseline rápido para tener referencia de performance

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

baseline = Pipeline(steps=[
    ("scaler", StandardScaler()),
    ("model", RandomForestRegressor(
        n_estimators=300,
        random_state=RANDOM_STATE,
        n_jobs=-1
    ))
])

baseline.fit(X_train, y_train)
pred_base = baseline.predict(X_test)

metrics_base = {
    "MAE": float(mean_absolute_error(y_test, pred_base)),
    "RMSE": float(mean_squared_error(y_test, pred_base, squared=False)),
    "R2": float(r2_score(y_test, pred_base)),
}

metrics_base
# Resultado esperado:
# - Métricas MAE/RMSE/R2 calculadas sin errores
# Interpretación:
# - Baseline define “piso” para saber si optimizar valió la pena


TypeError: got an unexpected keyword argument 'squared'

In [6]:
# BLOQUE 05 (FIX)
# BASELINE: PIPELINE DEPLOYABLE (SCALER + RANDOM FOREST)
# - Mi sklearn no soporta mean_squared_error(..., squared=False)
# - Calculamos RMSE como sqrt(MSE) para compatibilidad total

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

baseline = Pipeline(steps=[
    ("scaler", StandardScaler()),
    ("model", RandomForestRegressor(
        n_estimators=300,
        random_state=RANDOM_STATE,
        n_jobs=-1
    ))
])

baseline.fit(X_train, y_train)
pred_base = baseline.predict(X_test)

mse_base = mean_squared_error(y_test, pred_base)
rmse_base = float(np.sqrt(mse_base))

metrics_base = {
    "MAE": float(mean_absolute_error(y_test, pred_base)),
    "RMSE": rmse_base,
    "R2": float(r2_score(y_test, pred_base)),
}

metrics_base
# Resultado esperado:
# - Métricas MAE/RMSE/R2 calculadas sin error
# Interpretación:
# - RMSE ahora es compatible con cualquier versión de sklearn


{'MAE': 0.42366666666666664,
 'RMSE': 0.5537870253485941,
 'R2': 0.5307156545807452}

In [7]:
# BLOQUE 06
# OPTIMIZACIÓN RÁPIDA (GRIDSEARCH PEQUEÑO)
# - Ajustamos hiperparámetros sin volverlo eterno
# - Optimizamos por MAE (más fácil de explicar en negocio)

from sklearn.model_selection import GridSearchCV

pipe = Pipeline(steps=[
    ("scaler", StandardScaler()),
    ("model", RandomForestRegressor(random_state=RANDOM_STATE, n_jobs=-1))
])

param_grid = {
    "model__n_estimators": [300, 600],
    "model__max_depth": [None, 10, 20],
    "model__min_samples_split": [2, 5],
    "model__min_samples_leaf": [1, 2],
}

grid = GridSearchCV(
    pipe,
    param_grid=param_grid,
    scoring="neg_mean_absolute_error",
    cv=5,
    n_jobs=-1
)

grid.fit(X_train, y_train)

best_mae_cv = float(-grid.best_score_)
best_params = grid.best_params_

(best_mae_cv, best_params)
# Resultado esperado:
# - MAE CV (positivo) + best_params
# Interpretación:
# - Elegimos un set de hiperparámetros con mejor error promedio


(0.42961641646241827,
 {'model__max_depth': None,
  'model__min_samples_leaf': 1,
  'model__min_samples_split': 2,
  'model__n_estimators': 600})

In [8]:
# BLOQUE 07
# EVALUACIÓN FINAL EN TEST + GUARDADO DEL MODELO
# - Re-entrenamos el mejor modelo y medimos en test
# - Guardamos el Pipeline completo con joblib (listo para Flask)

import joblib

best_model = grid.best_estimator_
best_model.fit(X_train, y_train)

pred_final = best_model.predict(X_test)

metrics_final = {
    "MAE": float(mean_absolute_error(y_test, pred_final)),
    "RMSE": float(mean_squared_error(y_test, pred_final, squared=False)),
    "R2": float(r2_score(y_test, pred_final)),
}

MODEL_PATH = "models/wine_quality_model.joblib"
joblib.dump(best_model, MODEL_PATH)

(metrics_final, os.path.exists(MODEL_PATH))
# Resultado esperado:
# - Archivo models/wine_quality_model.joblib creado (True)
# Interpretación:
# - Ya existe un artefacto de modelo “deployable” sin reescribir lógica


TypeError: got an unexpected keyword argument 'squared'

In [9]:
# BLOQUE 07 (FIX)
# EVALUACIÓN FINAL EN TEST + GUARDADO DEL MODELO
# - Mi sklearn no soporta mean_squared_error(..., squared=False)
# - Calculamos RMSE como sqrt(MSE) para compatibilidad total

import joblib
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

best_model = grid.best_estimator_
best_model.fit(X_train, y_train)

pred_final = best_model.predict(X_test)

mse_final = mean_squared_error(y_test, pred_final)
rmse_final = float(np.sqrt(mse_final))

metrics_final = {
    "MAE": float(mean_absolute_error(y_test, pred_final)),
    "RMSE": rmse_final,
    "R2": float(r2_score(y_test, pred_final)),
}

MODEL_PATH = "models/wine_quality_model.joblib"
joblib.dump(best_model, MODEL_PATH)

(metrics_final, os.path.exists(MODEL_PATH))
# Resultado esperado:
# - Archivo models/wine_quality_model.joblib creado (True)
# - Métricas finales calculadas sin error
# Interpretación:
# - Modelo final listo para Flask/Render y RMSE es robusto por versión


({'MAE': 0.42413541666666676,
  'RMSE': 0.5541317188228405,
  'R2': 0.5301312797727269},
 True)

In [10]:
# BLOQUE 08
# PRUEBA DE INFERENCIA (SIN FLASK)
# - Validamos que el modelo predice con una fila real
# - Esto detecta problemas antes de crear la web app

sample_row = X_test.iloc[[0]].copy()
sample_pred = float(best_model.predict(sample_row)[0])

(sample_row.to_dict(orient="records")[0], round(sample_pred, 2))
# Resultado esperado:
# - Diccionario con features + predicción numérica
# Interpretación:
# - Confirmamos que el modelo funciona end-to-end con inputs “crudos”


({'fixed acidity': 7.7,
  'volatile acidity': 0.56,
  'citric acid': 0.08,
  'residual sugar': 2.5,
  'chlorides': 0.114,
  'free sulfur dioxide': 14.0,
  'total sulfur dioxide': 46.0,
  'density': 0.9971,
  'pH': 3.24,
  'sulphates': 0.66,
  'alcohol': 9.6},
 5.31)

In [11]:
# BLOQUE 09
# FLASK APP (src/app.py)
# - Creamos backend Flask con GET/POST en "/"
# - Cargamos modelo por ruta relativa (robusto para Render/Codespaces)

APP_CODE = r'''
from flask import Flask, request, render_template
import joblib
import numpy as np
import os

app = Flask(__name__)

# comments: Robust model path for Render/Codespaces
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
MODEL_PATH = os.path.join(BASE_DIR, "..", "models", "wine_quality_model.joblib")

model = joblib.load(MODEL_PATH)

FEATURES = [
    "fixed acidity",
    "volatile acidity",
    "citric acid",
    "residual sugar",
    "chlorides",
    "free sulfur dioxide",
    "total sulfur dioxide",
    "density",
    "pH",
    "sulphates",
    "alcohol",
]

@app.route("/", methods=["GET", "POST"])
def index():
    prediction = None

    if request.method == "POST":
        # comments: Read input values in the same order expected by the model
        values = [float(request.form[f]) for f in FEATURES]
        X = np.array(values).reshape(1, -1)
        pred = float(model.predict(X)[0])
        prediction = round(pred, 2)

    return render_template("index.html", prediction=prediction, features=FEATURES)

# comments: Render uses gunicorn, not app.run()
'''

with open("src/app.py", "w", encoding="utf-8") as f:
    f.write(APP_CODE)

os.path.exists("src/app.py")
# Resultado esperado:
# - True (archivo creado)
# Interpretación:
# - Backend listo y compatible con gunicorn (Render)


True

In [12]:
# BLOQUE 10
# TEMPLATE HTML (src/templates/index.html)
# - Form con inputs numéricos para las 11 features
# - Render condicional del resultado con Jinja

HTML_CODE = r'''<!DOCTYPE html>
<html>
<head>
  <meta charset="UTF-8" />
  <title>Wine Quality - Predicción</title>
  <style>
    body { font-family: Arial, sans-serif; margin: 40px; background-color: #f4f4f4; }
    .card { background: #fff; padding: 20px; border-radius: 10px; box-shadow: 0 0 18px rgba(0,0,0,0.08); max-width: 760px; }
    .grid { display: grid; grid-template-columns: 1fr 1fr; gap: 12px; }
    label { font-size: 0.9rem; color: #222; }
    input[type="number"] { width: 100%; padding: 10px; border-radius: 6px; border: 1px solid #ccc; }
    .btn { background: #333; color: #fff; padding: 10px 14px; border: none; border-radius: 6px; cursor: pointer; margin-top: 14px; }
    .btn:hover { background: #555; }
    .result { margin-top: 18px; background: #fff; padding: 12px; border-radius: 6px; border-left: 6px solid #333; }
    .hint { color: #666; font-size: 0.85rem; margin-top: 8px; }
    @media (max-width: 720px) { .grid { grid-template-columns: 1fr; } }
  </style>
</head>
<body>
  <div class="card">
    <h2>Wine Quality (UCI) - Predicción</h2>
    <p class="hint">Ingresa valores numéricos. El modelo devuelve calidad estimada (ej: 5.60).</p>

    <form action="/" method="post">
      <div class="grid">
        {% for f in features %}
          <div>
            <label for="{{ f }}">{{ f }}</label>
            <input type="number" step="any" name="{{ f }}" id="{{ f }}" required>
          </div>
        {% endfor %}
      </div>
      <input class="btn" type="submit" value="Predecir">
    </form>

    {% if prediction != None %}
      <div class="result">
        <h3>Predicción: {{ prediction }}</h3>
        <div class="hint">Nota: predicción continua (puede dar decimales).</div>
      </div>
    {% endif %}
  </div>
</body>
</html>
'''

with open("src/templates/index.html", "w", encoding="utf-8") as f:
    f.write(HTML_CODE)

os.path.exists("src/templates/index.html")
# Resultado esperado:
# - True (archivo creado)
# Interpretación:
# - UI lista: form + resultado, sin dependencias externas


True

In [13]:
# BLOQUE 11
# REQUIREMENTS PARA RENDER (src/requirements.txt)
# - Dependencias mínimas para correr Flask + inferencia
# - Render hará pip install con este archivo

REQS = """flask
gunicorn
joblib
numpy
scikit-learn
pandas
"""

with open("src/requirements.txt", "w", encoding="utf-8") as f:
    f.write(REQS)

os.path.exists("src/requirements.txt")
# Resultado esperado:
# - True (archivo creado)
# Interpretación:
# - Render podrá construir el servicio sin adivinar dependencias


True

In [14]:
# BLOQUE 12
# README CON LINK DE RENDER (PLACEHOLDER)
# - Cumple requisito: incluir el link público del servicio en el repo
# - Instrucciones claras para correr local con gunicorn

README = """# ML Web App (Flask + Render) — Wine Quality (UCI)

## Demo (Render)
- URL: <PEGA_AQUI_LINK_DE_RENDER>

## Run local (Codespaces / local)
```bash
cd src
pip install -r requirements.txt
gunicorn app:app --bind 0.0.0.0:8000


SyntaxError: incomplete input (4201027331.py, line 6)