<a href="https://colab.research.google.com/github/juacastanori/TAM/blob/main/Parcial_1/TAM_Dashboard_Parcial1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Instalación de librerías**

In [1]:
#instalación de librerías
!pip install streamlit -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.9/9.9 MB[0m [31m23.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m21.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.1/79.1 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25h

##Crear carpeta pages para trabajar Multiapp en Streamlit

In [2]:
!mkdir pages

# **Página principal**

In [3]:
%%writefile Dataset_Processing.py

import streamlit as st
import pandas as pd
import numpy as np
import os
import requests
import subprocess
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OrdinalEncoder, MinMaxScaler
from sklearn.base import BaseEstimator, TransformerMixin
import matplotlib.pyplot as plt
import seaborn as sns
from pandas.plotting import scatter_matrix
import io
from PIL import Image

st.set_page_config(page_title="Preprocesamiento Ames", page_icon="📊")
st.title("📊 Preprocesamiento del Dataset Ames Housing")

# === Descargar automáticamente archivos desde Google Drive si no existen ===
ARCHIVOS = {
    "ames.csv": "1nsYKXBr0JtdWQWzSbtlAk6Qjj-YU_aSl",
    "cv.png": "11RjAsmB3i7a9UskrQuMkBpUW9xpLZ3Eu"
}

st.subheader("🔄 Verificando archivos necesarios")
try:
    subprocess.run(["pip", "install", "gdown"], check=True)
    import gdown
except Exception as e:
    st.error(f"No se pudo instalar gdown: {e}")
    st.stop()

with st.spinner("⏳ Descargando Dataset (Ames Housing)..."):
    for nombre, file_id in ARCHIVOS.items():
        if not os.path.exists(nombre):
            try:
                url = f"https://drive.google.com/uc?id={file_id}"
                gdown.download(url, nombre, quiet=False)
            except Exception as e:
                st.error(f"❌ No se pudo descargar {nombre}: {e}")
                st.stop()

st.markdown("""
### El Ames Housing Dataset es un conjunto de datos que contiene información detallada sobre las características de viviendas en Ames, Iowa, y sus respectivos precios de venta. Es ampliamente utilizado para prácticas de regresión debido a su riqueza en variables y complejidad moderada.
""")

st.markdown("""
### Características del conjunto de datos
""")
st.markdown("""

• Número de observaciones: 2,930 propiedades.

• Número de variables: 80 características que describen cada propiedad.
""")
st.markdown("""
### Tipos de variables:
""")

st.markdown("""
• Numéricas continuas: como LotArea, GrLivArea, SalePrice.

• Numéricas discretas: como BedroomAbvGr, TotRmsAbvGrd.

• Categóricas nominales: como Neighborhood, HouseStyle.

• Categóricas ordinales: como ExterQual, BsmtQual.

• Variable de salida: El target del dataset es la variable "SalePrice" que representa el precio de las casas
""")

# === Cargar y validar el archivo ===
try:
    df = pd.read_csv("ames.csv")
    if df.empty or df.shape[1] < 2:
        st.error("El archivo CSV está vacío o corrupto.")
        st.stop()
    if "SalePrice" not in df.columns:
        st.error("La columna 'SalePrice' no está en los datos.")
        st.stop()
    st.markdown("""
    ### Vista previa del Dataset
    """)
    st.dataframe(df.head())

    # Mostrar df.info() de forma bonita
    buffer = io.StringIO()
    df.info(buf=buffer)
    info_str = buffer.getvalue()
    st.code(info_str, language='text')

    # Escribir texto explicativo
    st.markdown("""
    Se presentan atributos tipo int, float y texto, algunos de ellos con datos perdidos. Para este caso, se eliminarán columnas:

    **Order**: Solo un índice de entrada
    **PID**: ID único de la propiedad

    Estas columnas no aportan información útil para predecir `SalePrice`.

    Las siguientes columnas tienen porcentajes de valores faltantes muy grandes, por lo tanto se van a eliminar:

    - **Pool QC** ~99.6% nulos
    - **Misc Feature** ~96.4% nulos
    - **Alley** ~93% nulos
    - **Fence** ~80.5% nulos
    - **Fireplace Qu** ~49% nulos

    Estas columnas se van a eliminar.
    """)

    # === Gráfico de SalePrice vs índice ===
    fig_price = plt.figure(figsize=(10, 4))
    plt.plot(df.index, df['SalePrice'])
    plt.title("SalePrice en función del índice de la casa")
    plt.xlabel("Índice")
    plt.ylabel("SalePrice")
    st.pyplot(fig_price)

    # === Preprocesamiento ===
    df.drop(columns=["Order", "PID", "Pool QC", "Misc Feature", "Alley", "Fence", "Fireplace Qu"], inplace=True)

    st.markdown("""
    Se va a partir la base de datos para 70% entrenamiento y 30% validación.
    Se usará `OrdinalEncoder` para codificar las variables tipo texto.
    Para los valores faltantes en el dataset, se imputarán como la **moda** de los datos si la variable es categórica, y como la **mediana** si es numérica.
    """)

    # Separar variable objetivo
    col_sal = "SalePrice"
    Xtrain, Xtest = train_test_split(df, test_size=0.3, random_state=42)
    ytrain = Xtrain[col_sal].copy()
    ytest = Xtest[col_sal].copy()
    Xtrain.drop(columns=[col_sal], inplace=True)
    Xtest.drop(columns=[col_sal], inplace=True)

    # Identificar columnas categóricas
    cat_cols = df.select_dtypes(include='object').columns.tolist()
    cat_items = []
    for col in cat_cols:
        cat_items.append(list(df[col].value_counts().index))
    cat_usr = dict(zip(cat_cols, cat_items))

    ordinal_encoder = OrdinalEncoder(categories=[cat_usr[col] for col in cat_cols])
    cat_cols = df.select_dtypes(include='object').columns
    cat_usr = {col: list(df[col].dropna().unique()) for col in cat_cols}

    # Clase de preprocesamiento
    class AmesPreprocessor(BaseEstimator, TransformerMixin):
        def __init__(self, cat_usr):
            self.cat_usr = cat_usr

        def fit(self, X, *_):
            Xi = X.copy()
            self.cat_cols = list(self.cat_usr.keys())
            self.num_cols = [col for col in Xi.columns if col not in self.cat_cols]
            self.imputer_cat = SimpleImputer(strategy="most_frequent")
            self.imputer_num = SimpleImputer(strategy="median")
            Xi[self.cat_cols] = self.imputer_cat.fit_transform(Xi[self.cat_cols])
            Xi[self.num_cols] = self.imputer_num.fit_transform(Xi[self.num_cols])
            self.encoder = OrdinalEncoder(categories=[self.cat_usr[col] for col in self.cat_cols])
            Xi[self.cat_cols] = self.encoder.fit_transform(Xi[self.cat_cols])
            return self

        def transform(self, X, *_):
            Xi = X.copy()
            Xi[self.cat_cols] = self.imputer_cat.transform(Xi[self.cat_cols])
            Xi[self.num_cols] = self.imputer_num.transform(Xi[self.num_cols])
            Xi[self.cat_cols] = self.encoder.transform(Xi[self.cat_cols])
            return Xi

    preprocessor = AmesPreprocessor(cat_usr=cat_usr)
    Xtrain_pre = preprocessor.fit_transform(Xtrain)
    Xtest_pre = preprocessor.transform(Xtest)

    # Matriz de correlación
    st.markdown("""

    ---

    ### Se grafica la matriz de correlaciones:
    """)
    Xtrain_pre2 = pd.DataFrame(Xtrain_pre, columns=Xtrain.columns)
    Xtrain_pre2['output'] = ytrain
    corr_matrix2 = Xtrain_pre2.corr()
    fig_corr, ax_corr = plt.subplots(figsize=(20, 18))
    sns.heatmap(corr_matrix2, cmap="coolwarm", annot=False, ax=ax_corr)
    ax_corr.set_title("Matriz de correlación completa con 'output'")
    st.pyplot(fig_corr)

    # Variables más correlacionadas con output
    st.markdown("""
    ### Se presentan las variables que más tienen relación con la salida (output):
    """)
    top_corr_vars = abs(corr_matrix2["output"]).sort_values(ascending=False)
    st.dataframe(top_corr_vars)

    # Visualización de atributos seleccionados
    cols = ['OverallQual', 'GrLivArea', 'GarageArea']
    Xm =pd.DataFrame(Xtrain_pre[['Overall Qual','Gr Liv Area','Garage Area']],columns=['Overall Qual','Gr Liv Area','Garage Area'])#definir pandas con atributos seleccionados
    Xm['Output'] = ytrain #agregar salida

    # Escalado y visualización
    scaler = MinMaxScaler()
    Xm_pre_sca = pd.DataFrame(scaler.fit_transform(Xm), columns=Xm.columns)

    st.markdown("""
    ### Diagramas de bigotes y dispersion para algunas variables
    """)

    fig_box, ax_box = plt.subplots()
    Xm_pre_sca.boxplot(ax=ax_box)
    st.pyplot(fig_box)

    #fig_scatter = plt.figure(figsize=(12, 8))
    #scatter_matrix(Xm_pre_sca, figsize=(12, 8))
    #plt.tight_layout()
    #st.pyplot(fig_scatter)


    fig_scatter = scatter_matrix(Xm_pre_sca, figsize=(12, 8), diagonal='hist')

    # Forzar layout y visualización
    plt.tight_layout()
    st.pyplot(plt.gcf())  # plt.gcf() agarra la figura generada automáticamente

    # Variables más correlacionadas con output
    st.markdown("""
    ### Se hará validación cruzada para entrenar:
    """)

    # === Imagen de superficie de búsqueda Optuna ===
    st.subheader("🌐 Validación cruzada ")
    try:
        image = Image.open("cv.png")
        st.image(image, caption="CV=5 Folds", use_container_width=True)
    except Exception as e:
        st.warning(f"No se pudo cargar la imagen: {e}")

except Exception as e:
    st.error(f"❌ Error al leer el archivo CSV: {e}")
    st.stop()


Writing Dataset_Processing.py


# **Páginas**

In [4]:
%%writefile 📈_Model_1.py

import streamlit as st
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error
from PIL import Image
import os
import subprocess

st.set_page_config(page_title="Modelo 1", page_icon="📊")
st.title("📊 Evaluación del Modelo KernelRidge con Optimización Bayesiana")

# === Descargar automáticamente archivos desde Google Drive si no existen ===
ARCHIVOS = {
    "ytest.csv": "13i0LmC1XgPAXgAWtuqaSWZE-VVy-nzWC",
    "ypred_test.csv": "1WQUtaljvMU0rbGQOLM8DcfdZ_gih9Ihg",
    "bayes_opt_mae.png": "1Th_afKZyRHj4YDGyNpVcmwYLd8RQgogS",
    "pred_vs_real.png": "1lMGQH2u-EJRh3BBklceR-VFRNZI8Qasz",
    "kern_h.png": "19CCcwa-IyDr_mX94509S9JG9ispxrjnE"
}

st.subheader("🔄 Verificando archivos necesarios")
try:
    subprocess.run(["pip", "install", "gdown"], check=True)
    import gdown
except Exception as e:
    st.error(f"No se pudo instalar gdown: {e}")
    st.stop()

with st.spinner("⏳ Descargando modelo..."):
    for nombre, file_id in ARCHIVOS.items():
        if not os.path.exists(nombre):
            try:
                url = f"https://drive.google.com/uc?id={file_id}"
                gdown.download(url, nombre, quiet=False)
            except Exception as e:
                st.error(f"❌ No se pudo descargar {nombre}: {e}")
                st.stop()

# === Cargar vectores guardados ===
st.subheader("📥 Cargando datos numpy")
try:
    ytest = pd.read_csv("ytest.csv", header=None).squeeze().values
    ypred_test = pd.read_csv("ypred_test.csv", header=None).squeeze().values
    st.success("Datos cargados exitosamente.")
except Exception as e:
    st.error(f"❌ Error al cargar archivos: {e}")
    st.stop()

# === Mostrar explicación y fórmulas de Kernel Ridge Regression ===

st.markdown("### 🔷 Kernel Ridge Regression (KRR)")
st.markdown("El modelo busca minimizar la siguiente **función de costo**:")

st.latex(r"""
\min_{f \in \mathcal{H}} \sum_{i=1}^n \left( y_i - f(x_i) \right)^2 + \alpha \|f\|_{\mathcal{H}}^2
""")

st.markdown("Donde:")
st.markdown("- $\\mathcal{H}$: espacio de Hilbert reproducible (RKHS).")
st.markdown("- $\\alpha > 0$: hiperparámetro de regularización (**mayor** $\\alpha$ → **mayor suavidad**).")
st.markdown("- $f(x) = \\sum_{i=1}^n \\beta_i \\, K(x, x_i)$, por el teorema representador de representer.")

st.markdown("### ✅ Solución en forma dual (matricial)")
st.markdown("La solución puede escribirse como:")

st.latex(r"""
\boldsymbol{\beta} = \left( K + \alpha I \right)^{-1} \mathbf{y}
""")

st.markdown("Donde:")
st.markdown("- $K$: matriz de kernel con entradas $K_{ij} = K(x_i, x_j)$")
st.markdown("- $I$: matriz identidad")
st.markdown("- $\\alpha$: hiperparámetro de regularización")

st.markdown("Entonces, para una nueva muestra $x$, la predicción es:")

st.latex(r"""
\hat{y}(x) = \sum_{i=1}^n \beta_i \cdot K(x, x_i)
""")

st.markdown("### 🔶 Usando el kernel RBF (Radial Basis Function)")

st.latex(r"""
K(x_i, x_j) = \exp \left( -\gamma \|x_i - x_j\|^2 \right)
""")

st.markdown("Donde:")
st.markdown("- $\\gamma > 0$: controla la **anchura del kernel**, y por tanto la **complejidad del modelo**.")
st.markdown("  - Bajo $\\gamma$ → función más suave")
st.markdown("  - Alto $\\gamma$ → modelo más complejo, riesgo de sobreajuste")


# === Gráfico Real vs Predicho (desde imagen) ===
st.subheader("📈 Gráfico Hiperparametros")
try:
    image1 = Image.open("pred_vs_real.png")
    st.image(image1, caption="Gráfico de Hiperparámetros", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen del gráfico: {e}")

# === Imagen de superficie de búsqueda Optuna ===
st.subheader("🌐 Superficie de búsqueda - Optimización Bayesiana (MAE)")
try:
    image2 = Image.open("bayes_opt_mae.png")
    st.image(image2, caption="Bayesian Optimization (MAE) - alpha vs gamma", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen de la búsqueda bayesiana: {e}")

# === Imagen de mejores parametros ===
st.subheader("🌐 Mejores parámetros encontrados")
try:
    image2 = Image.open("kern_h.png")
    st.image(image2, caption="Parámetros KernelRidge", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen de la búsqueda bayesiana: {e}")

# === Gráfico ===
st.subheader("📈 Gráfico Real vs Predicho")
fig, ax = plt.subplots()
ax.scatter(ytest, ypred_test, alpha=0.6)
ax.plot([ytest.min(), ytest.max()], [ytest.min(), ytest.max()], 'r--')
ax.set_xlabel("Valor real")
ax.set_ylabel("Valor predicho")
ax.set_title("Comparación: Real vs Predicho")
st.pyplot(fig)

# === Cálculo de métricas ===
st.subheader("📊 Métricas de desempeño")
st.write(f"**MAE:**  {mean_absolute_error(ytest, ypred_test):.2f}")
st.write(f"**MSE:**  {mean_squared_error(ytest, ypred_test):.2f}")
st.write(f"**R²:**   {r2_score(ytest, ypred_test):.4f}")
st.write(f"**MAPE:** {mean_absolute_percentage_error(ytest, ypred_test):.4f}")

Writing 📈_Model_1.py


In [5]:
!mv 📈_Model_1.py pages/

In [6]:
%%writefile 📈_Model_2.py

import streamlit as st
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error
from PIL import Image
import os
import subprocess

st.set_page_config(page_title="Modelo 2", page_icon="📊")
st.title("📊 Evaluación del Modelo SVR con Optimización Bayesiana")

# === Descargar automáticamente archivos desde Google Drive si no existen ===
ARCHIVOS = {
    "ytest2.csv": "1WPMhossic_eNTR0GawxkcuXya8CvcNej",
    "ypred_test2.csv": "13R1PnV1aSv0OVzESV2rWiXiBb-Jhfc0_",
    "bayes_opt_mae2.png": "1D5KvPMDTQaDHIEIBPg9KtuZhksukzB3r",
    "bayes_opt_mae22.png": "1dHODFguL40l1CaRaqJqi-igJwCJxZk8D",
    "bayes_opt_mae23.png": "1mdbZuCz4U9XNjrU2GM9SPgHR4N25z5qV",
    "hip1.png": "1g_ROu3IxM3po8knSXwz9UcK8F_Pd24ZA",
    "hip2.png": "1H-HhUrMNt9CnsQpZnqzaBYXk_QICQUs7",
    "hip3.png": "1jBFfgigoQ9Ut3PlaGnEI37UPovHsHYKj",
    "svr_h.png": "1Ejfxxg60OGZA9Ldq-8JfWki5fTUdM2tj"
}

st.subheader("🔄 Verificando archivos necesarios")
try:
    subprocess.run(["pip", "install", "gdown"], check=True)
    import gdown
except Exception as e:
    st.error(f"No se pudo instalar gdown: {e}")
    st.stop()

with st.spinner("⏳ Descargando modelo..."):
    for nombre, file_id in ARCHIVOS.items():
        if not os.path.exists(nombre):
            try:
                url = f"https://drive.google.com/uc?id={file_id}"
                gdown.download(url, nombre, quiet=False)
            except Exception as e:
                st.error(f"❌ No se pudo descargar {nombre}: {e}")
                st.stop()

# === Cargar vectores guardados ===
st.subheader("📥 Cargando datos numpy")
try:
    ytest2 = pd.read_csv("ytest2.csv", header=None).squeeze().values
    ypred_test2 = pd.read_csv("ypred_test2.csv", header=None).squeeze().values
    st.success("Datos cargados exitosamente.")
except Exception as e:
    st.error(f"❌ Error al cargar archivos: {e}")
    st.stop()

st.markdown("### 🔷 Support Vector Regression (SVR)")

st.markdown("""
El modelo **SVR** busca encontrar una función que se acerque lo más posible a los datos sin desviarse más de un margen $\\varepsilon$, mientras mantiene la complejidad del modelo bajo control.

Se formula como un problema de optimización:

""")

st.latex(r"""
\min_{f \in \mathcal{H}} \frac{1}{2} \|f\|^2 + C \sum_{i=1}^n (\xi_i + \xi_i^*)
""")

st.markdown("Sujeto a las siguientes restricciones:")

st.latex(r"""
\begin{aligned}
& y_i - f(x_i) \leq \varepsilon + \xi_i \\
& f(x_i) - y_i \leq \varepsilon + \xi_i^* \\
& \xi_i, \xi_i^* \geq 0 \quad \text{para todo } i
\end{aligned}
""")

st.markdown("Donde:")

st.markdown("""
- $C$: controla la **penalización** por errores mayores a $\\varepsilon$.
    - Alto $C$ → menos tolerancia a errores → posible **sobreajuste**
    - Bajo $C$ → más margen de error → posible **subajuste**
- $\\varepsilon$: ancho del **tubo de tolerancia** dentro del cual no se penalizan errores.
    - Mayor $\\varepsilon$ → modelo más **tolerante**
    - Menor $\\varepsilon$ → modelo más **preciso**, pero menos robusto
- $\\xi_i, \\xi_i^*$: variables de **holgura** que permiten errores fuera del margen $\\varepsilon$
- $\\|f\|^2$: norma cuadrada en el espacio de funciones (minimiza la complejidad del modelo)
""")

st.markdown("### 🔶 Usando el Kernel RBF")

st.markdown("Para datos no lineales, SVR se extiende mediante un **kernel**, típicamente el **RBF (Radial Basis Function)**:")

st.latex(r"""
K(x_i, x_j) = \exp \left( -\gamma \|x_i - x_j\|^2 \right)
""")

st.markdown("Donde:")

st.markdown("""
- $\\gamma > 0$: controla la **anchura del kernel** y por tanto la **complejidad del modelo**
    - Bajo $\\gamma$ → función más suave
    - Alto $\\gamma$ → modelo más complejo, más riesgo de sobreajuste
""")

st.markdown("### 🧠 Predicción del modelo:")

st.latex(r"""
f(x) = \sum_{i=1}^n (\alpha_i - \alpha_i^*) \cdot K(x, x_i) + b
""")

st.markdown("Donde $\\alpha_i$ y $\\alpha_i^*$ son los multiplicadores de Lagrange obtenidos al resolver el problema dual.")



# === Gráfico Real vs Predicho (desde imagen) ===
st.subheader("📈 Gráfico Hiperparametros")
try:
    image1 = Image.open("hip1.png")
    st.image(image1, caption="C vs Gamma", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen del gráfico: {e}")

try:
    image1 = Image.open("hip2.png")
    st.image(image1, caption="C vs Epsilon", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen del gráfico: {e}")

try:
    image1 = Image.open("hip3.png")
    st.image(image1, caption="Gamma vs Epsilon", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen del gráfico: {e}")

# === Imagen de superficie de búsqueda Optuna ===
st.subheader("🌐 Superficie de búsqueda - Optimización Bayesiana (MAE)")
try:
    image2 = Image.open("bayes_opt_mae2.png")
    st.image(image2, caption="Bayesian Optimization (MAE) - C vs gamma", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen de la búsqueda bayesiana: {e}")

try:
    image2 = Image.open("bayes_opt_mae22.png")
    st.image(image2, caption="Bayesian Optimization (MAE) - C vs epsilon", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen de la búsqueda bayesiana: {e}")

try:
    image2 = Image.open("bayes_opt_mae23.png")
    st.image(image2, caption="Bayesian Optimization (MAE) - gamma vs epsilon", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen de la búsqueda bayesiana: {e}")

# === Imagen de mejores parametros ===
st.subheader("🌐 Mejores parámetros encontrados")
try:
    image2 = Image.open("svr_h.png")
    st.image(image2, caption="Parámetros SVR", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen de la búsqueda bayesiana: {e}")

# === Gráfico ===
st.subheader("📈 Gráfico Real vs Predicho")
fig, ax = plt.subplots()
ax.scatter(ytest2, ypred_test2, alpha=0.6)
ax.plot([ytest2.min(), ytest2.max()], [ytest2.min(), ytest2.max()], 'r--')
ax.set_xlabel("Valor real")
ax.set_ylabel("Valor predicho")
ax.set_title("Comparación: Real vs Predicho")
st.pyplot(fig)

# === Cálculo de métricas ===
st.subheader("📊 Métricas de desempeño")
st.write(f"**MAE:**  {mean_absolute_error(ytest2, ypred_test2):.2f}")
st.write(f"**MSE:**  {mean_squared_error(ytest2, ypred_test2):.2f}")
st.write(f"**R²:**   {r2_score(ytest2, ypred_test2):.4f}")
st.write(f"**MAPE:** {mean_absolute_percentage_error(ytest2, ypred_test2):.4f}")

Writing 📈_Model_2.py


In [7]:
!mv 📈_Model_2.py pages/

In [8]:
%%writefile 📈_Model_3.py

import streamlit as st
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error
from PIL import Image
import os
import subprocess

st.set_page_config(page_title="Modelo 3", page_icon="📊")
st.title("📊 Evaluación del Modelo SVR con Optimización Bayesiana + GridSearch")

# === Descargar automáticamente archivos desde Google Drive si no existen ===
ARCHIVOS = {
    "ytest3.csv": "1jaIWPi7hLFYN4vVOPRiYG-0wUxI7NEAA",
    "ypred_test3.csv": "1vBZkfxQKSoVR7g-BsQFO4tDiCsJGIbLm",
    "bayes_opt_maep1.png": "1Of5VQUfrbhn6du_fUrOaab4Yk521-4sw",
    "bayes_opt_maep2.png": "1i15iheqwk9QdKrsdSxjp6uYiDg1rtdFg",
    "bayes_opt_maep3.png": "1-2oB-mSBBGxheJ_igtjv33OvHg406C9d",
    "hip1p.png": "1AQ2GonK1165vEaVaQho4RgL5sNzrogpD",
    "hip2p.png": "1O9PFRF30xcl_DkeWd4YWHYovSB3xL8aq",
    "hip3p.png": "1UZGFU5Kthrv5DgkTeJE3OWeVA1WfgH6W"
}

st.subheader("🔄 Verificando archivos necesarios")
try:
    subprocess.run(["pip", "install", "gdown"], check=True)
    import gdown
except Exception as e:
    st.error(f"No se pudo instalar gdown: {e}")
    st.stop()



with st.spinner("⏳ Descargando modelo..."):
    for nombre, file_id in ARCHIVOS.items():
        if not os.path.exists(nombre):
            try:
                url = f"https://drive.google.com/uc?id={file_id}"
                gdown.download(url, nombre, quiet=False)
            except Exception as e:
                st.error(f"❌ No se pudo descargar {nombre}: {e}")
                st.stop()

# === Cargar vectores guardados ===
st.subheader("📥 Cargando datos numpy")
try:
    ytest3 = pd.read_csv("ytest3.csv", header=None).squeeze().values
    ypred_test3 = pd.read_csv("ypred_test3.csv", header=None).squeeze().values
    st.success("Datos cargados exitosamente.")
except Exception as e:
    st.error(f"❌ Error al cargar archivos: {e}")
    st.stop()

st.markdown("### 🔷 Support Vector Regression (SVR)")

st.markdown("""
Problema de optimización:

""")

st.latex(r"""
\min_{f \in \mathcal{H}} \frac{1}{2} \|f\|^2 + C \sum_{i=1}^n (\xi_i + \xi_i^*)
""")

st.markdown("**kernel** **RBF (Radial Basis Function)**:")

st.latex(r"""
K(x_i, x_j) = \exp \left( -\gamma \|x_i - x_j\|^2 \right)
""")

st.markdown("""
Se implementa un flujo completo de optimización y evaluación para un modelo Support Vector Regressor (SVR) con kernel RBF, usando Optuna para optimización bayesiana y GridSearchCV para refinamiento final

Hiperparametros

- C: control de penalización

- epsilon: margen insensible

- gamma: control del alcance del kernel RBF

Usa validación cruzada de 5 folds para estimar el error (MAE) y se extrae los 2 mejores resultados de Optuna para construir la grilla fina.

Se construyen grillas pequeñas alrededor de los mejores valores (±5% en C y gamma, ±0.015 en epsilon).

Se realiza una búsqueda en esa grilla para afinar los hiperparámetros.

""")


# === Gráfico Real vs Predicho (desde imagen) ===
st.subheader("📈 Gráfico Hiperparametros")
try:
    image1 = Image.open("hip1p.png")
    st.image(image1, caption="C vs Gamma", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen del gráfico: {e}")

try:
    image1 = Image.open("hip2p.png")
    st.image(image1, caption="C vs Epsilon", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen del gráfico: {e}")

try:
    image1 = Image.open("hip3p.png")
    st.image(image1, caption="Gamma vs Epsilon", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen del gráfico: {e}")

# === Imagen de superficie de búsqueda Optuna ===
st.subheader("🌐 Superficie de búsqueda - Optimización Bayesiana (MAE)")
try:
    image2 = Image.open("bayes_opt_maep1.png")
    st.image(image2, caption="Bayesian Optimization (MAE) - C vs gamma", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen de la búsqueda bayesiana: {e}")

try:
    image2 = Image.open("bayes_opt_maep2.png")
    st.image(image2, caption="Bayesian Optimization (MAE) - epsilon vs C", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen de la búsqueda bayesiana: {e}")

try:
    image2 = Image.open("bayes_opt_maep3.png")
    st.image(image2, caption="Bayesian Optimization (MAE) - epsilon vs gamma", use_container_width=True)
except Exception as e:
    st.warning(f"No se pudo cargar la imagen de la búsqueda bayesiana: {e}")




# === Gráfico ===
st.subheader("📈 Gráfico Real vs Predicho")
fig, ax = plt.subplots()
ax.scatter(ytest3, ypred_test3, alpha=0.6)
ax.plot([ytest3.min(), ytest3.max()], [ytest3.min(), ytest3.max()], 'r--')
ax.set_xlabel("Valor real")
ax.set_ylabel("Valor predicho")
ax.set_title("Comparación: Real vs Predicho")
st.pyplot(fig)

# === Cálculo de métricas ===
st.subheader("📊 Métricas de desempeño")
st.write(f"**MAE:**  {mean_absolute_error(ytest3, ypred_test3):.2f}")
st.write(f"**MSE:**  {mean_squared_error(ytest3, ypred_test3):.2f}")
st.write(f"**R²:**   {r2_score(ytest3, ypred_test3):.4f}")
st.write(f"**MAPE:** {mean_absolute_percentage_error(ytest3, ypred_test3):.4f}")

Writing 📈_Model_3.py


In [9]:
!mv 📈_Model_3.py pages/

# **Inicialización del Dashboard a partir de túnel local**

1. **Reemplazar nombre de archivo**: Reemplaza el nombre del archivo como se indica en el comentario de la linea 6 de la celda de codigo

2. **Accede al enlace provisional**: Una vez que la aplicación esté corriendo, LocalTunnel generará un enlace temporal. Haz clic o copia ese enlace para acceder a tu aplicación en el navegador (cada vez que corras la celda, el link podrá ser diferente).

**Nota:**
Para finalizar la ejecución del Dashboard ejecuta la ultima celda de codigo y sigue las instrucciones.

In [15]:
!wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64
!chmod +x cloudflared-linux-amd64
!mv cloudflared-linux-amd64 /usr/local/bin/cloudflared

#Ejecutar Streamlit
!streamlit run Dataset_Processing.py &>/content/logs.txt & #Cambiar 0_👋_Hello.py por el nombre de tu archivo principal

#Exponer el puerto 8501 con Cloudflare Tunnel
!cloudflared tunnel --url http://localhost:8501 > /content/cloudflared.log 2>&1 &

#Leer la URL pública generada por Cloudflare
import time
time.sleep(5)  # Esperar que se genere la URL

import re
found_context = False  # Indicador para saber si estamos en la sección correcta

with open('/content/cloudflared.log') as f:
    for line in f:
        #Detecta el inicio del contexto que nos interesa
        if "Your quick Tunnel has been created" in line:
            found_context = True

        #Busca una URL si ya se encontró el contexto relevante
        if found_context:
            match = re.search(r'https?://\S+', line)
            if match:
                url = match.group(0)  #Extrae la URL encontrada
                print(f'Tu aplicación está disponible en: {url}')
                break  #Termina el bucle después de encontrar la URL

--2025-05-23 20:05:56--  https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github.com/cloudflare/cloudflared/releases/download/2025.5.0/cloudflared-linux-amd64 [following]
--2025-05-23 20:05:57--  https://github.com/cloudflare/cloudflared/releases/download/2025.5.0/cloudflared-linux-amd64
Reusing existing connection to github.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/106867604/797840ed-70cb-47b8-a6fe-ecb4b3385c94?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250523%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250523T200513Z&X-Amz-Expires=300&X-Amz-Signature=7194f3734d17a1c02f651df2caf2906713b4d22fd692d6b0d7a1291584551c95&X-Amz

# **Finalización de ejecución del Dashboard**

In [14]:
import os

res = input("Digite (1) para finalizar la ejecución del Dashboard: ")

if res.upper() == "1":
    os.system("pkill streamlit")  # Termina el proceso de Streamlit
    print("El proceso de Streamlit ha sido finalizado.")


Digite (1) para finalizar la ejecución del Dashboard: 1
El proceso de Streamlit ha sido finalizado.
