<a href="https://colab.research.google.com/github/SebastianRodriguez05/Teoria_de_Aprendizaje_de_Maquinas-/blob/main/Parcial_1/Punto_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [13]:
#instalación de librerías
!pip install streamlit -q

In [14]:
!mkdir pages

mkdir: cannot create directory ‘pages’: File exists


In [15]:
%%writefile 0_👋_Hello.py

import streamlit as st

st.set_page_config(
    page_title="Bienvenida",
    page_icon="🏠"
)

st.title("🏠 Bienvenido al Dashboard de Predicciones Inmobiliarias")

st.markdown("""
## 📊 Descripción del Proyecto

En este dashboard interactivo podrás explorar y visualizar el comportamiento de diferentes modelos de predicción de precios de viviendas basado en datos históricos.
A través de las distintas secciones podrás:

- 📈 **Visualizar gráficas exploratorias** de las variables más relevantes.
- 🌍 **Explorar la ubicación geográfica** de los inmuebles si se cuenta con coordenadas.
- 📊 **Comparar el desempeño de distintos modelos de Machine Learning** en la predicción de precios, observando tanto sus métricas como sus gráficas de predicción vs valor real.

---

## 📂 Dataset de Trabajo

Puedes descargar el dataset necesario para cargar en las demás secciones desde el siguiente enlace:

👉 [📥 Data sets](https://drive.google.com/file/d/1yEoS8ygEoWB0B8hjZ0r6OJZa8fsvMVjS/view?usp=sharing)

Solo debes descargarlo y luego subirlo en las secciones correspondientes cuando se te solicite.

---


""")


Overwriting 0_👋_Hello.py


## **1. Plotting Demo**

In [16]:
%%writefile 📊_Explorador_de_Dataset.py

import streamlit as st
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Configuración de la página
st.set_page_config(page_title="Dataset Explorer", page_icon="📊")

st.title("📊 Explorador de Dataset")

# Subida de dataset
uploaded_file = st.file_uploader("Sube tu dataset CSV", type="csv")

if uploaded_file is not None:
    df = pd.read_csv(uploaded_file)

    # Mostrar las primeras filas
    st.subheader("Primeras filas del dataset")
    st.dataframe(df.head())

    # Mostrar dimensiones
    st.subheader("Dimensiones del dataset")
    st.write(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

    # Mostrar tipos de datos
    st.subheader("Tipos de datos")
    st.dataframe(df.dtypes.reset_index().rename(columns={'index': 'Columna', 0: 'Tipo de Dato'}))

    # Mostrar histograma de SalePrice
    if 'SalePrice' in df.columns:
        st.subheader("Distribución de Precio de Venta (SalePrice)")

        fig, ax = plt.subplots(figsize=(8, 5))
        sns.histplot(df['SalePrice'], bins=30, kde=True, color='mediumslateblue')
        ax.set_xlabel('Precio de Venta')
        ax.set_ylabel('Frecuencia')
        ax.set_title('Distribución de SalePrice')
        st.pyplot(fig)
    else:
        st.warning("La columna 'SalePrice' no está en el dataset.")
else:
    st.info("Por favor, sube un archivo CSV para comenzar.")


Writing 📊_Explorador_de_Dataset.py


In [17]:
!mv 📊_Explorador_de_Dataset.py pages/

## **2. Mapping Demo**

In [18]:
%%writefile 📊_Comparación_de_los_3_Mejores_Modelos_Regresores.py

import streamlit as st
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression, Lasso, ElasticNet
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Configuración de página
st.set_page_config(page_title="Comparación Modelos", page_icon="📊")

st.title("📊 Comparación de los 3 Mejores Modelos Regresores")

# Subida de dataset
uploaded_file = st.file_uploader("Sube tu dataset CSV", type="csv")

if uploaded_file is not None:
    df = pd.read_csv(uploaded_file)

    if 'SalePrice' not in df.columns:
        st.error("El dataset debe tener una columna 'SalePrice'")
    else:
        X = df.drop('SalePrice', axis=1)
        y = df['SalePrice']

        cat_features = X.select_dtypes(include=['object']).columns.tolist()
        num_features = X.select_dtypes(exclude=['object']).columns.tolist()

        preprocessor = ColumnTransformer(transformers=[
            ('num', Pipeline(steps=[
                ('imputer', SimpleImputer(strategy='median')),
                ('scaler', StandardScaler())
            ]), num_features),
            ('cat', Pipeline(steps=[
                ('imputer', SimpleImputer(strategy='constant', fill_value='Desconocido')),
                ('onehot', OneHotEncoder(handle_unknown='ignore'))
            ]), cat_features)
        ])

        modelos = {
            'Linear Regression': LinearRegression(),
            'Lasso': Lasso(random_state=42),
            'ElasticNet': ElasticNet(random_state=42),
            'Random Forest': RandomForestRegressor(random_state=42)
        }

        resultados = []
        predicciones_modelos = {}

        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

        for nombre, modelo in modelos.items():
            pipe = Pipeline(steps=[
                ('preprocessor', preprocessor),
                ('model', modelo)
            ])

            pipe.fit(X_train, y_train)
            y_pred = pipe.predict(X_test)

            mae = mean_absolute_error(y_test, y_pred)
            mse = mean_squared_error(y_test, y_pred)
            r2 = r2_score(y_test, y_pred)
            mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100

            resultados.append({
                'Modelo': nombre,
                'MAE': mae,
                'MSE': mse,
                'R²': r2,
                'MAPE (%)': mape
            })

            # Guardar predicciones para gráficas
            predicciones_modelos[nombre] = (y_test.values, y_pred)

        df_resultados = pd.DataFrame(resultados)
        top3 = df_resultados.sort_values(by='R²', ascending=False).head(3).reset_index(drop=True)

        st.subheader("Resultados de Modelos")
        st.dataframe(top3)

        st.subheader("Comparación R²")

        fig_r2, ax_r2 = plt.subplots(figsize=(8, 5))
        sns.barplot(data=top3, x='Modelo', y='R²', palette='viridis')
        ax_r2.set_ylabel('R² Score')
        ax_r2.set_title('Comparación de R² de los 3 Mejores Modelos')
        st.pyplot(fig_r2)

        st.subheader("Predicciones vs Reales — Top 3 Modelos")

        for modelo in top3['Modelo']:
            y_real, y_pred = predicciones_modelos[modelo]

            fig_pred, ax_pred = plt.subplots(figsize=(6, 6))
            sns.scatterplot(x=y_real, y=y_pred, ax=ax_pred, color='blue', s=20)
            ax_pred.plot([y_real.min(), y_real.max()], [y_real.min(), y_real.max()], 'r--')
            ax_pred.set_xlabel('Valor Real')
            ax_pred.set_ylabel('Predicción')
            ax_pred.set_title(f'Predicción vs Real — {modelo}')
            st.pyplot(fig_pred)

else:
    st.info("Por favor, sube un archivo CSV para comenzar.")


Writing 📊_Comparación_de_los_3_Mejores_Modelos_Regresores.py


In [19]:
!mv 📊_Comparación_de_los_3_Mejores_Modelos_Regresores.py pages/

## **3. DataFrame Demo**

# **Inicialización del Dashboard a partir de túnel local**

1. **Reemplazar nombre de archivo**: Reemplaza el nombre del archivo como se indica en el comentario de la linea 6 de la celda de codigo

2. **Accede al enlace provisional**: Una vez que la aplicación esté corriendo, LocalTunnel generará un enlace temporal. Haz clic o copia ese enlace para acceder a tu aplicación en el navegador (cada vez que corras la celda, el link podrá ser diferente).

**Nota:**
Para finalizar la ejecución del Dashboard ejecuta la ultima celda de codigo y sigue las instrucciones.

In [20]:
!wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64
!chmod +x cloudflared-linux-amd64
!mv cloudflared-linux-amd64 /usr/local/bin/cloudflared

#Ejecutar Streamlit
!streamlit run 0_👋_Hello.py &>/content/logs.txt & #Cambiar 0_👋_Hello.py por el nombre de tu archivo principal

#Exponer el puerto 8501 con Cloudflare Tunnel
!cloudflared tunnel --url http://localhost:8501 > /content/cloudflared.log 2>&1 &

#Leer la URL pública generada por Cloudflare
import time
time.sleep(5)  # Esperar que se genere la URL

import re
found_context = False  # Indicador para saber si estamos en la sección correcta

with open('/content/cloudflared.log') as f:
    for line in f:
        #Detecta el inicio del contexto que nos interesa
        if "Your quick Tunnel has been created" in line:
            found_context = True

        #Busca una URL si ya se encontró el contexto relevante
        if found_context:
            match = re.search(r'https?://\S+', line)
            if match:
                url = match.group(0)  #Extrae la URL encontrada
                print(f'Tu aplicación está disponible en: {url}')
                break  #Termina el bucle después de encontrar la URL

--2025-05-24 04:11:41--  https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github.com/cloudflare/cloudflared/releases/download/2025.5.0/cloudflared-linux-amd64 [following]
--2025-05-24 04:11:41--  https://github.com/cloudflare/cloudflared/releases/download/2025.5.0/cloudflared-linux-amd64
Reusing existing connection to github.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/106867604/797840ed-70cb-47b8-a6fe-ecb4b3385c94?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250524%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250524T041141Z&X-Amz-Expires=300&X-Amz-Signature=b8565a58436a782a27f5d8e7d9e811b2d58f0a82fab7ef6f23ff27e5a0b05220&X-Amz-S