<a href="https://colab.research.google.com/github/Sisg2408/Sisg2408/blob/main/Untitled1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score, mean_squared_error
import numpy as np

def preprocesar_y_dividir(datos, objetivo, test_size=0.2, random_state=42):
    """
    Realiza el preprocesamiento de los datos, divide el conjunto en entrenamiento y prueba,
    y devuelve los conjuntos de características y variable objetivo.

    Parámetros:
    - datos: DataFrame que contiene los datos.
    - objetivo: Nombre de la columna que representa la variable objetivo.
    - test_size: Proporción del conjunto de prueba (valor entre 0 y 1).
    - random_state: Semilla para la reproducibilidad de los resultados.

    Retorna:
    - X_train: Conjunto de características de entrenamiento.
    - X_test: Conjunto de características de prueba.
    - y_train: Variable objetivo para el conjunto de entrenamiento.
    - y_test: Variable objetivo para el conjunto de prueba.
    """

    # Separar características (X) y variable objetivo (y)
    X = datos.drop(objetivo, axis=1)
    y = datos[objetivo]

    # Dividir el conjunto de datos en entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state)

    return X_train, X_test, y_train, y_test

def crear_modelo_regresion_lineal(X_train, X_test, y_train, y_test):
    """
    Crea un modelo de regresión lineal, lo entrena y evalúa su rendimiento.

    Parámetros:
    - X_train: Conjunto de características de entrenamiento.
    - X_test: Conjunto de características de prueba.
    - y_train: Variable objetivo para el conjunto de entrenamiento.
    - y_test: Variable objetivo para el conjunto de prueba.
    """

    # Crear y entrenar el modelo de regresión lineal
    modelo_reg_lineal = LinearRegression()
    modelo_reg_lineal.fit(X_train, y_train)

    # Realizar predicciones en el conjunto de prueba
    y_pred_reg_lineal = modelo_reg_lineal.predict(X_test)

    # Evaluar el rendimiento del modelo
    r2 = r2_score(y_test, y_pred_reg_lineal)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred_reg_lineal))

    print("Modelo de Regresión Lineal:")
    print(f"Coeficientes: {modelo_reg_lineal.coef_}")
    print(f"Intercepto: {modelo_reg_lineal.intercept_}")
    print(f"R^2: {r2}")
    print(f"RMSE: {rmse}")

def crear_modelo_arbol_regresion(X_train, X_test, y_train, y_test):
    """
    Crea un modelo de árbol de regresión, lo entrena y evalúa su rendimiento.

    Parámetros:
    - X_train: Conjunto de características de entrenamiento.
    - X_test: Conjunto de características de prueba.
    - y_train: Variable objetivo para el conjunto de entrenamiento.
    - y_test: Variable objetivo para el conjunto de prueba.
    """

    # Crear y entrenar el modelo de árbol de regresión
    modelo_arbol_reg = DecisionTreeRegressor()
    modelo_arbol_reg.fit(X_train, y_train)

    # Realizar predicciones en el conjunto de prueba
    y_pred_arbol_reg = modelo_arbol_reg.predict(X_test)

    # Evaluar el rendimiento del modelo
    r2 = r2_score(y_test, y_pred_arbol_reg)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred_arbol_reg))

    print("Modelo de Árbol de Regresión:")
    print(f"Profundidad del árbol: {modelo_arbol_reg.get_depth()}")
    print(f"R^2: {r2}")
    print(f"RMSE: {rmse}")

# Cargar los datos
filename = "/content/sales_predictions_2023.csv"
df = pd.read_csv(filename)

# Llamar a la función para preprocesar y dividir los datos
X_train, X_test, y_train, y_test = preprocesar_y_dividir(df, "Item_Outlet_Sales")

# Llamar a la función para crear y evaluar el modelo de regresión lineal
crear_modelo_regresion_lineal(X_train, X_test, y_train, y_test)

# Llamar a la función para crear y evaluar el modelo de árbol de regresión
crear_modelo_arbol_regresion(X_train, X_test, y_train, y_test)

# Preguntas adicionales del Proyecto 1 - Final (básico)
"""
3) Acaban de intentar 2 diferentes modelos en el conjunto de datos. Deben determinar qué modelo implementar.

En general, ¿qué modelo recomiendan?
- La elección entre un modelo de regresión lineal y un modelo de árbol de regresión puede depender
  de diversos factores. Si el rendimiento (medido por R^2 y RMSE) es similar entre ambos modelos,
  se puede considerar la complejidad y la interpretabilidad del modelo. Un modelo de regresión lineal
  es más simple e interpretable, mientras que un árbol de regresión puede capturar relaciones no lineales
  pero es menos interpretable. La elección final puede depender de los objetivos específicos del proyecto
  y las preferencias del modelador.
"""

IndentationError: ignored