# Predicción de Precios de Cámaras Digitales: Un Proyecto de Machine Learning de Nivel Senior

**Objetivo del Proyecto:** Desarrollar un modelo de Machine Learning robusto para predecir el precio (`Price`) de cámaras digitales basándose en sus características técnicas y fecha de lanzamiento.

**Dataset:** `camera_dataset.csv`

**Pasos del Proyecto:**
1. Carga y Comprensión Inicial de Datos
2. Análisis Exploratorio de Datos (EDA) Detallado
3. Preprocesamiento e Ingeniería de Características Avanzada
4. Desarrollo y Entrenamiento de Modelos de Regresión
5. Evaluación Rigurosa y Selección del Modelo
6. Optimización de Hiperparámetros Avanzada
7. Interpretación del Modelo y Resultados Finales
8. Interfaz de Predicción Interactiva
9. Conclusiones y Próximos Pasos

## 0.1. Importación de Librerías Necesarias

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, RandomizedSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder, PolynomialFeatures
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, mean_absolute_percentage_error
import xgboost as xgb
import lightgbm as lgb
import ipywidgets as widgets
from ipywidgets import interact, interactive, fixed, IntSlider, FloatSlider, Dropdown, Textarea
import warnings

# Configuraciones adicionales
warnings.filterwarnings("ignore")
pd.set_option("display.max_columns", None)
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (12, 6)

## 1. Carga y Comprensión Inicial de Datos

In [None]:
# Cargar el dataset
try:
    df_cameras = pd.read_csv("../data/camera_dataset.csv")
except FileNotFoundError:
    print("Error: El archivo camera_dataset.csv no se encontró en la carpeta data/. Asegúrate de que la ruta es correcta.")
    # Intentar cargar desde la ruta de carga si es un entorno de ejecución diferente (ej. local vs. sandbox)
    try:
        df_cameras = pd.read_csv("camera_dataset.csv") # Asumiendo que está en el mismo dir que el notebook si falla el anterior
    except FileNotFoundError:
        print("Error: No se pudo cargar el dataset desde ninguna ruta conocida.")
        df_cameras = pd.DataFrame() # Crear un DF vacío para evitar errores posteriores

if not df_cameras.empty:
    print("Dataset cargado exitosamente.")
    print("
Primeras 5 filas:")
    display(df_cameras.head())
    print("
Últimas 5 filas:")
    display(df_cameras.tail())
    print(f"
Dimensiones del dataset: {df_cameras.shape}")
    print("
Información del dataset:")
    df_cameras.info()
    print("
Estadísticas descriptivas:")
    display(df_cameras.describe(include="all"))
    print("
Conteo de valores nulos por columna:")
    display(df_cameras.isnull().sum())

## 2. Análisis Exploratorio de Datos (EDA) Detallado

### 2.1. Análisis de la Variable Objetivo: `Price`

In [None]:
if not df_cameras.empty and 'Price' in df_cameras.columns:
    plt.figure(figsize=(14, 5))
    plt.subplot(1, 2, 1)
    sns.histplot(df_cameras['Price'], kde=True, bins=50)
    plt.title("Distribución del Precio de las Cámaras")
    plt.xlabel("Precio")
    plt.ylabel("Frecuencia")

    plt.subplot(1, 2, 2)
    sns.boxplot(x=df_cameras['Price'])
    plt.title("Boxplot del Precio de las Cámaras")
    plt.xlabel("Precio")
    plt.tight_layout()
    plt.show()

    # Considerar transformación logarítmica si está muy sesgado
    df_cameras['Price_log'] = np.log1p(df_cameras['Price'])
    plt.figure(figsize=(14, 5))
    plt.subplot(1, 2, 1)
    sns.histplot(df_cameras['Price_log'], kde=True, bins=50)
    plt.title("Distribución del Precio Log-Transformado")
    plt.xlabel("Log(Precio + 1)")
    plt.ylabel("Frecuencia")

    plt.subplot(1, 2, 2)
    sns.boxplot(x=df_cameras['Price_log'])
    plt.title("Boxplot del Precio Log-Transformado")
    plt.xlabel("Log(Precio + 1)")
    plt.tight_layout()
    plt.show()
else:
    print("El DataFrame está vacío o la columna 'Price' no existe.")

### 2.2. Análisis Univariado de Características Numéricas

In [None]:
if not df_cameras.empty:
    numerical_features = df_cameras.select_dtypes(include=np.number).columns.tolist()
    # Excluir Price y Price_log ya analizados, y 'Release date' que se tratará también en bivariado
    features_to_plot = [f for f in numerical_features if f not in ['Price', 'Price_log']]

    for feature in features_to_plot:
        if feature in df_cameras.columns:
            plt.figure(figsize=(12, 4))
            plt.subplot(1, 2, 1)
            sns.histplot(df_cameras[feature], kde=True, bins=30)
            plt.title(f'Distribución de {feature}')

            plt.subplot(1, 2, 2)
            sns.boxplot(x=df_cameras[feature])
            plt.title(f'Boxplot de {feature}')
            plt.tight_layout()
            plt.show()
else:
    print("El DataFrame está vacío.")

### 2.3. Análisis Bivariado y Multivariado

In [None]:
if not df_cameras.empty and 'Price' in df_cameras.columns:
    # Precio vs. Características Numéricas
    for feature in features_to_plot: # Usamos las mismas features que antes
        if feature in df_cameras.columns and feature != 'Release date': # Release date se grafica aparte
            plt.figure(figsize=(8, 5))
            sns.scatterplot(x=df_cameras[feature], y=df_cameras['Price'])
            plt.title(f'Precio vs. {feature}')
            plt.xlabel(feature)
            plt.ylabel("Precio")
            plt.show()

    # Precio vs. Release Date
    if 'Release date' in df_cameras.columns:
        plt.figure(figsize=(10, 6))
        sns.lineplot(x=df_cameras['Release date'], y=df_cameras['Price'], marker='o', errorbar=None) # errorbar=None para limpiar
        plt.title("Evolución del Precio Medio por Año de Lanzamiento")
        plt.xlabel("Año de Lanzamiento")
        plt.ylabel("Precio Medio")
        plt.show()

    # Matriz de Correlación
    plt.figure(figsize=(12, 10))
    # Seleccionar solo columnas numéricas para la correlación, incluyendo Price_log
    corr_matrix = df_cameras[numerical_features].corr()
    sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", fmt=".2f", linewidths=.5)
    plt.title("Matriz de Correlación de Características Numéricas")
    plt.show()
else:
    print("El DataFrame está vacío o la columna 'Price' no existe.")

## 3. Preprocesamiento e Ingeniería de Características

### 3.1. Limpieza y Manejo de Nulos

In [None]:
if not df_cameras.empty:
    print("Valores nulos antes de la imputación:")
    print(df_cameras.isnull().sum()[df_cameras.isnull().sum() > 0])

    # Estrategias de imputación (ejemplos, ajustar según EDA más profundo)
    # Para 'Macro focus range', 0 podría ser un valor razonable si NaN significa sin modo macro o foco infinito.
    if 'Macro focus range' in df_cameras.columns: df_cameras['Macro focus range'].fillna(0, inplace=True)
    # Para otras numéricas, usar mediana podría ser más robusto a outliers que la media.
    cols_to_impute_median = ['Storage included', 'Weight (inc. batteries)', 'Dimensions']
    for col in cols_to_impute_median:
        if col in df_cameras.columns: df_cameras[col].fillna(df_cameras[col].median(), inplace=True)

    print("
Valores nulos después de la imputación:")
    print(df_cameras.isnull().sum()[df_cameras.isnull().sum() > 0])
    if df_cameras.isnull().sum().sum() == 0:
        print("
Todos los valores nulos han sido tratados.")
else:
    print("El DataFrame está vacío.")

### 3.2. Ingeniería de Características

In [None]:
if not df_cameras.empty and 'Release date' in df_cameras.columns:
    # 1. Camera Age (respecto al año más reciente en el dataset)
    max_year = df_cameras['Release date'].max()
    df_cameras['Camera Age'] = max_year - df_cameras['Release date']

    # 2. Zoom Ratio
    if 'Zoom wide (W)' in df_cameras.columns and 'Zoom tele (T)' in df_cameras.columns:
        # Evitar división por cero si Zoom wide (W) es 0. Si es 0, el ratio es indefinido o podría ser 1 (sin zoom óptico).
        df_cameras['Zoom Ratio'] = np.where(df_cameras['Zoom wide (W)'] > 0, df_cameras['Zoom tele (T)'] / df_cameras['Zoom wide (W)'], 1)
    else:
        df_cameras['Zoom Ratio'] = 1 # Valor por defecto si las columnas no existen

    # 3. Resolution Area (Max_resolution * Low_resolution) - Asumiendo que son dimensiones, aunque el EDA sugiere que son #pixeles.
    # Si son #pixeles, Max_resolution es más directo. Si son dimensiones, el producto es área.
    # El notebook de referencia lo calcula como producto, así que lo replicamos para consistencia, pero con cautela.
    if 'Max resolution' in df_cameras.columns and 'Low resolution' in df_cameras.columns:
        df_cameras['Resolution Area (MP)'] = (df_cameras['Max resolution'] * df_cameras['Low resolution']) / 1000000 # Convertir a Megapixeles
    else:
        df_cameras['Resolution Area (MP)'] = 0 # Valor por defecto

    # 4. Weight to Dimension Ratio (proxy de densidad/robustez) - Cuidado con dimensiones = 0
    if 'Weight (inc. batteries)' in df_cameras.columns and 'Dimensions' in df_cameras.columns:
        df_cameras['Weight_Dim_Ratio'] = np.where(df_cameras['Dimensions'] > 0, df_cameras['Weight (inc. batteries)'] / df_cameras['Dimensions'], 0)
    else:
        df_cameras['Weight_Dim_Ratio'] = 0

    print("
Nuevas características creadas:")
    display(df_cameras[['Camera Age', 'Zoom Ratio', 'Resolution Area (MP)', 'Weight_Dim_Ratio']].head())
else:
    print("El DataFrame está vacío o 'Release date' no existe para crear 'Camera Age'.")

### 3.3. Selección Final de Características y División de Datos

In [None]:
if not df_cameras.empty and 'Price_log' in df_cameras.columns:
    # Seleccionar características para el modelo. Excluir 'Model', 'Price' original, y quizás 'Low resolution' si 'Max resolution' y 'Resolution Area' son suficientes.
    # También excluimos 'Release date' original si 'Camera Age' la reemplaza bien.
    features = [
        'Max resolution', 'Effective pixels', 'Zoom wide (W)', 'Zoom tele (T)', 
        'Normal focus range', 'Macro focus range', 'Storage included', 
        'Weight (inc. batteries)', 'Dimensions', 'Camera Age', 'Zoom Ratio', 
        'Resolution Area (MP)', 'Weight_Dim_Ratio'
    ]
    # Asegurarse de que todas las features seleccionadas existen en el df
    features = [f for f in features if f in df_cameras.columns]

    X = df_cameras[features]
    y = df_cameras['Price_log'] # Usar el precio log-transformado como objetivo

    print(f"Características seleccionadas para X ({X.shape[1]}): {X.columns.tolist()}")

    # División en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    print(f"Tamaño de X_train: {X_train.shape}")
    print(f"Tamaño de X_test: {X_test.shape}")
else:
    print("El DataFrame está vacío o 'Price_log' no se ha creado.")

### 3.4. Pipeline de Preprocesamiento (Escalado)

In [None]:
if 'X_train' in locals():
    # Solo necesitamos escalar las características numéricas, ya que no tenemos categóricas seleccionadas (aparte de 'Model' que fue excluida)
    # Si tuviéramos categóricas, aquí iría el ColumnTransformer con OneHotEncoder, etc.
    scaler = StandardScaler()

    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    print("Datos escalados. X_train_scaled shape:", X_train_scaled.shape)
else:
    print("X_train no está definido. Ejecuta la celda anterior.")

## 4. Desarrollo y Entrenamiento de Modelos de Regresión

In [None]:
if 'X_train_scaled' in locals():
    models = {
        'Linear Regression': LinearRegression(),
        'Ridge Regression': Ridge(random_state=42),
        'Lasso Regression': Lasso(random_state=42),
        'ElasticNet': ElasticNet(random_state=42),
        'KNeighbors Regressor': KNeighborsRegressor(),
        'Decision Tree Regressor': DecisionTreeRegressor(random_state=42),
        'Random Forest Regressor': RandomForestRegressor(random_state=42, n_jobs=-1),
        'Gradient Boosting Regressor': GradientBoostingRegressor(random_state=42),
        'XGBoost Regressor': xgb.XGBRegressor(random_state=42, n_jobs=-1, objective='reg:squarederror'),
        'LightGBM Regressor': lgb.LGBMRegressor(random_state=42, n_jobs=-1, verbosity=-1)
        # 'SVR': SVR() # SVR puede ser lento, añadir si se desea
    }

    results = {}
    for name, model in models.items():
        # Usar validación cruzada para una evaluación más robusta
        # RMSE (neg_root_mean_squared_error) y R2 son buenas métricas
        cv_rmse_scores = cross_val_score(model, X_train_scaled, y_train, cv=5, scoring='neg_root_mean_squared_error', n_jobs=-1)
        cv_r2_scores = cross_val_score(model, X_train_scaled, y_train, cv=5, scoring='r2', n_jobs=-1)
        results[name] = {
            'CV Mean RMSE': -np.mean(cv_rmse_scores),
            'CV Std RMSE': np.std(cv_rmse_scores),
            'CV Mean R2': np.mean(cv_r2_scores),
            'CV Std R2': np.std(cv_r2_scores)
        }
        print(f"Evaluado: {name}")

    results_df = pd.DataFrame(results).T.sort_values(by='CV Mean RMSE', ascending=True)
    print("
Resultados de Validación Cruzada (ordenados por RMSE ascendente):")
    display(results_df)
else:
    print("X_train_scaled no está definido. Ejecuta las celdas anteriores.")

## 5. Evaluación y Selección del Modelo

Basándonos en los resultados de la validación cruzada (especialmente `CV Mean RMSE` y `CV Mean R2`), podemos seleccionar los modelos más prometedores para la optimización de hiperparámetros. Modelos como LightGBM, XGBoost, Gradient Boosting y Random Forest suelen dar buenos resultados.

## 6. Optimización de Hiperparámetros Avanzada

Seleccionaremos uno o dos de los mejores modelos para optimizar. Por ejemplo, LightGBM.

In [None]:
if 'X_train_scaled' in locals() and 'results_df' in locals() and not results_df.empty:
    best_model_name = results_df.index[0] # El mejor según RMSE en CV
    print(f"Modelo seleccionado para optimización: {best_model_name}")

    # Ejemplo de optimización para LightGBM
    if best_model_name == 'LightGBM Regressor':
        param_grid_lgbm = {
            'n_estimators': [100, 200, 500],
            'learning_rate': [0.01, 0.05, 0.1],
            'num_leaves': [31, 50, 70],
            'max_depth': [-1, 10, 20],
            'colsample_bytree': [0.7, 0.8, 0.9],
            'subsample': [0.7, 0.8, 0.9]
        }
        lgbm_model = lgb.LGBMRegressor(random_state=42, n_jobs=-1, verbosity=-1)
        # Usar RandomizedSearchCV para una búsqueda más eficiente en espacios grandes
        random_search_lgbm = RandomizedSearchCV(lgbm_model, param_distributions=param_grid_lgbm, 
                                              n_iter=50, cv=5, scoring='neg_root_mean_squared_error', 
                                              random_state=42, n_jobs=-1, verbose=1)
        print("Iniciando RandomizedSearchCV para LightGBM...")
        random_search_lgbm.fit(X_train_scaled, y_train)
        print("Mejores hiperparámetros para LightGBM:", random_search_lgbm.best_params_)
        print(f"Mejor RMSE en CV (LightGBM optimizado): {-random_search_lgbm.best_score_:.4f}")
        optimized_model = random_search_lgbm.best_estimator_
    elif best_model_name == 'XGBoost Regressor': # Ejemplo para XGBoost
        param_grid_xgb = {
            'n_estimators': [100, 200, 500],
            'learning_rate': [0.01, 0.05, 0.1],
            'max_depth': [3, 5, 7],
            'colsample_bytree': [0.7, 0.8, 0.9],
            'subsample': [0.7, 0.8, 0.9]
        }
        xgb_model = xgb.XGBRegressor(random_state=42, n_jobs=-1, objective='reg:squarederror')
        random_search_xgb = RandomizedSearchCV(xgb_model, param_distributions=param_grid_xgb, 
                                             n_iter=50, cv=5, scoring='neg_root_mean_squared_error', 
                                             random_state=42, n_jobs=-1, verbose=1)
        print("Iniciando RandomizedSearchCV para XGBoost...")
        random_search_xgb.fit(X_train_scaled, y_train)
        print("Mejores hiperparámetros para XGBoost:", random_search_xgb.best_params_)
        print(f"Mejor RMSE en CV (XGBoost optimizado): {-random_search_xgb.best_score_:.4f}")
        optimized_model = random_search_xgb.best_estimator_
    else: # Si el mejor modelo no es LGBM o XGB, usar el modelo no optimizado de la lista original
        print(f"Optimizador no implementado para {best_model_name}, usando modelo base entrenado.")
        optimized_model = models[best_model_name] # Tomar el modelo ya instanciado
        optimized_model.fit(X_train_scaled, y_train) # Re-entrenar en todo el train set

    # Guardar el modelo optimizado y el scaler para la interfaz de predicción
    final_model = optimized_model
    final_scaler = scaler # El scaler ajustado en X_train
    final_features = X_train.columns.tolist() # Guardar el orden de las features
else:
    print("Datos de entrenamiento o resultados de modelos no disponibles para optimización.")
    final_model = None; final_scaler = None; final_features = []

## 7. Interpretación del Modelo y Resultados Finales

In [None]:
if final_model is not None and 'X_test_scaled' in locals():
    # Predicciones en el conjunto de prueba
    y_pred_log = final_model.predict(X_test_scaled)

    # Revertir la transformación logarítmica para interpretar los resultados en la escala original del precio
    y_test_original = np.expm1(y_test) # y_test es Price_log
    y_pred_original = np.expm1(y_pred_log)

    # Métricas en la escala original
    rmse_original = np.sqrt(mean_squared_error(y_test_original, y_pred_original))
    mae_original = mean_absolute_error(y_test_original, y_pred_original)
    r2_original = r2_score(y_test_original, y_pred_original)
    mape_original = mean_absolute_percentage_error(y_test_original, y_pred_original)

    print(f"Resultados del Modelo Final ({type(final_model).__name__}) en el Conjunto de Prueba (Escala Original del Precio):")
    print(f"  RMSE: ${rmse_original:.2f}")
    print(f"  MAE: ${mae_original:.2f}")
    print(f"  R²: {r2_original:.4f}")
    print(f"  MAPE: {mape_original:.2%}")

    # Visualización de Predicciones vs. Reales
    plt.figure(figsize=(10, 6))
    plt.scatter(y_test_original, y_pred_original, alpha=0.5, edgecolors='k')
    plt.plot([y_test_original.min(), y_test_original.max()], [y_test_original.min(), y_test_original.max()], 'r--', lw=2)
    plt.xlabel("Precios Reales")
    plt.ylabel("Precios Predichos")
    plt.title("Precios Reales vs. Predichos (Escala Original)")
    plt.show()

    # Importancia de Características (si el modelo lo soporta)
    if hasattr(final_model, 'feature_importances_'):
        importances = final_model.feature_importances_
        feature_importance_df = pd.DataFrame({'feature': final_features, 'importance': importances})
        feature_importance_df = feature_importance_df.sort_values(by='importance', ascending=False)

        plt.figure(figsize=(12, 8))
        sns.barplot(x='importance', y='feature', data=feature_importance_df.head(15)) # Top 15 features
        plt.title(f'Importancia de Características ({type(final_model).__name__})')
        plt.tight_layout()
        plt.show()
    elif hasattr(final_model, 'coef_'):
        coefficients = final_model.coef_
        feature_coeffs_df = pd.DataFrame({'feature': final_features, 'coefficient': coefficients})
        feature_coeffs_df['abs_coefficient'] = np.abs(feature_coeffs_df['coefficient'])
        feature_coeffs_df = feature_coeffs_df.sort_values(by='abs_coefficient', ascending=False)

        plt.figure(figsize=(12, 8))
        sns.barplot(x='coefficient', y='feature', data=feature_coeffs_df.head(15)) # Top 15 features by abs_coefficient
        plt.title(f'Coeficientes de Características ({type(final_model).__name__})')
        plt.tight_layout()
        plt.show()
else:
    print("Modelo final o datos de prueba no disponibles para evaluación final.")

## 8. Interfaz de Predicción Interactiva

Utiliza los siguientes controles para ingresar las características de una cámara y obtener una predicción de su precio.

In [None]:
if final_model is not None and final_scaler is not None and final_features:
    # Crear widgets para cada feature
    # Usar df_cameras (antes de escalar y dividir) para obtener rangos razonables para sliders
    # Si df_cameras no está disponible, usar valores por defecto genéricos
    global_df_for_ranges = df_cameras if 'df_cameras' in locals() and not df_cameras.empty else pd.DataFrame(columns=final_features)

    widget_dict = {}
    for feature in final_features:
        min_val = global_df_for_ranges[feature].min() if feature in global_df_for_ranges and not global_df_for_ranges[feature].empty else 0
        max_val = global_df_for_ranges[feature].max() if feature in global_df_for_ranges and not global_df_for_ranges[feature].empty else 100
        mean_val = global_df_for_ranges[feature].mean() if feature in global_df_for_ranges and not global_df_for_ranges[feature].empty else 50
        step_val = (max_val - min_val) / 100 if max_val > min_val else 1

        # Ajustar tipos de sliders y rangos
        if global_df_for_ranges[feature].dtype == 'int64' or feature in ['Camera Age'] : # Asumir enteros para algunos
             widget_dict[feature] = widgets.IntSlider(value=int(mean_val), min=int(min_val), max=int(max_val), step=1, description=feature, continuous_update=False, layout=widgets.Layout(width='90%'))
        else: # Floats para el resto
             widget_dict[feature] = widgets.FloatSlider(value=mean_val, min=min_val, max=max_val, step=step_val, description=feature, continuous_update=False, readout_format='.2f', layout=widgets.Layout(width='90%'))

    # Output widget para mostrar la predicción
    prediction_output = widgets.Output()

    def predict_price(**kwargs):
        with prediction_output:
            prediction_output.clear_output()
            try:
                # Crear DataFrame con los inputs del usuario, asegurando el orden correcto de las columnas
                input_data = pd.DataFrame([kwargs])[final_features]
                # Escalar los datos de entrada
                input_data_scaled = final_scaler.transform(input_data)
                # Realizar la predicción (en escala logarítmica)
                predicted_price_log = final_model.predict(input_data_scaled)[0]
                # Revertir a la escala original
                predicted_price_original = np.expm1(predicted_price_log)
                print(f"**Precio Predicho Estimado: ${predicted_price_original:.2f}**")
            except Exception as e:
                print(f"Error durante la predicción: {e}")

    # Crear la interfaz interactiva
    interactive_prediction = widgets.interactive_output(predict_price, widget_dict)
    # Organizar los widgets verticalmente
    ui_elements = [widget_dict[f] for f in final_features] # Lista de widgets
    display(widgets.VBox(ui_elements), prediction_output)
else:
    print("El modelo final, el escalador o las características finales no están disponibles para la interfaz de predicción.")
    print("Asegúrate de que todas las celdas anteriores se hayan ejecutado correctamente.")

## 9. Conclusiones y Próximos Pasos

En este proyecto, hemos desarrollado un pipeline de Machine Learning para predecir el precio de cámaras digitales. 
- Se realizó un análisis exploratorio detallado, preprocesamiento de datos e ingeniería de características.
- Se entrenaron y evaluaron múltiples modelos de regresión, seleccionando el más performante (ej. LightGBM o XGBoost) tras la validación cruzada.
- Se optimizaron los hiperparámetros del modelo seleccionado.
- El modelo final fue evaluado en un conjunto de prueba, mostrando [Mencionar R², RMSE, MAE del test set aquí después de la ejecución].
- Las características más influyentes en la predicción del precio fueron [Mencionar features importantes aquí].
- Se implementó una interfaz interactiva para realizar predicciones con nuevas entradas.

**Limitaciones:**
- El dataset tiene un tamaño moderado y cubre un rango de años específico. Modelos más complejos podrían beneficiarse de más datos.
- La característica 'Model' no se utilizó directamente para la predicción debido a su alta cardinalidad, aunque podría contener información de marca útil si se procesara.
- La imputación de valores nulos se basó en estrategias generales; un conocimiento más profundo del dominio podría mejorarla.

**Próximos Pasos Sugeridos:**
- Recolectar datos más recientes y de una mayor variedad de fuentes.
- Incorporar características adicionales como tipo de sensor, reviews de usuarios, o información de marca procesada.
- Probar arquitecturas de Deep Learning si el dataset se expande significativamente.
- Desplegar el modelo como una API web para un uso más amplio.
- Realizar un análisis más profundo de la interpretabilidad del modelo (ej. SHAP values).