In [13]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from google.colab import files

# Solicitar la carga del archivo CSV
uploaded = files.upload()

# Verificar que se haya cargado un archivo
if len(uploaded) == 0:
    raise ValueError("No se ha cargado ningún archivo. Por favor, carga un archivo CSV.")

# Leer el archivo CSV cargado
file_name = list(uploaded.keys())[0]  # Obtener el nombre del archivo cargado
df = pd.read_csv(io.BytesIO(uploaded[file_name]))

# Mostrar las primeras filas del DataFrame
print("Primeras filas del DataFrame:")
print(df.head())

# Separar las características (X) y la variable objetivo (y)
X = df.drop('Price', axis=1)
y = df['Price']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Preprocesamiento: Convertir variables categóricas en numéricas
categorical_features = ['Brand', 'Category', 'Color', 'Size', 'Material']
one_hot_encoder = OneHotEncoder(handle_unknown='ignore')

preprocessor = ColumnTransformer(
    transformers=[
        ('cat', one_hot_encoder, categorical_features)
    ])

# Crear el pipeline con el preprocesador y el modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(n_estimators=100, random_state=42))
])

# Entrenar el modelo
model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'\nError Cuadrático Medio (MSE): {mse}')
print(f'Coeficiente de Determinación (R²): {r2}')

# Mostrar algunas predicciones vs valores reales
results = pd.DataFrame({'Real': y_test, 'Predicción': y_pred})
print("\nComparación de predicciones vs valores reales:")
print(results.head(10))

Saving clothes_price_prediction_dat_3.csv to clothes_price_prediction_dat_3.csv
Primeras filas del DataFrame:
          Brand Category  Color Size Material  Price
0   New Balance    Dress  White   XS    Nylon    182
1   New Balance    Jeans  Black   XS     Silk     57
2  Under Armour    Dress    Red    M     Wool    127
3          Nike    Shoes  Green    M   Cotton     77
4        Adidas  Sweater  White    M    Nylon    113

Error Cuadrático Medio (MSE): 3221.780554364204
Coeficiente de Determinación (R²): -0.09939703140167144

Comparación de predicciones vs valores reales:
     Real  Predicción
521   101  149.431667
737   164  126.565000
740    58  108.782500
660    82   98.160000
411   177  135.850000
678    79   97.630000
626    38  104.620000
513   118   86.330000
859   157   93.560000
136    68  111.188333
