<a href="https://colab.research.google.com/github/rpizarrog/innovacion-empresarial/blob/main/notebook_python%20/Caso_19_Evaluaci%C3%B3n_cruzada_para_datos_de_opinones_de_calidad_de_ropa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivo

Elaborar un proceso de validación cruzada para evaluar modelos de clasificación con datos sobre encuesta de calidad de prendas de vestir.

# Los modelos a evaluar

* Regresión logística multinomial
* Arboles de clasificación
* Random Forest
* Máquinas de Soprte Vectorial SVL(Lineal)
* AdaBoost

Los modelo se aceptan si tienen un valor de Accuracy igual o superior al 50%


# Desarrollo



## Cargar librerías



In [None]:
import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.model_selection import cross_val_score, KFold
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.svm import SVC
from sklearn.preprocessing import LabelEncoder

import ipywidgets as widgets
from IPython.display import display, HTML, clear_output


import time # Para medir el tiempo de ejecución

import matplotlib.pyplot as plt

import time # Para medir el tiempo de ejecución

from sklearn.preprocessing import OneHotEncoder

## Cargar funciones



In [None]:
# Pendientes ...


## Cargar widgets


In [None]:
visualizar = widgets.Output()


# Función para actualizar y mostrar el contenido dinámicamente en el widget de salida
def f_visualizar_datos(datos1, datos2, titulo1, titulo2):
    with visualizar:
        #global titulo1, titulo2
        #titulo1 = "Primeros 20 registros de datos"
        visualizar.clear_output(wait=True)  # Limpiar el contenido anterior
        display(HTML(f"<h2>{titulo1}</h2>"))  # Establecer el nuevo título
        # Visualizar datos
        display(datos1)

        #titulo2 = "Últimos 20 registros de datos"
        display(HTML(f"<h2>{titulo2}</h2>"))  # Establecer el nuevo título
        # Visualizar datos
        display(datos2)

## Cargar los datos


In [None]:
# Carga el archivo CSV
ruta = 'https://raw.githubusercontent.com/rpizarrog/innovacion-empresarial/main/datos/opiniones_calidad_prendas_ropa_equidad.csv'  # Actualiza con la ruta correcta
datos = pd.read_csv(ruta)

# Tamaño de la muestra deseado, por ejemplo, 1000 registros
# n = 2500 # Mitad de los datos
# muestra = datos.sample(n=n, random_state=2024)

# Llamar a la función para mostrar datos de entrenamiento ordenados por índice
f_visualizar_datos(datos.head(20), datos.tail(20), "Primeros registros de Datos", "Últimos registros de Datos")

# Para mostrar el widget de salida
display(visualizar)

Output()

## Preparando los datos

Convertir las variables cualitativas a valores codificados, y dejar todo el conjunto de datos en un solo llamado *datos_preparados*



In [None]:
# Preprocesamiento: Codificación de variables categóricas
encoder = OneHotEncoder(sparse=False)
# Instanciar un LabelEncoder
encoder = LabelEncoder()

# Aplicar Label Encoding a cada columna categórica y guardar en el mismo DataFrame
datos['Tipo_Prenda'] = encoder.fit_transform(datos['Tipo_Prenda'])
datos['Género'] = encoder.fit_transform(datos['Género'])
datos['Color'] = encoder.fit_transform(datos['Color'])
datos['Estilo'] = encoder.fit_transform(datos['Estilo'])
datos['Marca'] = encoder.fit_transform(datos['Marca'])
datos['Género_Incluyente'] = encoder.fit_transform(datos['Género_Incluyente'])
datos['Profesión'] = encoder.fit_transform(datos['Profesión'])
datos['Calidad'] = encoder.fit_transform(datos['Calidad'])


# Llamar a la función para mostrar datos
f_visualizar_datos(datos.head(20), datos.tail(20), "Primeros registros de Datos", "Últimos registros de Datos")

# Para mostrar el widget de salida
display(visualizar)

Output()

## Construir datos de entrenamiento y validación

Seper las variables independientes de la variabe dependiente



In [None]:
# Separar características (X) y la variable objetivo (y)
independientes = datos[['Tipo_Prenda','Género',	'Color','Estilo','Marca','Precio','Talla','Cantidad_Lavados','Edad', 'Profesión', 'Género_Incluyente']]
dependiente = datos['Calidad']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(independientes, dependiente, test_size=0.3, random_state=2024)

## Realizar validación cruzada


In [None]:
from sklearn.model_selection import cross_val_score

# Modelos
log_reg = LogisticRegression(max_iter=1000)  # Aumentar max_iter si la convergencia no se alcanza
decision_tree = DecisionTreeClassifier()
random_forest = RandomForestClassifier()
svm_linear = SVC(kernel='linear')
ada_boost = AdaBoostClassifier()

# Función para evaluar modelos
def evaluate_model(model, X, y):
    scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')  # 5-fold cross-validation
    return scores.mean(), scores.std()

# Marcar el tiempo de inicio
start_time = time.time()

# Evaluar cada modelo
# models = [log_reg, decision_tree, random_forest, svm_linear, ada_boost]
modelos = [log_reg, decision_tree, random_forest, svm_linear, ada_boost]
model_names = ['Logistic Regression', 'Decision Tree', 'Random Forest', 'SVM Linear', 'AdaBoost']

for model, name in zip(modelos, model_names):
    mean_accuracy, std_dev = evaluate_model(model, X_train, y_train)
    print(f"{name}: Accuracy = {mean_accuracy:.2f} (+/- {std_dev * 2:.2f})")

# Marcar el tiempo de finalización
end_time = time.time()

# Calcular la duración restando el tiempo de inicio del tiempo de finalización
duration = end_time - start_time
print(f"El tiempo de ejecución fue de {duration} segundos.")


Logistic Regression: Accuracy = 0.50 (+/- 0.00)
Decision Tree: Accuracy = 0.38 (+/- 0.02)
Random Forest: Accuracy = 0.47 (+/- 0.03)
SVM Linear: Accuracy = 0.50 (+/- 0.00)
AdaBoost: Accuracy = 0.49 (+/- 0.00)
El tiempo de ejecución fue de 1550.5747504234314 segundos.


# Interpretación

* Logistic Regression: Accuracy = 0.50 (+/- 0.00)
* Decision Tree: Accuracy = 0.38 (+/- 0.02)
* Random Forest: Accuracy = 0.47 (+/- 0.03)
* SVM Linear: Accuracy = 0.50 (+/- 0.00)
* AdaBoost: Accuracy = 0.49 (+/- 0.00)

El mejor modelo fue ....Regresión logística y SVM para estos datos.

Estos modelos de Regresión logística y SVM cumplen la metrica establecida para ser aceptados porque está o so iguales al 50% de exactitud.

