<h1>Tarea</h1>
<h3>Optimización de la Experiencia de Compra en Instacart: Un Análisis de Árboles de Decisiones, Random Forest y Gradient Boosting</h3>

<h1>Contexto</h1>

El propósito de este proyecto es prever qué productos comprarán los usuarios en el futuro, basándonos en las características del conjunto de datos creado durante la fase de limpieza de datos. Utilizando un conjunto de variables seleccionadas y procesadas cuidadosamente, buscamos anticipar las decisiones de compra de los usuarios. Al analizar estas características y su relación con el comportamiento de compra pasado, podemos desarrollar modelos predictivos que nos ayuden a comprender y pronosticar qué productos es más probable que los usuarios adquieran en el futuro. Este enfoque nos permite tomar decisiones informadas sobre la gestión de inventario, personalización de recomendaciones y estrategias de marketing, lo que mejora la experiencia del usuario y aumenta la eficiencia de los servicios que ofrece Instacart.

El conjunto de datos consta de los pedidos de 200,000 usuarios, con cada uno realizando entre 4 y 100 pedidos. Nuestro objetivo es predecir qué productos previamente comprados estarán en el próximo pedido de un usuario. Cada usuario ha comprado varios productos en pedidos anteriores, y tenemos información sobre el order_id de su próximo pedido. Este problema se trata de clasificación, ya que necesitamos prever si cada usuario comprará nuevamente ciertos productos o no, lo cual está indicado por la variable reordered, siendo reordered=1 o reordered=0.

Como resultado, hemos identificado varias variables predictoras que describen las características de un producto y el comportamiento del usuario con respecto a uno o varios productos. Estas nuevas variables se generaron al analizar los pedidos anteriores del conjunto de datos.

<h1>Asignación</h1>

Después de revisar el cuaderno sobre "Optimización de la Experiencia de Compra en Instacart mediante Análisis de Árboles de Decisión, Bosques Aleatorios y Impulso Gradiente", tu tarea consiste en implementar dos modelos basados en los métodos mencionados. Debes fusionar árboles de decisión, bosques aleatorios e impulso gradiente. Posteriormente, evalúa y compara ambos modelos para seleccionar el más eficaz. Finalmente, prueba el modelo seleccionado en el conjunto de datos de pruebas para determinar los productos que necesitan ser reordenados.


<h2>Código en Python</h2>

En esta sección, es fundamental cargar las diferentes bibliotecas que se utilizarán en el estudio para garantizar un análisis efectivo y eficiente de los datos. A continuación, se proporciona un ejemplo de cómo podrías cargar estas bibliotecas en Python

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib as mpl
from matplotlib import pyplot as plt
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score, roc_curve, confusion_matrix, f1_score
from sklearn import tree
from sklearn import ensemble
from sklearn import model_selection

import itertools



Después, procedemos a cargar los datos utilizando la biblioteca Pandas. Puedes descargar los datos desde el aula virtual o el repositorio de <a href='https://drive.google.com/file/d/1ev8BAm9SEttmnwT-2gxik4_Y230UqWl1/view?usp=drive_link'>data</a>, dependiendo de tu preferencia. 

In [None]:
df = pd.read_csv('')


Después de cargar los datos, es importante verificar su calidad y realizar cualquier limpieza necesaria para garantizar la precisión de nuestro análisis. Aquí tienes algunos pasos comunes que podríamos realizar para verificar y limpiar los datos:

Verificar la estructura de los datos: Revisar la forma del DataFrame, el tipo de datos de cada columna y la presencia de valores faltantes.

Manejo de valores faltantes: Decidir cómo manejar los valores faltantes, ya sea eliminándolos, imputándolos con algún valor, o utilizando técnicas más avanzadas como el imputado mediante modelos.

Corrección de tipos de datos: Convertir los tipos de datos según sea necesario para el análisis.

Definir un Random Seed para

In [None]:
#


<h1>Divide tu data para entrenar el modelo y poder hacer pruebas de los modelos</h1>

In [None]:
#X_train, X_val, y_train, y_val = train_test_split(df.drop('reordered', axis=1), df.reordered, test_size=0.2, random_state=RANDOMSEED)


<h1>Funciones para evaluar los modelos y graficar</h1>

Revisa las funciones que utilizamos para evaluar los modelos.

In [None]:
def evaluate_model(predictions, probs, train_predictions, train_probs):
    """Comparar el rendimiento del modelo de aprendizaje automático con la referencia. Calculo estadísticos y Muestra de la curva ROC."""
    
    baseline = {}
    
    baseline['acurracy'] = accuracy_score(y_val, [1 for _ in range(len(y_val))])
    baseline['recall'] = recall_score(y_val, [1 for _ in range(len(y_val))])
    baseline['precision'] = precision_score(y_val, [1 for _ in range(len(y_val))])
    baseline['f1_score'] = f1_score(y_val, [1 for _ in range(len(y_val))])
    baseline['roc'] = 0.5
    
    results = {}
    results['acurracy'] = accuracy_score(y_val, predictions)
    results['recall'] = recall_score(y_val, predictions)
    results['precision'] = precision_score(y_val, predictions)
    results['f1_score'] = f1_score(y_val, predictions)
    results['roc'] = roc_auc_score(y_val, probs)

    train_results = {}
    train_results['acurracy'] = accuracy_score(y_train, train_predictions)
    train_results['recall'] = recall_score(y_train, train_predictions)
    train_results['precision'] = precision_score(y_train, train_predictions)
    train_results['f1_score'] = f1_score(y_train, train_predictions)
    train_results['roc'] = roc_auc_score(y_train, train_probs)

    for metric in ['acurracy', 'recall', 'precision', 'f1_score', 'roc']:
        display(f'Base de comparación {metric.capitalize()}: {round(baseline[metric], 2)} Prueba: {round(results[metric], 2)} Entrenamiento: {round(train_results[metric], 2)}')

    #Calcular tasas de falsos positivos y tasas de verdaderos positivos.
    base_fpr, base_tpr, _ = roc_curve(y_val, [1 for _ in range(len(y_val))])
    model_fpr, model_tpr, _ = roc_curve(y_val, probs)

    plt.figure(figsize = (8, 6))
    plt.rcParams['font.size'] = 16

    plt.plot(base_fpr, base_tpr, 'b', label = 'Base de comparación')
    plt.plot(model_fpr, model_tpr, 'r', label = 'Modelo')
    plt.legend()
    plt.xlabel('Tasa de Falsos Positivos'); plt.ylabel('Tasa de Verdaderos Positivos'); plt.title('Curva ROC')

def plot_confusion_matrix(predictions):

    cm = confusion_matrix(y_val, predictions)
    classes = ['Sin reorden', 'Con reorden']

    plt.figure(figsize = (10, 10))
    plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Oranges)
    plt.title('Matriz de confusión', size = 24)
    plt.colorbar(aspect=4)
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45, size = 14)
    plt.yticks(tick_marks, classes, size = 14)

    fmt = '.2f'
    thresh = cm.max() / 2.

    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt), fontsize = 20,
                    horizontalalignment="center",
                    color="white" if cm[i, j] > thresh else "black")
        
    plt.grid(None)
    plt.tight_layout()
    plt.ylabel('Etiqueta Verdadera')
    plt.xlabel('Etiqueta predicha')

def plot_features(model):
    feat = list(X_train.columns)
    fi = pd.DataFrame({'feature': feat,
                    'importance': model.feature_importances_}).\
                        sort_values('importance', ascending = False)
    
    x_values = list(range(len(fi['importance'])))
    plt.bar(x_values, fi['importance'], orientation = 'vertical')
    plt.xticks(x_values, fi['feature'], rotation='vertical')
    plt.ylabel('importance')
    plt.xlabel('Características')
    plt.title('Importancias de las características')

def plot_tree(model):
    tree.plot_tree(model, 
                   feature_names=X_train.columns,
                   filled=True)
    plt.show()

<h1>Entrenamiento de los modelos</h1>

Vamos a definir el primer modelo a entrenar. Dado el tamaño de los datos, es recomendable limitar la complejidad del modelo para evitar tiempos de entrenamiento prolongados.

In [None]:
#

Vamos a determinar los nodos y la profundidad del modelo. Es importante ajustar estos parámetros para equilibrar la capacidad de aprendizaje del modelo y evitar el sobreajuste.

In [None]:
#

Vamos a realizar las predicciones de probabilidad y las predicciones para los datos de entrenamiento y de prueba con el primer modelo. Esto nos permitirá evaluar el desempeño del modelo en ambos conjuntos de datos y comprender su capacidad para generalizar a datos no vistos.

In [None]:
#train_probs = model.predict_proba(X_train)[:, 1]
#probs = model.predict_proba(X_val)[:, 1]

#train_predictions = model.predict(X_train)
#predictions = model.predict(X_val)

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
evaluate_model()
plot_confusion_matrix()
plot_features()
plot_tree()

Vamos a definir el segundo modelo a entrenar. Dado el tamaño de los datos, es recomendable limitar la complejidad del modelo para evitar tiempos de entrenamiento prolongados.

In [None]:
#

Vamos a determinar los nodos y la profundidad del modelo. Es importante ajustar estos parámetros para equilibrar la capacidad de aprendizaje del modelo y evitar el sobreajuste.

In [None]:
#

Vamos a realizar las predicciones de probabilidad y las predicciones para los datos de entrenamiento y de prueba con el segundo modelo. Esto nos permitirá evaluar el desempeño del modelo en ambos conjuntos de datos y comprender su capacidad para generalizar a datos no vistos.

In [None]:
#

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
#

Vamos a comparar los resultados de ambos modelos y luego explicaremos por qué optamos por utilizar uno sobre el otro. 

In [None]:
#

<h1>Prueba del modelo con nuevo datos</h1>

Carga el nuevo conjunto de datos de pruebas, lo puedes descargar desde <a href='https://drive.google.com/file/d/1GfmCmZMKoosYaO_5vZW9NxlrHc1p32wc/view?usp=drive_link'>aqui</a>

In [None]:
#

Vamos a realizar las predicciones de probabilidad y las predicciones para los datos nuevos con el modelo seleccionado. Esto nos permitirá ver el comportamiento del modelo con datos nuevo.

In [None]:
#

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
#

<h1>Discusión y Conclusión</h1>

Presenta tus conclusiones sobre el trabajo llevado a cabo

<h1>Referencia</h1>
