# ¡Llena ese carrito!

# Introducción

Instacart es una plataforma de entregas de comestibles donde la clientela puede registrar un pedido y hacer que se lo entreguen, similar a Uber Eats y Door Dash.
El conjunto de datos que te hemos proporcionado tiene modificaciones del original. Redujimos el tamaño del conjunto para que tus cálculos se hicieran más rápido e introdujimos valores ausentes y duplicados. Tuvimos cuidado de conservar las distribuciones de los datos originales cuando hicimos los cambios.

Debes completar tres pasos. Para cada uno de ellos, escribe una breve introducción que refleje con claridad cómo pretendes resolver cada paso, y escribe párrafos explicatorios que justifiquen tus decisiones al tiempo que avanzas en tu solución.  También escribe una conclusión que resuma tus hallazgos y elecciones.


<div class="alert alert-block alert-success">

# ¡Hola Diego!

Mi nombre es Sofia Arboleda, estaré ayudándote a revisar este proyecto para que quede en su mejor versión.

Un gusto acompañarte en este proceso, vamos a ello!

### Comentario General Iteración #2

Respecto a tu trabajo en esta segunda iteración, felicitarte porque has mostrado tus conocimientos de la mejor forma, utilizando los metodos correctamente, realizando filtros de forma sencilla y trabajando con los diferentes datasets para llegar a las respuestas de negocio que se buscaban en este proyecto. Solo quedan algunas recomendaciones de mejora que te servirán para mejorar tus entregas a futuro y corregir el desarrollo.

Sigue aprendiendo bastante en este camino, excelente trabajo!
</div>

## Diccionario de datos

Hay cinco tablas en el conjunto de datos, y tendrás que usarlas todas para hacer el preprocesamiento de datos y el análisis exploratorio de datos. A continuación se muestra un diccionario de datos que enumera las columnas de cada tabla y describe los datos que contienen.

- `instacart_orders.csv`: cada fila corresponde a un pedido en la aplicación Instacart.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'user_id'`: número de ID que identifica de manera única la cuenta de cada cliente.
    - `'order_number'`: el número de veces que este cliente ha hecho un pedido.
    - `'order_dow'`: día de la semana en que se hizo el pedido (0 si es domingo).
    - `'order_hour_of_day'`: hora del día en que se hizo el pedido.
    - `'days_since_prior_order'`: número de días transcurridos desde que este cliente hizo su pedido anterior.
- `products.csv`: cada fila corresponde a un producto único que pueden comprar los clientes.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'product_name'`: nombre del producto.
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
- `order_products.csv`: cada fila corresponde a un artículo pedido en un pedido.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'add_to_cart_order'`: el orden secuencial en el que se añadió cada artículo en el carrito.
    - `'reordered'`: 0 si el cliente nunca ha pedido este producto antes, 1 si lo ha pedido.
- `aisles.csv`
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'aisle'`: nombre del pasillo.
- `departments.csv`
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
    - `'department'`: nombre del departamento.

# Paso 1. Descripción de los datos

Lee los archivos de datos (`/datasets/instacart_orders.csv`, `/datasets/products.csv`, `/datasets/aisles.csv`, `/datasets/departments.csv` y `/datasets/order_products.csv`) con `pd.read_csv()` usando los parámetros adecuados para leer los datos correctamente. Verifica la información para cada DataFrame creado.


## Plan de solución

Escribe aquí tu plan de solución para el Paso 1. Descripción de los datos.
**Rta: Se importara pandas, como libreria principal, luego se utlizara el medodo read csv para leer los archivos incluido el parametro sep, para separar por ";", para luego mostrar informacion con los metodos head e info**

In [None]:
# importar librerías
import pandas as pd


In [None]:
# leer conjuntos de datos en los DataFrames
df_instacart = pd.read_csv("/datasets/instacart_orders.csv", sep=";")
df_products =pd.read_csv("/datasets/products.csv", sep=";")
df_order_products = pd.read_csv("/datasets/order_products.csv", sep=";")
df_aisles =pd.read_csv("/datasets/aisles.csv", sep=";")
df_departments = pd.read_csv("/datasets/departments.csv", sep=";")

In [None]:
# mostrar información del DataFrame
print(df_instacart.head())
df_instacart.info(show_counts=True)

In [None]:
print(df_products.head())
df_products.info(show_counts=True)

In [None]:
print(df_order_products.head())
df_order_products.info(show_counts=True)

In [None]:
print(df_aisles.head())
df_aisles.info(show_counts=True)

In [None]:
print(df_departments.head())
df_departments.info(show_counts=True)

## Conclusiones

Se realizo la importacion de pandas, se realizo la lectura de los archivos y un primer vistazo de los datosm asi como los valores nulos


# Paso 2. Preprocesamiento de los datos

Preprocesa los datos de la siguiente manera:

- Verifica y corrige los tipos de datos (por ejemplo, asegúrate de que las columnas de ID sean números enteros).
- Identifica y completa los valores ausentes.
- Identifica y elimina los valores duplicados.

Asegúrate de explicar qué tipos de valores ausentes y duplicados encontraste, cómo los completaste o eliminaste y por qué usaste esos métodos. ¿Por qué crees que estos valores ausentes y duplicados pueden haber estado presentes en el conjunto de datos?

## Encuentra y elimina los valores duplicados (y describe cómo tomaste tus decisiones).

### `orders` data frame

In [None]:
print(df_instacart.duplicated().sum())
print(df_instacart[df_instacart.duplicated(keep=False)].sort_values(by="order_number"))

¿Tienes líneas duplicadas? Si sí, ¿qué tienen en común?
**RTA: Si hay lineas duplicadas, en el archivo instacart. tienen valores identicos, curiosamente los duplicados corresponden a los dias miercoles y a las2am.**

In [None]:


# Basándote en tus hallazgos,
# Verifica todos los pedidos que se hicieron el miércoles a las 2:00 a.m.
pedidos_2am = df_instacart[(df_instacart['order_dow'] == 3) &
                            (df_instacart['order_hour_of_day'] == 2)]

print(f"Total de pedidos el miércoles a las 2:00 a.m.: {len(pedidos_2am)}")
print(f"Pedidos duplicados encontrados: {df_instacart.duplicated().sum()}")
print("\nPrimeros pedidos del miércoles a las 2:00 a.m.:")
print(pedidos_2am.head(10))




¿Qué sugiere este resultado?
**Rta: sugiere que los duplicados corresponden exactamente a los pedidos del miercoles a las 2am**

In [None]:
# Elimina los pedidos duplicados
df_instacart= df_instacart.drop_duplicates()


In [None]:
# Vuelve a verificar si hay filas duplicadas
print(df_instacart.duplicated().sum())


In [None]:
# Vuelve a verificar únicamente si hay IDs duplicados de pedidos
print(df_instacart["order_id"].duplicated().sum())


Describe brevemente tus hallazgos y lo que hiciste con ellos
**RTA: Se encontraron pedidos duplicados, y se realizo la eliminacion de los mismos para el procesamiento posterior de datos**

### `products` data frame

In [None]:
print(df_products.duplicated().sum())
print(df_products[df_products.duplicated(keep=False)].sort_values(by="product_id"))


In [None]:
# Revisa únicamente si hay ID de productos duplicados
print(df_products["product_id"].duplicated().sum())

In [None]:
# Revisa únicamente si hay nombres duplicados de productos (convierte los nombres a letras mayúsculas para compararlos mejor)
print(df_products["product_name"].str.upper().duplicated().sum())

In [None]:
# Revisa si hay nombres duplicados de productos no faltantes
productos_con_nombre = df_products.dropna(subset=['product_name'])
duplicados_no_faltantes = productos_con_nombre['product_name'].str.upper().duplicated().sum()

print(f"Nombres duplicados entre productos sin tener en cuenta los valores NaN: {duplicados_no_faltantes}")


Describe brevemente tus hallazgos y lo que hiciste con ellos.
**RTA: Se encontraron 1361 productos duplicados, incluyendo los que se duplican con NaN, sin embargo al realizar el analisis mas a fondo, se encontro que realmente hay 104 nombres duplicados sin incluir los valores ausentes.
El procedimiento realizado, primero fue eliminar los valores ausentes, para despues realizar nuevamente el filtro.**

### `departments` data frame

In [None]:
print(df_departments.duplicated().sum())
print(df_departments[df_departments.duplicated(keep=False)].sort_values(by="department_id"))
print(df_departments)

In [None]:
# Revisa únicamente si hay IDs duplicadas de departamentos
print(df_departments["department_id"].duplicated().sum())

Describe brevemente tus hallazgos y lo que hiciste con ellos.
**Rta: No hay id de departments con valores duplicados, por lo tanto no se realiza ningun procesamiento para los mismos.**

### `aisles` data frame

In [None]:
print(df_aisles.duplicated().sum())
print(df_aisles[df_aisles.duplicated(keep=False)].sort_values(by="aisle_id"))
print(df_aisles)

In [None]:
# Revisa únicamente si hay IDs duplicadas de pasillos
print(df_aisles["aisle_id"].duplicated().sum())

Describe brevemente tus hallazgos y lo que hiciste con ellos.
**Rta: No se encontraron valores de id repetidos, por lo que no es necesario realizar ningun procesamiento.**

### `order_products` data frame

In [None]:
print(df_order_products.duplicated().sum())
print(df_order_products[df_order_products.duplicated(keep=False)].sort_values(by="order_id"))
print(df_order_products)


In [None]:
# Vuelve a verificar si hay cualquier otro duplicado engañoso
print(df_order_products.duplicated(["order_id", "product_id"]).sum())


Describe brevemente tus hallazgos y lo que hiciste con ellos.
**Rta: Se pudo verificar nuevamente, y no se tienen valores duplicados en este dataframe. por lo que no se realiza ninguna accion para el manejo de los mismos.**

## Encuentra y elimina los valores ausentes

Al trabajar con valores duplicados, pudimos observar que también nos falta investigar valores ausentes:

* La columna `'product_name'` de la tabla products.
* La columna `'days_since_prior_order'` de la tabla orders.
* La columna `'add_to_cart_order'` de la tabla order_productos.

### `products` data frame

In [None]:
# Encuentra los valores ausentes en la columna 'product_name'
print(df_products.isna().sum())


Describe brevemente cuáles son tus hallazgos.
**Rta: Se encontraron 1258 valores ausentes en la columna "product_name"**

In [None]:

#  ¿Todos los nombres de productos ausentes están relacionados con el pasillo con ID 100?
print(df_products[df_products['product_name'].isna()])


Describe brevemente cuáles son tus hallazgos.
**Rta: Todos los productos sin nombre pertenecen al aisle_id = 100 (department_id = 21), por lo que la falta de datos no es aleatoria sino un problema específico de ese pasillo.**

In [None]:
# ¿Todos los nombres de productos ausentes están relacionados con el departamento con ID 21?
print(df_products[df_products['product_name'].isna()])

Describe brevemente cuáles son tus hallazgos.
**Rta: Sí. Todos los registros con product_name ausente pertenecen al department_id = 21 (y al aisle_id = 100), lo que indica que el problema está concentrado en ese departamento y no es aleatorio.**

In [None]:
# Usa las tablas department y aisle para revisar los datos del pasillo con ID 100 y el departamento con ID 21.
pasillo_100 = df_aisles[df_aisles['aisle_id'] == 100]
print("Información del pasillo 100:")
print(pasillo_100)

departamento_21 = df_departments[df_departments['department_id'] == 21]
print("Información del departamento 21:")
print(departamento_21)



Describe brevemente cuáles son tus hallazgos.
**Rta: Los aisle ID100 corresponden al aisle "missing" que hace referencia a valor ausente. ; y los deparment 21, hacen referencia a "missing" al igual que aisleID100**

In [None]:
# Completa los nombres de productos ausentes con 'Unknown'
df_products["product_name"]=df_products["product_name"].fillna("Unknown")
print(df_products.isna().sum())


Describe brevemente tus hallazgos y lo que hiciste con ellos.
**Rta: Se realizo el reemplazo de los valores ausentes en la columna "product_name" con el string "Unknown"**

### `orders` data frame

In [None]:
# Encuentra los valores ausentes
print(df_instacart.isna().sum())

In [None]:
# ¿Hay algún valor ausente que no sea el primer pedido del cliente?
faltantes = df_instacart[df_instacart["days_since_prior_order"].isna()]
problemas = faltantes[faltantes['order_number'] != 1]
print(df_instacart[df_instacart["order_number"]==1])
print(f"Número de filas con valores faltantes cuando order_number != 1: {len(problemas)}")


Describe brevemente tus hallazgos y lo que hiciste con ellos.
**Rta: Los valores ausentes en days_since_prior_order corresponden únicamente a pedidos con order_number = 1 (primer pedido del cliente). No hay valores faltantes en pedidos posteriores, por lo que se consideran normales y no un error de datos.**

### `order_products` data frame

In [None]:
# Encuentra los valores ausentes
print(df_order_products.isna().sum())

In [None]:
# ¿Cuáles son los valores mínimos y máximos en esta columna?
print(df_order_products ["add_to_cart_order"].max())
print(df_order_products ["add_to_cart_order"].min())

Describe brevemente cuáles son tus hallazgos.
**Rta: los valores maximos son de 64 y 1 el valor minimo para la columna "add_to_cart_order"**

In [None]:
# Guarda todas las IDs de pedidos que tengan un valor ausente en 'add_to_cart_order'
ids_valor_ausente = df_order_products[df_order_products["add_to_cart_order"].isna()]["order_id"]
print(ids_valor_ausente)

In [None]:
# ¿Todos los pedidos con valores ausentes tienen más de 64 productos?
# Agrupa todos los pedidos con datos ausentes por su ID de pedido.
# Cuenta el número de 'product_id' en cada pedido y revisa el valor mínimo del conteo.
ids_valor_ausente = df_order_products[df_order_products["add_to_cart_order"].isna()]
print(ids_valor_ausente.groupby("order_id")["product_id"].count())


Describe brevemente cuáles son tus hallazgos.
**Rta: no, el maximo de productos con valores ausentes es de 63und, y el minimo de productos con valores ausentes corresponde a 1und**


In [None]:
# Remplaza los valores ausentes en la columna 'add_to_cart? con 999 y convierte la columna al tipo entero.
df_order_products["add_to_cart_order"] = df_order_products["add_to_cart_order"].fillna(999)
df_order_products["add_to_cart_order"] = df_order_products["add_to_cart_order"].astype("int")
print(df_order_products.isna().sum())
df_order_products.info()


Describe brevemente tus hallazgos y lo que hiciste con ellos.
**Rta: se realizo el cambio de valores ausentes a 999, y se realizo el cambio de tipo de datos en la columna "add_to_cart_order" de float64 al tipo int64**

# Paso 3. Análisis de los datos

Una vez los datos estén procesados y listos, haz el siguiente análisis:

# [A] Fácil (deben completarse todos para aprobar)

1. Verifica que los valores en las columnas `'order_hour_of_day'` y `'order_dow'` en la tabla orders sean razonables (es decir, `'order_hour_of_day'` oscile entre 0 y 23 y `'order_dow'` oscile entre 0 y 6).
2. Crea un gráfico que muestre el número de personas que hacen pedidos dependiendo de la hora del día.
3. Crea un gráfico que muestre qué día de la semana la gente hace sus compras.
4. Crea un gráfico que muestre el tiempo que la gente espera hasta hacer su siguiente pedido, y comenta sobre los valores mínimos y máximos.

### [A1] Verifica que los valores sean sensibles

In [None]:
#Verifica que los valores en las columnas 'order_hour_of_day' y 'order_dow' en la tabla orders sean razonables (es decir, 'order_hour_of_day' oscile entre 0 y 23 y 'order_dow' oscile entre 0 y 6).
print(df_instacart["order_hour_of_day"].min())
print(df_instacart["order_hour_of_day"].max())
print(df_instacart["order_dow"].min())
print(df_instacart["order_dow"].max())
df_instacart.info()

In [None]:
#Crea un gráfico que muestre el número de personas que hacen pedidos dependiendo de la hora del día.
import matplotlib.pyplot as plt
ordenes_agrupadas = df_instacart.groupby("order_hour_of_day")["order_id"].nunique()
print(ordenes_agrupadas)
ordenes_agrupadas.plot(kind='bar',
                      title='Número de pedidos por hora del día',
                      xlabel='Hora del día',
                      ylabel='Número de pedidos',
                      figsize=(12, 6))
plt.show()


Escribe aquí tus conclusiones
**Rta: las horas del dia, donde mas se reportaron pedidos, fueron entre las 9hrs y 16hrs, asi mismo las horas del dia con menos reporte de pedidos, fueron en la madrugada entre las 0hrs y 6hrs**

### [A2] Para cada hora del día, ¿cuántas personas hacen órdenes?

In [None]:
ordenes_agrupadas = df_instacart.groupby("order_hour_of_day")["order_id"].nunique()
print(ordenes_agrupadas)
ordenes_agrupadas.plot(kind='bar',
                      title='Número de pedidos por hora del día',
                      xlabel='Hora del día',
                      ylabel='Número de pedidos',
                      figsize=(12, 6))
plt.show()

Escribe aquí tus conclusiones
**Rta: Se realiza el agrupamiento para visualizar cuantos pedidos se realizan para cada hra del dia.**

### [A3] ¿Qué día de la semana compran víveres las personas?

In [None]:
ordenes_agrupadas_xsemana = df_instacart.groupby("order_dow")["order_id"].count()
print(ordenes_agrupadas_xsemana)
ordenes_agrupadas_xsemana.plot(kind='bar',
                              title='Número de pedidos por día de la semana',
                              xlabel='Día de la semana (0=Domingo, 6=Sábado)',
                              ylabel='Número de pedidos',
                              figsize=(10, 6))

Escribe aquí tus conclusiones
**Rta: Los dias 0 y 1 (domingo y lunes respectivamente) son los dias con mayor cantidad de pedidos, lo que quiere decir que esos dias son los que destinan mas personas para realizar sus compras**

### [A4] ¿Cuánto tiempo esperan las personas hasta hacer otro pedido? Comenta sobre los valores mínimos y máximos.

In [None]:
df_sin_ausentes = df_instacart[df_instacart['days_since_prior_order'].notna()]
ordenes_max_espera = df_sin_ausentes["days_since_prior_order"].max()
#ordenes_prom_espera = df_sin_ausentes["days_since_prior_order"].mean()
ordenes_min_espera = df_sin_ausentes["days_since_prior_order"].min()
print(f"Tiempo de espera maximo :{ordenes_max_espera}")
#print(f"Tiempo de espera promedio :{ordenes_prom_espera}")
print(f"Tiempo de espera minimo :{ordenes_min_espera}")

df_sin_ausentes['days_since_prior_order'].plot(kind='hist',
                                                   bins=30,
                                                   title='Distribución del tiempo de espera entre pedidos',
                                                   xlabel='Días desde el pedido anterior',
                                                   ylabel='Frecuencia',
                                                   figsize=(12, 6))



Escribe aquí tus conclusiones
**Rta: Excluyendo los valores ausentes, tenems clientes que esperaron 30dias para realizar un segundo pedido y clientes que esperaron 0 dias para realizar un segundo pedido.**

# [B] Intermedio (deben completarse todos para aprobar)

1. ¿Existe alguna diferencia entre las distribuciones `'order_hour_of_day'` de los miércoles y los sábados? Traza gráficos de barra de `'order_hour_of_day'` para ambos días en la misma figura y describe las diferencias que observes.
2. Grafica la distribución para el número de órdenes que hacen los clientes (es decir, cuántos clientes hicieron solo 1 pedido, cuántos hicieron 2, cuántos 3, y así sucesivamente...).
3. ¿Cuáles son los 20 principales productos que se piden con más frecuencia (muestra su identificación y nombre)?

### [B1] Diferencia entre miércoles y sábados para  `'order_hour_of_day'`. Traza gráficos de barra para los dos días y describe las diferencias que veas.

In [None]:
#¿Existe alguna diferencia entre las distribuciones 'order_hour_of_day' de los miércoles y los sábados? Traza gráficos de barra de 'order_hour_of_day' para ambos días en la misma figura y describe las diferencias que observes.
miercoles = df_instacart[df_instacart['order_dow'] == 3].groupby('order_hour_of_day')['order_id'].count()
sabados = df_instacart[df_instacart['order_dow'] == 6].groupby('order_hour_of_day')['order_id'].count()

comparacion = pd.DataFrame({
    'Miércoles': miercoles,
    'Sábados': sabados})

comparacion.plot(kind='bar',
                figsize=(12, 6),
                title='Comparación de pedidos por hora: Miércoles vs Sábados',
                xlabel='Hora del día',
                ylabel='Número de pedidos')




Escribe aquí tus conclusiones
**Rta: se identificaron que las horas del dia entre las 10 y 16 horas para los dias miercoles y sabados son superiores a las otras horas.**

### [B2] ¿Cuál es la distribución para el número de pedidos por cliente?

In [None]:
##Grafica la distribución para el número de órdenes que hacen los clientes (es decir, cuántos clientes hicieron solo 1 pedido, cuántos hicieron 2, cuántos 3, y así sucesivamente...).


In [None]:

distribucion = df_instacart.groupby("user_id")["order_id"].count()
print(distribucion)
distribucion.plot(title="cantidad de ordenes x usuario", kind="hist", xlabel="Número de pedidos",
                 ylabel="Cantidad de usuarios", figsize=[12,6])


Escribe aquí tus conclusiones
**Rta: la mayor cantidad de usuarios ha realizado entre 1 y 3 pedidos.**

### [B3] ¿Cuáles son los 20 productos más populares (muestra su ID y nombre)?

In [None]:



productos_populares = df_order_products.groupby('product_id',)['order_id'].count()
productos_populares = productos_populares.reset_index()

products_merged= df_products.merge(productos_populares)
top_20_productos = products_merged.sort_values(by= "order_id", ascending=False).head(20)
print(top_20_productos)




Escribe aquí tus conclusiones
**Rta: se realizan los filtros y agrupaciones correspondientes para encontrar los productos mas populares, asi como tambien se analiza el comportamiento de los usuarios en cuanto a las compras.**

# [C] Difícil (deben completarse todos para aprobar)

1. ¿Cuántos artículos suelen comprar las personas en un pedido? ¿Cómo es la distribución?
2. ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?
3. Para cada producto, ¿cuál es la tasa de repetición del pedido (número de repeticiones de pedido/total de pedidos?
4. Para cada cliente, ¿qué proporción de los productos que pidió ya los había pedido? Calcula la tasa de repetición de pedido para cada usuario en lugar de para cada producto.
5. ¿Cuáles son los 20 principales artículos que la gente pone primero en sus carritos (muestra las IDs de los productos, sus nombres, y el número de veces en que fueron el primer artículo en añadirse al carrito)?

### [C1] ¿Cuántos artículos compran normalmente las personas en un pedido? ¿Cómo es la distribución?

In [None]:
cantidad_de_productos = df_order_products.groupby("order_id")["add_to_cart_order"].count()
print(cantidad_de_productos)

In [None]:

print(f"La cantidad maxima de productos por pedido es : {cantidad_de_productos.max()}")
print(f"La cantidad minima de productos por pedido es : {cantidad_de_productos.min()}")


In [None]:

distribucion_conteo = cantidad_de_productos.value_counts().sort_index()


distribucion_conteo.plot(kind='bar',
                        title='Distribución del número de productos por pedido',
                        xlabel='Número de productos por pedido',
                        ylabel='Número de pedidos',
                        figsize=(12, 6))

Escribe aquí tus conclusiones
**Rta: se realiza la validacion de los datos, se encuentra que hay los pedidos con 5 a 6 productos, son los que mayor frecuencia tienen en los compradores**

### [C2] ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?

In [None]:




productos_recurrentes = df_order_products[df_order_products["reordered"] == 1]
productos_recurrentes = productos_recurrentes.groupby("product_id")["order_id"].count()
productos_recurrentes = productos_recurrentes.reset_index()

df_merged= df_products.merge(productos_recurrentes)
print(df_merged.sort_values(by="order_id", ascending=False).head(20))





Escribe aquí tus conclusiones
**Rta: Se muestran los 20 productos que mas se vuelven a pedir con mas frecuencia**

### [C3] Para cada producto, ¿cuál es la proporción de las veces que se pide y que se vuelve a pedir?

In [None]:


productos_recurrentes = df_order_products[df_order_products["reordered"] == 1]
productos_totales = df_order_products.groupby("product_id")["order_id"].count()
productos_recurrentes = productos_recurrentes.groupby("product_id")["order_id"].count()
proporcion_reorden = productos_recurrentes / productos_totales

df_proporcion = proporcion_reorden.reset_index()
df_proporcion.columns = ['product_id', 'proporcion_reorden']


df_final = df_products.merge(df_proporcion, on='product_id')
print(df_final.sort_values(by="proporcion_reorden", ascending=True))


Escribe aquí tus conclusiones
**Rta: Se realizaron los calculos y se organizo la informacion de modo que se tenga la proporcion de reorden**

### [C4] Para cada cliente, ¿qué proporción de sus productos ya los había pedido?

In [None]:
df_merged = df_instacart.merge(df_order_products, on='order_id')

df_merged_reordered = df_merged[df_merged["reordered"] == 1]
df_merged_reord_agrup = df_merged_reordered.groupby("user_id")["order_id"].count()
df_merged_agrup = df_merged.groupby("user_id")["order_id"].count()

df_proporcion = df_merged_reord_agrup/df_merged_agrup
print(df_proporcion)

Escribe aquí tus conclusiones
**Rta: se realiza el calculo de la proporcion de productos pedidos que se vuelven a pedir, no sin antes realizar el merge entre los 2 dataframes**

### [C5] ¿Cuáles son los 20 principales artículos que las personas ponen primero en sus carritos?

In [None]:

df_add_primeros= df_order_products[df_order_products["add_to_cart_order"] == 1]
df_add_agrup = df_add_primeros.groupby("product_id")["add_to_cart_order"].count()
df_add_agrup= df_add_agrup.reset_index()

df_final = df_products.merge(df_add_agrup)
print(df_final.sort_values(by="add_to_cart_order", ascending=False).head(20))


Escribe aquí tus conclusiones
**Rta: Se realizo el filtrado de los pedidos que fueron añadidos como primeros en el carrito, para luego realizar el merge de los dtf y visualizar los valores mas altos con sus respectivos nombres.**

### Conclusion general del proyecto:

Conclusión final del proyecto

El análisis del conjunto de datos de Instacart permitió comprender el comportamiento de compra de los usuarios y la dinámica de pedidos dentro de la plataforma, partiendo de un proceso estructurado que incluyó exploración, limpieza, transformación y análisis de los datos.

En primer lugar, durante la fase de preparación se identificaron valores ausentes y registros duplicados que podían afectar la calidad del análisis. Se eliminaron pedidos duplicados, se gestionaron valores faltantes en variables clave y se ajustaron tipos de datos para asegurar consistencia. Este proceso permitió trabajar con información confiable y representativa del comportamiento real de los usuarios.

Posteriormente, el análisis exploratorio evidenció patrones claros en los hábitos de compra. La mayor cantidad de pedidos se concentra entre las horas de la mañana y la tarde, especialmente entre las 9:00 y las 16:00, mientras que la madrugada presenta menor actividad. En cuanto a los días de la semana, domingo y lunes son los de mayor volumen de pedidos, lo que sugiere una planificación semanal de abastecimiento por parte de los usuarios. También se observó que el tiempo de espera entre pedidos varía ampliamente, desde compras realizadas el mismo día hasta intervalos de aproximadamente 30 días.

El estudio del comportamiento por usuario mostró que la mayoría realiza entre uno y tres pedidos, mientras que un grupo menor presenta mayor recurrencia, evidenciando distintos niveles de fidelidad y uso de la plataforma. Asimismo, se identificó que los pedidos suelen contener una cantidad moderada de productos, con mayor frecuencia entre cinco y seis artículos por orden.

Respecto a los productos, se determinó que frutas, verduras y productos orgánicos lideran tanto en popularidad como en frecuencia de recompra, destacándose artículos como bananas, fresas, espinaca y aguacate. Esto sugiere una preferencia por productos frescos y de consumo recurrente. También se evidenció que ciertos productos tienden a añadirse primero al carrito, lo que indica que son considerados esenciales dentro de la compra.

Finalmente, el análisis de la recurrencia mostró que muchos usuarios vuelven a pedir los mismos productos, lo que refleja hábitos de compra estables y oportunidades para estrategias de recomendación, personalización y fidelización dentro de la plataforma.

En conjunto, este proyecto permitió no solo limpiar y estructurar correctamente los datos, sino también generar insights relevantes sobre el comportamiento del consumidor, patrones de compra y productos clave. Estos hallazgos pueden ser utilizados para optimizar la experiencia del usuario, mejorar la logística de inventario y desarrollar estrategias comerciales basadas en datos dentro de plataformas de comercio electrónico de alimentos.