# ¡Hola Denisse! <a class="tocSkip"></a>

Mi nombre es Oscar Flores y tengo el gusto de revisar tu proyecto. Si tienes algún comentario que quieras agregar en tus respuestas te puedes referir a mi como Oscar, no hay problema que me trates de tú.

Si veo un error en la primera revisión solamente lo señalaré y dejaré que tú encuentres de qué se trata y cómo arreglarlo. Debo prepararte para que te desempeñes como especialista en Data, en un trabajo real, el responsable a cargo tuyo hará lo mismo. Si aún tienes dificultades para resolver esta tarea, te daré indicaciones más precisas en una siguiente iteración.

Te dejaré mis comentarios más abajo - **por favor, no los muevas, modifiques o borres**

Comenzaré mis comentarios con un resumen de los puntos que están bien, aquellos que debes corregir y aquellos que puedes mejorar. Luego deberás revisar todo el notebook para leer mis comentarios, los cuales estarán en rectángulos de color verde, amarillo o rojo como siguen:

<div class='alert alert-block alert-success'>
<b>Comentario de Reviewer</b> <a class='tocSkip'></a>

Muy bien! Toda la respuesta fue lograda satisfactoriamente.
</div>

<div class='alert alert-block alert-warning'>
<b>Comentario de Reviewer</b> <a class='tocSkip'></a>

Existen detalles a mejorar. Existen recomendaciones.
</div>

<div class='alert alert-block alert-danger'>

<b>Comentario de Reviewer</b> <a class='tocSkip'></a>

Se necesitan correcciones en el bloque. El trabajo no puede ser aceptado con comentarios en rojo sin solucionar.
</div>

Cualquier comentario que quieras agregar entre iteraciones de revisión lo puedes hacer de la siguiente manera:

<div class='alert alert-block alert-info'>
<b>Respuesta estudiante.</b> <a class='tocSkip'></a>
</div>

Mucho éxito en el proyecto!

## Resumen de la revisión v1 <a class="tocSkip"></a>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

Hola Denisse, ¿cómo va todo? Espero que estés teniendo una buena jornada.

Buen trabajo completando todos los puntos del notebook. El proyecto en general está bien logrado, con una correcta implementación del código necesario. Solo falta revisar un par de errores en la parte de análisis de los nulos. Te dejé anotaciones en rojo con observaciones puntuales para que puedas hacer esos ajustes.

Ante cualquier duda, no dudes en dejar un comentario en azul. Con gusto lo atenderé en la próxima iteración.

Saludos!


</div>

## Resumen de la revisión v2 <a class="tocSkip"></a>

<div class="alert alert-block alert-success">
<b>Comentario de Revisor  v2 </b> <a class="tocSkip"></a>

Excelente Denisse, ¡muy bien hecho! Incorporaste correctamente los ajustes finales y terminaste todas las tareas del notebook. No tengo comentarios adicionales; el proyecto está aprobado. Los conceptos que usaste serán una gran base para tus próximos análisis. ¡Te deseo lo mejor en lo que sigue!

Saludos!


</div>

----

# ¡Llena ese carrito!

# Introducción

Instacart es una plataforma de entregas de comestibles donde la clientela puede registrar un pedido y hacer que se lo entreguen, similar a Uber Eats y Door Dash.
El conjunto de datos que te hemos proporcionado tiene modificaciones del original. Redujimos el tamaño del conjunto para que tus cálculos se hicieran más rápido e introdujimos valores ausentes y duplicados. Tuvimos cuidado de conservar las distribuciones de los datos originales cuando hicimos los cambios.

Debes completar tres pasos. Para cada uno de ellos, escribe una breve introducción que refleje con claridad cómo pretendes resolver cada paso, y escribe párrafos explicatorios que justifiquen tus decisiones al tiempo que avanzas en tu solución.  También escribe una conclusión que resuma tus hallazgos y elecciones.


## Diccionario de datos

Hay cinco tablas en el conjunto de datos, y tendrás que usarlas todas para hacer el preprocesamiento de datos y el análisis exploratorio de datos. A continuación se muestra un diccionario de datos que enumera las columnas de cada tabla y describe los datos que contienen.

- `instacart_orders.csv`: cada fila corresponde a un pedido en la aplicación Instacart.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'user_id'`: número de ID que identifica de manera única la cuenta de cada cliente.
    - `'order_number'`: el número de veces que este cliente ha hecho un pedido.
    - `'order_dow'`: día de la semana en que se hizo el pedido (0 si es domingo).
    - `'order_hour_of_day'`: hora del día en que se hizo el pedido.
    - `'days_since_prior_order'`: número de días transcurridos desde que este cliente hizo su pedido anterior.
- `products.csv`: cada fila corresponde a un producto único que pueden comprar los clientes.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'product_name'`: nombre del producto.
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
- `order_products.csv`: cada fila corresponde a un artículo pedido en un pedido.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'add_to_cart_order'`: el orden secuencial en el que se añadió cada artículo en el carrito.
    - `'reordered'`: 0 si el cliente nunca ha pedido este producto antes, 1 si lo ha pedido.
- `aisles.csv`
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'aisle'`: nombre del pasillo.
- `departments.csv`
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
    - `'department'`: nombre del departamento.

# Paso 1. Descripción de los datos

Lee los archivos de datos (`/datasets/instacart_orders.csv`, `/datasets/products.csv`, `/datasets/aisles.csv`, `/datasets/departments.csv` y `/datasets/order_products.csv`) con `pd.read_csv()` usando los parámetros adecuados para leer los datos correctamente. Verifica la información para cada DataFrame creado.


## Plan de solución

Escribe aquí tu plan de solución para el Paso 1. Descripción de los datos

1. Importar la libreria pandas con su alias pd para simplificar la escritura del código.
2. Nombraré a cada archivo csv con algún título descriptivo y leere los archivos de datos usando read_csv porque las 5 tablas proporcionadas son archivos csv (Comma-Separated Values).
3. Mostraré la información utilizando el método .info() para obtener un resumen de los data frames creados y así comprender de manera rápida la estructura y propiedades e identificar posibles problemas como valores faltantes. 


In [89]:
# importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [90]:
# leer conjuntos de datos en los DataFrames
df_instacart_orders = pd.read_csv('/datasets/instacart_orders.csv', sep=';')
df_products = pd.read_csv('/datasets/products.csv', sep=';')
df_order_products =  pd.read_csv('/datasets/order_products.csv', sep=';')
df_aisles = pd.read_csv('/datasets/aisles.csv', sep=';')
df_departments = pd.read_csv('/datasets/departments.csv', sep=';')

<div class="alert alert-block alert-success">
<b>Comentario de Revisor         </b> <a class="tocSkip"></a>

Correcto. Bien hecho al importar la data usando el parámetro `sep=;"` para que la lectura de los datos se pueda realizar correctamente.
    

</div>

In [91]:
# mostrar información del DataFrame
df_instacart_orders.info()
df_instacart_orders.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478967 entries, 0 to 478966
Data columns (total 6 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   order_id                478967 non-null  int64  
 1   user_id                 478967 non-null  int64  
 2   order_number            478967 non-null  int64  
 3   order_dow               478967 non-null  int64  
 4   order_hour_of_day       478967 non-null  int64  
 5   days_since_prior_order  450148 non-null  float64
dtypes: float64(1), int64(5)
memory usage: 21.9 MB


order_id                      0
user_id                       0
order_number                  0
order_dow                     0
order_hour_of_day             0
days_since_prior_order    28819
dtype: int64

In [92]:
# mostrar información del DataFrame
df_products.info()
df_products.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49694 entries, 0 to 49693
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   product_id     49694 non-null  int64 
 1   product_name   48436 non-null  object
 2   aisle_id       49694 non-null  int64 
 3   department_id  49694 non-null  int64 
dtypes: int64(3), object(1)
memory usage: 1.5+ MB


product_id          0
product_name     1258
aisle_id            0
department_id       0
dtype: int64

In [93]:
# mostrar información del DataFrame
df_order_products.info(show_counts=True)
df_order_products.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4545007 entries, 0 to 4545006
Data columns (total 4 columns):
 #   Column             Non-Null Count    Dtype  
---  ------             --------------    -----  
 0   order_id           4545007 non-null  int64  
 1   product_id         4545007 non-null  int64  
 2   add_to_cart_order  4544171 non-null  float64
 3   reordered          4545007 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 138.7 MB


order_id               0
product_id             0
add_to_cart_order    836
reordered              0
dtype: int64

In [94]:
# mostrar información del DataFrame
df_aisles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 134 entries, 0 to 133
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   aisle_id  134 non-null    int64 
 1   aisle     134 non-null    object
dtypes: int64(1), object(1)
memory usage: 2.2+ KB


In [95]:
# mostrar información del DataFrame
df_departments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   department_id  21 non-null     int64 
 1   department     21 non-null     object
dtypes: int64(1), object(1)
memory usage: 464.0+ bytes


<div class="alert alert-block alert-warning">
<b>Comentario de Revisor          </b> <a class="tocSkip"></a>


Correcto, muy bien con el uso de `info()` para revisar las filas de los dataframes. Sin embargo, te recomiendo usar `show_counts=True` en el caso de que el dataframe tenga muchas filas, ya que si no, no aparecerá el detalle completo en el listado de las columnas.


</div>

## Conclusiones

Escribe aquí tus conclusiones intermedias sobre el Paso 1. Descripción de los datos.


Al mostrar los data frames con info() me pude dar cuenta que los 5 archivos tienen como separador semicolon (;), por lo que agregue el parametro sep='', a mis lecturas de archivo.
Hice uso de los métodos .isna() y .sum() para identificar la cantidad de los datos faltantes en los que noté que habían datos faltantes.

Sobre los datos faltantes:
En el df_instacart_orders los datos nulos en la columna days_since_prior_order se pueden deber a que estén expresados con algún object como 'NaN' o 'unknown', al ser una columna con datos tipo float64 es posible remplazarlos por 0.

En el df_products los datos nulos en la columna product_name se pueden deber a que estén expresados con algún entero, un booleano o un campo vacio, al ser una columna con datos tipo object es posible remplazarlos por un object como: NaN' o 'unknown'.

En el df_order_products los datos nulos en la columna add_to_cart_order se pueden deber a que estén expresados con algún booleano o un object,  al ser una columna con datos tipo float64 es posible remplazarlos por 0.

El df_aisles no tiene datos nulos.

El df_departments no tiene datos nulos.


# Paso 2. Preprocesamiento de los datos

Preprocesa los datos de la siguiente manera:

- Verifica y corrige los tipos de datos (por ejemplo, asegúrate de que las columnas de ID sean números enteros).
- Identifica y completa los valores ausentes.
- Identifica y elimina los valores duplicados.

Asegúrate de explicar qué tipos de valores ausentes y duplicados encontraste, cómo los completaste o eliminaste y por qué usaste esos métodos. ¿Por qué crees que estos valores ausentes y duplicados pueden haber estado presentes en el conjunto de datos?

## Plan de solución

Escribe aquí tu plan para el Paso 2. Preprocesamiento de los datos.

1. Revisar que los tipos de datos sean correctos
2. Utilizar método .isna() para identificar los valores ausentes.
3. Utilizar método .fillna() para rellenar los valores nulos.
4. Utilizar el método .duplicated() y .sum()  para identificar los valores duplicados.
5. Utilizar el método drop_duplicates() para eliminar los valores duplicados.


## Encuentra y elimina los valores duplicados (y describe cómo tomaste tus decisiones).

### `orders` data frame

In [96]:
# Revisa si hay pedidos duplicados
quantity_duplicated_orders = df_instacart_orders.duplicated().sum()
print('El total de pedidos duplicados es:', quantity_duplicated_orders)
print()
duplicated_orders = df_instacart_orders.loc[df_instacart_orders.duplicated()]
print(duplicated_orders)


El total de pedidos duplicados es: 15

        order_id  user_id  order_number  order_dow  order_hour_of_day  \
145574    794638    50898            24          3                  2   
223105   2160484   107525            16          3                  2   
230807   1918001   188546            14          3                  2   
266232   1782114   106752             1          3                  2   
273805   1112182   202304            84          3                  2   
284038   2845099    31189            11          3                  2   
311713   1021560    53767             3          3                  2   
321100    408114    68324             4          3                  2   
323900   1919531   191501            32          3                  2   
345917   2232988    82565             1          3                  2   
371905    391768    57671            19          3                  2   
394347    467134    63189            21          3                  2   
411408   128

¿Tienes líneas duplicadas? Si sí, ¿qué tienen en común?
Respuesta: 
Si, hay 15 lineas duplicadas, todos son pedidos realizados el día miércoles a la hora 2.

In [97]:
# Basándote en tus hallazgos,
# Verifica todos los pedidos que se hicieron el miércoles a las 2:00 a.m.
filtered_df = df_instacart_orders[(df_instacart_orders['order_dow'] == 3) & (df_instacart_orders['order_hour_of_day'] == 2)]
print(filtered_df)

        order_id  user_id  order_number  order_dow  order_hour_of_day  \
4838     2766110   162084            41          3                  2   
5156     2190225   138285            18          3                  2   
15506     553049    58599            13          3                  2   
18420     382357   120200            19          3                  2   
24691     690242    77357             2          3                  2   
...          ...      ...           ...        ...                ...   
457013   3384021    14881             6          3                  2   
458816    910166   164782            18          3                  2   
459635   1680532   106435             6          3                  2   
468324    222962    54979            59          3                  2   
477526   2592344    46860            38          3                  2   

        days_since_prior_order  
4838                      16.0  
5156                      11.0  
15506                   

¿Qué sugiere este resultado?

Tomando en cuenta que tenemos 15 datos duplicados, el miercoles a las 2am se hicieron un total de 106 pedidos.

Puedo concluir que estos duplicados son debido a errores en la aplicación o software que justo pasaron en un día y hora en especifico, tal vez en ese horario se hace una actualización o el software falló por un momento y se hicieron registros dobles.

In [98]:
# Elimina los pedidos duplicados
filtered_df_copy = filtered_df.copy() #utilicé el método .copy() para evitar SettingWithCopyWarning
duplicates_cleared = filtered_df_copy.drop_duplicates(inplace=True)
print(duplicates_cleared)



None


In [99]:
# Vuelve a verificar si hay filas duplicadas
filtered_df_copy.duplicated().sum()

0

In [100]:
# Vuelve a verificar únicamente si hay IDs duplicados de pedidos
filtered_df_copy['order_id'].duplicated().sum()


0

Describe brevemente tus hallazgos y lo que hiciste con ellos

Respuesta:

Utilizando el método .duplicated() y el método .sum() descubrí que había 15 líneas duplicadas, con la caracteristica de que las 15 eran pedidos realizados el mismo día de la semana, a la misma hora.
Con esa información, era importante revisar el total de pedidos realizados el miércoles a las 2am especificamente, por lo que filtré el df, con esas especificaciones.
Al restar las líneas duplicadas y el total de pedidos realizados el miércoles a las 2am tenía el número claro de pedidos en total, y me ayudó a comprobar al momento de eliminar los duplicados.
Como comprobación final, revise si tenía duplicados en la columna 'order_id', mi resultado fue 0, lo que comprueba que e eliminaron correctamente los pedidos duplicados.




<div class="alert alert-block alert-success">
<b>Comentario de Reviewer         </b> <a class="tocSkip"></a>
    
Bien hecho, dado que todos los duplicados coincidian en el horario y día, es probable que se haya debido a un problema momentaneo en el registro de la data. En un entorno profesional, sería importante revisar que este problema no afecte a muchos registros y ver con el área responsable si esto es un problema conocido o no.
</div>

### `products` data frame

In [101]:
# Verifica si hay filas totalmente duplicadas
df_products.duplicated().sum()


0

In [102]:
# Revisa únicamente si hay ID de productos duplicados
df_products.duplicated(subset=['product_id'], keep=False).sum()


0

In [103]:
# Revisa únicamente si hay nombres duplicados de productos (convierte los nombres a letras mayúsculas para compararlos mejor)
df_products['product_name'] = df_products['product_name'].str.upper()
print(df_products['product_name'].sample(10))
print()
print('El total de datos únicos en la columna product_name es:', df_products['product_name'].nunique())

print('El total de nombres de producto duplicados es:', df_products.duplicated(subset=['product_name'], keep=False).sum())


44626                     SEEDED MULTIGRAIN CHICKPEA CHIPS
28853           ULTRA LUBRICANT EYE DROPS HIGH PERFORMANCE
14230                                                  NaN
45841                                   NATURAL SOUR CREAM
30597    BOLD TACO DINNER KIT WITH NACHO CHEESE FLAVORE...
43358                      TAKE A BAKE CLASSIC BREADSTICKS
11367                    DARK CHOCOLATE MINT NUTRITION BAR
48158                                                  NaN
4841                  CANNELLINI BEANS- WHITE KIDNEY BEANS
16916                           RAPID WRINKLE REPAIR SERUM
Name: product_name, dtype: object

El total de datos únicos en la columna product_name es: 48332
El total de nombres de producto duplicados es: 1465


In [104]:
# Revisa si hay nombres duplicados de productos no faltantes
non_missing_duplicates = df_products[df_products['product_name'].notna()].duplicated(subset=['product_name']).sum()
print('El total de nombres duplicados de productos no faltantes es:', non_missing_duplicates)


El total de nombres duplicados de productos no faltantes es: 104


Describe brevemente tus hallazgos y lo que hiciste con ellos.
Respuesta:
No encontré filas totalmente duplicadas en el df de products, tampoco encontré id de productos duplicados, para revisar si tenía nombres de productos duplicados, primero  estandaricé los nombres con mayusculas para que el resultado de los duplicados fuera exacto, para eso útilicé el método .str.upper(), despues imprimí algunas líneas para comprobar que si estuvieran en mayusculas, revisé el total de datos únicos que tenemos en la columna de product name utilizando el método .nunique() y revisé el total de nombres duplicados con el método .duplicated() en esa misma columna. Para finalizar revisé el total de nombres duplicados de productos no faltantes utilizando el método notna() y duplicated().


<div class="alert alert-block alert-success">
<b>Comentario de Reviewer         </b> <a class="tocSkip"></a>
    
Bien hecho, dado que todos los duplicados coincidian en el horario y día, es probable que se haya debido a un problema momentaneo en el registro de la data. En un entorno profesional, sería importante revisar que este problema no afecte a muchos registros y ver con el área responsable si esto es un problema conocido o no.
</div>

### `departments` data frame

In [105]:
# Revisa si hay filas totalmente duplicadas
df_departments.duplicated().sum()

0

In [106]:
# Revisa únicamente si hay IDs duplicadas de departamentos
df_departments.duplicated(subset=['department_id'], keep=False).sum()

0

Describe brevemente tus hallazgos y lo que hiciste con ellos.
Respuesta: 
No encontré filas totalmente duplicadas en el df de departments, para esa información utilicé los métodos duplicated() y .sum(), tampoco encontré id de productos duplicados, para encontrar esa respuesta tambien utilicé los métodos duplicated() y .sum(), especificando la columna 'department_id'.
En este df no hay datos duplicados porque departamentos no es una categoría que eliga el cliente, se mantienen los datos, o se eliminan y se agregan nuevos pero no se actualizan según la orden.

### `aisles` data frame

In [107]:
# Revisa si hay filas totalmente duplicadas
df_aisles.duplicated().sum()

0

In [108]:
# Revisa únicamente si hay IDs duplicadas de pasillos
df_aisles.duplicated(subset=['aisle_id'], keep=False).sum()

0

Describe brevemente tus hallazgos y lo que hiciste con ellos.
Respuesta: 
No encontré filas totalmente duplicadas en el df de aisles, para esa información utilicé los métodos duplicated() y .sum(), tampoco encontré id de pasillos duplicados, para encontrar esa respuesta tambien utilicé los métodos duplicated() y .sum(), especificando la columna 'aisle_id'.
En este df no hay datos duplicados porque aisles no es una categoría que eliga el cliente, se mantienen los datos, o se eliminan y se agregan nuevos pero no se actualizan según la orden.

### `order_products` data frame

In [109]:
# Revisa si hay filas totalmente duplicadas
df_order_products.duplicated().sum()

0

In [110]:
# Vuelve a verificar si hay cualquier otro duplicado engañoso

print(df_order_products.duplicated().sum())
print(df_order_products.duplicated(keep='last').sum())
print(df_order_products.duplicated(keep=False).sum())

print(df_order_products.duplicated(subset=['order_id','product_id']).sum())

print(df_order_products.duplicated(subset=['order_id','add_to_cart_order']).sum())
print( df_order_products.isna().sum() )

0
0
0
0
766
order_id               0
product_id             0
add_to_cart_order    836
reordered              0
dtype: int64


Describe brevemente tus hallazgos y lo que hiciste con ellos.
Respuesta: No encontré filas totalmente duplicadas en el df de order_products, para esa información utilicé los métodos duplicated() y .sum() y los 3 posibles valores del parámetro keep, tampoco encontré duplicados engañosos utilizando el parámetro subset con las columnas 'order_id'y 'product_id', pero encontré 766 duplicados con el subset 'order_id'y'add_to_cart_order'.
Verifiqué si la columna 'add_to_cart_order' tenía datos nulos para confirmar si era el motivo de los duplicados y efectivamente contiene varias filas nulas, por lo tanto, puedo concluir que ese dato en algunas filas esta vacia.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor        </b> <a class="tocSkip"></a>

Buen trabajo en esta sección con la revisión de duplicados

</div>

## Encuentra y elimina los valores ausentes

Al trabajar con valores duplicados, pudimos observar que también nos falta investigar valores ausentes:

* La columna `'product_name'` de la tabla products.
* La columna `'days_since_prior_order'` de la tabla orders.
* La columna `'add_to_cart_order'` de la tabla order_productos.

### `products` data frame

In [111]:
# Encuentra los valores ausentes en la columna 'product_name'
df_products['product_name'].isna().sum()

1258

Describe brevemente cuáles son tus hallazgos.
Respuesta:
Tenemos un total de 1258 valores ausentes en la columna  'product_name', esto puede deberse a errores al momento de registrar los productos, dejar vacio el campo o poner valores no reconocibles.

In [112]:
#  ¿Todos los nombres de productos ausentes están relacionados con el pasillo con ID 100?

null_df_products_aisle = df_products[df_products['product_name'].isna()] 
print(null_df_products_aisle['aisle_id'].unique())



[100]


Describe brevemente cuáles son tus hallazgos.
Despues de filtrar todos los nombres de productos ausentes, verifiqué los datos unicos en la columna 'aisle_id' dando como resultado solo el ID 100, por lo tanto, todos los nombres de productos ausentes están relacionados con el pasillo con ID 100.

In [113]:
# ¿Todos los nombres de productos ausentes están relacionados con el departamento con ID 21?
null_df_products_dept = df_products[df_products['product_name'].isna()] 
print(null_df_products_dept['department_id'].unique())


[21]


Describe brevemente cuáles son tus hallazgos.
Despues de filtrar todos los nombres de productos ausentes, verifiqué los datos unicos en la columna 'department_id' dando como resultado solo el ID 21, por lo tanto, todos los nombres de productos ausentes  están relacionados con el departamento con ID 21.

In [114]:
# Usa las tablas department y aisle para revisar los datos del pasillo con ID 100 y el departamento con ID 21.

dep_21_filter = df_departments[df_departments['department_id'] == 21]
print(dep_21_filter)

aisle_100_filter = df_aisles[df_aisles['aisle_id'] == 100]
print(aisle_100_filter)


    department_id department
20             21    missing
    aisle_id    aisle
99       100  missing


Describe brevemente cuáles son tus hallazgos.
Filtre ambos data frames especificando la condición solicitada, para encontrar que los nombres de department y de aisle con los id 100 y 21 repectivamente, esta expresado como dato ausente "missing", con lo que concluyo que por esta razón todos los datos ausentes en los nombres de los productos estan relacionados con estos 2 datos en especifico.

In [115]:
# Completa los nombres de productos ausentes con 'Unknown'
df_products['product_name'] = df_products['product_name'].fillna('Unknown')
print("\nTotal de datos nulos despues de rellenar la columna 'product_name':")
df_products['product_name'].isna().sum()



Total de datos nulos despues de rellenar la columna 'product_name':


0

Describe brevemente tus hallazgos y lo que hiciste con ellos.

Despues de encontrar la relación entre los datos ausentes en los nombres de producto y los Id de pasillo y de departamento, rellené la columna 'product_name' utilizando el método .fillna() con 'Unknown', para darles un valor estandar a las filas sin nombre de producto. Despues volví a utilizar .isna() y .sum() para comprobar que ya no tuviera datos nulos.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor        </b> <a class="tocSkip"></a>

Muy bien, debe haber sido un error específico al registrar los datos de ese pasillo y departamento
</div>

### `orders` data frame

In [116]:
# Encuentra los valores ausentes
df_instacart_orders.isna().sum()

order_id                      0
user_id                       0
order_number                  0
order_dow                     0
order_hour_of_day             0
days_since_prior_order    28819
dtype: int64

In [117]:
# ¿Hay algún valor ausente que no sea el primer pedido del cliente?
not_first_order = df_instacart_orders[df_instacart_orders['order_number'] > 1]
print(not_first_order)
missing_in_not_first = not_first_order['days_since_prior_order'].isna().sum()
print(f"Valores ausentes en pedidos que NO son primeros: {missing_in_not_first}")

        order_id  user_id  order_number  order_dow  order_hour_of_day  \
0        1515936   183418            11          6                 13   
1        1690866   163593             5          5                 12   
2        1454967    39980             4          5                 19   
3        1768857    82516            56          0                 20   
4        3007858   196724             2          4                 12   
...          ...      ...           ...        ...                ...   
478962   3210681     5617             5          1                 14   
478963   3270802   112087             2          3                 13   
478964    885349    82944            16          2                 11   
478965    216274     4391             3          3                  8   
478966   2071924     1730            18          1                 14   

        days_since_prior_order  
0                         30.0  
1                          9.0  
2                       

Describe brevemente tus hallazgos y lo que hiciste con ellos.

Los primeros pedidos tienen order_number == 1
No hay filas con order_number > 1 con valores ausentes.
Ninguna fila que no sea de primer pedido, tiene valores ausentes.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

Bien, es normal que esas filas tengan nulos, son los primeros pedidos de los clientes, y entonces no hay días desde un pedido anterior porque no existe ese pedido anterior.
    
</div>

### `order_products` data frame

In [118]:
# Encuentra los valores ausentes
df_order_products.isna().sum()

order_id               0
product_id             0
add_to_cart_order    836
reordered              0
dtype: int64

In [119]:
# ¿Cuáles son los valores mínimos y máximos en esta columna?

min_add_to_cart_order = df_order_products['add_to_cart_order'].min()
print(f"El valor mínimo en 'add_to_cart_order' es: {min_add_to_cart_order}")

max_add_to_cart_order = df_order_products['add_to_cart_order'].max()
print(f"El valor máximo en 'add_to_cart_order' es: {max_add_to_cart_order}")

El valor mínimo en 'add_to_cart_order' es: 1.0
El valor máximo en 'add_to_cart_order' es: 64.0


Describe brevemente cuáles son tus hallazgos.

Utilicé los métodos .min() para descubrir el valor mínimo en la columna 'add_to_cart_order' y .max() para descubrir el valor máximo de la columna 'add_to_cart_order'.


In [120]:
# Guarda todas las IDs de pedidos que tengan un valor ausente en 'add_to_cart_order'

null_cart_order = df_order_products[df_order_products['add_to_cart_order'].isna()]['order_id'].unique()
#id_null_cart_order = null_cart_order['order_id']
print(null_cart_order)



[2449164 1968313 2926893 1717990 1959075  844733   61355  936852  264710
 1564093  129627  293169 2849370 1386261 3308010  903110 2136777 3347453
 1888628  165801 2094761 1038146 2997021  813364 2256933  171934 2409109
 1730767 1169835  733526  404157 3125735  747668 1800005 1961723  871281
  388234 1648217 1477139  102236 1021563 1832957 2721963  678116 1220886
 1673227 2999801 1633337 2470674 2625444 1677118 2479011 3383594 1183255
 1713430 2652650 1598369 1916118  854647 1302315  888470  180546 2621907
 1308785 2729254    9310 2170451 2979697 1625713 1529171]


<div class="alert alert-block alert-success">
<b>Comentario de Revisor     </b> <a class="tocSkip"></a>

Muy bien, correcta la obtención del listado de pedidos con nulos en `add_to_cart_order`, aunque lo ideal hubiese sido obtener una lista con los ids únicos de esos pedidos:

```python

    lista_ids_ordenes_con_nan = df_order_products[df_order_products['add_to_cart_order'].isna()]['order_id'].unique()

```
    

</div>


In [126]:
# ¿Todos los pedidos con valores ausentes tienen más de 64 productos?
# Agrupa todos los pedidos con datos ausentes por su ID de pedido.
# Cuenta el número de 'product_id' en cada pedido y revisa el valor mínimo del conteo.
df_null_cart_order = df_order_products[df_order_products['order_id'].isin(null_cart_order)]
null_cart_order_grouped = df_null_cart_order.groupby('order_id')['product_id'].count()
print(null_cart_order_grouped)
print()
print(f"Valor mínimo de 'product_id':", null_cart_order_grouped.min())
print(f"Valor máximo de 'product_id':", null_cart_order_grouped.max())


order_id
9310        65
61355      127
102236      95
129627      69
165801      70
          ... 
2999801     70
3125735     86
3308010    115
3347453     71
3383594     69
Name: product_id, Length: 70, dtype: int64

Valor mínimo de 'product_id': 65
Valor máximo de 'product_id': 127


<div class="alert alert-block alert-danger">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

El cálculo de esta parte es incorrecto. Lo que estás haciendo es contar la parte del pedido que tiene nulos. Este código:

```python
    null_cart_order = df_order_products[df_order_products['add_to_cart_order'].isna()]

```


selecciona solamente las filas que tienen nulos. Sin embargo, en el dataframe `df_order_products` un pedido tiene varias filas, no necesariamente todas con un nulo, y lo que queremos seleccionar son todas las filas de los pedidos que tienen al menos un nulo en `add_to_cart_order`. Es decir, si un pedido tiene 10 filas, y solo una con nulo, queremos seleccionar las 10 filas, no solo la única que tiene nulo. Para esto, será mejor que uses la lista de la celda anterior con un código así o similar:

```python
    pedidos_con_na = df_order_products[df_order_products['order_id'].isin(lista_ids_ordenes_con_nan)]

```
    
luego sobre ese resultado cuenta los productos que tienen esos pedidos  usando `groupby` y `count()`. Para ver la cantidad mínima y máxima, usa `min()` y `max()` sobre esto último.
</div>

Describe brevemente cuáles son tus hallazgos.
Todos los pedidos con valores ausentes tienen más de 65 productos. 
Utilicé la lista de la celda anterior en dónde tenía mis order_id con nulos, despues agrupé 'order_id' con mi listado ya filtrado y conté por 'product_id' utilicé los métodos .groupby() y .count() al final, utilicé .min() y .max() para sacar los valores mínimo y máximos del conteo.


<div class="alert alert-block alert-success">
<b>Comentario de Revisor    v2    </b> <a class="tocSkip"></a>

Bien hecho, es probable que el sistema no permita más de 64 tipos de productos en esa columna, por lo que no guarda nada después
    
</div>

In [None]:
# Remplaza los valores ausentes en la columna 'add_to_cart? con 999 y convierte la columna al tipo entero.
df_order_products['add_to_cart_order'].fillna(999, inplace=True)
print(df_order_products.isna().sum())
df_order_products['add_to_cart_order'] = df_order_products['add_to_cart_order'].astype(int)
print(df_order_products.info())


Describe brevemente tus hallazgos y lo que hiciste con ellos.
Utilicé el método .fillna() con el valor especficado 999. Imprimí el df con .isna().sum() para corroborar que ya no hubieran valores ausentes.
Despues utilicé el métoodo .astype(int) para convertir la columna 'add_to_cart_order' en tipo entero. Al final imprimí el df con .info() para corroborar que el cambio de tipo entero se haya efectuado exitosamente.

## Conclusiones

Escribe aquí tus conclusiones intermedias sobre el Paso 2. Preprocesamiento de los datos
Me di cuenta que al ser data frames relacionales, un dato nulo en una tabla o un dato duplicado puede afectar a las demás. Al mismo tiempo contar con varias tablas te da pistas del porque hay ciertos datos nulos. 

# Paso 3. Análisis de los datos

Una vez los datos estén procesados y listos, haz el siguiente análisis:

# [A] Fácil (deben completarse todos para aprobar)

1. Verifica que los valores en las columnas `'order_hour_of_day'` y `'order_dow'` en la tabla orders sean razonables (es decir, `'order_hour_of_day'` oscile entre 0 y 23 y `'order_dow'` oscile entre 0 y 6).
2. Crea un gráfico que muestre el número de personas que hacen pedidos dependiendo de la hora del día.
3. Crea un gráfico que muestre qué día de la semana la gente hace sus compras.
4. Crea un gráfico que muestre el tiempo que la gente espera hasta hacer su siguiente pedido, y comenta sobre los valores mínimos y máximos.

### [A1] Verifica que los valores sean sensibles

In [None]:
hours = df_instacart_orders[(df_instacart_orders['order_hour_of_day'] < 0) & (df_instacart_orders['order_hour_of_day'] > 23)]
print(hours)

In [None]:
days = df_instacart_orders[(df_instacart_orders['order_dow'] < 0) & (df_instacart_orders['order_dow'] > 6)]
print(days)

Escribe aquí tus conclusiones
Los valores en las columnas 'order_hour_of_day' y 'order_dow' son razonables, no estan fuera de rango.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

Correcto, muy bien con el cálculo. Ahora estamos seguros que tenemos datos que hacen sentido en estas columnas.
    
</div>

### [A2] Para cada hora del día, ¿cuántas personas hacen órdenes?

In [None]:
# muestre el número de personas que hacen pedidos dependiendo de la hora del día.

person_per_hour = df_instacart_orders.groupby('order_hour_of_day')['user_id'].size().plot(kind='bar', title="Compradores por hora", xlabel='Hora del día', ylabel='Total de compradores', grid=True, color='plum' )

Escribe aquí tus conclusiones
Las personas comienzan a hacer pedidos mayormente a partir de las 6am,  a las 7am comienza a crecer el número de personas llegando a la hora más fuerte que es a las 10am despues baja un poco la cantidad de personas que hacen pedidos pero se mantiene bastante estable hasta las 4pm, a partir de ahi comienza a disminuir. Sin embargo aún a las 23hrs hay más personas haciendo pedidos a comparación de las 6am.

-Las horas fuertes de pedidos son entre el desayuno y la comida.
-Por la tarde y en la noche aún hay un flujo de personas haciendo pedidos.
-Las horas con menos movimiento son debido a que las personas duermen. 


<div class="alert alert-block alert-success">
<b>Comentario de Revisor        </b> <a class="tocSkip"></a>


Bien hecho con este gráfico, se observa que hay pedidos nocturnos y el peak llega a las 10 de la mañana

</div>

### [A3] ¿Qué día de la semana compran víveres las personas?

In [None]:
#Crea un gráfico que muestre qué día de la semana la gente hace sus compras.

per_day_of_the_week = df_instacart_orders.groupby('order_dow')['user_id'].size().plot(kind='bar', title="Compras por día de la semana", xlabel='Día de la semana', ylabel='Compradores', grid=True, color='slateblue' )
new_labels = ['Domingo', 'Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes', 'Sábado']

per_day_of_the_week.set_xticklabels(new_labels, rotation=45)
plt.show()


Escribe aquí tus conclusiones

Los días que la mayor cantidad de personas compran sus víveres son los domingos y lunes, sin embargo, de martes a sábado las personas siguen comprando sus víveres con regularidad. Por lo tanto, las persnas compran víveres todos los días de la semana.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor        </b> <a class="tocSkip"></a>

Correcto el gráfico, se aprecia que el domingo es el día con mayor cantidad de pedidos. Salvo el lunes, el resto de los días son muy parejos.



</div>

### [A4] ¿Cuánto tiempo esperan las personas hasta hacer otro pedido? Comenta sobre los valores mínimos y máximos.

In [None]:
#Crea un gráfico que muestre el tiempo que la gente espera hasta hacer su siguiente pedido, y comenta sobre los valores mínimos y máximos.

time_for_next_order = df_instacart_orders.groupby('days_since_prior_order')['user_id'].size().plot(kind='bar', title="Tiempo entre pedidos", xlabel='Días transcurridos', ylabel='Compradores', grid=True, color='green')
plt.show()

min_time = df_instacart_orders['days_since_prior_order'].min()
max_time = df_instacart_orders['days_since_prior_order'].max()
print(f'El tiempo de espera mínimo entre cada compra es:', min_time,)
print(f'El tiempo de espera máximo entre cada compra es:', max_time)


Escribe aquí tus conclusiones
Hay personas que hacen varios pedidos el mismo día, sin embargo, muchas personas esperan entre 1 y 8 días siendo el septimo día el más común para hacer su siguiente pedido, y la  gran mayoria de personas hacen sus pedidos cada 30 días, (1 vez al mes).
Es muy común que las compras de víveres se hagan 1 vez por semana (cada 7 días)
Es más común que las compras de víveres se hagan 1 vez por mes (cada 30 días)


<div class="alert alert-block alert-success">
<b>Comentario de Revisor        </b> <a class="tocSkip"></a>

Muy bien, el gráfico es correcto. Nota que el tiempo de 30 días es muy alto, esto es sospechoso ya que es el valor más grande que se registra y es anormalmente grande respecto a los valores que vienen justo antes. Probablemente se debe a que el sistema no registra más de 30 días entre compras y todas las que son de más de ese tiempo las guarda como 30.
    
</div>

# [B] Intermedio (deben completarse todos para aprobar)

1. ¿Existe alguna diferencia entre las distribuciones `'order_hour_of_day'` de los miércoles y los sábados? Traza gráficos de barra de `'order_hour_of_day'` para ambos días en la misma figura y describe las diferencias que observes.
2. Grafica la distribución para el número de órdenes que hacen los clientes (es decir, cuántos clientes hicieron solo 1 pedido, cuántos hicieron 2, cuántos 3, y así sucesivamente...).
3. ¿Cuáles son los 20 principales productos que se piden con más frecuencia (muestra su identificación y nombre)?

### [B1] Diferencia entre miércoles y sábados para  `'order_hour_of_day'`. Traza gráficos de barra para los dos días y describe las diferencias que veas.

In [None]:
#Traza gráficos de barra de 'order_hour_of_day' para ambos días en la misma figura y describe las diferencias que observes.
filtered_wednesday = df_instacart_orders[df_instacart_orders['order_dow'] == 3]
filtered_saturday = df_instacart_orders[df_instacart_orders['order_dow'] == 6]
grouped_wednesday = filtered_wednesday.groupby('order_hour_of_day')['order_id'].size()
#print(grouped_wednesday)
grouped_saturday = filtered_saturday.groupby('order_hour_of_day')['order_id'].size()
#print(grouped_saturday)
                    
co = np.arange(len(grouped_wednesday))
an = 0.30

fig,ax = plt.subplots()
ax.bar(co -an/2, grouped_wednesday, an, label='Miércoles' )
ax.bar(co +an/2, grouped_saturday, an, label='Sábado' )

ax.set_title('Comparación miércoles y sábado')
ax.set_ylabel('Ordenes')
ax.set_xlabel('Horas')
plt.legend(loc='upper left')



Escribe aquí tus conclusiones
1. ¿Existe alguna diferencia entre las distribuciones 'order_hour_of_day' de los miércoles y los sábados?
   La distribución es muy uniforme entre los miércoles y los sábados, las horas en las que se hacen mayores órdenes son entre las 9am y 5 pm. los sábados se hacen más órdenes entre las horas 11am y 5pm que el miércoles. 


<div class="alert alert-block alert-success">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

Bien hecho, muy bien al realizar el gráfico con las barras una junta a la otra, esto permite una comparación directa entre los días
    
</div>

### [B2] ¿Cuál es la distribución para el número de pedidos por cliente?

In [None]:
#Grafica la distribución para el número de órdenes que hacen los clientes (es decir, cuántos clientes hicieron solo 1 pedido, cuántos hicieron 2, cuántos 3, y así sucesivamente...).

user_max_order_number = df_instacart_orders.groupby('user_id')['order_number'].max().reset_index()
#print(user_max_order_number)

grouped_by_user = user_max_order_number.groupby('order_number')['user_id'].size()
#print(grouped_by_user)
grouped_by_user.hist()
plt.title('Distribución de número de ordenes por cliente') 
plt.xlabel('Usuarios') 
plt.ylabel('Ordenes') 
plt.show()

Escribe aquí tus conclusiones
2. Distribución para el número de órdenes que hacen los clientes
   La distribución expone que que la clientela esta basada en clientes frecuentes, la mayoria de clientes han hecho más de 70 ordenes.


<div class="alert alert-block alert-success">
<b>Comentario de Revisor          </b> <a class="tocSkip"></a>

Excelente, muy bien con el resultado.



</div>

### [B3] ¿Cuáles son los 20 productos más populares (muestra su ID y nombre)?

In [None]:
#¿Cuáles son los 20 principales productos que se piden con más frecuencia (muestra su identificación y nombre)?

sorted_product = df_order_products.groupby('product_id')['order_id'].size().sort_values(ascending=False).reset_index()
frequent_product_id = sorted_product['product_id'].head(20)
filtered_by_product = df_products[df_products['product_id'].isin(frequent_product_id)] 
print(filtered_by_product[['product_id', 'product_name']])




Escribe aquí tus conclusiones
3. ¿Cuáles son los 20 principales productos que se piden con más frecuencia?
   Los productos que se piden con más frecuencia son en general, víveres orgánicos

<div class="alert alert-block alert-success">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

Correcto,  se ve que predominan los productos orgánicos y de uso diario
    
</div>

# [C] Difícil (deben completarse todos para aprobar)

1. ¿Cuántos artículos suelen comprar las personas en un pedido? ¿Cómo es la distribución?
2. ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?
3. Para cada producto, ¿cuál es la tasa de repetición del pedido (número de repeticiones de pedido/total de pedidos?
4. Para cada cliente, ¿qué proporción de los productos que pidió ya los había pedido? Calcula la tasa de repetición de pedido para cada usuario en lugar de para cada producto.
5. ¿Cuáles son los 20 principales artículos que la gente pone primero en sus carritos (muestra las IDs de los productos, sus nombres, y el número de veces en que fueron el primer artículo en añadirse al carrito)?

### [C1] ¿Cuántos artículos compran normalmente las personas en un pedido? ¿Cómo es la distribución?

In [None]:
products_per_order = df_order_products.groupby('order_id')['product_id'].size()
print(products_per_order)

In [None]:
products_per_order.hist(bins=30, figsize=(10, 6))
plt.title('Distribución de artículos por pedido')
plt.xlabel('Número de artículos por pedido')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
print(products_per_order.mean())

Escribe aquí tus conclusiones

La cantidad de articulos por pedidos más frecuente es de 4 a 5. 
La mayoría de personas compra pocos articulos en cada orden.
Son muy pocas las personas que compran muchos productos por orden. 
En promedio la cantidad de articulos que se compran en cada orden es de 10. 

<div class="alert alert-block alert-success">
<b>Comentario de Revisor      </b> <a class="tocSkip"></a>

Muy bien con el gráfico, está correcto. Vemos que hay una distribución concentrada en los primeros valores, pero luego cae muy rápido
    
</div>

### [C2] ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?

In [None]:
reordered_products = df_order_products[df_order_products['reordered'] == 1]
#print(reordered_products)
sorted_frequent_product = reordered_products.groupby('product_id')['order_id'].size().sort_values(ascending=False).reset_index()
frequently_product_id = sorted_frequent_product['product_id'].head(20)
filtered_by_product = df_products[df_products['product_id'].isin(frequently_product_id)] 
print(filtered_by_product[['product_id', 'product_name']])


Escribe aquí tus conclusiones
Los productos principales que se vuelven a pedir con mayor frecuencia son los mismos que los 20 populares, a excepción de ORGANIC HALF & HALF. 


<div class="alert alert-block alert-success">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

Bien hecho, vemos que los productos más pedidos también son los más reordenados
    
</div>

### [C3] Para cada producto, ¿cuál es la proporción de las veces que se pide y que se vuelve a pedir?

In [None]:
total_orders_per_product = df_order_products.groupby('product_id').size()
reorders_per_product = df_order_products[df_order_products['reordered'] == 1].groupby('product_id').size()
reorder_rate = reorders_per_product / total_orders_per_product
reorder_rate = reorder_rate.fillna(0)
print("Proporción de reorden por producto:")
print(reorder_rate)


Escribe aquí tus conclusiones
Los productos que tienen una proporción de reorden de producto > a 0.7 son productos probablemente esenciales o muy demandados. Sería muy útil mantener suficiente stock de estos productos para evitar quiebres de inventario y asegurar una buena experiencia de cliente.
Los productos que tienen una proporción de reorden de producto baja o nula < 0.3 son productos que no son recurrentes, por lo que sería improtante considerar si es rentable mantenerlos en el inventario.
Para los productos con proporcion de reorden intermedia > 0.3 & < 0.6 se podría considerar mejorar su visibilidad, ofrecer descuentos o promociones.

Los productos de alta demanda deben ser gestionados de manera diferente a los que tienen baja o nula reorden.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

Muy bien, correcto. También se puede usar la media de `reordered` para este cálculo.
    
</div>

### [C4] Para cada cliente, ¿qué proporción de sus productos ya los había pedido?

In [None]:
merged_df = df_order_products.merge(df_instacart_orders, how='inner', left_on='order_id', right_on='order_id')
total_clients_per_product = merged_df.groupby('user_id').size()
reorders_per_client = merged_df[merged_df['reordered'] == 1].groupby('user_id').size()
reorder_rate = reorders_per_client / total_clients_per_product
reorder_rate = reorder_rate.fillna(0)

print("Proporción de reorden por cliente:")
print(reorder_rate)

Escribe aquí tus conclusiones
Los clientes con alta proporción de reorden cerca de 1.0 , son clientes que repiten sus compras con frecuencia, sn clientes leales y con habitos de consumo estables, se les podría ofrecer promociones por productos recurrentes.
Los clientes con baja proporción de reorden cerca de 0.0, pueden ser clientes nuevos que aun no crean un historial de reorden, o clientes que exerimentan en cada compra, que prueban variedad de productos, a estos clientes se les podría hacer sugerencias de los productos populares.
Los clientes con proporción intermedia > 0.3 & < 0.7, son clientes que combinan nuevos productos con productos antes commprados, se les podrían hacer recomendaciones basadas en su historial de compras para que vuelvan a reordenar  productos.


<div class="alert alert-block alert-success">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

Bien hecho, aunque probablemente hay usuarios que solo se han pedidos 2 veces, la segunda vez es una reorden, y por eso tienen 100% de reorden. 
    
</div>

### [C5] ¿Cuáles son los 20 principales artículos que las personas ponen primero en sus carritos?

In [None]:
filtered_add_to_cart = df_order_products[df_order_products['add_to_cart_order'] == 1]
#print(filtered_add_to_cart)
sorted_frequent_product = filtered_add_to_cart.groupby('product_id')['order_id'].size().sort_values(ascending=False).reset_index()
frequently_product_id = sorted_frequent_product['product_id'].head(20)
filtered_by_product = df_products[df_products['product_id'].isin(frequently_product_id)] 
print(filtered_by_product[['product_id', 'product_name']])

<div class="alert alert-block alert-success">
<b>Comentario de Revisor            </b> <a class="tocSkip"></a>

Buen trabajo. Al parecer los productos orgánicos representan el grueso de ventas en varios aspectos
    
</div>

Escribe aquí tus conclusiones
Un producto que los clientes suelen agregar primero a sus carritos puede indicar que es un producto esencial, o que es justo el producto que los atrajo a la aplicación o es el articulo que les recuerda que más deberían incluir en su carrito de compras. 
Por eso sería importante cuidar que estos productos siempre se mantengan con stock suficiente, se podrían ofrecer con promociones para que otros compradores tambien los considren como primera opción, y se podrían implementar campañas de suscripción en donde se incluyan recordatorios automatizados o rcomendaciones frecuentes.

### Conclusion general del proyecto:

AL inicio para conocer un poco los datos con los que iba a trabajar utilice el método .info() en cada uno de ellos, para así darme una idea de cuantas filas tenía cada df, que tipos de datos contenian y la cantidad y nombre de columnas, tambien revisé los datos nulos con los métodos .isna() y .sum() .

Ya una vez teniendo una idea de los datos que iba a usar comencé con la limpieza de los mismos, primero trabajé con los datos duplicados y de las cosas mas relevantes que encontré fue que en el df de la applicacion, teníamos datos duplicados que coincidian con haberse registrado el mismo día  a la misma hora, lo cual me llevó a la conclusion de que podía deberse a un error en la aplicación que justo pasaron en un día y hora en especifico, o a alguna actualización que causó que se registraran dobles.Por lo que sería importante reportar al el departamento correspondiente para evitar que esto suceda nuevamente. 

Continué trabajando con los datos ausentes en donde encontre que en el df de departmens y aisle, coincidian los datos ausentes entonces, filltre ambos data frames especificando la condición solicitada, para encontrar que los nombres de department y de aisle con los id 100 y 21 repectivamente, esta expresado como dato ausente "missing", con lo que concluyo que por esta razón todos los datos ausentes en los nombres de los productos estan relacionados con estos 2 datos en especifico.

Despues de preprocesar los datos me di cuenta que todos los dataframes estan relacionados entre sí , por lo que un cambio en uno puede afectar al otro, es muy importante revisar la causa de los datos duplicados y ausentes para tomar buenas decisiones y no afectar de manera negativa a otro data frame.

Análisis:

Las personas comienzan a hacer pedidos mayormente a partir de las 6am,  a las 7am comienza a crecer el número de personas llegando a la hora más fuerte que es a las 10am despues baja un poco la cantidad de personas que hacen pedidos pero se mantiene bastante estable hasta las 4pm, a partir de ahi comienza a disminuir. Sin embargo aún a las 23hrs hay más personas haciendo pedidos a comparación de las 6am.

-Las horas fuertes de pedidos son entre el desayuno y la comida.
-Por la tarde y en la noche aún hay un flujo de personas haciendo pedidos.
-Las horas con menos movimiento son debido a que las personas duermen.

Los días que la mayor cantidad de clientes compran sus víveres son los domingos y lunes, sin embargo,  los clientes compran víveres todos los días de la semana.Son más comunes los clientes que compran sus víveres cada 7 días o cada 30 días, pero aun asi, hay clientes que hacen varias compras el mismo día o  en la misma semana. Podemos comprobar que los clientes son frecuentes y que la mayoria de clientes han hecho más de 70 ordenes con 4 a 5 productos en cada uno. Los productos que se piden con más frecuencia son en general, víveres orgánicos. 

Algunos clientes compran muchos productos por orden pero son la minoría. 
Los productos principales que se vuelven a pedir con mayor frecuencia estan entre los productos más  populares.
Los productos que tienen una proporción de reorden de producto > a 0.7 son productos probablemente esenciales o muy demandados. Sería muy útil mantener suficiente stock de estos productos para evitar quiebres de inventario y asegurar una buena experiencia de cliente. Los productos que tienen una proporción de reorden de producto baja o nula < 0.3 son productos que no son recurrentes, por lo que sería improtante considerar si es rentable mantenerlos en el inventario. Para los productos con proporcion de reorden intermedia > 0.3 & < 0.6 se podría considerar mejorar su visibilidad, ofrecer descuentos o promociones.Los productos de alta demanda deben ser gestionados de manera diferente a los que tienen baja o nula reorden.


Los clientes que repiten sus compras con frecuencia, sn clientes leales y con habitos de consumo estables, . Los clientes que no reordenan pueden ser clientes nuevos que aun no crean un historial de reorden, o clientes que exerimentan en cada compra, que prueban variedad de productos, Los clientes que si reordenan pero no lo hacen con regularidad son clientes que combinan nuevos productos con productos antes commprados o que utilizan otros métodos para comprar sus víveres.


Los clientes de la aplicación Instacart son clientes frecuentes y leales que hacen compras pequeñas pero constantes, la aplicación ofrece víveres por lo que las compras se hacen con frecuencia durante todos los dias de la semana, pero los fines de semana hay más demanda porue en general, las personas tienen más tiempo para comprar. Las horas de mayor demanda en general, comienzan a las posibles horas de desayuno y se mantienen a la alza hasta las horas de comida, a partir de ahi comienzan a bajar pero no deja de haber flujo constante.  
Es importante mantener a los clientes que ya son frecuentes, pero tambien, implementar estrategias para hacer que los nuevos compradores, o los compradores experimentales se conviertan en clientes frecuentes.

    
    Yo sugeriría: 
*Implementar campañas de lealtad para mantener a los clientes frecuentes, esto puede ser a traves de acumulacion de puntos o cupones para las próximas compras.
*Ofrecer promociones por primeras compras 
*Ofrecer descuentos por invitar a un nuevo usuario.
*Hacer recomendaciones por productos más vendidos y promociones en donde se ofreza un producto más vendido y uno no tan popular para darle visibilidad.
*Ofrecer promociones 2x1 o precios más bajos en articulos populares los días de menor tráfico. 



    

<div class="alert alert-block alert-warning">
<b>Comentario de Revisor              </b><a class="tocSkip"></a>

Ok con las conclusiones, pero en esta sección recuerda mencionar un resumen breve de lo realizado en el proyecto (qué data se analizó, qué se modificó) y además cuáles son los principales hallazgos, qué se encontró de interesante. Sería ideal que incluyeses alguna métrica (porcentaje, cantidad) de lo más relevante.

Por otro lado, veo que dejaste las conclusiones en una celda de tipo código, en realidad, deberías dejarla como tipo **Markdown**, ya que es el modo de celda adecuado para dejar texto. Puedes hacer el cambio de tipo de celda mediante el menú desplegable de la barra superior.

<center><img src="https://digitalhumanities.hkust.edu.hk/wp-content/uploads/2023/08/jupyter-notebook-cell-interface.gif" width="500"></center>

</div>