# ¡Llena ese carrito!

# Introducción

Instacart es una plataforma de entregas de comestibles donde la clientela puede registrar un pedido y hacer que se lo entreguen, similar a Uber Eats y Door Dash.
El conjunto de datos que te hemos proporcionado tiene modificaciones del original. Redujimos el tamaño del conjunto para que tus cálculos se hicieran más rápido e introdujimos valores ausentes y duplicados. Tuvimos cuidado de conservar las distribuciones de los datos originales cuando hicimos los cambios.

Debes completar tres pasos. Para cada uno de ellos, escribe una breve introducción que refleje con claridad cómo pretendes resolver cada paso, y escribe párrafos explicatorios que justifiquen tus decisiones al tiempo que avanzas en tu solución.  También escribe una conclusión que resuma tus hallazgos y elecciones.


## Diccionario de datos

Hay cinco tablas en el conjunto de datos, y tendrás que usarlas todas para hacer el preprocesamiento de datos y el análisis exploratorio de datos. A continuación se muestra un diccionario de datos que enumera las columnas de cada tabla y describe los datos que contienen.

- `instacart_orders.csv`: cada fila corresponde a un pedido en la aplicación Instacart.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'user_id'`: número de ID que identifica de manera única la cuenta de cada cliente.
    - `'order_number'`: el número de veces que este cliente ha hecho un pedido.
    - `'order_dow'`: día de la semana en que se hizo el pedido (0 si es domingo).
    - `'order_hour_of_day'`: hora del día en que se hizo el pedido.
    - `'days_since_prior_order'`: número de días transcurridos desde que este cliente hizo su pedido anterior.
- `products.csv`: cada fila corresponde a un producto único que pueden comprar los clientes.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'product_name'`: nombre del producto.
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
- `order_products.csv`: cada fila corresponde a un artículo pedido en un pedido.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'add_to_cart_order'`: el orden secuencial en el que se añadió cada artículo en el carrito.
    - `'reordered'`: 0 si el cliente nunca ha pedido este producto antes, 1 si lo ha pedido.
- `aisles.csv`
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'aisle'`: nombre del pasillo.
- `departments.csv`
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
    - `'department'`: nombre del departamento.

# Paso 1. Descripción de los datos

Lee los archivos de datos (`/datasets/instacart_orders.csv`, `/datasets/products.csv`, `/datasets/aisles.csv`, `/datasets/departments.csv` y `/datasets/order_products.csv`) con `pd.read_csv()` usando los parámetros adecuados para leer los datos correctamente. Verifica la información para cada DataFrame creado.


## Plan de solución

Escribe aquí tu plan de solución para el Paso 1. Descripción de los datos.

In [1]:
# importar librerías
import pandas as pd
from matplotlib import pyplot as plt

In [2]:
# leer conjuntos de datos en los DataFrames
df_orders = pd.read_csv('datasets/instacart_orders.csv', sep=';')
df_products = pd.read_csv('datasets/products.csv', sep=';', index_col='product_id')
df_aisles = pd.read_csv('datasets/aisles.csv', sep=';', index_col='aisle_id')
df_departments = pd.read_csv('datasets/departments.csv', sep=';', index_col='department_id')
df_order_products = pd.read_csv('datasets/order_products.csv', sep=';')

# ```
# Para los DataFrames de productos, aisles & departments la primer
# columna que son los de id los tomo como indice ya que es secuencial
# y estos empiezan desde 1.
# Los otros dos; orders y order_products los voy a tomar como están y no
# voy a seleccionar index ya que estos id no son secuenciales y no tiene
# sentido tomarlos como index.
# ```

In [7]:
# mostrar información del DataFrame de ordenes
df_orders.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478967 entries, 0 to 478966
Data columns (total 6 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   order_id                478967 non-null  int64  
 1   user_id                 478967 non-null  int64  
 2   order_number            478967 non-null  int64  
 3   order_dow               478967 non-null  int64  
 4   order_hour_of_day       478967 non-null  int64  
 5   days_since_prior_order  450148 non-null  float64
dtypes: float64(1), int64(5)
memory usage: 21.9 MB


In [8]:
# mostrar información del DataFrame de productos
df_products.info()

<class 'pandas.core.frame.DataFrame'>
Index: 49694 entries, 1 to 49694
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   product_name   48436 non-null  object
 1   aisle_id       49694 non-null  int64 
 2   department_id  49694 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.5+ MB


In [10]:
# mostrar información del DataFrame de pasillos
df_aisles.info()

<class 'pandas.core.frame.DataFrame'>
Index: 134 entries, 1 to 134
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   aisle   134 non-null    object
dtypes: object(1)
memory usage: 2.1+ KB


In [11]:
# mostrar información del DataFrame de departamentos
df_departments.info()

<class 'pandas.core.frame.DataFrame'>
Index: 21 entries, 1 to 21
Data columns (total 1 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   department  21 non-null     object
dtypes: object(1)
memory usage: 336.0+ bytes


In [13]:
# mostrar información del DataFrame de articulos pedidos en un pedido
df_order_products.info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4545007 entries, 0 to 4545006
Data columns (total 4 columns):
 #   Column             Non-Null Count    Dtype  
---  ------             --------------    -----  
 0   order_id           4545007 non-null  int64  
 1   product_id         4545007 non-null  int64  
 2   add_to_cart_order  4544171 non-null  float64
 3   reordered          4545007 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 138.7 MB


## Conclusiones

*Escribe aquí tus conclusiones intermedias sobre el Paso 1. Descripción de los datos.*

Veo que en el DataFrame de órdenes tiene un registro casi perfecto, siendo que están llenos casi todos los datos sin falta de información a excepción de la última columna 'days_since_prior_order', en estoy hay unos cuantos miles de registros que no tienen valor en esta columna, esto podría deberse a un error de ingreso de información ya que no me imagino una situación en a que no sería relevante guardar esta información.

En el DataFrame de productos sucede algo similar, todas las columnas están bien excepto 'product_name' que almacena el nombre de los productos, lo cual potencialmente es fatal porque quiere decir que existen productos sin nombre, en consecuencia no sabemos qué son, pero a pesar de eso, esos registros no les faltó el id de departamento ni pasillo.

Esto mismo pasa en el DataFrame de artículos pedidos en un pedido, en la columna 'add_to_cart_order' el que nos indica la orden secuencial en la que se agregaron productos al carrito, lo cual no es tan grave ya que trata temas estéticos, puede que los valores nulos sean producidos a raíz de un error, o tal vez por diseño en la situación en la que una orden específica no sea necesaria, como cuando solamente se ordena un producto, aunque igual esta última posibilidad lo veo poco probable.

Y por último, los DataFrames de productos, pasillos y departamentos, como todas las primeras columnas de estos DataFrames eran números identificadores que iban en orden numérico del 1 hasta el final de la información, decidí tomar esos números como índices, ya que eran literalmente los mismos númeos que iban a terminar adoptando como índice y solamente iban a haber información redundante.

# Paso 2. Preprocesamiento de los datos

Preprocesa los datos de la siguiente manera:

- Verifica y corrige los tipos de datos (por ejemplo, asegúrate de que las columnas de ID sean números enteros).
- Identifica y completa los valores ausentes.
- Identifica y elimina los valores duplicados.

Asegúrate de explicar qué tipos de valores ausentes y duplicados encontraste, cómo los completaste o eliminaste y por qué usaste esos métodos. ¿Por qué crees que estos valores ausentes y duplicados pueden haber estado presentes en el conjunto de datos?

## Plan de solución

Escribe aquí tu plan para el Paso 2. Preprocesamiento de los datos.

## Encuentra y elimina los valores duplicados (y describe cómo tomaste tus decisiones).

### `orders` data frame

In [None]:
# Revisa si hay pedidos duplicados


¿Tienes líneas duplicadas? Si sí, ¿qué tienen en común?

In [None]:
# Basándote en tus hallazgos,
# Verifica todos los pedidos que se hicieron el miércoles a las 2:00 a.m.


¿Qué sugiere este resultado?

In [None]:
# Elimina los pedidos duplicados


In [None]:
# Vuelve a verificar si hay filas duplicadas


In [None]:
# Vuelve a verificar únicamente si hay IDs duplicados de pedidos


Describe brevemente tus hallazgos y lo que hiciste con ellos

### `products` data frame

In [None]:
# Verifica si hay filas totalmente duplicadas


In [None]:
# Revisa únicamente si hay ID de departamentos duplicados


In [None]:
# Revisa únicamente si hay nombres duplicados de productos (convierte los nombres a letras mayúsculas para compararlos mejor)


In [None]:
# Revisa si hay nombres duplicados de productos no faltantes


Describe brevemente tus hallazgos y lo que hiciste con ellos.

### `departments` data frame

In [None]:
# Revisa si hay filas totalmente duplicadas

In [None]:
# Revisa únicamente si hay IDs duplicadas de productos

Describe brevemente tus hallazgos y lo que hiciste con ellos.

### `aisles` data frame

In [None]:
# Revisa si hay filas totalmente duplicadas

In [None]:
# Revisa únicamente si hay IDs duplicadas de pasillos

Describe brevemente tus hallazgos y lo que hiciste con ellos.

### `order_products` data frame

In [None]:
# Revisa si hay filas totalmente duplicadas


In [None]:
# Vuelve a verificar si hay cualquier otro duplicado engañoso


Describe brevemente tus hallazgos y lo que hiciste con ellos.

## Encuentra y elimina los valores ausentes

Al trabajar con valores duplicados, pudimos observar que también nos falta investigar valores ausentes:

* La columna `'product_name'` de la tabla products.
* La columna `'days_since_prior_order'` de la tabla orders.
* La columna `'add_to_cart_order'` de la tabla order_productos.

### `products` data frame

In [None]:
# Encuentra los valores ausentes en la columna 'product_name'

Describe brevemente cuáles son tus hallazgos.

In [None]:
#  ¿Todos los nombres de productos ausentes están relacionados con el pasillo con ID 100?


Describe brevemente cuáles son tus hallazgos.

In [None]:
# ¿Todos los nombres de productos ausentes están relacionados con el departamento con ID 21?


Describe brevemente cuáles son tus hallazgos.

In [None]:
# Usa las tablas department y aisle para revisar los datos del pasillo con ID 100 y el departamento con ID 21.


Describe brevemente cuáles son tus hallazgos.

In [None]:
# Completa los nombres de productos ausentes con 'Unknown'


Describe brevemente tus hallazgos y lo que hiciste con ellos.

### `orders` data frame

In [None]:
# Encuentra los valores ausentes

In [None]:
# ¿Hay algún valor ausente que no sea el primer pedido del cliente?


Describe brevemente tus hallazgos y lo que hiciste con ellos.

### `order_products` data frame

In [None]:
# Encuentra los valores ausentes

In [None]:
# ¿Cuáles son los valores mínimos y máximos en esta columna?


Describe brevemente cuáles son tus hallazgos.

In [None]:
# Guarda todas las IDs de pedidos que tengan un valor ausente en 'add_to_cart_order'


In [None]:
# ¿Todos los pedidos con valores ausentes tienen más de 64 productos?
# Agrupa todos los pedidos con datos ausentes por su ID de pedido.
# Cuenta el número de 'product_id' en cada pedido y revisa el valor mínimo del conteo.


Describe brevemente cuáles son tus hallazgos.

In [None]:
# Remplaza los valores ausentes en la columna 'add_to_cart? con 999 y convierte la columna al tipo entero.


Describe brevemente tus hallazgos y lo que hiciste con ellos.

## Conclusiones

Escribe aquí tus conclusiones intermedias sobre el Paso 2. Preprocesamiento de los datos


# Paso 3. Análisis de los datos

Una vez los datos estén procesados y listos, haz el siguiente análisis:

# [A] Fácil (deben completarse todos para aprobar)

1. Verifica que los valores en las columnas `'order_hour_of_day'` y `'order_dow'` en la tabla orders sean razonables (es decir, `'order_hour_of_day'` oscile entre 0 y 23 y `'order_dow'` oscile entre 0 y 6).
2. Crea un gráfico que muestre el número de personas que hacen pedidos dependiendo de la hora del día.
3. Crea un gráfico que muestre qué día de la semana la gente hace sus compras.
4. Crea un gráfico que muestre el tiempo que la gente espera hasta hacer su siguiente pedido, y comenta sobre los valores mínimos y máximos.

### [A1] Verifica que los valores sean sensibles

Escribe aquí tus conclusiones

### [A2] Para cada hora del día, ¿cuántas personas hacen órdenes?

Escribe aquí tus conclusiones

### [A3] ¿Qué día de la semana compran víveres las personas?

Escribe aquí tus conclusiones

### [A4] ¿Cuánto tiempo esperan las personas hasta hacer otro pedido? Comenta sobre los valores mínimos y máximos.

Escribe aquí tus conclusiones

# [B] Intermedio (deben completarse todos para aprobar)

1. ¿Existe alguna diferencia entre las distribuciones `'order_hour_of_day'` de los miércoles y los sábados? Traza gráficos de barra de `'order_hour_of_day'` para ambos días en la misma figura y describe las diferencias que observes.
2. Grafica la distribución para el número de órdenes que hacen los clientes (es decir, cuántos clientes hicieron solo 1 pedido, cuántos hicieron 2, cuántos 3, y así sucesivamente...).
3. ¿Cuáles son los 20 principales productos que se piden con más frecuencia (muestra su identificación y nombre)?

### [B1] Diferencia entre miércoles y sábados para  `'order_hour_of_day'`. Traza gráficos de barra para los dos días y describe las diferencias que veas.

Escribe aquí tus conclusiones

### [B2] ¿Cuál es la distribución para el número de pedidos por cliente?

Escribe aquí tus conclusiones

### [B3] ¿Cuáles son los 20 productos más populares (muestra su ID y nombre)?

Escribe aquí tus conclusiones

# [C] Difícil (deben completarse todos para aprobar)

1. ¿Cuántos artículos suelen comprar las personas en un pedido? ¿Cómo es la distribución?
2. ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?
3. Para cada producto, ¿cuál es la tasa de repetición del pedido (número de repeticiones de pedido/total de pedidos?
4. Para cada cliente, ¿qué proporción de los productos que pidió ya los había pedido? Calcula la tasa de repetición de pedido para cada usuario en lugar de para cada producto.
5. ¿Cuáles son los 20 principales artículos que la gente pone primero en sus carritos (muestra las IDs de los productos, sus nombres, y el número de veces en que fueron el primer artículo en añadirse al carrito)?

### [C1] ¿Cuántos artículos compran normalmente las personas en un pedido? ¿Cómo es la distribución?

Escribe aquí tus conclusiones

### [C2] ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?

Escribe aquí tus conclusiones

### [C3] Para cada producto, ¿cuál es la proporción de las veces que se pide y que se vuelve a pedir?

Escribe aquí tus conclusiones

### [C4] Para cada cliente, ¿qué proporción de sus productos ya los había pedido?

Escribe aquí tus conclusiones

### [C5] ¿Cuáles son los 20 principales artículos que las personas ponen primero en sus carritos?

Escribe aquí tus conclusiones

### Conclusion general del proyecto: