# PROYECTO SPRINT 4

**Instacart** es una plataforma de entregas de comestibles donde la clientela puede registrar un pedido y hacer que se lo entreguen, similar a Uber Eats.

Tu misión es limpiar los datos y preparar un informe que brinde información sobre los hábitos de compra de los clientes de Instacart. Después de responder a cada pregunta, escribe una breve explicación de tus resultados en una celda markdown de tu Jupyter notebook.

Este proyecto requerirá gráficos que comuniquen tus resultados. Cualquier gráfico debe llevar título, ejes etiquetados y una leyenda si es necesario; e incluye *plt.show()* al final de cada celda con un gráfico.

Datasets

- `instacart_orders.csv`: cada fila corresponde a un pedido en la aplicación Instacart.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'user_id'`: número de ID que identifica de manera única la cuenta de cada cliente.
    - `'order_number'`: el número de veces que este cliente ha hecho un pedido.
    - `'order_dow'`: día de la semana en que se hizo el pedido (0 si es domingo).
    - `'order_hour_of_day'`: hora del día en que se hizo el pedido.
    - `'days_since_prior_order'`: número de días transcurridos desde que este cliente hizo su pedido anterior.
- `products.csv`: cada fila corresponde a un producto único que pueden comprar los clientes.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'product_name'`: nombre del producto.
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
- `order_products.csv`: cada fila corresponde a un artículo pedido en un pedido.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'add_to_cart_order'`: el orden secuencial en el que se añadió cada artículo en el carrito.
    - `'reordered'`: 0 si el cliente nunca ha pedido este producto antes, 1 si lo ha pedido.
- `aisles.csv`
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'aisle'`: nombre del pasillo.
- `departments.csv`
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
    - `'department'`: nombre del departamento.

**Paso 1**: Abre los archivos de datos (/datasets/instacart_orders.csv, /datasets/products.csv, /datasets/aisles.csv, /datasets/departments.csv y /datasets/order_products.csv) y echa un vistazo al contenido general de cada tabla.

Observa que los archivos tienen un formato no estándar, así que vas a necesitar establecer ciertos argumentos en pd.read_csv() para leer los datos correctamente. Mira los archivos CSV para tener una idea de cuáles deberían ser esos argumentos.

Ten en cuenta que order_products.csv contiene muchas filas de datos. Cuando un DataFrame tiene demasiadas filas, info() no imprimirá los recuentos no nulos por defecto. Si quieres imprimir los recuentos no nulos, incluye show_counts=True cuando llames a info().

**Paso 2**: Preprocesa los datos de la siguiente manera:
* Verifica y corrige los tipos de datos (por ejemplo, asegúrate de que las columnas de ID sean números enteros).
* Identifica y completa los valores ausentes.
* Identifica y elimina los valores duplicados.

Asegúrate de explicar qué tipos de valores ausentes y duplicados encontraste, cómo los completaste o eliminaste y por qué usaste esos métodos. ¿Por qué crees que estos valores ausentes y duplicados pueden haber estado presentes en el conjunto de datos?

**Paso 3**: Una vez que los datos estén procesados y listos, haz el siguiente análisis:

[A] (deben completarse todos para aprobar)

* Verifica que los valores en las columnas 'order_hour_of_day' y 'order_dow' de la tabla orders sean razonables (o sea, 'order_hour_of_day' va de 0 a 23 y 'order_dow' va de 0 a 6).
* Crea un gráfico que muestre el número de personas que hacen pedidos dependiendo de la hora del día.
* Crea un gráfico que muestre qué día de la semana la gente hace sus compras.
* Crea un gráfico que muestre el tiempo que la gente espera hasta hacer su próximo pedido, y comenta los valores mínimos y máximos.

[B] (deben completarse todos para aprobar)
* ¿Hay alguna diferencia en las distribuciones de 'order_hour_of_day' en miércoles y sábados? Traza los histogramas de ambos días en el mismo gráfico y describe las diferencias que observes.
* Traza la distribución del número de pedidos que hacen los clientes y las clientas (por ejemplo, cuántos clientes hicieron un solo pedido, cuántos hicieron solo dos, cuántos solo tres, etc.)
* ¿Cuáles son los 20 principales productos que se piden con más frecuencia (muestra su identificación y nombre)?

[C] (deben completarse todos para aprobar)

* ¿Cuántos artículos compra la gente por lo general en un pedido? ¿Cómo es la distribución?
* ¿Cuáles son los 20 principales artículos que se vuelven a pedir con más frecuencia (muestra sus nombres e identificaciones de producto)?
* Para cada producto, ¿qué proporción de sus pedidos se vuelven a pedir (crea una tabla con columnas para el ID del producto, el nombre del producto y la proporción en que se ha vuelto a comprar)?
* ¿Cuál es la proporción de productos pedidos que se vuelven a pedir para cada cliente?
* ¿Cuáles son los 20 principales artículos que la gente pone en sus carritos primero (muestra las identificaciones de los productos, los nombres de los productos y el número de veces que fueron el primer artículo añadido al carrito)?

# ¡Llena ese carrito!

# Introducción

Instacart es una plataforma de entregas de comestibles donde la clientela puede registrar un pedido y hacer que se lo entreguen, similar a Uber Eats y Door Dash.
El conjunto de datos que te hemos proporcionado tiene modificaciones del original. Redujimos el tamaño del conjunto para que tus cálculos se hicieran más rápido e introdujimos valores ausentes y duplicados. Tuvimos cuidado de conservar las distribuciones de los datos originales cuando hicimos los cambios.

Debes completar tres pasos. Para cada uno de ellos, escribe una breve introducción que refleje con claridad cómo pretendes resolver cada paso, y escribe párrafos explicatorios que justifiquen tus decisiones al tiempo que avanzas en tu solución.  También escribe una conclusión que resuma tus hallazgos y elecciones.

# Paso 1. Descripción de los datos

Lee los archivos de datos (`/datasets/instacart_orders.csv`, `/datasets/products.csv`, `/datasets/aisles.csv`, `/datasets/departments.csv` y `/datasets/order_products.csv`) con `pd.read_csv()` usando los parámetros adecuados para leer los datos correctamente. Verifica la información para cada DataFrame creado.

## Plan de solución

Escribe aquí tu plan de solución para el Paso 1. Descripción de los datos.

In [None]:
# importar librerías
import pandas as pd
from matplotlib import pyplot as plt

: 

In [None]:
# leer conjuntos de datos en los DataFrames
df_ins_ord = pd.read_csv('instacart_orders.csv', # leemos el archivo csv
                         sep = ';')                           # cada dato está separado por ';'

df_prd = pd.read_csv('products.csv',            
                     sep = ';')                                # cada dato está separado por ';'

df_aisles = pd.read_csv('aisles.csv',
                        sep = ';')                             # cada dato está separado por ';'

df_dep = pd.read_csv('departments.csv',
                     sep = ';')                                # cada dato está separado por ';'

df_ord_prd = pd.read_csv('order_products.csv',
                         sep = ';')                            # cada dato está separado por ';'

In [None]:
# mostrar información del DataFrame
df_ins_ord.info()

In [None]:
# mostrar información del DataFrame
df_prd.info()

In [None]:
# mostrar información del DataFrame
df_aisles.info()

In [None]:
# mostrar información del DataFrame
df_dep.info()

In [None]:
# mostrar información del DataFrame
df_ord_prd.info(show_counts=True)

## Conclusiones

Escribe aquí tus conclusiones intermedias sobre el Paso 1. Descripción de los datos.

Fue necesario separar los datos por punto y coma (;). La mayoría de los datos de los dataframes son enteros; de igual manera, tenemos objetos y flotantes. De primera vista, parece que tenemos valores ausentes en algunos datasets que tienen tipos objeto y nulos.

Para el dataset de "order_products" tenemos más de cuatro millones de datos. Al abrir el archivo csv solamente se desplegaron un poco más de un millón de celdas. Ahora tenemos un mejor conjunto de datos. 

# Paso 2. Preprocesamiento de los datos

Preprocesa los datos de la siguiente manera:

- Verifica y corrige los tipos de datos (por ejemplo, asegúrate de que las columnas de ID sean números enteros).
- Identifica y completa los valores ausentes.
- Identifica y elimina los valores duplicados.

Asegúrate de explicar qué tipos de valores ausentes y duplicados encontraste, cómo los completaste o eliminaste y por qué usaste esos métodos. ¿Por qué crees que estos valores ausentes y duplicados pueden haber estado presentes en el conjunto de datos?

## Plan de solución

Escribe aquí tu plan para el Paso 2. Preprocesamiento de los datos.

Vamos a eliminar los duplicados de cada dataframe empleando principalmente 'drop_duplicates()'. Para llenar los valores ausentes, utilizaremos 'fillna()'. De ser necesario, daremos formato a los datos para evitar malas lecturas. Procuraré dejar comentarios en las líneas de código explicando el procedimiento que hice o la salida esperada.

## Encuentra y elimina los valores duplicados (y describe cómo tomaste tus decisiones).

### `orders` data frame

In [None]:
# Revisa si hay pedidos duplicados

# Para saber el número de pedidos duplicados
print(f'Hay',df_ins_ord['order_id'].duplicated().sum(),'pedidos duplicados en el dataframe instacart_oders') 

# Mostramos las filas duplicadas en el dataframe
duplicados_ins_ord = df_ins_ord[df_ins_ord['order_id'].duplicated()] 
print(duplicados_ins_ord)

print()
# Mostramos cuántos valores únicos para la hora hay. Esperamos encontrar máximo 24, lo que diría que se comparon artículos en todas las horas del día
print(f'Tenemos',df_ins_ord['order_hour_of_day'].nunique(),'valores únicos, que representan las horas del día') 

¿Tienes líneas duplicadas? Si sí, ¿qué tienen en común?

Tenemos 15 duplicados. Todos los duplicados comparten el mismo día de la semana en el que se hzio la orden (miércoles) y la hora en la que se hizo el pedido (2 am). 

In [None]:
# Basándote en tus hallazgos,
# Verifica todos los pedidos que se hicieron el miércoles a las 2:00 a.m.

# Filtramos por día 3(miércoles) y hora 2 (2:00 am) 
wed_2_orders = df_ins_ord.loc[(df_ins_ord['order_dow'] == 3) & (df_ins_ord['order_hour_of_day'] == 2)]

print(wed_2_orders)

¿Qué sugiere este resultado?

Hay varias filas (121) que muestran a usuarios comprando algo el miércoles a las 2 am, 15 de estos son duplicados. Podríamos obtener información extra si nos centramos en el número de orden del usuario o los días que pasaron desde su último pedido.

In [None]:
# Elimina los pedidos duplicados

# Borramos los 15 duplicados del dataset
df_ins_ord = df_ins_ord.drop_duplicates() 

df_ins_ord.info()  # Deberíamos tener la diferencia de entre 478967 (filas obtenidas de info()) y 15

In [None]:
# Vuelve a verificar si hay filas duplicadas

print(f'Hay',df_ins_ord.duplicated().sum(),'duplicados en el dataframe instacart_oders')

In [None]:
# Vuelve a verificar únicamente si hay IDs duplicados de pedidos

print(df_ins_ord['order_id'].duplicated().sum())

Describe brevemente tus hallazgos y lo que hiciste con ellos

Para el dataset instacart_orders de 478967 filas, encontramos 15 duplicados. Los duplicados tenían la peculiar característica de compartir día de la semana en que se hizo el pedido (miércoles) y hora del pedido (2 am). Encontramos 106 usuarios que compraron algo el miércoles a las 2 am. 

Hay valores ausentes en la columna 'days_since_prior_order'. Se asumieron como nuevos usuarios porque no hay registro de su última compra; dicho esto, no hicimos cambios en la columna (siguen los valores nulos) porque al cambiar por algún valor, corremos el riesgo de perder ese dato, al dejar la celda nula podemos identificar a nuevos usuarios. Más adelante trataremos los valores nulos.

### `products` data frame

In [None]:
# Verifica si hay filas totalmente duplicadas

print(f'Hay',df_prd.duplicated().sum(),'duplicados en el dataframe "products"')

In [None]:
# Revisa únicamente si hay ID de departamentos duplicados

print(f'Hay',df_prd['department_id'].duplicated().sum(), 'departamentos duplicados')

In [None]:
# Revisa únicamente si hay nombres duplicados de productos (convierte los nombres a letras mayúsculas para compararlos mejor)

df_prd['product_name'] = df_prd['product_name'].str.upper() # Cambiamos todos los objetos a formato mayúsculas

print(f'Hay',df_prd['product_name'].duplicated().sum(), 'nombres de productos duplicados')

In [None]:
# Revisa si hay nombres duplicados de productos no faltantes

not_null_prd = df_prd[df_prd['product_name'].notnull()]                # Creamos not_null_prd que almacena un dataframe sin valores nulos para la columna 'product_name'

not_null_prd = not_null_prd[not_null_prd['product_name'].duplicated()] # Encontramos los duplicados, de un dataframe libre de valores nulos

print(f'Excluyendo los valores nulos, hay:',not_null_prd['product_name'].nunique(),'product_name duplicados')

In [None]:
# Eliminamos los duplicados 

# df_prd = df_prd[df_prd['product_name'].notnull()]

# df_prd.drop_duplicates(subset=['product_name'], inplace = True)

# df_prd.info()

In [None]:
# Contar departamentos y pasillos vacíos 

# Con este código confirmamos que todos los valores nulos para product_name, caen en un pasillo y departamentos "faltantes" 
# empty_prd = df_prd.loc[df_prd['department_id'] == 21]

# print(empty_prd.count())

In [None]:
# Eliminamos los ausentes

# df_prd = df_prd.dropna().reset_index(drop=True)

# df_prd.info()

Describe brevemente tus hallazgos y lo que hiciste con ellos.

El dataframe de "products" no contiene filas totalmente duplicadas. Tenemos 49673 departamentos duplicados, al haber solo 21 categorías, esto quiere decir que todos los valores están duplicados. Conservamos estos datos ya que hay productos que caen en el mismo departamento y borrar los duplicados sería un error. 

Para la columna "product_name" tenemos 1258 valores nulos, que trataremos más adelante. Excluyendo los valores nulos, tenemos 103 valores duplicados. Al haber una tarea más adelante en el proyecto que requiere tratar los valores nulos, eliminaré ahí mismo los duplicados de 'product_name'. Corroboré en el csv que, a pesar de que hay productos con el mismo nombre, muchos tienen un identificador diferente, a excepción de los 103 duplicados. Por esta razón, decido eliminarlos más adelante. 


### `departments` data frame

In [None]:
# Revisa si hay filas totalmente duplicadas
print(f'Hay',df_dep.duplicated().sum(),'duplicados en el dataframe "departments"')

In [None]:
# Revisa únicamente si hay IDs duplicadas de productos
print(f'Hay',df_dep['department_id'].duplicated().sum(), 'departamentos duplicados')

Describe brevemente tus hallazgos y lo que hiciste con ellos.

Es un dataset pequeño de 21 filas. No contiene duplicados y no se repite el nombre del departamento. Tiene un departamento cuyo nombre es "ausente".


### `aisles` data frame

In [None]:
# Revisa si hay filas totalmente duplicadas
print(f'Hay',df_aisles.duplicated().sum(),'duplicados en el dataframe "aisles"')

In [None]:
# Revisa únicamente si hay IDs duplicadas de pasillos
print(f'Hay',df_aisles['aisle_id'].duplicated().sum(), 'id de pasillos duplicados')

In [None]:
# Comprobar nombres únicos de pasillos
print(f'Hay',df_aisles['aisle'].duplicated().sum(), 'pasillos duplicados')

Describe brevemente tus hallazgos y lo que hiciste con ellos.

Es un dataset pequeño de 134 valores. No contiene duplicados y no se repite el nombre ni identificador del pasillo. Tiene un pasillo "ausente".

### `order_products` data frame

In [None]:
# Revisa si hay filas totalmente duplicadas
print(f'Hay',df_ord_prd.duplicated().sum(), 'duplicados en el dataframe')

In [None]:
# Vuelve a verificar si hay cualquier otro duplicado engañoso

print(f'Hay',df_ord_prd['order_id'].duplicated().sum(), 'órdenes duplicadas')     # Obtenemos las order_id duplicadas
print(f'Hay',df_ord_prd['product_id'].duplicated().sum(), 'productos duplicados') # Obtenemos los product_id duplicados 

Al haber muchos valores duplicados tanto de órdenes y productos, vamos a asegurarnos de que no hay que eliminarlos o modificarlos. Podemos confirmarlo con los métodos plasmados a continuación.

In [None]:
# Contamos valores únicos

print(f'Hay',df_ord_prd['order_id'].nunique(), 'órdenes únicas')     # Devuelve el número de order_id únicos
print(f'Hay',df_ord_prd['product_id'].nunique(), 'productos únicos') # Devuelve el número de product_id únicos

Comparamos los datos contra df_ord_prd.info(). La suma de los valores únicos y duplicados debería ser igual al número de filas mostradas en df_ord_prd.info()

| Columna 1       | Duplicados       | Valores únicos  | Suma|
|------------------|-----------------|-----------------|-|
| order_id    |  4,094,961    | 450,046    | 4,545,007 |
| product_id    |  4,499,434    | 45,573    | 4,545,007 |


In [None]:
# Agrupamos para tener otra visión de los duplicados

# Agrupamos por order_id
grp_order_id = df_ord_prd.groupby('order_id')['product_id'] # Agrupando por "order_id" cuenta cuántos productos hay por order_id

# Deberíamos confirmar que hay 450,046 órdenes únicas 
print(grp_order_id.count())

In [None]:
# Nulos add_to_cart_order

#print(df_ord_prd['add_to_cart_order'].isna().sum())

# duplicados = df_ord_prd[df_ord_prd['add_to_cart_order'].isna()]
# print(duplicados)

# unique_add_cart = df_ord_prd['add_to_cart_order'].unique()
# print(unique_add_cart)

In [None]:
# Eliminar nulos 
# df_ord_prd = df_ord_prd.dropna().reset_index(drop=True) #Eliminamos los nulos porque no se añadieron al carrito

# df_ord_prd.info(show_counts=True)

Describe brevemente tus hallazgos y lo que hiciste con ellos.


El dataframe 'order_products' no contiene ninguna fila completamente duplicada. No obstante, hay *4,094,961* órdenes duplicadas. Al ser gran parte de nuestros datos, nos aseguramos porqué están presentes. Descubrimos que solamente hay *450,046* valores únicos de order_id. Cada repetición de order_id representa que el usuario adquirió otro producto. Lo confirmamos al agrupalos, donde order_id **3421034** se repite 17 veces, cada una para un producto diferente. 

No procesamos los duplicados. 

## Encuentra y elimina los valores ausentes

Al trabajar con valores duplicados, pudimos observar que también nos falta investigar valores ausentes:

* La columna `'product_name'` de la tabla products.
* La columna `'days_since_prior_order'` de la tabla orders.
* La columna `'add_to_cart_order'` de la tabla order_productos.

### `products` data frame

In [None]:
# Encuentra los valores ausentes en la columna 'product_name'

# Identificamos si hay valores nulos en nombres de producto
print(f'Hay',df_prd['product_name'].isna().sum(),'valores nulos en la columna "product_name" del dataframe products') # El resultado debería concordar con lo mostrado en dt_prd.info()

Describe brevemente cuáles son tus hallazgos.

Encontramos 1258 valores nulos para el nombre de los productos. El resultado concuerda con lo dt_prd.info(), que dice que hay 49694 filas de datos, pero para la columna de "product_name" solamente tenemos 48436. La diferencia entre ellos es 1258, que son valores nulos 


In [None]:
#  ¿Todos los nombres de productos ausentes están relacionados con el pasillo con ID 100?

# Con este código confirmamos que todos los valores nulos para product_name, caen en un pasillo y departamentos "faltante" 
empty_prd_aisle = df_prd.loc[df_prd['aisle_id'] == 100]
print(empty_prd_aisle.count())

Describe brevemente cuáles son tus hallazgos.

Filtramos el dataframe para que localice aquellos "aisle_id" con valor de 100. El pasillo 100 tiene valor *missing*. Nos dice que todos los nulos no tienen pasillo asignado. Confirmamos que el valor 100 en el *csv aisles* es *missing*.


In [None]:
# ¿Todos los nombres de productos ausentes están relacionados con el departamento con ID 21?

# Con este código confirmamos que todos los valores nulos para product_name, caen en un departamentos "faltante" 
empty_prd_dpt = df_prd.loc[df_prd['department_id'] == 21]

print(empty_prd_dpt.count())

Describe brevemente cuáles son tus hallazgos.

Filtramos el dataframe para que localice aquellos "department_id" con valor de 21. El departamento 21 tiene valor *missing*. Nos dice que todos los nulos no tienen departamento. Confirmamos que el valor 21 en el *csv departments* es *missing*.


In [None]:
# Usa las tablas department y aisle para revisar los datos del pasillo con ID 100 y el departamento con ID 21.

department_21 = df_dep[df_dep['department_id'] == 21] # Localizamos el "department_id" con valor 21

aisle_100 = df_aisles[df_aisles['aisle_id'] == 100] # Localizamos el "aisle_id" con valor 100

print(department_21) # Al imprimir, debería arrojar la fila con el valor "missing"
print(aisle_100) # Al imprimir, debería arrojar la fila con el valor "missing"

Describe brevemente cuáles son tus hallazgos.

Confirmamos que ambos valores *missing* están presentes en las posiciones 21 y 100 de los dataframes -*departments* y *asiles* respectivamente.

In [None]:
# Completa los nombres de productos ausentes con 'Unknown'

df_prd = df_prd.fillna('unknown').reset_index(drop=True) # Llenamos con fillna los valoes nulos con unknown

In [None]:
# Confirmamos que no hay valores nulos 
print(df_prd.isna().sum())

Describe brevemente tus hallazgos y lo que hiciste con ellos.

Una vez que confirmamos que todos los valores nulos caen en las categorías *missing* del departamento y pasillo, reemplazamos los valores con "unknown". Luego llamamos a info() para asegurarnos de que ya no haya valores nulos. 

### `orders` data frame

In [None]:
# Encuentra los valores ausentes

print(df_ins_ord.isna().sum())

In [None]:
# ¿Hay algún valor ausente que no sea el primer pedido del cliente?

# Filtramos para confirmar que no haya clientes con valor nulo en 'days_since_prior_order', cuando su pedido sea mayor a 1. El valor mayor a 1 representa que han comprado antes
missing_not_first = df_ins_ord[(df_ins_ord['days_since_prior_order'].isna()) & (df_ins_ord['order_number'] > 1)] 

print(missing_not_first)

In [None]:
# Reemplazamos los nulos en 'days_since_prior_order' y convertimos la columna a enteros

df_ins_ord['days_since_prior_order'].fillna(-1, inplace=True)

df_ins_ord['days_since_prior_order'] = df_ins_ord['days_since_prior_order'].astype(int)

print(df_ins_ord.info())

Describe brevemente tus hallazgos y lo que hiciste con ellos.

Encontramos 28,817 datos ausentes en la columna 'days_since_prior_order'. Confirmamos que todos los valores nulos de esta columna están relacionados con el "order_number" 1, que dice que es el primer pedido del usuario.
Los valores ausentes los reemplacé con "-1". Me hizo sentido que este valor fuera diferente y no comprometa los datos existentes. Asimismo, cambié los valores de la columna 'days_since_prior_order' a enteros. Ahora no tenemos valores nulos en el dataframe.  

### `order_products` data frame

In [None]:
# Encuentra los valores ausentes

print(df_ord_prd.isna().sum()) # Buscamos los valores nulos de cada columna del dataframe df_ord_prd

In [None]:
# ¿Cuáles son los valores mínimos y máximos en esta columna?

min_value = df_ord_prd['add_to_cart_order'].min() # Valor mínimo de la columna add_to_cart_order

max_value = df_ord_prd['add_to_cart_order'].max() # Varlo máximo de la columna add_to_cart_order

print(f'Valor mínimo:',min_value , 'Valor máximo:',  max_value)

Describe brevemente cuáles son tus hallazgos.

El valor mínimo es 1, mientras que el máximo es 64. Quiere decir que los usuarios compraron solo 1 producto y hubo quien(es) compraron hasta 64. 

In [None]:
# Guarda todas las IDs de pedidos que tengan un valor ausente en 'add_to_cart_order'

id_null_add_cart = df_ord_prd[df_ord_prd['add_to_cart_order'].isna()] # id_null_add_cart añade los elementos del dataframe que tienen valor nulo en 'add_to_cart_order'

print(id_null_add_cart)

In [None]:
# ¿Todos los pedidos con valores ausentes tienen más de 64 productos?
# Agrupa todos los pedidos con datos ausentes por su ID de pedido.
# Cuenta el número de 'product_id' en cada pedido y revisa el valor mínimo del conteo.


group_id_null_cart = id_null_add_cart.groupby('order_id')['product_id'].count() # Agrupando por 'order_id' cuenta cuántos 'product_id' hay por pedido

print(group_id_null_cart)
print(f'El mínimo de los pedidos con valores ausentes en "añadir al carrito" es', group_id_null_cart.min())

Describe brevemente cuáles son tus hallazgos.

Hay 836 valores nulos para la columna 'add_to_cart_order'. Agrupamos los nulos por 'order_id' y tenemos 70 órdenes donde la cuenta de los productos va desde 1 hasta 64. No todos los pedidos con valores ausentes tienen más de 64 productos. 


In [None]:
# Remplaza los valores ausentes en la columna 'add_to_cart? con 999 y convierte la columna al tipo entero.

df_ord_prd['add_to_cart_order'].fillna(999, inplace=True)                     # Reemplazamos los valores nulos con 999

df_ord_prd['add_to_cart_order'] = df_ord_prd['add_to_cart_order'].astype(int) # Convertimos la columna a enteros

df_ord_prd.info(show_counts=True)

Describe brevemente tus hallazgos y lo que hiciste con ellos.

El dataframe contenía 836 valores nulos para la columna 'add_to_cart_order'. Al agrupar los datos por 'order_id' encontramos 70 órdenes, cada una con varios productos seleccionados que iban desde 1 hasta 64. La inferencia aqui es que esas órdenes nunca se concretaton, por eso el orden del carrito aparece como nulo. Reemplazamos los valores nulos con "999" mostrando un valor fuera de rango y convertimos la columna a enteros, ya que solo contiene números enteros.

## Conclusiones

Escribe aquí tus conclusiones intermedias sobre el Paso 2. Preprocesamiento de los datos

Dependiendo del tipo de dataframe, elegimos eliminar o conservar los duplicados. Los valores nulos decidimos reempalzarlos con otros valores, ya que eliminarlos suponía un error pues borraríamos información relevante para el análisis. 

Los datos están pre-procesados y listos para un análisis visual que permita entender mejor sus caráctirisitcas y realizar posibles comparaciones. 

# Paso 3. Análisis de los datos

Una vez los datos estén procesados y listos, haz el siguiente análisis:

# [A] Fácil (deben completarse todos para aprobar)

1. Verifica que los valores en las columnas `'order_hour_of_day'` y `'order_dow'` en la tabla orders sean razonables (es decir, `'order_hour_of_day'` oscile entre 0 y 23 y `'order_dow'` oscile entre 0 y 6).
2. Crea un gráfico que muestre el número de personas que hacen pedidos dependiendo de la hora del día.
3. Crea un gráfico que muestre qué día de la semana la gente hace sus compras.
4. Crea un gráfico que muestre el tiempo que la gente espera hasta hacer su siguiente pedido, y comenta sobre los valores mínimos y máximos.

### [A1] Verifica que los valores sean sensibles

In [None]:
# Gráfico order_hour_of_day que muestra los 24 valores

order_hours = df_ins_ord.groupby('order_hour_of_day')['user_id'].count()

order_hours.plot(kind = 'barh',
                 title = 'Hora en que los usuarios compran',
                 xticks = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23],
                 ylabel = 'Hora')
plt.show()

In [None]:
# Gráfico order_dow que muestra los 7 valores

order_dow = df_ins_ord.groupby('order_dow')['user_id'].count() # Agrupa por 'order_dow' y devuelve cuántos usuarios compraron ese día

order_dow.plot(kind = 'bar',
               title = 'Días en que los usuarios compran',
               xlabel = 'Días', 
               ylabel = 'Número de usuarios')
plt.show()

Escribe aquí tus conclusiones

El gráfico *'Hora en que se realiza pedido'* muestra cómo el número de usuarios varía con respecto a la hora del día. El gráfico pretende mostrar que se tienen 24 datos/barras donde cada una representa la hora del día, sigueindo el formato de 24 horas.

El gráfico *Día en que se realiza el pedido* muestra la variación de número de usuarios con respecto al día de la semana. Siguiendo una escala númerica, donde *0 es Domingo*, *1 es Lunes* y así sucesivamente, el gráfico enseña los 7 datos donde cada uno representa el día de la semana. 

### [A2] Para cada hora del día, ¿cuántas personas hacen órdenes?

In [None]:
# Gráfico orders per hour

user_order_hour = df_ins_ord.groupby('order_hour_of_day')['user_id'].count()  # Agrupa por 'order_hour_of_day' devuelve cuántos usuarios compraron en esa hora del día 

user_order_hour.plot(kind = 'bar',
                    title = 'Hora en la que el usuario realiza pedido',
                    xlabel = 'Hora', 
                    ylabel = 'Número de usuarios')

plt.show()

Escribe aquí tus conclusiones

El gráfico *'Hora en la que el usuario realiza pedido'* agrupa a los usuarios por hora del día en que realizaron el pedido. Se observa un incremento en el número de usuarios a partir de las 6:00 horas y tiende a bajar a partir de las 17:00 horas, por lo que podemos inferir que la mayoría de los usuarios realizan sus compras durante el día. Hay menos ventas durante la noche.

### [A3] ¿Qué día de la semana compran víveres las personas?

In [None]:
# Gráfico orders per day

user_order_day = df_ins_ord.groupby('order_dow')['user_id'].count()  # Agrupa por 'order_dow' y devuelve cuántos usuarios compraron en tal día de la semana 

user_order_day.plot(kind = 'bar',
                    title = 'Día en que el usuario realiza pedido',
                    xlabel = 'Día', 
                    ylabel = 'Número de usuarios')

plt.show()

Escribe aquí tus conclusiones

El gráfico *'Día en que el usuario realiza pedido'* agrupa a los usuarios por día en que realizaron el pedido. Hay un mayor número de pedidos los días 0 y 1 (Domingo y Lunes respectivamente), mientras que los días de menos compras son 3 y 4 (Jueves y Viernes respectivamente).

### [A4] ¿Cuánto tiempo esperan las personas hasta hacer otro pedido? Comenta sobre los valores mínimos y máximos.

In [None]:
# Gráfico days_since_prior_order

days_since_prior_order = df_ins_ord.groupby('days_since_prior_order')['user_id'].count()  # Agrupa por 'order_dow' y devuelve cuántos usuarios compraron en tal día de la semana 

filtered_days = days_since_prior_order[days_since_prior_order.index != -1] # Exluimos a los nuevos usuarios guardados previamente con -1

print(f'El valor mínimo de usuarios que compraron después de su adqusición anterior es:', filtered_days.min() , 'y el máximo es:', filtered_days.max())

filtered_days.plot(kind = 'bar',
                   title = 'Días desde que el usuario realizó su último pedido',
                   xlabel = 'Días desde el último pedido',
                   ylabel = 'Número de usuarios', 
                   ylim = [0,55000])

plt.show()

Escribe aquí tus conclusiones

El gráfico *'Días desde que el usuario realizó su último pedido'* muestra cuántos usuarios compraron nuevamente despúes de cierto número de días. A simple vista, y a falta de un análisis más profundo, hay cierta tendencia de aumento desde el día 0 al 7; luego disminuye para aumentar drásticamente al día 30. 

El valor mínimo es al día 26 (2,640 usuarios) y el máximo al 30 (51,337 usuarios), el valor mínimo nos podría indicar que los usuarios no esperan tanto tiempo para volver a comprar. Por otra parte, el valor máximo puede ser un indicio de que los usuarios hacen compras mensuales que pueden marcar tendencias de consumo. 

# [B] Intermedio (deben completarse todos para aprobar)

1. ¿Existe alguna diferencia entre las distribuciones `'order_hour_of_day'` de los miércoles y los sábados? Traza gráficos de barra de `'order_hour_of_day'` para ambos días en la misma figura y describe las diferencias que observes.
2. Grafica la distribución para el número de órdenes que hacen los clientes (es decir, cuántos clientes hicieron solo 1 pedido, cuántos hicieron 2, cuántos 3, y así sucesivamente...).
3. ¿Cuáles son los 20 principales productos que se piden con más frecuencia (muestra su identificación y nombre)?

### [B1] Diferencia entre miércoles y sábados para  `'order_hour_of_day'`. Traza gráficos de barra para los dos días y describe las diferencias que veas.

In [None]:
# Distribución miércoles

wed_hour = df_ins_ord[df_ins_ord['order_dow'] == 3]                  # filtramos el df_ins_ord por día 3 (miércoles) y lo guardamos en wed_hour
wed_hour = wed_hour.groupby('order_hour_of_day')['order_id'].count() # modificamos wed_hour para que agrupe por 'order_hour_of_day' y cuente los valores de 'order_id'


In [None]:
# Distribución sábado

sat_hour = df_ins_ord[df_ins_ord['order_dow'] == 6]                  # filtramos el df_ins_ord por día 6 (sábado) y lo guardamos en sat_hour
sat_hour = sat_hour.groupby('order_hour_of_day')['order_id'].count() # modificamos sat_hour para que agrupe por 'order_hour_of_day' y cuente los valores de 'order_id'


In [None]:
# Concatenamos ambas columnas para crear el gráfico

df_wed_sat = pd.concat([wed_hour, sat_hour], axis = 'columns') # Juntamos ambas series en un mismo df. Nos aseguramos de que axis='columns' para que cada serie represente una columna

print(df_wed_sat.sum()) # Sacamos el total de datos de cada serie 

In [None]:
df_wed_sat.plot(kind = 'bar',
                title = 'Comparación de pedidos por hora entre miércoles y sábado',
                xlabel = 'Hora',
                ylabel = 'Número de pedidos')
                
plt.legend(['Miércoles', 'Sábado'])

plt.show()

Escribe aquí tus conclusiones

El miércoles hubo un total de *60,897* órdenes, mientras que el sábado hubo *62,649*. Los miércoles hay más pedidos durante las primeras horas de la mañana (6:00-10:00) y tarde (18:00-20:00) que el sábado. Los sábados presentan un crecimiento continuo hasta su pico a las 14:00 y de ahí desciende de manera "uniforme"; se tiene mucha más actividad desde las 11:00 hasta las 14:00 a comparación del miércoles. Se hace una inferencia de que este comportamiento se debe a los hábitos entre semana y fin de semana de los usuarios. 


### [B2] ¿Cuál es la distribución para el número de pedidos por cliente?

In [None]:
# Distribución de cuántos clientes pidieron 1, 2, 3... veces

df_user_order_number = df_ins_ord.groupby('user_id')['order_id'].count() # Agrupando por 'user_id' cuenta cuántos 'order_id' tiene el usuario
distribution_ins_ord = df_user_order_number.value_counts().sort_index() # Cuenta cuántos usuarios realizan determinado número de pedidos

#print(distribution_ins_ord)

In [None]:
# Mostramos el gráfico 

distribution_ins_ord.plot(title = 'Número de usuarios que hicieron determinado número de pedidos', 
                          xlabel = 'Número de pedidos', 
                          ylabel = 'Número de usuarios', 
                          xticks = [0,2,4,6,8,10,12,14,16,18,20,22,24,26,28]) # Ponemos etiquetas cada 2 valores en el eje x

plt.show()

Escribe aquí tus conclusiones

La mayoría de los datos se distribuyen en los primeros valores. El máximo valor se concentra en aquellos usuarios que solo pidieron 1 producto; de este punto de partida, aquellos que hicieron 2 pedidos, 3 y sucesivamente, tienen una gran diferencia a comparación del punto anterior. A falta de un análisis estadístico, se puede inferir que más usuarios hacen un número menor de pedidos y viceversa, menos usuarios hacen un número mayor de pedidos.  

### [B3] ¿Cuáles son los 20 productos más populares (muestra su ID y nombre)?

In [None]:
# Obtenemos los productos más populares por su id

popular_prd = df_ord_prd.groupby('product_id')['order_id'].count()            # Agrupando por 'product_id' cuenta cuántos 'order_id' tiene dicho producto
sorted_popular_prd = popular_prd.sort_values(ascending = False).reset_index() # Ordena los datos de manera descendente (mayor a menor) y reinicia el índice para mejor visualización 

filtered_df_prd_name = df_prd[['product_id','product_name']]                  # Filtramos el dataframe df_prd por las columnas que nos interesan 'product_id' y 'product_name'

In [None]:
# Juntamos los dataframes con .merge()

# Combinamos los dataframes 'sorted_popular_prd' y 'filtered_df_prd_name' utilizando 'product_id' como clave común
merged_popular_prd = sorted_popular_prd.merge(filtered_df_prd_name, on='product_id') 

# Creamos la columna que junta 'product_id' y 'product_name'
merged_popular_prd['product_id_name'] = merged_popular_prd['product_id'].astype(str) + "_" + merged_popular_prd['product_name']

merged_20_popular_prd = merged_popular_prd.loc[:19] # Creamos un slice de las primeras 20 filas

In [None]:
# Mostramos el gráfico 

merged_20_popular_prd.plot(x = 'product_id_name',
                           xlabel = 'ID y nombre del producto',
                           y = 'order_id', 
                           title = '20 productos más pedidos',
                           ylabel = 'Número de órdenes', 
                           legend = False,
                           kind = 'bar')
plt.show()

Escribe aquí tus conclusiones

El producto más pedido es "banana" con más de 60,000 órdenes. Los 20 productos más pedidos son frutas y verduras. Gran parte de los productos tienen la categoría de "órganico".

# [C] Difícil (deben completarse todos para aprobar)

1. ¿Cuántos artículos suelen comprar las personas en un pedido? ¿Cómo es la distribución?
2. ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?
3. Para cada producto, ¿cuál es la tasa de repetición del pedido (número de repeticiones de pedido/total de pedidos?
4. Para cada cliente, ¿qué proporción de los productos que pidió ya los había pedido? Calcula la tasa de repetición de pedido para cada usuario en lugar de para cada producto.
5. ¿Cuáles son los 20 principales artículos que la gente pone primero en sus carritos (muestra las IDs de los productos, sus nombres, y el número de veces en que fueron el primer artículo en añadirse al carrito)?

### [C1] ¿Cuántos artículos compran normalmente las personas en un pedido? ¿Cómo es la distribución?

In [None]:
# Obtenemos cuántos artículos contienen las órdenes

order_id_grp = df_ord_prd.groupby('order_id')['product_id'].count()

In [None]:
# Mostramos el gráfico

order_id_grp.plot(title = 'Artículos comprados por pedido', 
                             kind = 'hist', bins = 20,
                             xlabel = 'Número de pedidos', 
                             ylabel = 'Número de usuarios')

plt.show()

Escribe aquí tus conclusiones

### [C2] ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?

In [None]:
# Filtramos el dataframe por columna reorder = 1

prd_reorder = df_ord_prd[df_ord_prd['reordered'] == 1] # Filtramos el dataframe 'df_ord_prd' conservando las filas donde reordered sea 1 (se ha pedido antes)

In [None]:
# Obtenemos productos más populares por id

popular_reorder = prd_reorder.groupby('product_id')['order_id'].count()               # Agrupamos por 'product_id' y cuenta cuántos 'order_id' tiene 
sorted_popular_reorder = popular_reorder.sort_values(ascending = False).reset_index() # Ordena los datos de manera descendente (mayor a menor) y reinicia el índice para mejor visualización 

In [None]:
# Juntamos los dataframes con .merge()

# Utilizamos el filtro que utilizamos anteriormente para sacar las columnas de 'product_id' y 'product_name'
#filtered_df_prd_name = df_prd[['product_id','product_name']]  

# Combinamos los dataframes 'sorted_popular_reorder' y 'filtered_df_prd_name' utilizando 'product_id' como clave común
merged_popular_reorder = sorted_popular_reorder.merge(filtered_df_prd_name, on='product_id') 

# Creamos la columna que junta 'product_id' y 'product_name'
merged_popular_reorder['product_id_name'] = merged_popular_reorder['product_id'].astype(str) + "_" + merged_popular_reorder['product_name']

merged_20_popular_reorder = merged_popular_reorder.loc[:19] # Creamos un slice de las primeras 20 filas

In [None]:
# Mostramos el gráfico 

merged_20_popular_reorder.plot(x = 'product_id_name',
                              xlabel = 'ID y nombre del producto', 
                              ylabel = 'Veces que se volvió a pedir',
                              y = 'order_id', 
                              title = '20 productos que más vuelven a pedir', 
                              legend = False, 
                              kind = 'bar')

plt.show()

Escribe aquí tus conclusiones

Comparte varios productos que son de los más populares. Uno de los cambios notorios fue 'ORGANIC WHOLE MILK' que subió 3 posiciones a comparación del gráfico *'20 productos más pedidos'*, la gente vuelve a comprar este producto con mayor frecuencia. El producto que más se vuelve a pedir son las bananas; su calidad debe ser excepcional.

### [C3] Para cada producto, ¿cuál es la proporción de las veces que se pide y que se vuelve a pedir?

In [None]:
# Obtenemos el producto por reorder

product_reorder = df_ord_prd[df_ord_prd['reordered'] == 1]                                     # Creamos un dataframe que contenga solo valores de recompra

product_reorder_grp = product_reorder.groupby('product_id')['reordered'].count().reset_index() # Agrupamos por 'product_id' y cuenta cuántas recompras hay

product_order_grp = df_ord_prd.groupby('product_id')['reordered'].count().reset_index()        # Agrupamos por 'product_id' y cuenta el todos los valores que estén en la misma fila de 'product_id'

In [None]:
# Juntamos los dataframes con .merge()

# Debe mostrar una columna con las órdenes totales y otra con las veces que se volvió a comprar
merged_product_order = product_order_grp.merge(product_reorder_grp, on='product_id') # Se excluyen del dataframe aquellos productos que no tienen registro de recompra

merged_product_order['reorder_proportion'] = merged_product_order['reordered_y'] / merged_product_order['reordered_x'] # Creamos una columna que muestra la proporción de recompra
print(merged_product_order)

In [None]:
# Mostramos el gráfico

merged_product_order['reorder_proportion'].plot(kind = 'hist', # El histograma muestra la frecuencia con la que aparecen valores para una variable.
                                                bins = 25, 
                                                title = 'Proporción en que un producto se vuelve a comprar',
                                                ylabel = 'Frecuencia',
                                                xlabel = 'Proporción', 
                                                xticks = [0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1],
                                                alpha = 0.9)

plt.show()

Escribe aquí tus conclusiones

Se decidió crear un histograma pues refleja la frecuencia con la que aparecen valores. Se agrupan cada una de las proporciones en un "contenedor". Hay un total de 25 contenedores y cada uno almacena cierto rango de la proporción. 
Encontramos que la mayor frecuencia es en la proporción 0.5, es decir 1 de cada 2 veces el artículo se volvió a comprar. De igual manera, encontramos valores significativos en la proporción cercana a 0.3 y otra importante en la proporción 1, que indica que para dichos artículos el usuario siempre vuelve por más.

### [C4] Para cada cliente, ¿qué proporción de sus productos ya los había pedido?

In [None]:
# Agrupamos por recompras

user_reorder = df_ins_ord[df_ins_ord['days_since_prior_order'] >= 0]                                     # Creamos un dataframe que contenga solo valores de recompra

user_reorder_grp = user_reorder.groupby('order_id')['days_since_prior_order'].agg(total_products='size', total_reorders='sum') # Agrupando por 'user_id' se agregan funciones específicas para guardar el tamaño total y la suma de las compras

print(user_reorder_grp)

In [None]:
# Sacamos la proporción 

user_reorder_grp['buy_again_proportion'] = user_reorder_grp['total_reorders'] / user_reorder_grp['total_products']

print(user_reorder_grp)

In [None]:
# Mostramos el gráfico 

user_reorder_grp['buy_again_proportion'].plot(kind = 'hist', # El histograma muestra la frecuencia con la que aparecen valores para una variable.
                                              bins = 20, 
                                              title = 'Proporción en que un producto se vuelve a comprar',
                                              ylabel = 'Frecuencia',
                                              xlabel = 'Proporción',
                                              alpha = 0.9)

plt.show()

Escribe aquí tus conclusiones 

Se decidió crear un histograma pues refleja la frecuencia con la que aparecen valores. Se agrupan cada una de las proporciones en un "contenedor". Hay un total de 20 contenedores y cada uno almacena cierto rango de la proporción. 
Sacamos cuántos productos han recomprado y cuántas órdenes han hecho los clientes, con estos datos establecemos una proporción que graficamos. Encontramos que la mayor frecuencia es en la proporción 30, es decir 1 producto se ha vuelto a pedir 30 veces. Puede que estos artículos estén entre los más populares

### [C5] ¿Cuáles son los 20 principales artículos que las personas ponen primero en sus carritos?

In [None]:
# Filtramos el dataframe por columna add_to_cart_order = 1

prd_first_cart = df_ord_prd[df_ord_prd['add_to_cart_order'] == 1] # Filtramos el dataframe 'df_ord_prd' conservando las filas donde add_to_cart_order sea 1 (primer artículo seleccionado)

In [None]:
# Obtenemos productos principales

principal_first_cart = prd_first_cart.groupby('product_id')['order_id'].count()                 # Agrupamos por 'product_id' y cuenta cuántos 'order_id' tiene 
sorted_principal_first_cart = principal_first_cart.sort_values(ascending = False).reset_index() # Ordena los datos de manera descendente (mayor a menor) y reinicia el índice para mejor visualización 

In [None]:
# Juntamos los dataframes con .merge()

# Utilizamos el filtro que utilizamos anteriormente para sacar las columnas de 'product_id' y 'product_name'
#filtered_df_prd_name = df_prd[['product_id','product_name']]  

merged_principal_first_cart = sorted_principal_first_cart.merge(filtered_df_prd_name, on='product_id') 
merged_20_principal_first_cart = merged_principal_first_cart.loc[:19] # Creamos un slice de las primeras 20 filas


In [None]:
# Mostramos el gráfico

merged_20_principal_first_cart.plot(x = 'product_name', 
                                    ylabel = 'Veces que se eligió primero', 
                                    xlabel = '',
                                    y = 'order_id', 
                                    title = '20 productos principales que se añaden primero al carrito', 
                                    legend = False, kind = 'bar')

plt.show()

Escribe aquí tus conclusiones

Nuevamente aparecen varios de los productos más populares. Hay una considerable diferencia entre los primeros 2 valores y los demás, parece que los clientes van primero por las bananas antes que otra cosa. Otros productos que aparecen en el gráfico *'20 productos más pedidos'* son ORGANIC WHOLE MILK, ORGANIC STRAWBERRIES, ORGANIC HASS AVOCADO y ORGANIC BABY SPINACH. 


### Conclusion general del proyecto:

Limpiar el conujunto de datos fue retador, ya que hubo que tomar decisiones sobre qué hacer con los duplicados y valores ausentes. 

Este proyecto permite observar gráficamente los datos de varios conjuntos de datos. Pudimos conocer cuáles son los productos más populares, analizar la proporción de compras entre días de la semana, la frecuencia con la que los usuarios vuelven a comprar en la tienda, entre otros gráficos importantes. A falta de un análisis más profudo, se infieren detalles sobre lo mostrado en las gráficas. 
Esperamos este proyecto sea de utilidad para la tienda y conozca más detalles sobre sus productos.