# Proyecto final: Manipulación de datos (Data Wrangling)

# Introducción

Instacart es una plataforma de entregas de comestibles donde la clientela puede registrar un pedido y hacer que se lo entreguen, similar a Uber Eats y Door Dash.
El conjunto de datos que te hemos proporcionado tiene modificaciones del original. Redujimos el tamaño del conjunto para que tus cálculos se hicieran más rápido e introdujimos valores ausentes y duplicados. Tuvimos cuidado de conservar las distribuciones de los datos originales cuando hicimos los cambios.

Debes completar tres pasos. Para cada uno de ellos, escribe una breve introducción que refleje con claridad cómo pretendes resolver cada paso, y escribe párrafos explicatorios que justifiquen tus decisiones al tiempo que avanzas en tu solución.  También escribe una conclusión que resuma tus hallazgos y elecciones.


# Diccionario de datos

Hay cinco tablas en el conjunto de datos, y tendrás que usarlas todas para hacer el preprocesamiento de datos y el análisis exploratorio de datos. A continuación se muestra un diccionario de datos que enumera las columnas de cada tabla y describe los datos que contienen.

- `instacart_orders.csv`: cada fila corresponde a un pedido en la aplicación Instacart.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'user_id'`: número de ID que identifica de manera única la cuenta de cada cliente.
    - `'order_number'`: el número de veces que este cliente ha hecho un pedido.
    - `'order_dow'`: día de la semana en que se hizo el pedido (0 si es domingo).
    - `'order_hour_of_day'`: hora del día en que se hizo el pedido.
    - `'days_since_prior_order'`: número de días transcurridos desde que este cliente hizo su pedido anterior.
- `products.csv`: cada fila corresponde a un producto único que pueden comprar los clientes.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'product_name'`: nombre del producto.
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
- `order_products.csv`: cada fila corresponde a un artículo pedido en un pedido.
    - `'order_id'`: número de ID que identifica de manera única cada pedido.
    - `'product_id'`: número ID que identifica de manera única cada producto.
    - `'add_to_cart_order'`: el orden secuencial en el que se añadió cada artículo en el carrito.
    - `'reordered'`: 0 si el cliente nunca ha pedido este producto antes, 1 si lo ha pedido.
- `aisles.csv`
    - `'aisle_id'`: número ID que identifica de manera única cada categoría de pasillo de víveres.
    - `'aisle'`: nombre del pasillo.
- `departments.csv`
    - `'department_id'`: número ID que identifica de manera única cada departamento de víveres.
    - `'department'`: nombre del departamento.

# Paso 1: Plan de solución


Se iniciará dando un analisis exploratorio de los datos. Se utiliará las librerias pandas para el procsamiento y pyplot para la visualización de gráficos. Se leerán los 5 archivos y veremos si cumple con las condiciones de un archivo típico csv. Luego analizaremos el tipo de datos de las columnas que conforman cada tabla para definir si es necesario cambiar el tipo de datos. Finalmente procesaremos los valores ausentes y duplicados de tal forma que estas filas no nos lleven a conclusiones equivocadas en nuestro análisis.

In [1]:
# importar librerías
import pandas as pd
from matplotlib import pyplot as plt

In [2]:
# leer conjuntos de datos en los DataFrames
instacart = pd.read_csv("/datasets/instacart_orders.csv",sep=";")
products = pd.read_csv("/datasets/products.csv",sep=";")
aisles = pd.read_csv("/datasets/aisles.csv",sep=";")
departments = pd.read_csv("/datasets/departments.csv",sep=";")
order = pd.read_csv("/datasets/order_products.csv",sep=";")

In [3]:
# mostrar información del DataFrame
instacart.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478967 entries, 0 to 478966
Data columns (total 6 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   order_id                478967 non-null  int64  
 1   user_id                 478967 non-null  int64  
 2   order_number            478967 non-null  int64  
 3   order_dow               478967 non-null  int64  
 4   order_hour_of_day       478967 non-null  int64  
 5   days_since_prior_order  450148 non-null  float64
dtypes: float64(1), int64(5)
memory usage: 21.9 MB


In [4]:
# mostrar información del DataFrame
products.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49694 entries, 0 to 49693
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   product_id     49694 non-null  int64 
 1   product_name   48436 non-null  object
 2   aisle_id       49694 non-null  int64 
 3   department_id  49694 non-null  int64 
dtypes: int64(3), object(1)
memory usage: 1.5+ MB


In [5]:
# mostrar información del DataFrame
aisles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 134 entries, 0 to 133
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   aisle_id  134 non-null    int64 
 1   aisle     134 non-null    object
dtypes: int64(1), object(1)
memory usage: 2.2+ KB


In [6]:
# mostrar información del DataFrame
departments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   department_id  21 non-null     int64 
 1   department     21 non-null     object
dtypes: int64(1), object(1)
memory usage: 464.0+ bytes


In [7]:
# mostrar información del DataFrame
order.info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4545007 entries, 0 to 4545006
Data columns (total 4 columns):
 #   Column             Non-Null Count    Dtype  
---  ------             --------------    -----  
 0   order_id           4545007 non-null  int64  
 1   product_id         4545007 non-null  int64  
 2   add_to_cart_order  4544171 non-null  float64
 3   reordered          4545007 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 138.7 MB


# Conclusiones para la descripción de datos

Para llevar los archivos a un formto estandar, hubo que incluir el argumento decimal = ";" a cada dataframe. Esto permitió dar lectura a cada archivo y conocer el tipo de datos de cada columna. Notamos que hay columnas que se repiten en diferentes tablas, por lo que durante el desarrollo del proyecto será necesario asociarlas para su posterior análisis.


# Paso 2: Preprocesamiento de los datos

Preprocesa los datos de la siguiente manera:

- Verifica y corrige los tipos de datos (por ejemplo, asegúrate de que las columnas de ID sean números enteros).
- Identifica y completa los valores ausentes.
- Identifica y elimina los valores duplicados.

Asegúrate de explicar qué tipos de valores ausentes y duplicados encontraste, cómo los completaste o eliminaste y por qué usaste esos métodos. ¿Por qué crees que estos valores ausentes y duplicados pueden haber estado presentes en el conjunto de datos?

# Encuentra y elimina los valores duplicados (y describe cómo tomaste tus decisiones).

**Data frame: `orders`**

In [8]:
# Revisa si hay pedidos duplicados
print("número de duplicados: ", instacart.duplicated().sum())
print()
display(instacart[instacart.duplicated()]) 


número de duplicados:  15



Unnamed: 0,order_id,user_id,order_number,order_dow,order_hour_of_day,days_since_prior_order
145574,794638,50898,24,3,2,2.0
223105,2160484,107525,16,3,2,30.0
230807,1918001,188546,14,3,2,16.0
266232,1782114,106752,1,3,2,
273805,1112182,202304,84,3,2,6.0
284038,2845099,31189,11,3,2,7.0
311713,1021560,53767,3,3,2,9.0
321100,408114,68324,4,3,2,18.0
323900,1919531,191501,32,3,2,7.0
345917,2232988,82565,1,3,2,




Hay 15 filas con duplicados, en todos los casos es en el día 3 miercoles a las 2 am.

**Basándote en tus hallazgos, verifica todos los pedidos que se hicieron el miércoles a las 2:00 a.m.**

In [9]:
display(instacart[(instacart['order_hour_of_day'] == 2) & (instacart['order_dow']==3)])


Unnamed: 0,order_id,user_id,order_number,order_dow,order_hour_of_day,days_since_prior_order
4838,2766110,162084,41,3,2,16.0
5156,2190225,138285,18,3,2,11.0
15506,553049,58599,13,3,2,7.0
18420,382357,120200,19,3,2,11.0
24691,690242,77357,2,3,2,9.0
...,...,...,...,...,...,...
457013,3384021,14881,6,3,2,30.0
458816,910166,164782,18,3,2,4.0
459635,1680532,106435,6,3,2,21.0
468324,222962,54979,59,3,2,3.0


El resultado sugiere que tenemos 106 filas en las que el día es miercoles y la hora es 2 am. En 15 de estos casos las filas contienen valores duplicados.

**data frame: `instacart`**

In [10]:
# Elimina los pedidos duplicados
instacart = instacart.drop_duplicates()


In [11]:
# Vuelve a verificar si hay filas duplicadas
print("filas duplicadas: ", instacart.duplicated().sum())


filas duplicadas:  0


In [12]:
# Vuelve a verificar únicamente si hay IDs duplicados de pedidos
#print(instacart['order_id'].value_counts()) 
print("id duplicados de pedidos:" , instacart.duplicated(subset='order_id').sum())


id duplicados de pedidos: 0


**data frame: `products`**

In [13]:
# Verifica si hay filas totalmente duplicadas
print("filas totalmente duplicadas: ",products.duplicated().sum())


filas totalmente duplicadas:  0


In [14]:
# Verifica únicamente si hay IDs duplicadas de productos
print("id duplicados: ", products.duplicated(subset='product_id').sum())


id duplicados:  0


In [15]:
# Revisa únicamente si hay nombres duplicados de productos (convierte los nombres a letras mayúsculas para compararlos mejor)
products['product_name'] = products['product_name'].str.upper()
print("nombres duplicados de productos: ", products['product_name'].duplicated().sum())


nombres duplicados de productos:  1361


In [16]:
# Revisa si hay nombres duplicados de productos no faltantes
print("nombres duplicados de productos no faltantes: ", products['product_name'].dropna().duplicated().sum())


nombres duplicados de productos no faltantes:  104


**Data frame: `departments`** 

In [17]:
# Revisa si hay filas totalmente duplicadas
print("filas totalmente duplicadas: ", departments.duplicated().sum())

filas totalmente duplicadas:  0


In [18]:
# Revisa únicamente si hay IDs duplicadas de productos
print("id duplicados de productos: ", departments.duplicated(subset='department_id').sum())


id duplicados de productos:  0


**Data frame:`aisles`**

In [19]:
# Revisa si hay filas totalmente duplicadas
print("filas totalmente duplicadas: ", aisles.duplicated().sum())

filas totalmente duplicadas:  0


In [20]:
# Revisa únicamente si hay IDs duplicadas de productos
print("id duplicados de productos", aisles.duplicated(subset='aisle_id').sum())


id duplicados de productos 0


**data frame: `order_products`**

In [21]:
# Revisa si hay filas totalmente duplicadas
print("filas totlamente duplicadas: ", order.duplicated().sum())


filas totlamente duplicadas:  0


In [22]:
# Vuelve a verificar si hay cualquier otro duplicado engañoso
print("id duplicados: ", order['order_id'].duplicated().sum())


id duplicados:  4094961


# Encuentra y elimina los valores ausentes

Al trabajar con valores duplicados, pudimos observar que también nos falta investigar valores ausentes:

* La columna `'product_name'` de la tabla products.
* La columna `'days_since_prior_order'` de la tabla orders.
* La columna `'add_to_cart_order'` de la tabla order_productos.

**Data frame: `product`** 

In [23]:
# Encuentra los valores ausentes en la columna 'product_name'

print(products.isna().sum())
print("columna 'product_name' de la tabla 'product'")
print()
display(products['product_name'].value_counts(dropna=False))


product_id          0
product_name     1258
aisle_id            0
department_id       0
dtype: int64
columna 'product_name' de la tabla 'product'



NaN                                              1258
GREEN TEA WITH GINSENG AND HONEY                    3
HERRING IN WINE SAUCE                               2
MEDITERRANEAN SEA SALT                              2
MOUNTAIN BERRY BLAST SPORTS DRINK                   2
                                                 ... 
ZESTY PIZZA SPROUTED FLAX SNAX                      1
ORGANIC CALIFORNIA STYLE SPROUTED BREAD             1
LEMON FRESH SCENT POWDER DISHWASHER DETERGENT       1
VANILLA MINI SWIRLS CONES                           1
CONCENTRATED LAVENDER SCENT BLEACH                  1
Name: product_name, Length: 48333, dtype: int64

Tenemos 1258 valores ausentes en la columna "product_name"

**¿Todos los nombres de productos ausentes están relacionados con el pasillo con ID 100?**

In [24]:
display(products[products['product_name'].isna()])
print()
products_pasillo_100= products[products['product_name'].isna()]
print(products_pasillo_100['aisle_id'].unique())


Unnamed: 0,product_id,product_name,aisle_id,department_id
37,38,,100,21
71,72,,100,21
109,110,,100,21
296,297,,100,21
416,417,,100,21
...,...,...,...,...
49552,49553,,100,21
49574,49575,,100,21
49640,49641,,100,21
49663,49664,,100,21



[100]


Hemos verificado que todos los nombres de productos ausentes están relacionados con el pasillo con ID 100.

**¿Todos los nombres de productos ausentes están relacionados con el departamento con ID 21?**

In [25]:
products_id_21= products[products['product_name'].isna()]
print(products_id_21['department_id'].unique())


[21]


Hemos verificado que todos los nombres de productos ausentes están relacionados con el departamento con ID 21.

**Usa las tablas department y aisle para revisar los datos del pasillo con ID 100 y el departamento con ID 21.**

In [26]:
display(departments[departments['department_id'] == 21])
print()
display(aisles[aisles['aisle_id'] == 100])


Unnamed: 0,department_id,department
20,21,missing





Unnamed: 0,aisle_id,aisle
99,100,missing


Tanto los datos del pasillo ID 100 y el departamento ID 21 tienen como nombre de departamento y aisle a "missing".

**Completa los nombres de productos ausentes con 'Unknown'**

In [27]:
products['product_name'] = products['product_name'].fillna(value='Unknown')

print(products.isna().sum())



product_id       0
product_name     0
aisle_id         0
department_id    0
dtype: int64


Hemos completado los valores ausentes mediante la función "fillna" y los reemplazmos por el string 'Unknown'. Luego verificamos la cantidad de duplicados en la columna "product_name", cuyo valor es 0.

 **data frame: `orders`**

**¿Hay algún valor ausente que no sea el primer pedido del cliente?**

In [28]:
display(instacart[instacart['days_since_prior_order'].isna()])
primer_pedido = instacart[instacart['days_since_prior_order'].isna()]
print(primer_pedido['order_number'].unique())


Unnamed: 0,order_id,user_id,order_number,order_dow,order_hour_of_day,days_since_prior_order
28,133707,182261,1,3,10,
96,787445,25685,1,6,18,
100,294410,111449,1,0,19,
103,2869915,123958,1,4,16,
104,2521921,42286,1,3,18,
...,...,...,...,...,...,...
478895,2589657,205028,1,0,16,
478896,2222353,141211,1,2,13,
478922,2272807,204154,1,1,15,
478926,2499542,68810,1,4,19,


[1]


Podemos ver que el único valor ausente es el primer pedido.

**Data frame: `order_products`**

In [29]:
# Encuentra los valores ausentes
print(order.isna().sum())
print()
#print(order['add_to_cart_order'].value_counts(dropna=False))

order_id               0
product_id             0
add_to_cart_order    836
reordered              0
dtype: int64



**¿Cuáles son los valores mínimos y máximos en esta columna?**

In [30]:
min_order = order['add_to_cart_order'].min()
print("Valor mínimo:", min_order)
max_order = order['add_to_cart_order'].max()
print("Valor máximo:", max_order)


Valor mínimo: 1.0
Valor máximo: 64.0


Podemos ver que existen 836 valores ausentes en la columna "add_to_cart_order". El valor mínimo de esta columna es 1, y el máximo es 64.

**Guarda todas las IDs de pedidos que tengan un valor ausente en 'add_to_cart_order'**

**¿Todos los pedidos con valores ausentes tienen más de 64 productos?**

In [31]:
display(id_pedido.value_counts())
print()
# Agrupa todos los pedidos con datos ausentes por su ID de pedido.
grupo = ausente_pedido.groupby('order_id')

# Cuenta el número de 'product_id' en cada pedido y revisa el valor mínimo del conteo.

print("Valor minimo del conteo: ", grupo['product_id'].count().min())


NameError: name 'id_pedido' is not defined

Podemos ver que todos los pedidos con valores ausentes tienen menos de 64 productos, siendo su valor mínimo 1 y máximo 63

In [None]:
# Remplaza los valores ausentes en la columna 'add_to_cart? con 999 y convierte la columna al tipo entero.
order['add_to_cart_order'] = order['add_to_cart_order'].fillna(value=999)
order['add_to_cart_order'] = order['add_to_cart_order'].astype('int')
order.info()

Anteriormente, verificamos que la columna "add_to_cart_order" tiene 836 valores ausentes. Ahora reemplazamos ese valor por "999" y cambiamos el tiempo de dato de la columna a entero.

# Conclusiones sobre el paso 2

Preprocesamos los datos de las 5 tablas que presenta el caso de estudio. Verificamos y corregimos los tipos de datos de cada columna y que estos tipos sean acorde a la naturzaleza de la columna. Vimos que la columna "add_to_cart" estaba definido como tipo de dato string, por lo cual la cambiamos a tipo de dato entero.

Luego verificamos los valores ausentes y comprobamos que las columnas "add_to_cart_order", "product_id" y "days_since_prior_order" contenían valores nulos. Completamos los valores ausentes de la columna "product_id" con el string "Unknow" .Finalmente, identificamos y eliminamos los valores duplicados de nuestras tablas utilizando el metodo duplicated y drop.duplicated.


# Paso 3. Análisis de los datos

1. Verifica que los valores en las columnas `'order_hour_of_day'` y `'order_dow'` en la tabla orders sean razonables (es decir, `'order_hour_of_day'` oscile entre 0 y 23 y `'order_dow'` oscile entre 0 y 6).
2. Crea un gráfico que muestre el número de personas que hacen pedidos dependiendo de la hora del día.
3. Crea un gráfico que muestre qué día de la semana la gente hace sus compras.
4. Crea un gráfico que muestre el tiempo que la gente espera hasta hacer su siguiente pedido, y comenta sobre los valores mínimos y máximos.

**Verifica que los valores sean sensibles**

In [None]:
print(instacart['order_hour_of_day'].unique())

In [None]:
print(instacart['order_dow'].unique())

Al imprimir las columnas de 'order_hour_of_day' y 'order_dow' verificamos que se encuentran entre valores razonables.

**Para cada hora del día, ¿cuántas personas hacen órdenes?**

In [None]:
from matplotlib import pyplot as plt


instacart['order_hour_of_day'].value_counts().plot(
        kind='bar',
        title='Número de ordenes para cada hora del día',
        xlabel='Hora',
        ylabel='n°personas')


plt.show() 



Del grafico, vemos que la Hora donde se produce la mayor cantidad de ordenes es a las 10 am, mientras que el menor número de ordenes se encuentra a las 4 am.

**¿Qué día de la semana compran víveres las personas?**

In [None]:
instacart['order_dow'].value_counts().plot(
        kind='bar',
        title='Cantidad de personas que compran víveres para cada día',
        xlabel='día de la semana',
        ylabel='n°personas')


plt.show() 

Del grafico observamos que el día domingo y lunes más personas compran víveres, mientras que el día jueves se presenta la menor cantidad de personas que compran.

**¿Cuánto tiempo esperan las personas hasta hacer otro pedido? Comenta sobre los valores mínimos y máximos.**

In [None]:
agg_dict_min = {'order_hour_of_day': 'min'}
grp = instacart.groupby('user_id')
#print(grp.agg(agg_dict_min)) 
print()
agg_dict_max = {'order_hour_of_day': 'max'}
grp = instacart.groupby('user_id')
#print(grp.agg(agg_dict_max)) 
#print()
print(grp.agg(agg_dict_max) - grp.agg(agg_dict_min))
print()
print("el valor de espera máximo es: ", (grp.agg(agg_dict_max) - grp.agg(agg_dict_min)).max())

diferencia = grp.agg(agg_dict_max) - grp.agg(agg_dict_min)

diferencia['order_hour_of_day'].value_counts().plot(
        kind='bar',
        title='Tiempo de espera de las personas',
        xlabel='Hora',
        ylabel='n°personas')


plt.show() 




Del grafico se observa que la mayoría de las personas espera menos de 1 hora hasta hacer su proximo pedido.

1. ¿Existe alguna diferencia entre las distribuciones `'order_hour_of_day'` de los miércoles y los sábados? Traza gráficos de barra de `'order_hour_of_day'` para ambos días en la misma figura y describe las diferencias que observes.
2. Grafica la distribución para el número de órdenes que hacen los clientes (es decir, cuántos clientes hicieron solo 1 pedido, cuántos hicieron 2, cuántos 3, y así sucesivamente...).
3. ¿Cuáles son los 20 principales productos que se piden con más frecuencia (muestra su identificación y nombre)?

**Diferencia entre miércoles y sábados para  `'order_hour_of_day'`. Traza gráficos de barra para los dos días y describe las diferencias que veas.**

In [None]:
instacart[instacart['order_dow'] == 3]['order_hour_of_day'].plot(kind='hist', bins=30,title ="Distribución por hora de miercoles y sábados",xlabel = "día de la semana")
instacart[instacart['order_dow'] == 6]['order_hour_of_day'].plot(kind='hist', bins=30, alpha=0.5, xlabel = "día de la semana")
plt.legend(['Miercoles', 'Sabado']) # leyenda, que sigue el mismo orden trazado anteriormente


plt.show() 



**¿Cuál es la distribución para el número de pedidos por cliente?**

In [None]:
#print(instacart.groupby('user_id')['order_number'].count().head(20))
instacart.groupby('user_id')['order_number'].count().plot(kind='hist', bins=20)

plt.show() 

Del gráfico se observa que la mayoría de los clientes realizan entre 1 y 3 pedidos. La frecuencia de pedidos más baja corresponde alrededor de 25 pedidos.

**¿Cuáles son los 20 productos más populares (muestra su ID y nombre)?**

In [None]:
agg_dict = {'order_id': 'count'}

grp = order.groupby(['product_id'])
ranking = grp.agg(agg_dict).sort_values(by='order_id', ascending=False)
display(ranking.head(20))
print()

In [None]:
handhelds = [24852, 13176,21137,21903,47209,47766,47626,16797,26209,27845,27966,22935,24964,45007,39275,49683,28204,5876,8277,40706]
print(products[products['product_id'].isin(handhelds)][['product_id','product_name']])

Anteriormente se detallaron los 20 productos más populares, destacando de entre ellos los productos orgánicos como "ORGANIC AVOCADO", " ORGANIC GARLIC", "ORGANIC FUJI APPLE" entre otros.

1. ¿Cuántos artículos suelen comprar las personas en un pedido? ¿Cómo es la distribución?
2. ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?
3. Para cada producto, ¿cuál es la tasa de repetición del pedido (número de repeticiones de pedido/total de pedidos?
4. Para cada cliente, ¿qué proporción de los productos que pidió ya los había pedido? Calcula la tasa de repetición de pedido para cada usuario en lugar de para cada producto.
5. ¿Cuáles son los 20 principales artículos que la gente pone primero en sus carritos (muestra las IDs de los productos, sus nombres, y el número de veces en que fueron el primer artículo en añadirse al carrito)?

**¿Cuántos artículos compran normalmente las personas en un pedido? ¿Cómo es la distribución?**

In [None]:
#print(order.groupby('order_id')['product_id'].count().head(20))
order.groupby('order_id')['product_id'].count().plot(kind='hist', bins=20)

plt.show() 

Del gráfico se observa que la cantidad de artículos que compran las personas mayoritariamente van entre 0 y 20 articulos.

**¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?**

In [None]:
agg_dict_2 = {'reordered': 'sum'}

grp_2 = order.groupby(['product_id'])
ranking_2 = grp_2.agg(agg_dict_2).sort_values(by='reordered', ascending=False)
display(ranking_2.head(20))
print()

In [None]:
handhelds_2 = [24852, 13176,21137,21903,47209,47766,27845,47626,27966,16797,26209,22935,24964,45007,49683,28204,8277,39275,5876,49235]
display(products[products['product_id'].isin(handhelds)][['product_id','product_name']])

Anteriormente se detallaron los 20 productos que vuelven a pedirse con mayor frecuencia, destacando de entre ellos los productos orgánicos como "ORGANIC AVOCADO", "  ORGANIC WHOLE MILK", "ORGANIC ZUCCHINI" entre otros.

**Para cada producto, ¿cuál es la proporción de las veces que se pide y que se vuelve a pedir?**

In [None]:
#Cantidad total de productos por orden
agg_dict = {'order_id': 'count'}

grp_3 = order.groupby(['product_id'])
prop_1 = grp_3.agg(agg_dict)
display(prop_1)
print()

In [None]:
#articulos que vuelvena pedirse
agg_dict_2 = {'reordered': 'sum'}

grp_4 = order.groupby(['product_id'])
prop_2 = grp_4.agg(agg_dict_2)
display(prop_2)
print()

In [None]:
df_concat = pd.concat([prop_1, prop_2], axis='columns')
df_concat['proporcion'] = df_concat['reordered']/df_concat['order_id']
display(df_concat)



**Para cada cliente, ¿qué proporción de sus productos ya los había pedido?**

In [None]:
agg_dict_4 = {'order_id': 'count'}

grp_4 = instacart.groupby(['user_id'])
prop_3 = grp_4.agg(agg_dict_4)
display(prop_3)
print()

**¿Cuáles son los 20 principales artículos que las personas ponen primero en sus carritos?**

In [None]:
#En la columna 'add_to_cart_order' filtramos todos los valores 1
carrito = order[order['add_to_cart_order'] == 1]
display(carrito)



In [None]:
agg_dict_5 = {'add_to_cart_order': 'sum'}
secuencia = carrito.groupby('product_id').agg(agg_dict_5)
display(secuencia.sort_values(by='add_to_cart_order', ascending=False).head(20))

In [None]:
handhelds_3 = [24852, 13176,27845,21137,47209,21903,47766,19660,16797,27966,44632,49235,47626,196,38689,26209,12341,5785,27086,43352]
display(products[products['product_id'].isin(handhelds_3)][['product_id','product_name']])

Escribe aquí tus conclusiones
Los articlulos que las perosnas eligen en primer lugar se detallan en la tabla creada.

# Conclusion general del proyecto

Preprocesamos los datos de las 5 tablas que presenta el caso de estudio. Verificamos y corregimos los tipos de datos de cada columna y que estos tipos sean acorde a la naturzaleza de la columna. Vimos que la columna "add_to_cart" estaba definido como tipo de dato string, por lo cual la cambiamos a tipo de dato a entero.

Luego verificamos los valores ausentes y comprobamos que las columnas "add_to_cart_order", "product_id" y "days_since_prior_order" contenían valores nulos. Completamos los valores ausentes de la columna "product_id" con el string "Unknow" .Finalmente, identificamos y eliminamos los valores duplicados de nuestras tablas utilizando el metodo duplicated y drop.duplicated...
