# Preprocessing orders

# Libraries

In [1]:
#  ---------- libraries ---------
import pandas as pd
import numpy as np

# Read data

In [2]:
# ---------- read data ----------
df = pd.read_csv('datasets/instacart_orders_raw.csv', sep=';')

# Preprocessing

## Duplicated data

In [3]:
# ---------- preprocessing ----------
# duplicated data ----------
df[df.duplicated()]

In [4]:
print('El numero de valores duplicados es:',df.duplicated().sum())

El numero de valores duplicados es: 15

Los valores duplicados tienen en comun que son del dia miercoles a las 2, por lo que seria bueno estudiar mas a fondo esta hipotesis preio a dar alguna solucion

### Duplicated data study

Hipotesis: Todos los pedisos duplicados se realizaron el día miercoles a las 2

In [5]:
df[(df['order_dow'] == 3) & (df['order_hour_of_day']==2)]

La hipotesis es correcta. Lo que suguiere que se puede tratar de un error temporal en el sistema de captura de datos

### Duplicated data elimination

In [6]:
# duplicated data elimination ----------
df = df.drop_duplicates().reset_index(drop=True)
duplicates = df[df.duplicated()]
print(duplicates)
print()
print('El numero de valores duplicados es:',df.duplicated().sum())

Empty DataFrame
Columns: [order_id, user_id, order_number, order_dow, order_hour_of_day, days_since_prior_order]
Index: []

El numero de valores duplicados es: 0

Se encontraron y eliminaron 15 valores duplicados

## Missing data

In [7]:
# missing data ----------
print('Numero de valores ausentes')
print(df.isna().sum())

Numero de valores ausentes
order_id                      0
user_id                       0
order_number                  0
order_dow                     0
order_hour_of_day             0
days_since_prior_order    28817
dtype: int64

In [8]:
print('Porcentaje que representan de valores ausentes')
print((df.isna().sum()/df.shape[0]) * 100)

Porcentaje que representan de valores ausentes
order_id                  0.000000
user_id                   0.000000
order_number              0.000000
order_dow                 0.000000
order_hour_of_day         0.000000
days_since_prior_order    6.016678
dtype: float64

Los valores ausentes pertenecen a la columna de days_since_prior_order por lo que sugiere que los valores ausentes son registros asociados al primer pedido. Ya que no habrá días después de la primera orden si el registro corresponde precisamente a la primer orden. Por lo que los valores ausentes se pueden inputar con el valor 0.

In [9]:
df['days_since_prior_order'] = df['days_since_prior_order'].fillna(0)
print('El numero de valores duplicados es:',df.duplicated().sum())

El numero de valores duplicados es: 0

## Data types

In [10]:
# data types ----------
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478952 entries, 0 to 478951
Data columns (total 6 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   order_id                478952 non-null  int64  
 1   user_id                 478952 non-null  int64  
 2   order_number            478952 non-null  int64  
 3   order_dow               478952 non-null  int64  
 4   order_hour_of_day       478952 non-null  int64  
 5   days_since_prior_order  478952 non-null  float64
dtypes: float64(1), int64(5)
memory usage: 21.9 MB

In [11]:
df['order_id'] = df['order_id'].astype('str')
df['user_id'] = df['user_id'].astype('str')
df['days_since_prior_order'] = df['days_since_prior_order'].astype('int')

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478952 entries, 0 to 478951
Data columns (total 6 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   order_id                478952 non-null  object
 1   user_id                 478952 non-null  object
 2   order_number            478952 non-null  int64 
 3   order_dow               478952 non-null  int64 
 4   order_hour_of_day       478952 non-null  int64 
 5   days_since_prior_order  478952 non-null  int64 
dtypes: int64(4), object(2)
memory usage: 21.9+ MB

# Save data

In [13]:
# ---------- save data ----------
df.to_csv('datasets/clean_orders.csv', index=False)