# Ecommerce Data Exploration

In [15]:
import pandas as pd
import numpy as np
import duckdb

In [16]:
def run_query(query: str):
    try:
        return duckdb.sql(query)
    except Exception as e:
        raise e

In [17]:
# Load Data
base_path = "/home/allie/Repos/tests/data-explore/raw_data"

distribution_data = duckdb.read_csv(f"{base_path}/distribution_centers.csv")
inventory_items_data = duckdb.read_csv(f"{base_path}/inventory_items.csv")  
orders_data = duckdb.read_csv(f"{base_path}/orders.csv")  
users_data = duckdb.read_csv(f"{base_path}/users.csv")  
events_data = duckdb.read_csv(f"{base_path}/events.csv")
order_items_data = duckdb.read_csv(f"{base_path}/order_items.csv")
products_data = duckdb.read_csv(f"{base_path}/products.csv")  

## Tables Schemas

In [18]:
run_query("DESCRIBE distribution_data")

┌─────────────┬─────────────┬─────────┬─────────┬─────────┬─────────┐
│ column_name │ column_type │  null   │   key   │ default │  extra  │
│   varchar   │   varchar   │ varchar │ varchar │ varchar │ varchar │
├─────────────┼─────────────┼─────────┼─────────┼─────────┼─────────┤
│ id          │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ name        │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ latitude    │ DOUBLE      │ YES     │ NULL    │ NULL    │ NULL    │
│ longitude   │ DOUBLE      │ YES     │ NULL    │ NULL    │ NULL    │
└─────────────┴─────────────┴─────────┴─────────┴─────────┴─────────┘

In [19]:
run_query("DESCRIBE inventory_items_data")

┌────────────────────────────────┬─────────────┬─────────┬─────────┬─────────┬─────────┐
│          column_name           │ column_type │  null   │   key   │ default │  extra  │
│            varchar             │   varchar   │ varchar │ varchar │ varchar │ varchar │
├────────────────────────────────┼─────────────┼─────────┼─────────┼─────────┼─────────┤
│ id                             │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ product_id                     │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ created_at                     │ TIMESTAMP   │ YES     │ NULL    │ NULL    │ NULL    │
│ sold_at                        │ TIMESTAMP   │ YES     │ NULL    │ NULL    │ NULL    │
│ cost                           │ DOUBLE      │ YES     │ NULL    │ NULL    │ NULL    │
│ product_category               │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ product_name                   │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ product_brand      

In [20]:
run_query("DESCRIBE orders_data")

┌──────────────┬─────────────┬─────────┬─────────┬─────────┬─────────┐
│ column_name  │ column_type │  null   │   key   │ default │  extra  │
│   varchar    │   varchar   │ varchar │ varchar │ varchar │ varchar │
├──────────────┼─────────────┼─────────┼─────────┼─────────┼─────────┤
│ order_id     │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ user_id      │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ status       │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ gender       │ BOOLEAN     │ YES     │ NULL    │ NULL    │ NULL    │
│ created_at   │ TIMESTAMP   │ YES     │ NULL    │ NULL    │ NULL    │
│ returned_at  │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ shipped_at   │ TIMESTAMP   │ YES     │ NULL    │ NULL    │ NULL    │
│ delivered_at │ TIMESTAMP   │ YES     │ NULL    │ NULL    │ NULL    │
│ num_of_item  │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
└──────────────┴─────────────┴─────────┴─────────┴─────────┴─────────┘

In [21]:
run_query("DESCRIBE users_data")

┌────────────────┬─────────────┬─────────┬─────────┬─────────┬─────────┐
│  column_name   │ column_type │  null   │   key   │ default │  extra  │
│    varchar     │   varchar   │ varchar │ varchar │ varchar │ varchar │
├────────────────┼─────────────┼─────────┼─────────┼─────────┼─────────┤
│ id             │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ first_name     │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ last_name      │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ email          │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ age            │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ gender         │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ state          │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ street_address │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ postal_code    │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ city           │ VARCHAR     │ YES     │ NULL    

In [22]:
run_query("DESCRIBE order_items_data")

┌───────────────────┬─────────────┬─────────┬─────────┬─────────┬─────────┐
│    column_name    │ column_type │  null   │   key   │ default │  extra  │
│      varchar      │   varchar   │ varchar │ varchar │ varchar │ varchar │
├───────────────────┼─────────────┼─────────┼─────────┼─────────┼─────────┤
│ id                │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ order_id          │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ user_id           │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ product_id        │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ inventory_item_id │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ status            │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ created_at        │ TIMESTAMP   │ YES     │ NULL    │ NULL    │ NULL    │
│ shipped_at        │ TIMESTAMP   │ YES     │ NULL    │ NULL    │ NULL    │
│ delivered_at      │ TIMESTAMP   │ YES     │ NULL    │ NULL    │ NULL    │
│ returned_a

In [23]:
run_query("DESCRIBE events_data")

┌─────────────────┬─────────────┬─────────┬─────────┬─────────┬─────────┐
│   column_name   │ column_type │  null   │   key   │ default │  extra  │
│     varchar     │   varchar   │ varchar │ varchar │ varchar │ varchar │
├─────────────────┼─────────────┼─────────┼─────────┼─────────┼─────────┤
│ id              │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ user_id         │ DOUBLE      │ YES     │ NULL    │ NULL    │ NULL    │
│ sequence_number │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ session_id      │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ created_at      │ TIMESTAMP   │ YES     │ NULL    │ NULL    │ NULL    │
│ ip_address      │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ city            │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ state           │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ postal_code     │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ browser         │ VARCHAR     │ YES 

In [24]:
run_query("DESCRIBE products_data")

┌────────────────────────┬─────────────┬─────────┬─────────┬─────────┬─────────┐
│      column_name       │ column_type │  null   │   key   │ default │  extra  │
│        varchar         │   varchar   │ varchar │ varchar │ varchar │ varchar │
├────────────────────────┼─────────────┼─────────┼─────────┼─────────┼─────────┤
│ id                     │ BIGINT      │ YES     │ NULL    │ NULL    │ NULL    │
│ cost                   │ DOUBLE      │ YES     │ NULL    │ NULL    │ NULL    │
│ category               │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ name                   │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ brand                  │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ retail_price           │ DOUBLE      │ YES     │ NULL    │ NULL    │ NULL    │
│ department             │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ sku                    │ VARCHAR     │ YES     │ NULL    │ NULL    │ NULL    │
│ distribution_center_id │ B

## Distribution Centers

In [25]:
# How many rows does the distribution_center data have?
run_query("SELECT COUNT(*) FROM distribution_data")

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│           10 │
└──────────────┘

In [26]:
run_query("SELECT * FROM distribution_data")

┌───────┬─────────────────────────────────────────────┬──────────┬───────────┐
│  id   │                    name                     │ latitude │ longitude │
│ int64 │                   varchar                   │  double  │  double   │
├───────┼─────────────────────────────────────────────┼──────────┼───────────┤
│     1 │ Memphis TN                                  │  35.1174 │  -89.9711 │
│     2 │ Chicago IL                                  │  41.8369 │  -87.6847 │
│     3 │ Houston TX                                  │  29.7604 │  -95.3698 │
│     4 │ Los Angeles CA                              │    34.05 │   -118.25 │
│     5 │ New Orleans LA                              │    29.95 │  -90.0667 │
│     6 │ Port Authority of New York/New Jersey NY/NJ │   40.634 │  -73.7834 │
│     7 │ Philadelphia PA                             │    39.95 │  -75.1667 │
│     8 │ Mobile AL                                   │  30.6944 │  -88.0431 │
│     9 │ Charleston SC                             

## Inventory Items

In [27]:
# How many rows does the inventory_items table have?
run_query("SELECT COUNT(*) FROM inventory_items_data")

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│       490705 │
└──────────────┘

In [28]:
run_query("SELECT * FROM inventory_items_data LIMIT 5")

┌───────┬────────────┬─────────────────────┬─────────────────────┬───────────────────┬──────────────────┬────────────────────────┬────────────────────┬──────────────────────┬────────────────────┬──────────────────────────────────┬────────────────────────────────┐
│  id   │ product_id │     created_at      │       sold_at       │       cost        │ product_category │      product_name      │   product_brand    │ product_retail_price │ product_department │           product_sku            │ product_distribution_center_id │
│ int64 │   int64    │      timestamp      │      timestamp      │      double       │     varchar      │        varchar         │      varchar       │        double        │      varchar       │             varchar              │             int64              │
├───────┼────────────┼─────────────────────┼─────────────────────┼───────────────────┼──────────────────┼────────────────────────┼────────────────────┼──────────────────────┼────────────────────┼─────────────

## Orders

In [29]:
# How many rows does the orders table have?
run_query("SELECT COUNT(*) FROM orders_data")

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│       125226 │
└──────────────┘

In [30]:
# Does the data have duplicates?
run_query("SELECT DISTINCT COUNT(*) FROM orders_data")

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│       125226 │
└──────────────┘

In [31]:
run_query("SELECT * FROM orders_data LIMIT 5")

┌──────────┬─────────┬───────────┬─────────┬─────────────────────┬─────────────┬────────────┬──────────────┬─────────────┐
│ order_id │ user_id │  status   │ gender  │     created_at      │ returned_at │ shipped_at │ delivered_at │ num_of_item │
│  int64   │  int64  │  varchar  │ boolean │      timestamp      │   varchar   │ timestamp  │  timestamp   │    int64    │
├──────────┼─────────┼───────────┼─────────┼─────────────────────┼─────────────┼────────────┼──────────────┼─────────────┤
│        8 │       5 │ Cancelled │ false   │ 2022-10-20 10:03:00 │ NULL        │ NULL       │ NULL         │           3 │
│       60 │      44 │ Cancelled │ false   │ 2023-01-20 02:12:00 │ NULL        │ NULL       │ NULL         │           1 │
│       64 │      46 │ Cancelled │ false   │ 2021-12-06 09:11:00 │ NULL        │ NULL       │ NULL         │           1 │
│       89 │      65 │ Cancelled │ false   │ 2020-08-13 09:58:00 │ NULL        │ NULL       │ NULL         │           1 │
│      102 │    

In [32]:
# What status can an order have?
run_query("SELECT DISTINCT status from orders_data")

┌────────────┐
│   status   │
│  varchar   │
├────────────┤
│ Returned   │
│ Shipped    │
│ Complete   │
│ Processing │
│ Cancelled  │
└────────────┘

In [33]:
# How what is the date range of the data?
run_query("SELECT min(created_at) as start_date, max(created_at) as end_date FROM orders_data")

┌─────────────────────┬────────────────────────────┐
│     start_date      │          end_date          │
│      timestamp      │         timestamp          │
├─────────────────────┼────────────────────────────┤
│ 2019-01-06 05:30:00 │ 2024-01-17 19:46:14.316147 │
└─────────────────────┴────────────────────────────┘

## Order Items

In [34]:
# How many rows does the orders_items table have?
run_query("SELECT COUNT(*) FROM order_items_data")

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│       181759 │
└──────────────┘

In [35]:
# Does the data have duplicates?
run_query("SELECT DISTINCT COUNT(*) FROM order_items_data")

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│       181759 │
└──────────────┘

In [36]:
run_query("SELECT * FROM order_items_data LIMIT 5")

┌────────┬──────────┬─────────┬────────────┬───────────────────┬───────────┬─────────────────────┬─────────────────────┬─────────────────────┬─────────────┬────────────────────┐
│   id   │ order_id │ user_id │ product_id │ inventory_item_id │  status   │     created_at      │     shipped_at      │    delivered_at     │ returned_at │     sale_price     │
│ int64  │  int64   │  int64  │   int64    │       int64       │  varchar  │      timestamp      │      timestamp      │      timestamp      │  timestamp  │       double       │
├────────┼──────────┼─────────┼────────────┼───────────────────┼───────────┼─────────────────────┼─────────────────────┼─────────────────────┼─────────────┼────────────────────┤
│ 152013 │   104663 │   83582 │      14235 │            410368 │ Cancelled │ 2023-05-07 06:08:40 │ NULL                │ NULL                │ NULL        │ 0.0199999995529651 │
│  40993 │    28204 │   22551 │      14235 │            110590 │ Complete  │ 2023-03-14 03:47:21 │ 2023-03-15 

In [37]:
# Can 1 order have multiple product items? 
run_query("SELECT order_id, COUNT(DISTINCT product_id) as count_products FROM order_items_data GROUP BY order_id ORDER BY count_products DESC")

┌──────────┬────────────────┐
│ order_id │ count_products │
│  int64   │     int64      │
├──────────┼────────────────┤
│     3282 │              4 │
│    68394 │              4 │
│    87910 │              4 │
│   123379 │              4 │
│    18628 │              4 │
│    33082 │              4 │
│   120467 │              4 │
│    89872 │              4 │
│    81031 │              4 │
│    43709 │              4 │
│      ·   │              · │
│      ·   │              · │
│      ·   │              · │
│    86268 │              3 │
│    19330 │              3 │
│   112194 │              3 │
│    17088 │              3 │
│    53631 │              3 │
│   108510 │              3 │
│   118199 │              3 │
│     5752 │              3 │
│    56501 │              3 │
│    59287 │              3 │
├──────────┴────────────────┤
│ ? rows          2 columns │
└───────────────────────────┘

In [38]:
# How many distinct orders are there? 
run_query("SELECT COUNT(DISTINCT order_id) as count_orders FROM order_items_data")
# That's the same number of orders as the orders table

┌──────────────┐
│ count_orders │
│    int64     │
├──────────────┤
│       125226 │
└──────────────┘

In [39]:
# Are all order items accounted for in the investory table?
run_query("SELECT COUNT(inventory_item_id) FROM order_items_data WHERE inventory_item_id in (SELECT id FROM inventory_items_data)")

┌──────────────────────────┐
│ count(inventory_item_id) │
│          int64           │
├──────────────────────────┤
│                   181759 │
└──────────────────────────┘

## Products

In [40]:
# How many rows does the products table have?
run_query("SELECT COUNT(*) FROM products_data")

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│        29120 │
└──────────────┘

In [41]:
# Are there duplicates in the product data? 
run_query("SELECT DISTINCT COUNT(*) FROM products_data")

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│        29120 │
└──────────────┘

In [42]:
run_query("SELECT * FROM products_data LIMIT 5")

┌───────┬────────────────────┬─────────────┬─────────────────────────────────────────────────────────┬─────────┬────────────────────┬────────────┬──────────────────────────────────┬────────────────────────┐
│  id   │        cost        │  category   │                          name                           │  brand  │    retail_price    │ department │               sku                │ distribution_center_id │
│ int64 │       double       │   varchar   │                         varchar                         │ varchar │       double       │  varchar   │             varchar              │         int64          │
├───────┼────────────────────┼─────────────┼─────────────────────────────────────────────────────────┼─────────┼────────────────────┼────────────┼──────────────────────────────────┼────────────────────────┤
│ 13842 │  2.518749990849756 │ Accessories │ Low Profile Dyed Cotton Twill Cap - Navy W39S55D        │ MG      │               6.25 │ Women      │ EBD58B8A3F1D72F4206201DA6

In [43]:
# How many product categories are there?
run_query("SELECT DISTINCT category FROM products_data")

┌───────────────────────────────┐
│           category            │
│            varchar            │
├───────────────────────────────┤
│ Accessories                   │
│ Dresses                       │
│ Suits                         │
│ Jeans                         │
│ Leggings                      │
│ Underwear                     │
│ Active                        │
│ Fashion Hoodies & Sweatshirts │
│ Suits & Sport Coats           │
│ Pants                         │
│   ·                           │
│   ·                           │
│   ·                           │
│ Skirts                        │
│ Outerwear & Coats             │
│ Sweaters                      │
│ Shorts                        │
│ Intimates                     │
│ Socks                         │
│ Tops & Tees                   │
│ Maternity                     │
│ Sleep & Lounge                │
│ Clothing Sets                 │
├───────────────────────────────┤
│      26 rows (20 shown)       │
└─────────────

## Users

In [44]:
# What countries are in the dataset? 
run_query("SELECT DISTINCT country, COUNT(id) as count_users FROM users_data GROUP BY 1 ORDER BY count_users")

┌────────────────┬─────────────┐
│    country     │ count_users │
│    varchar     │    int64    │
├────────────────┼─────────────┤
│ Deutschland    │           2 │
│ Austria        │           2 │
│ España         │           2 │
│ Colombia       │          17 │
│ Poland         │         235 │
│ Belgium        │        1185 │
│ Australia      │        2146 │
│ Japan          │        2438 │
│ Spain          │        4062 │
│ Germany        │        4155 │
│ United Kingdom │        4561 │
│ France         │        4700 │
│ South Korea    │        5316 │
│ Brasil         │       14507 │
│ United States  │       22522 │
│ China          │       34150 │
├────────────────┴─────────────┤
│ 16 rows            2 columns │
└──────────────────────────────┘