## 1. Đọc dữ liệu

![alt text](https://i.imgur.com/HRhd2Y0.png)

In [11]:
import pandas as pd
import os
import traceback # Để in chi tiết lỗi nếu cần

# --- CẤU HÌNH ---
data_folder = "./data/" 
# ----------------

dataframes = {}

print(f"Bắt đầu quét và đọc các tệp CSV từ thư mục: '{os.path.abspath(data_folder)}'")
print("-" * 30)

# Kiểm tra xem thư mục dữ liệu có tồn tại không
if not os.path.isdir(data_folder):
    print(f"ERROR: Không tìm thấy thư mục '{data_folder}'.")
    print("Hãy đảm bảo bạn đã tải dữ liệu vào đúng thư mục này.")
else:
    # Lặp qua tất cả các mục (tệp và thư mục con) trong thư mục data_folder
    for item_name in os.listdir(data_folder):
        item_path = os.path.join(data_folder, item_name)

        # Chỉ xử lý nếu đó là một tệp và có phần mở rộng là .csv
        if os.path.isfile(item_path) and item_name.lower().endswith(".csv"):
            print(f"Đang xử lý tệp: '{item_name}'")
            try:
                # --- Tạo tên DataFrame động (ĐÃ CẬP NHẬT) ---
                base_name = os.path.splitext(item_name)[0]

                # Loại bỏ tiền tố 'olist_' (nếu có)
                if base_name.startswith('olist_'):
                    name_without_prefix = base_name[len('olist_'):] # Cắt bỏ 'olist_'
                else:
                    name_without_prefix = base_name 

                # Loại bỏ hậu tố '_dataset'
                if name_without_prefix.endswith('_dataset'):
                    clean_name = name_without_prefix[:-len('_dataset')] # Cắt bỏ '_dataset'
                else:
                    clean_name = name_without_prefix 

                # Tạo tên DataFrame
                df_variable_name = f"df_{clean_name}"
                # ---------------------------------------------

                # Đọc tệp CSV vào DataFrame
                df = pd.read_csv(item_path)

                # Lưu DataFrame vào dictionary với tên đã tạo
                dataframes[df_variable_name] = df

                print(f"  -> Đã đọc thành công vào DataFrame: '{df_variable_name}' (Shape: {df.shape})")

            except Exception as e:
                # In lỗi nếu không đọc được tệp và tiếp tục với tệp tiếp theo
                print(f"  !! LỖI khi đọc tệp '{item_name}': {e}")
                traceback.print_exc()
        else:
            if os.path.isfile(item_path):
                 print(f"Bỏ qua (không phải CSV): '{item_name}'")

print("-" * 30)
print("Hoàn tất quá trình đọc dữ liệu.")

Bắt đầu quét và đọc các tệp CSV từ thư mục: '/workspaces/Brazilian-E-Commerce-Analysis/data'
------------------------------
Đang xử lý tệp: 'olist_order_reviews_dataset.csv'
  -> Đã đọc thành công vào DataFrame: 'df_order_reviews' (Shape: (99224, 7))
Đang xử lý tệp: 'olist_orders_dataset.csv'
  -> Đã đọc thành công vào DataFrame: 'df_orders' (Shape: (99441, 8))
Đang xử lý tệp: 'olist_customers_dataset.csv'
  -> Đã đọc thành công vào DataFrame: 'df_customers' (Shape: (99441, 5))
Đang xử lý tệp: 'olist_order_items_dataset.csv'
  -> Đã đọc thành công vào DataFrame: 'df_order_items' (Shape: (112650, 7))
Đang xử lý tệp: 'olist_order_payments_dataset.csv'
  -> Đã đọc thành công vào DataFrame: 'df_order_payments' (Shape: (103886, 5))
Đang xử lý tệp: 'olist_products_dataset.csv'
  -> Đã đọc thành công vào DataFrame: 'df_products' (Shape: (32951, 9))
Đang xử lý tệp: 'olist_geolocation_dataset.csv'
  -> Đã đọc thành công vào DataFrame: 'df_geolocation' (Shape: (1000163, 5))
Đang xử lý tệp: 'olis

In [10]:
for i, df in enumerate(dataframes):
    print(f'{i+1}. DataFrame: {df}')
    display(dataframes[df].head())
    print('\n')

1. DataFrame: order_reviews


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53




2. DataFrame: orders


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00




3. DataFrame: customers


Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP




4. DataFrame: order_items


Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14




5. DataFrame: order_payments


Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45




6. DataFrame: products


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0




7. DataFrame: geolocation


Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP
3,1041,-23.544392,-46.639499,sao paulo,SP
4,1035,-23.541578,-46.641607,sao paulo,SP




8. DataFrame: sellers


Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP




9. DataFrame: product_category_name_translation


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor






In [17]:
from pandasql import sqldf

pysqldf = lambda q: sqldf(q, globals())

order_reviews = dataframes['df_order_reviews']
orders = dataframes['df_orders']
customers = dataframes['df_customers']
order_items = dataframes['df_order_items']
order_payments = dataframes['df_order_payments']
products = dataframes['df_products']
geolocation = dataframes['df_geolocation']
sellers = dataframes['df_sellers']
product_category_name_translation = dataframes['df_product_category_name_translation']


## 2. Phân tích theo thời gian

**Mục tiêu**: Hiểu xu hướng đơn hàng và doanh thu theo thời gian, từ đó xác định mùa cao điểm và hiệu suất giao hàng

### 2.1. Doanh thu hàng tháng

In [36]:
query = """
    SELECT 
        strftime('%Y', o.order_purchase_timestamp) || '-' || strftime('%m', o.order_purchase_timestamp) AS purchase_month,
        SUM(price) + SUM(freight_value) AS revenue
    FROM orders o
    LEFT JOIN order_items oi
    ON o.order_id = oi.order_id
    WHERE o.order_status = 'delivered'
    GROUP BY strftime('%m', o.order_purchase_timestamp), strftime('%Y', o.order_purchase_timestamp)
    ORDER BY purchase_month
    ;
"""

# Thực thi truy vấn
result = pysqldf(query)
print("--- Kết quả ---")
display(result)

--- Kết quả ---


Unnamed: 0,purchase_month,revenue
0,2016-09,143.46
1,2016-10,46490.66
2,2016-12,19.62
3,2017-01,127482.37
4,2017-02,271239.32
5,2017-03,414330.95
6,2017-04,390812.4
7,2017-05,566851.4
8,2017-06,490050.37
9,2017-07,566299.08


### 2.2. Số lượng đơn hàng theo tháng

In [52]:
query = """
    SELECT 
        strftime('%Y', order_purchase_timestamp) || '-' || strftime('%m', order_purchase_timestamp) AS purchase_month,
        order_status,
        COUNT(order_id) AS orders
    FROM orders 
    WHERE order_status = 'delivered'
    GROUP BY strftime('%m', order_purchase_timestamp), strftime('%Y', order_purchase_timestamp), order_status
    ORDER BY purchase_month
    ;
"""

# Thực thi truy vấn
result = pysqldf(query)
print("--- Kết quả ---")
display(result)

--- Kết quả ---


Unnamed: 0,purchase_month,order_status,orders
0,2016-09,delivered,1
1,2016-10,delivered,265
2,2016-12,delivered,1
3,2017-01,delivered,750
4,2017-02,delivered,1653
5,2017-03,delivered,2546
6,2017-04,delivered,2303
7,2017-05,delivered,3546
8,2017-06,delivered,3135
9,2017-07,delivered,3872
