In [2]:
import glob
import os

import numpy as np
import pandas as pd

# setting notebook
pd.set_option("display.max_columns", None)

In [3]:
path = "../../data/raw/00-po-all"

all_files = glob.glob(os.path.join(path, "*.csv"))

li = []

for filename in all_files:
    df = pd.read_csv(filename, dtype=str, index_col=None, header=10)
    li.append(df)

po_cbn = pd.concat(li, axis=0, ignore_index=True)

In [4]:
# Drop null rows
po_nonull = po_cbn.dropna(subset=["Số đơn hàng\n(Order No)"]).reset_index(drop=True)

In [23]:
# Rename columns
po_rename = po_nonull.rename(
    columns={
        "Mã phiếu đề xuất\n(Code)": "id",  # duplicated
        "Số đơn hàng\n(Order No)": "id_po",  # duplicated
        "Mã khách hàng\n(Customer Code)": "id_account",
        "Tên khách hàng\n(Customer Name)": "account_name",
        "Mã chủ hàng": "stakeholder",
        "Tên chủ hàng": "stackeholder_name",
        "Ngày về\n(Receiving Date)": "receive_date",
        "Hạn chót giao hàng\n(Delivery Deadline)": "delivery_deadline",
        "Ngày lên Phiếu xuất kho": "create_date",
        "Ngày bàn giao đơn hàng cho Giao Nhận": "forwardtodelivery_date",
        "Ngày thực tế giao hàng": "delivery_date",
        "Người giao hàng (Shipper delivery by)": "delivery_person",
        "Unnamed: 23": "handover_invoice_date",
        "Tình trạng đơn hàng": "po_status",
        "Loại đơn hàng": "po_type",
        "Kho xuất": "warehouse",
        "Loại phiếu": "invoice_type",
        "Unnamed: 24": "invoice_date",
        "Unnamed: 26": "pickup_note",
    }
)

In [24]:
# Convert datetime
date_cols = ["receive_date", "delivery_deadline", "delivery_date"]
po_rename[date_cols] = po_rename[date_cols].apply(pd.to_datetime, format="%d/%m/%Y")

po_rename["invoice_date"] = np.where(
    ~po_rename["invoice_date"]
    .astype(str)
    .str.contains(r"^\d{2}\/\d{2}\/\d{4}", regex=True, na=False),
    pd.NaT,
    po_rename["invoice_date"],
)
po_rename["invoice_date"] = po_rename["invoice_date"].apply(
    pd.to_datetime, format="%d/%m/%Y"
)

In [25]:
po_joined = po_rename.copy()