# Preprocess Flight Price Data

In [1]:
import numpy as np
import pandas as pd
import os

In [2]:
RAW_PATH = "../data/raw"
CLEAN_PATH = "../data/clean"
os.makedirs(CLEAN_PATH, exist_ok=True)

## 1. Load flight price CSV files

In [3]:
SGN_to_HAN_file_path = "flight_prices_SGN_to_HAN.csv"
SGN_to_DAD_file_path = "flight_prices_SGN_to_DAD.csv"

In [4]:
df_to_han = pd.read_csv(os.path.join(RAW_PATH, SGN_to_HAN_file_path))
df_to_dad = pd.read_csv(os.path.join(RAW_PATH, SGN_to_DAD_file_path))

In [5]:
df_to_han.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Ticket Price,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time
0,TP Hồ Chí Minh (SGN),"23:05, 01/04/2025",Hà Nội (HAN),"01:15, 02/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Bamboo Airways Chuyến bay: QH290 Hạng vé : ...,Người lớn,1,"1,249,000 VNĐ","804,000 VNĐ","2,053,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44
1,TP Hồ Chí Minh (SGN),"05:10, 01/04/2025",Hà Nội (HAN),"07:20, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Bamboo Airways Chuyến bay: QH202 Hạng vé : ...,Người lớn,1,"1,419,000 VNĐ","818,000 VNĐ","2,237,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45


In [6]:
df_to_dad.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Ticket Price,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time
0,TP Hồ Chí Minh (SGN),"05:00, 01/04/2025",Đà Nẵng (DAD),"06:20, 01/04/2025",1 giờ 20 phút,320B,Vietjet Air Chuyến bay: VJ1622 Hạng vé : Z1...,Người lớn,1,"490,000 VNĐ","744,000 VNĐ","1,234,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v...",2025-03-31 08:55:34
1,TP Hồ Chí Minh (SGN),"05:30, 01/04/2025",Đà Nẵng (DAD),"06:50, 01/04/2025",1 giờ 20 phút,320B,Vietjet Air Chuyến bay: VJ1620 Hạng vé : Z1...,Người lớn,1,"490,000 VNĐ","744,000 VNĐ","1,234,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v...",2025-03-31 08:55:34


## 2. Merge flight routes

In [7]:
combined_df = pd.concat([df_to_han, df_to_dad], ignore_index=True)
combined_df

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Ticket Price,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time
0,TP Hồ Chí Minh (SGN),"23:05, 01/04/2025",Hà Nội (HAN),"01:15, 02/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Bamboo Airways Chuyến bay: QH290 Hạng vé : ...,Người lớn,1,"1,249,000 VNĐ","804,000 VNĐ","2,053,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44
1,TP Hồ Chí Minh (SGN),"05:10, 01/04/2025",Hà Nội (HAN),"07:20, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Bamboo Airways Chuyến bay: QH202 Hạng vé : ...,Người lớn,1,"1,419,000 VNĐ","818,000 VNĐ","2,237,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45
2,TP Hồ Chí Minh (SGN),"18:45, 01/04/2025",Hà Nội (HAN),"20:55, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A320,Bamboo Airways Chuyến bay: QH268 Hạng vé : ...,Người lớn,1,"1,419,000 VNĐ","818,000 VNĐ","2,237,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:46
3,TP Hồ Chí Minh (SGN),"20:00, 01/04/2025",Hà Nội (HAN),"22:10, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A320,Vietjet Air Chuyến bay: VJ1176 Hạng vé : I1...,Người lớn,1,"1,440,000 VNĐ","820,000 VNĐ","2,260,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v...",2025-03-31 08:55:46
4,TP Hồ Chí Minh (SGN),"20:05, 01/04/2025",Hà Nội (HAN),"22:10, 01/04/2025",2 giờ 5 phút,Máy bay: Airbus A321,Vietjet Air Chuyến bay: VJ1160 Hạng vé : I1...,Người lớn,1,"1,440,000 VNĐ","820,000 VNĐ","2,260,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v...",2025-03-31 08:55:47
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12174,TP Hồ Chí Minh (SGN),"13:20, 30/06/2025",Đà Nẵng (DAD),"14:50, 30/06/2025",1 giờ 30 phút,Máy bay: Airbus A321,Vietnam Airlines Chuyến bay: VN132 Hạng vé : C,Người lớn,1,"3,499,000 VNĐ","969,000 VNĐ","4,468,000 VNĐ",18kg,32kg,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 10:02:39
12175,TP Hồ Chí Minh (SGN),"14:30, 30/06/2025",Đà Nẵng (DAD),"15:55, 30/06/2025",1 giờ 25 phút,Máy bay: Airbus A321,Vietnam Airlines Chuyến bay: VN7102 Hạng vé...,Người lớn,1,"3,499,000 VNĐ","969,000 VNĐ","4,468,000 VNĐ",18kg,32kg,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 10:02:39
12176,TP Hồ Chí Minh (SGN),"15:10, 30/06/2025",Đà Nẵng (DAD),"16:35, 30/06/2025",1 giờ 25 phút,Máy bay: Airbus A321,Vietnam Airlines Chuyến bay: VN134 Hạng vé : C,Người lớn,1,"3,499,000 VNĐ","969,000 VNĐ","4,468,000 VNĐ",18kg,32kg,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 10:02:40
12177,TP Hồ Chí Minh (SGN),"18:40, 30/06/2025",Đà Nẵng (DAD),"20:05, 30/06/2025",1 giờ 25 phút,Máy bay: Airbus A320,Vietnam Airlines Chuyến bay: VN142 Hạng vé : C,Người lớn,1,"3,499,000 VNĐ","969,000 VNĐ","4,468,000 VNĐ",18kg,32kg,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 10:02:41


In [8]:
print("Merged DataFrame shape:", combined_df.shape)

Merged DataFrame shape: (12179, 16)


## 3. Clean data

### 3.1 Extract Airline, Flight Code, Fare Class columns

In [9]:
def extract_ticket_info(ticket_str):
    try:
        parts = ticket_str.split("Chuyến bay:")
        airline = parts[0].strip()
        flight_code = parts[1].split("Hạng vé :")[0].strip()
        fare_class = parts[1].split("Hạng vé :")[1].strip()
        return airline, flight_code, fare_class
    except:
        return None, None, None

In [10]:
combined_df[['Airline', 'Flight Code', 'Fare Class']] = combined_df['Ticket Price'].apply(lambda row: pd.Series(extract_ticket_info(row)))

In [11]:
combined_df.drop(columns=['Ticket Price'], inplace=True)

In [12]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),"23:05, 01/04/2025",Hà Nội (HAN),"01:15, 02/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,"1,249,000 VNĐ","804,000 VNĐ","2,053,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),"05:10, 01/04/2025",Hà Nội (HAN),"07:20, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,"1,419,000 VNĐ","818,000 VNĐ","2,237,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.2 Clean currency columns

In [13]:
def clean_currency(value):
    if pd.isna(value):
        return None
    return int(value.split("VNĐ")[0].replace(",","").strip())

In [14]:
combined_df['Price per Ticket'] = combined_df['Price per Ticket'].apply(clean_currency)
combined_df['Taxes & Fees'] = combined_df['Taxes & Fees'].apply(clean_currency)
combined_df['Total Price'] = combined_df['Total Price'].apply(clean_currency)

In [15]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),"23:05, 01/04/2025",Hà Nội (HAN),"01:15, 02/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,1249000,804000,2053000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),"05:10, 01/04/2025",Hà Nội (HAN),"07:20, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,1419000,818000,2237000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.3 Parse datetime columns

In [16]:
combined_df['Departure Time'] = pd.to_datetime(combined_df['Departure Time'], dayfirst=True)
combined_df['Arrival Time'] = pd.to_datetime(combined_df['Arrival Time'], dayfirst=True)
combined_df['Scrape Time'] = pd.to_datetime(combined_df['Scrape Time'])

In [17]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),2025-04-01 23:05:00,Hà Nội (HAN),2025-04-02 01:15:00,2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,1249000,804000,2053000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),2025-04-01 05:10:00,Hà Nội (HAN),2025-04-01 07:20:00,2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,1419000,818000,2237000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.4 Clean Aircraft Type

In [18]:
def clean_aircraft_type(x):
    if pd.isna(x):
        return None
    if "Máy bay:" in x:
        return x.replace("Máy bay:", "").strip()
    if "(máy bay lớn)" in x:
        return x.replace("(máy bay lớn)", "").strip() 
    return x

In [19]:
combined_df['Aircraft Type'] = combined_df['Aircraft Type'].apply(clean_aircraft_type)

In [20]:
combined_df['Aircraft Type'].value_counts()

Aircraft Type
Airbus A321    7188
Boeing 787     2377
Airbus A320     830
Airbus A359     598
320B            440
Airbus A330     420
Airbus A350     326
Name: count, dtype: int64

In [21]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),2025-04-01 23:05:00,Hà Nội (HAN),2025-04-02 01:15:00,2 giờ 10 phút,Airbus A321,Người lớn,1,1249000,804000,2053000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),2025-04-01 05:10:00,Hà Nội (HAN),2025-04-01 07:20:00,2 giờ 10 phút,Airbus A321,Người lớn,1,1419000,818000,2237000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.5 Convert Flight Duration into Float

In [22]:
def convert_flight_duration_to_hour(x):
    if pd.isna(x):
        return None
    parts = x.split("giờ")
    hour = float(parts[0].strip())
    minute = float(parts[1].replace("phút", "").strip())
    return np.round(hour + minute/60, 2)

In [23]:
combined_df['Flight Duration'] = combined_df['Flight Duration'].apply(convert_flight_duration_to_hour)

In [24]:
combined_df['Flight Duration'].value_counts()

Flight Duration
2.08    3819
2.17    3700
1.42    3019
1.33    1106
1.50     352
1.25     168
2.00       9
2.25       4
2.15       2
Name: count, dtype: int64

### 3.6 Clean Baggage columns

In [25]:
combined_df['Carry-on Baggage'].value_counts()

Carry-on Baggage
7kg             4980
18kg            3478
10kg            3281
14kg             434
2 kiện x 9kg       6
Name: count, dtype: int64

In [26]:
combined_df['Carry-on Baggage'] = combined_df['Carry-on Baggage'].apply(lambda x: int(x.replace("kg","")) if "x" not in x else 18 if x is not None else None)
combined_df['Carry-on Baggage'].value_counts()

Carry-on Baggage
7     4980
18    3484
10    3281
14     434
Name: count, dtype: int64

In [27]:
combined_df['Checked Baggage'] = combined_df['Checked Baggage'].apply(lambda x: None if x == "Vui lòng chọn ở bước tiếp theo" else x)
combined_df['Checked Baggage'] = combined_df['Checked Baggage'].apply(lambda x: int(x.replace("kg","")) if x is not None else None)

In [28]:
combined_df['Checked Baggage'].value_counts()

Checked Baggage
23.0    3543
32.0    3535
40.0     645
20.0      22
Name: count, dtype: int64

In [29]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),2025-04-01 23:05:00,Hà Nội (HAN),2025-04-02 01:15:00,2.17,Airbus A321,Người lớn,1,1249000,804000,2053000,7,,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),2025-04-01 05:10:00,Hà Nội (HAN),2025-04-01 07:20:00,2.17,Airbus A321,Người lớn,1,1419000,818000,2237000,7,,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.7 Handle Refund Policy column

In [30]:
import ast

def literal_eval(x):
    if pd.isna(x):
        return []
    return ast.literal_eval(x)

In [31]:
combined_df['Refund Policy'] = combined_df['Refund Policy'].apply(literal_eval)

In [32]:
combined_df.explode("Refund Policy")['Refund Policy'].value_counts()

Refund Policy
- Áp dụng hoàn vé mất phí                        11997
- Không áp dụng đổi tên                          11786
- Áp dụng đổi vé mất phí                         11362
- Miễn phí quầy ưu tiên                           3563
- Miễn phí phòng chờ BSV                          3535
- Áp dụng đổi vé miễn phí                          424
- Miễn phí chọn ghế                                378
- Áp dụng đổi vé miễn phí, thu chênh lệch giá      211
- Áp dụng đổi tên mất phí                          211
- Miễn phí chọn chỗ trước                          211
Name: count, dtype: int64

In [33]:
combined_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12179 entries, 0 to 12178
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Departure Location  12179 non-null  object        
 1   Departure Time      12179 non-null  datetime64[ns]
 2   Arrival Location    12179 non-null  object        
 3   Arrival Time        12179 non-null  datetime64[ns]
 4   Flight Duration     12179 non-null  float64       
 5   Aircraft Type       12179 non-null  object        
 6   Passenger Type      12179 non-null  object        
 7   Number of Tickets   12179 non-null  int64         
 8   Price per Ticket    12179 non-null  int64         
 9   Taxes & Fees        12179 non-null  int64         
 10  Total Price         12179 non-null  int64         
 11  Carry-on Baggage    12179 non-null  int64         
 12  Checked Baggage     7745 non-null   float64       
 13  Refund Policy       12179 non-null  object    

### 3.8 Extract Airport Code

In [34]:
def extract_airport_code(location):
    if pd.isna(location):
        return None
    return location.split("(")[1].replace(")", "").strip()
combined_df['Departure Location Code'] = combined_df['Departure Location'].apply(extract_airport_code)
combined_df['Departure Location'] = combined_df['Departure Location'].apply(lambda x: x.split("(")[0].strip())
combined_df['Arrival Location Code'] = combined_df['Arrival Location'].apply(extract_airport_code)
combined_df['Arrival Location'] = combined_df['Arrival Location'].apply(lambda x: x.split("(")[0].strip())

In [35]:
combined_df.head(5)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class,Departure Location Code,Arrival Location Code
0,TP Hồ Chí Minh,2025-04-01 23:05:00,Hà Nội,2025-04-02 01:15:00,2.17,Airbus A321,Người lớn,1,1249000,804000,2053000,7,,"[- Áp dụng hoàn vé mất phí, - Áp dụng đổi vé m...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART,SGN,HAN
1,TP Hồ Chí Minh,2025-04-01 05:10:00,Hà Nội,2025-04-01 07:20:00,2.17,Airbus A321,Người lớn,1,1419000,818000,2237000,7,,"[- Áp dụng hoàn vé mất phí, - Áp dụng đổi vé m...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART,SGN,HAN
2,TP Hồ Chí Minh,2025-04-01 18:45:00,Hà Nội,2025-04-01 20:55:00,2.17,Airbus A320,Người lớn,1,1419000,818000,2237000,7,,"[- Áp dụng hoàn vé mất phí, - Áp dụng đổi vé m...",2025-03-31 08:55:46,Bamboo Airways,QH268,ECONOMYSMART,SGN,HAN
3,TP Hồ Chí Minh,2025-04-01 20:00:00,Hà Nội,2025-04-01 22:10:00,2.17,Airbus A320,Người lớn,1,1440000,820000,2260000,7,,"[- Áp dụng đổi vé mất phí, - Áp dụng hoàn vé m...",2025-03-31 08:55:46,Vietjet Air,VJ1176,I1_ECO,SGN,HAN
4,TP Hồ Chí Minh,2025-04-01 20:05:00,Hà Nội,2025-04-01 22:10:00,2.08,Airbus A321,Người lớn,1,1440000,820000,2260000,7,,"[- Áp dụng đổi vé mất phí, - Áp dụng hoàn vé m...",2025-03-31 08:55:47,Vietjet Air,VJ1160,I1_ECO,SGN,HAN


## 4. Save clean file

In [36]:
output_path = os.path.join(CLEAN_PATH, "flight_prices_combined_cleaned.csv")
combined_df.to_csv(output_path, index=False)

## 5. Design Schema

In [37]:
combined_df = pd.read_csv(output_path)

### 5.1 Table Airport

In [38]:
airport_df = pd.concat([combined_df[['Departure Location Code', 'Departure Location']]
                            .drop_duplicates()
                            .rename(columns={'Departure Location Code': 'AirportCode', 'Departure Location': 'Location'}),
                        combined_df[['Arrival Location Code', 'Arrival Location']]
                            .drop_duplicates()
                            .rename(columns={'Arrival Location Code': 'AirportCode', 'Arrival Location': 'Location'})]).reset_index(drop=True)
airport_df

Unnamed: 0,AirportCode,Location
0,SGN,TP Hồ Chí Minh
1,HAN,Hà Nội
2,DAD,Đà Nẵng


In [39]:
tmp_df = combined_df.drop(columns=['Departure Location', 'Arrival Location']).drop_duplicates()

### 5.2 Table Airline

In [40]:
airline_df = combined_df['Airline'].drop_duplicates().to_frame().reset_index(drop=True)
airline_df['Airline_id'] = "AL" +  (airline_df.index + 1).astype(str).str.zfill(3)
airline_df = airline_df[['Airline_id', 'Airline']]
airline_df

Unnamed: 0,Airline_id,Airline
0,AL001,Bamboo Airways
1,AL002,Vietjet Air
2,AL003,Vietravel Airlines
3,AL004,Vietnam Airlines
4,AL005,Pacific Airlines


In [41]:
tmp_df = tmp_df.merge(airline_df, on='Airline').drop(columns=['Airline'])

### 5.3 Table Refund Policy

In [42]:
refund_policy_df = tmp_df[['Airline_id', 'Fare Class', 'Refund Policy']].drop_duplicates().reset_index(drop=True)
refund_policy_df

Unnamed: 0,Airline_id,Fare Class,Refund Policy
0,AL001,ECONOMYSMART,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v..."
1,AL002,I1_ECO,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v..."
2,AL003,O,[]
3,AL004,L,"['- Áp dụng hoàn vé mất phí', '- Không áp dụng..."
4,AL004,K,"['- Áp dụng hoàn vé mất phí', '- Không áp dụng..."
...,...,...,...
64,AL003,S,[]
65,AL002,R1_ECO,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v..."
66,AL003,C,[]
67,AL002,E1_ECO,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v..."


In [43]:
# refund_policy_df.groupby(['Airline_id', 'Fare Class'])['Refund Policy'].nunique()

In [44]:
tmp_df = tmp_df.drop(columns='Refund Policy')

In [45]:
# tmp_df[['Departure Time', 'Airline_id', 'Fare Class', 'Flight Code']].value_counts().sort_values()

In [46]:
# (tmp_df.groupby(['Departure Time', 'Airline_id', 'Fare Class', 'Flight Code'])[['Arrival Time',
# 'Departure Location Code',
# 'Arrival Location Code',
# 'Flight Duration',
# 'Aircraft Type',
# 'Passenger Type',
# 'Number of Tickets',
# 'Price per Ticket',
# 'Taxes & Fees',
# 'Total Price',
# 'Carry-on Baggage',
# 'Checked Baggage',
# 'Scrape Time',
# ]].nunique() <= 1).all()

### 5.4 Table FlightSchedule

In [47]:
# (tmp_df.groupby(['Departure Time', 'Flight Code'])[[
#     'Departure Location Code',
#     'Arrival Location Code',
#     'Flight Duration',
#     'Arrival Time',
#     'Aircraft Type',
#     ]].nunique() <= 1).all()

In [48]:
flight_schedule_df =  tmp_df[['Departure Time', 'Flight Code', 'Departure Location Code', 'Arrival Location Code', 'Flight Duration', 'Arrival Time', 'Aircraft Type']].drop_duplicates().reset_index(drop=True)
flight_schedule_df

Unnamed: 0,Departure Time,Flight Code,Departure Location Code,Arrival Location Code,Flight Duration,Arrival Time,Aircraft Type
0,2025-04-01 23:05:00,QH290,SGN,HAN,2.17,2025-04-02 01:15:00,Airbus A321
1,2025-04-01 05:10:00,QH202,SGN,HAN,2.17,2025-04-01 07:20:00,Airbus A321
2,2025-04-01 18:45:00,QH268,SGN,HAN,2.17,2025-04-01 20:55:00,Airbus A320
3,2025-04-01 20:00:00,VJ1176,SGN,HAN,2.17,2025-04-01 22:10:00,Airbus A320
4,2025-04-01 20:05:00,VJ1160,SGN,HAN,2.08,2025-04-01 22:10:00,Airbus A321
...,...,...,...,...,...,...,...
8000,2025-06-30 13:20:00,VN132,SGN,DAD,1.50,2025-06-30 14:50:00,Airbus A321
8001,2025-06-30 14:30:00,VN7102,SGN,DAD,1.42,2025-06-30 15:55:00,Airbus A321
8002,2025-06-30 15:10:00,VN134,SGN,DAD,1.42,2025-06-30 16:35:00,Airbus A321
8003,2025-06-30 18:40:00,VN142,SGN,DAD,1.42,2025-06-30 20:05:00,Airbus A320


In [49]:
tmp_df = tmp_df.drop(columns=['Departure Location Code', 'Arrival Location Code', 'Flight Duration', 'Arrival Time', 'Aircraft Type'])

### 5.5 Table Ticket

In [50]:
ticket_df = tmp_df.drop_duplicates()
ticket_df

Unnamed: 0,Departure Time,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Scrape Time,Flight Code,Fare Class,Airline_id
0,2025-04-01 23:05:00,Người lớn,1,1249000,804000,2053000,7,,2025-03-31 08:55:44,QH290,ECONOMYSMART,AL001
1,2025-04-01 05:10:00,Người lớn,1,1419000,818000,2237000,7,,2025-03-31 08:55:45,QH202,ECONOMYSMART,AL001
2,2025-04-01 18:45:00,Người lớn,1,1419000,818000,2237000,7,,2025-03-31 08:55:46,QH268,ECONOMYSMART,AL001
3,2025-04-01 20:00:00,Người lớn,1,1440000,820000,2260000,7,,2025-03-31 08:55:46,VJ1176,I1_ECO,AL002
4,2025-04-01 20:05:00,Người lớn,1,1440000,820000,2260000,7,,2025-03-31 08:55:47,VJ1160,I1_ECO,AL002
...,...,...,...,...,...,...,...,...,...,...,...,...
12174,2025-06-30 13:20:00,Người lớn,1,3499000,969000,4468000,18,32.0,2025-03-31 10:02:39,VN132,C,AL004
12175,2025-06-30 14:30:00,Người lớn,1,3499000,969000,4468000,18,32.0,2025-03-31 10:02:39,VN7102,C,AL004
12176,2025-06-30 15:10:00,Người lớn,1,3499000,969000,4468000,18,32.0,2025-03-31 10:02:40,VN134,C,AL004
12177,2025-06-30 18:40:00,Người lớn,1,3499000,969000,4468000,18,32.0,2025-03-31 10:02:41,VN142,C,AL004


### 5.6 Load data into database

#### 5.6.1 Load to SQL server 

In [51]:
from sqlalchemy import create_engine
from dotenv import load_dotenv

load_dotenv()

server = os.getenv("DB_SERVER")
database = os.getenv("DB_NAME")
username = os.getenv("DB_USER")
password = os.getenv("DB_PASSWORD")
driver = 17
mode = 'replace' # 'fail' 'replace' 'append'

In [52]:
def insert_into_sql_server(df, driver, server, database, username, password, mode, table_name) : 
    conn_str = f"mssql+pyodbc://{username}:{password}@{server}/{database}?driver=ODBC+Driver+{driver}+for+SQL+Server"
    engine = create_engine(conn_str)
    df.to_sql(name=table_name, con=engine, schema='dbo', if_exists=mode, index=False)

In [53]:
insert_into_sql_server(airport_df, driver, server, database, username, password, mode, "AIRPORT")

In [54]:
insert_into_sql_server(airline_df, driver, server, database, username, password, mode, "AIRLINE")

In [55]:
insert_into_sql_server(refund_policy_df, driver, server, database, username, password, mode, "REFUND_POLICY")

In [56]:
insert_into_sql_server(flight_schedule_df, driver, server, database, username, password, mode, "FLIGHT_SCHEDULE")

In [57]:
insert_into_sql_server(ticket_df, driver, server, database, username, password, mode, "TICKET")

#### Load to CSV file

In [58]:
save_path = os.makedirs(os.path.join(CLEAN_PATH, "flight_prices"), exist_ok=True)

In [59]:
airport_df.to_csv(os.path.join(CLEAN_PATH, "flight_prices/airport.csv"))

In [60]:
airline_df.to_csv(os.path.join(CLEAN_PATH, "flight_prices/airline.csv"))

In [61]:
refund_policy_df.to_csv(os.path.join(CLEAN_PATH, "flight_prices/refund_policy.csv"))

In [62]:
flight_schedule_df.to_csv(os.path.join(CLEAN_PATH, "flight_prices/flight_schedule.csv"))

In [63]:
ticket_df.to_csv(os.path.join(CLEAN_PATH, "flight_prices/tikect.csv"))