# Preprocess Flight Price Data

In [1]:
import numpy as np
import pandas as pd
import os

In [2]:
RAW_PATH = "../data/raw"
CLEAN_PATH = "../data/clean"
os.makedirs(CLEAN_PATH, exist_ok=True)

## 1. Load flight price CSV files

In [3]:
SGN_to_HAN_file_path = "flight_prices_SGN_to_HAN.csv"
SGN_to_DAD_file_path = "flight_prices_SGN_to_DAD.csv"

In [4]:
df_to_han = pd.read_csv(os.path.join(RAW_PATH, SGN_to_HAN_file_path))
df_to_dad = pd.read_csv(os.path.join(RAW_PATH, SGN_to_DAD_file_path))

In [5]:
df_to_han.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Ticket Price,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time
0,TP Hồ Chí Minh (SGN),"23:05, 01/04/2025",Hà Nội (HAN),"01:15, 02/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Bamboo Airways Chuyến bay: QH290 Hạng vé : ...,Người lớn,1,"1,249,000 VNĐ","804,000 VNĐ","2,053,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44
1,TP Hồ Chí Minh (SGN),"05:10, 01/04/2025",Hà Nội (HAN),"07:20, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Bamboo Airways Chuyến bay: QH202 Hạng vé : ...,Người lớn,1,"1,419,000 VNĐ","818,000 VNĐ","2,237,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45


In [6]:
df_to_dad.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Ticket Price,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time
0,TP Hồ Chí Minh (SGN),"05:00, 01/04/2025",Đà Nẵng (DAD),"06:20, 01/04/2025",1 giờ 20 phút,320B,Vietjet Air Chuyến bay: VJ1622 Hạng vé : Z1...,Người lớn,1,"490,000 VNĐ","744,000 VNĐ","1,234,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v...",2025-03-31 08:55:34
1,TP Hồ Chí Minh (SGN),"05:30, 01/04/2025",Đà Nẵng (DAD),"06:50, 01/04/2025",1 giờ 20 phút,320B,Vietjet Air Chuyến bay: VJ1620 Hạng vé : Z1...,Người lớn,1,"490,000 VNĐ","744,000 VNĐ","1,234,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v...",2025-03-31 08:55:34


## 2. Merge flight routes

In [7]:
combined_df = pd.concat([df_to_han, df_to_dad], ignore_index=True)
combined_df

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Ticket Price,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time
0,TP Hồ Chí Minh (SGN),"23:05, 01/04/2025",Hà Nội (HAN),"01:15, 02/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Bamboo Airways Chuyến bay: QH290 Hạng vé : ...,Người lớn,1,"1,249,000 VNĐ","804,000 VNĐ","2,053,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44
1,TP Hồ Chí Minh (SGN),"05:10, 01/04/2025",Hà Nội (HAN),"07:20, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Bamboo Airways Chuyến bay: QH202 Hạng vé : ...,Người lớn,1,"1,419,000 VNĐ","818,000 VNĐ","2,237,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45
2,TP Hồ Chí Minh (SGN),"18:45, 01/04/2025",Hà Nội (HAN),"20:55, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A320,Bamboo Airways Chuyến bay: QH268 Hạng vé : ...,Người lớn,1,"1,419,000 VNĐ","818,000 VNĐ","2,237,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:46
3,TP Hồ Chí Minh (SGN),"20:00, 01/04/2025",Hà Nội (HAN),"22:10, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A320,Vietjet Air Chuyến bay: VJ1176 Hạng vé : I1...,Người lớn,1,"1,440,000 VNĐ","820,000 VNĐ","2,260,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v...",2025-03-31 08:55:46
4,TP Hồ Chí Minh (SGN),"20:05, 01/04/2025",Hà Nội (HAN),"22:10, 01/04/2025",2 giờ 5 phút,Máy bay: Airbus A321,Vietjet Air Chuyến bay: VJ1160 Hạng vé : I1...,Người lớn,1,"1,440,000 VNĐ","820,000 VNĐ","2,260,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng đổi vé mất phí', '- Áp dụng hoàn v...",2025-03-31 08:55:47
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12174,TP Hồ Chí Minh (SGN),"13:20, 30/06/2025",Đà Nẵng (DAD),"14:50, 30/06/2025",1 giờ 30 phút,Máy bay: Airbus A321,Vietnam Airlines Chuyến bay: VN132 Hạng vé : C,Người lớn,1,"3,499,000 VNĐ","969,000 VNĐ","4,468,000 VNĐ",18kg,32kg,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 10:02:39
12175,TP Hồ Chí Minh (SGN),"14:30, 30/06/2025",Đà Nẵng (DAD),"15:55, 30/06/2025",1 giờ 25 phút,Máy bay: Airbus A321,Vietnam Airlines Chuyến bay: VN7102 Hạng vé...,Người lớn,1,"3,499,000 VNĐ","969,000 VNĐ","4,468,000 VNĐ",18kg,32kg,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 10:02:39
12176,TP Hồ Chí Minh (SGN),"15:10, 30/06/2025",Đà Nẵng (DAD),"16:35, 30/06/2025",1 giờ 25 phút,Máy bay: Airbus A321,Vietnam Airlines Chuyến bay: VN134 Hạng vé : C,Người lớn,1,"3,499,000 VNĐ","969,000 VNĐ","4,468,000 VNĐ",18kg,32kg,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 10:02:40
12177,TP Hồ Chí Minh (SGN),"18:40, 30/06/2025",Đà Nẵng (DAD),"20:05, 30/06/2025",1 giờ 25 phút,Máy bay: Airbus A320,Vietnam Airlines Chuyến bay: VN142 Hạng vé : C,Người lớn,1,"3,499,000 VNĐ","969,000 VNĐ","4,468,000 VNĐ",18kg,32kg,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 10:02:41


In [8]:
print("Merged DataFrame shape:", combined_df.shape)

Merged DataFrame shape: (12179, 16)


## 3. Clean data

### 3.1 Extract Airline, Flight Code, Fare Class columns

In [9]:
def extract_ticket_info(ticket_str):
    try:
        parts = ticket_str.split("Chuyến bay:")
        airline = parts[0].strip()
        flight_code = parts[1].split("Hạng vé :")[0].strip()
        fare_class = parts[1].split("Hạng vé :")[1].strip()
        return airline, flight_code, fare_class
    except:
        return None, None, None

In [10]:
combined_df[['Airline', 'Flight Code', 'Fare Class']] = combined_df['Ticket Price'].apply(lambda row: pd.Series(extract_ticket_info(row)))

In [11]:
combined_df.drop(columns=['Ticket Price'], inplace=True)

In [12]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),"23:05, 01/04/2025",Hà Nội (HAN),"01:15, 02/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,"1,249,000 VNĐ","804,000 VNĐ","2,053,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),"05:10, 01/04/2025",Hà Nội (HAN),"07:20, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,"1,419,000 VNĐ","818,000 VNĐ","2,237,000 VNĐ",7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.2 Clean currency columns

In [13]:
def clean_currency(value):
    if pd.isna(value):
        return None
    return int(value.split("VNĐ")[0].replace(",","").strip())

In [14]:
combined_df['Price per Ticket'] = combined_df['Price per Ticket'].apply(clean_currency)
combined_df['Taxes & Fees'] = combined_df['Taxes & Fees'].apply(clean_currency)
combined_df['Total Price'] = combined_df['Total Price'].apply(clean_currency)

In [15]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),"23:05, 01/04/2025",Hà Nội (HAN),"01:15, 02/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,1249000,804000,2053000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),"05:10, 01/04/2025",Hà Nội (HAN),"07:20, 01/04/2025",2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,1419000,818000,2237000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.3 Parse datetime columns

In [16]:
combined_df['Departure Time'] = pd.to_datetime(combined_df['Departure Time'], dayfirst=True)
combined_df['Arrival Time'] = pd.to_datetime(combined_df['Arrival Time'], dayfirst=True)
combined_df['Scrape Time'] = pd.to_datetime(combined_df['Scrape Time'])

In [17]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),2025-04-01 23:05:00,Hà Nội (HAN),2025-04-02 01:15:00,2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,1249000,804000,2053000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),2025-04-01 05:10:00,Hà Nội (HAN),2025-04-01 07:20:00,2 giờ 10 phút,Máy bay: Airbus A321,Người lớn,1,1419000,818000,2237000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.4 Clean Aircraft Type

In [18]:
def clean_aircraft_type(x):
    if pd.isna(x):
        return None
    if "Máy bay:" in x:
        return x.replace("Máy bay:", "").strip()
    if "(máy bay lớn)" in x:
        return x.replace("(máy bay lớn)", "").strip() 
    return x

In [19]:
combined_df['Aircraft Type'] = combined_df['Aircraft Type'].apply(clean_aircraft_type)

In [20]:
combined_df['Aircraft Type'].value_counts()

Aircraft Type
Airbus A321    7188
Boeing 787     2377
Airbus A320     830
Airbus A359     598
320B            440
Airbus A330     420
Airbus A350     326
Name: count, dtype: int64

In [21]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),2025-04-01 23:05:00,Hà Nội (HAN),2025-04-02 01:15:00,2 giờ 10 phút,Airbus A321,Người lớn,1,1249000,804000,2053000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),2025-04-01 05:10:00,Hà Nội (HAN),2025-04-01 07:20:00,2 giờ 10 phút,Airbus A321,Người lớn,1,1419000,818000,2237000,7kg,Vui lòng chọn ở bước tiếp theo,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.5 Convert Flight Duration into Float

In [22]:
def convert_flight_duration_to_hour(x):
    if pd.isna(x):
        return None
    parts = x.split("giờ")
    hour = float(parts[0].strip())
    minute = float(parts[1].replace("phút", "").strip())
    return np.round(hour + minute/60, 2)

In [23]:
combined_df['Flight Duration'] = combined_df['Flight Duration'].apply(convert_flight_duration_to_hour)

In [24]:
combined_df['Flight Duration'].value_counts()

Flight Duration
2.08    3819
2.17    3700
1.42    3019
1.33    1106
1.50     352
1.25     168
2.00       9
2.25       4
2.15       2
Name: count, dtype: int64

### 3.6 Clean Baggage columns

In [25]:
combined_df['Carry-on Baggage'].value_counts()

Carry-on Baggage
7kg             4980
18kg            3478
10kg            3281
14kg             434
2 kiện x 9kg       6
Name: count, dtype: int64

In [26]:
combined_df['Checked Baggage'] = combined_df['Checked Baggage'].apply(lambda x: None if x == "Vui lòng chọn ở bước tiếp theo" else x)

In [27]:
combined_df['Checked Baggage'].value_counts()

Checked Baggage
23kg    3543
32kg    3535
40kg     645
20kg      22
Name: count, dtype: int64

In [28]:
combined_df.head(2)

Unnamed: 0,Departure Location,Departure Time,Arrival Location,Arrival Time,Flight Duration,Aircraft Type,Passenger Type,Number of Tickets,Price per Ticket,Taxes & Fees,Total Price,Carry-on Baggage,Checked Baggage,Refund Policy,Scrape Time,Airline,Flight Code,Fare Class
0,TP Hồ Chí Minh (SGN),2025-04-01 23:05:00,Hà Nội (HAN),2025-04-02 01:15:00,2.17,Airbus A321,Người lớn,1,1249000,804000,2053000,7kg,,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:44,Bamboo Airways,QH290,ECONOMYSMART
1,TP Hồ Chí Minh (SGN),2025-04-01 05:10:00,Hà Nội (HAN),2025-04-01 07:20:00,2.17,Airbus A321,Người lớn,1,1419000,818000,2237000,7kg,,"['- Áp dụng hoàn vé mất phí', '- Áp dụng đổi v...",2025-03-31 08:55:45,Bamboo Airways,QH202,ECONOMYSMART


### 3.7 Handle Refund Policy column

In [29]:
import ast

def literal_eval(x):
    if pd.isna(x):
        return []
    return ast.literal_eval(x)

In [30]:
combined_df['Refund Policy'] = combined_df['Refund Policy'].apply(literal_eval)

In [31]:
combined_df.explode("Refund Policy")['Refund Policy'].value_counts()

Refund Policy
- Áp dụng hoàn vé mất phí                        11997
- Không áp dụng đổi tên                          11786
- Áp dụng đổi vé mất phí                         11362
- Miễn phí quầy ưu tiên                           3563
- Miễn phí phòng chờ BSV                          3535
- Áp dụng đổi vé miễn phí                          424
- Miễn phí chọn ghế                                378
- Áp dụng đổi vé miễn phí, thu chênh lệch giá      211
- Áp dụng đổi tên mất phí                          211
- Miễn phí chọn chỗ trước                          211
Name: count, dtype: int64

In [32]:
combined_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12179 entries, 0 to 12178
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Departure Location  12179 non-null  object        
 1   Departure Time      12179 non-null  datetime64[ns]
 2   Arrival Location    12179 non-null  object        
 3   Arrival Time        12179 non-null  datetime64[ns]
 4   Flight Duration     12179 non-null  float64       
 5   Aircraft Type       12179 non-null  object        
 6   Passenger Type      12179 non-null  object        
 7   Number of Tickets   12179 non-null  int64         
 8   Price per Ticket    12179 non-null  int64         
 9   Taxes & Fees        12179 non-null  int64         
 10  Total Price         12179 non-null  int64         
 11  Carry-on Baggage    12179 non-null  object        
 12  Checked Baggage     7745 non-null   object        
 13  Refund Policy       12179 non-null  object    

## 4. Save clean file

In [33]:
output_path = os.path.join(CLEAN_PATH, "flight_prices_combined_cleaned.csv")
combined_df.to_csv(output_path, index=False)

In [34]:
pd.read_csv(output_path, parse_dates=["Departure Time", "Arrival Time", "Scrape Time"]).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12179 entries, 0 to 12178
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Departure Location  12179 non-null  object        
 1   Departure Time      12179 non-null  datetime64[ns]
 2   Arrival Location    12179 non-null  object        
 3   Arrival Time        12179 non-null  datetime64[ns]
 4   Flight Duration     12179 non-null  float64       
 5   Aircraft Type       12179 non-null  object        
 6   Passenger Type      12179 non-null  object        
 7   Number of Tickets   12179 non-null  int64         
 8   Price per Ticket    12179 non-null  int64         
 9   Taxes & Fees        12179 non-null  int64         
 10  Total Price         12179 non-null  int64         
 11  Carry-on Baggage    12179 non-null  object        
 12  Checked Baggage     7745 non-null   object        
 13  Refund Policy       12179 non-null  object    