In [1]:
import os
import pandas as pd

# Đường dẫn thư mục raw data
RAW_PATH = "/Users/nthanhdat/Documents/Fpt_Polytechnic/Graduation_Project/data_pipeline/raw_data"

# Danh sách file và nhãn hãng bay tương ứng
file_info = {
    "vietjet_1.csv": "VietJet",
    "vietjet_2.csv": "VietJet",
    "VNairlines_1_1.csv": "VietnamAirlines",
    "VNairlines_2_2.csv": "VietnamAirlines",
    "BambooAirway.csv": "Bamboo"
}

# Load và gắn nhãn hãng
dfs = []
for file_name, airline in file_info.items():
    path = os.path.join(RAW_PATH, file_name)
    df = pd.read_csv(path)
    df['source_file'] = file_name
    df['airline_tag'] = airline
    dfs.append(df)

# Gộp lại thành 1 DataFrame tổng
df_all = pd.concat(dfs, ignore_index=True)
print(f"Tổng số dòng sau khi gộp: {len(df_all)}")
print(f"Các hãng bay trong dữ liệu:", df_all['airline_tag'].value_counts().to_dict())

# ======================== KIỂM TRA DỮ LIỆU ========================

# 1. Kiểm tra thiếu dữ liệu
missing = df_all.isnull().sum()
print("🟡 Các cột bị thiếu dữ liệu:")
print(missing[missing > 0])

# 2. Kiểm tra kiểu dữ liệu
print("\n🟢 Kiểu dữ liệu các cột:")
print(df_all.dtypes)

# 3. Kiểm tra kiểu dữ liệu hỗn hợp
print("\n🔴 Cột có kiểu dữ liệu hỗn hợp:")
for col in df_all.columns:
    if df_all[col].apply(type).nunique() > 1:
        print(f"⚠️  '{col}':", df_all[col].apply(type).value_counts())

# 4. Kiểm tra số âm nếu có cột số
numeric_cols = df_all.select_dtypes(include='number').columns
for col in numeric_cols:
    if (df_all[col] < 0).sum() > 0:
        print(f"\n❌ Cột '{col}' có {(df_all[col] < 0).sum()} giá trị âm")

# 5. Thống kê tổng quát
print("\n📊 Thống kê cơ bản:")
print(df_all.describe(include='all').T)

# 6. Xem 10 dòng đầu
print("\n🔍 10 dòng đầu:")
display(df_all.head(10))


Tổng số dòng sau khi gộp: 2244644
Các hãng bay trong dữ liệu: {'VietnamAirlines': 1164890, 'VietJet': 1055964, 'Bamboo': 23790}
🟡 Các cột bị thiếu dữ liệu:
Date                          383
Route                         383
Flight_ID                     383
Origin                        383
Destination                   383
Fare_Class                    383
Fare_Code                     383
Price_VND                     383
Taxes                         383
Departure_Time            2220854
Arrival_Time              2220854
Booking_Class                 383
Cabin                         383
Quota                         383
Status                        383
Service_Code                24173
Fare_Conditions               383
Operating_Airline_Code        383
Operating_Airline_Name        383
dtype: int64

🟢 Kiểu dữ liệu các cột:
Source.Name                object
Date                       object
Route                      object
Flight_ID                  object
Origin                  

Unnamed: 0,Source.Name,Date,Route,Flight_ID,Origin,Destination,Fare_Class,Fare_Code,Price_VND,Taxes,...,Booking_Class,Cabin,Quota,Status,Service_Code,Fare_Conditions,Operating_Airline_Code,Operating_Airline_Name,source_file,airline_tag
0,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ358-DLIDAD-2025-1-01-1450,DLI,DAD,EL1,QPXVNWS,2118103.0,651845.0,...,Z,ecoPremium,2.0,HK,FBA4-C0FMC2,"PEN19,PEN20,PEN21",VJ,Vietjet Air,vietjet_1.csv,VietJet
1,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ566-DLIDAD-2025-1-01-1450,DLI,DAD,EC1,ZVNWP,2197289.0,657613.0,...,Z,ecoPremium,2.0,HK,FBA4-C0FMC2,"PEN16,PEN17,PEN18",VJ,Vietjet Air,vietjet_1.csv,VietJet
2,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ955-DLIDAD-2025-1-01-1450,DLI,DAD,EF1,ZVNWP,2446910.0,676492.0,...,Z,ecoPremium,2.0,HK,FBA4-C0FMC2,"PEN22,PEN23,PEN24",VJ,Vietjet Air,vietjet_1.csv,VietJet
3,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ905-DLIDAD-2025-1-01-1450,DLI,DAD,DC1,ZVNWP,2530291.0,682261.0,...,Z,ecoPremium,2.0,HK,FBA4-C0FMC2,"PEN28,PEN29,PEN30",VJ,Vietjet Air,vietjet_1.csv,VietJet
4,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ446-DLIDAD-2025-1-01-1450,DLI,DAD,DF1,ZVNWP,2813474.0,703237.0,...,Z,ecoPremium,2.0,HK,FBA4-C0FMC2,"PEN22,PEN23,PEN24",VJ,Vietjet Air,vietjet_1.csv,VietJet
5,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ272-DLIDAD-2025-1-01-1450,DLI,DAD,BC1,IVNWP,3535066.0,756727.0,...,I,business,8.0,HK,FBA4-C0FMC2,"PEN43,PEN44,PEN45",VJ,Vietjet Air,vietjet_1.csv,VietJet
6,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ013-DLIDAD-2025-1-01-1450,DLI,DAD,BF1,CVNWP,4327979.0,815461.0,...,C,business,9.0,HK,FBA4-C0FMC2,"PEN52,PEN53,PEN54",VJ,Vietjet Air,vietjet_1.csv,VietJet
7,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ086-DLIDAD-2025-1-01-1450,DLI,DAD,EL1,CVNWP,2809803.0,703237.0,...,T,eco,9.0,HK,FBA3-C0GOC1,"PEN31,PEN32,PEN33",VJ,Vietjet Air,vietjet_1.csv,VietJet
8,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ336-DLIDAD-2025-1-01-1450,DLI,DAD,EC1,CVNWP,3081974.0,723165.0,...,L,eco,9.0,HK,FBA3-C0GOC1,"PEN13,PEN14,PEN15",VJ,Vietjet Air,vietjet_1.csv,VietJet
9,DLI-DAD_01-06-25_31-12-25.csv,6/13/2025,DLI_DAD,SEG-VJ833-DLIDAD-2025-1-01-1450,DLI,DAD,EF1,CVNWP,3214126.0,733129.0,...,M,eco,9.0,HK,FBA3-C0GOC1,"PEN34,PEN35,PEN36",VJ,Vietjet Air,vietjet_1.csv,VietJet
