# Tập dữ liệu về các chuyến bay delay, thực hiện các yêu cầu sau:

- Đọc hiểu dữ liệu. Chú ý, mô tả ý hiểu về thông tin các cột
- Tìm các vấn đề của dữ liệu
- Đưa ra phương pháp xử lý đối với từng vấn đề
- Phân tích và đưa ra nhận định về các chuyến bay bị delay (Sử dụng thư viện matplotlib.pyplot để vẽ hình nếu cần)



In [1]:
import pandas as pd
import numpy as np

# 1 Đọc dữ liệu

- Đọc tập dữ liệu
- Hiểu thông tin cơ bản của dữ liệu

In [3]:
data = pd.read_csv('./data-w4.csv').drop('Unnamed: 0',axis=1)

In [4]:
data.head()

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
0,2008,1,3,4,2003.0,1955,2211.0,2225,WN,335,...,4.0,8.0,0,N,0,,,,,
1,2008,1,3,4,754.0,735,1002.0,1000,WN,3231,...,5.0,10.0,0,N,0,,,,,
2,2008,1,3,4,628.0,620,804.0,750,WN,448,...,3.0,17.0,0,N,0,,,,,
3,2008,1,3,4,1829.0,1755,1959.0,1925,WN,3920,...,3.0,10.0,0,N,0,2.0,0.0,0.0,0.0,32.0
4,2008,1,3,4,1940.0,1915,2121.0,2110,WN,378,...,4.0,10.0,0,N,0,,,,,


In [5]:
data.shape

(1936758, 29)

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1936758 entries, 0 to 1936757
Data columns (total 29 columns):
 #   Column             Dtype  
---  ------             -----  
 0   Year               int64  
 1   Month              int64  
 2   DayofMonth         int64  
 3   DayOfWeek          int64  
 4   DepTime            float64
 5   CRSDepTime         int64  
 6   ArrTime            float64
 7   CRSArrTime         int64  
 8   UniqueCarrier      object 
 9   FlightNum          int64  
 10  TailNum            object 
 11  ActualElapsedTime  float64
 12  CRSElapsedTime     float64
 13  AirTime            float64
 14  ArrDelay           float64
 15  DepDelay           float64
 16  Origin             object 
 17  Dest               object 
 18  Distance           int64  
 19  TaxiIn             float64
 20  TaxiOut            float64
 21  Cancelled          int64  
 22  CancellationCode   object 
 23  Diverted           int64  
 24  CarrierDelay       float64
 25  WeatherDelay      

In [7]:
data.columns

Index(['Year', 'Month', 'DayofMonth', 'DayOfWeek', 'DepTime', 'CRSDepTime',
       'ArrTime', 'CRSArrTime', 'UniqueCarrier', 'FlightNum', 'TailNum',
       'ActualElapsedTime', 'CRSElapsedTime', 'AirTime', 'ArrDelay',
       'DepDelay', 'Origin', 'Dest', 'Distance', 'TaxiIn', 'TaxiOut',
       'Cancelled', 'CancellationCode', 'Diverted', 'CarrierDelay',
       'WeatherDelay', 'NASDelay', 'SecurityDelay', 'LateAircraftDelay'],
      dtype='object')

**Nhận xét:**

- Dữ liệu gồm 1936758 dòng và 29 thuộc tính
- 24 thuộc tính là kiểu định lượng và 5 thuộc tính là kiểu định tính

**Mô tả thông tin thuộc tính:**

1. Year: 2008 
2. Month: 1-12 
3. DayofMonth: 1-31 
4. DayOfWeek: 1 (Monday) - 7 (Sunday) 
5. DepTime: actual departure time (local, hhm m) 
6. CRSDepTime: scheduled departure time (local, hhmm) 
7. ArrTime: actual arrival time (local, hhmm) 
8. CRSArrTime: scheduled arrival time (local, hhmm) 
9. UniqueCarrier: unique carrier code 
10. FlightNum: flight number 
11. TailNum: plane tail number 
12. ActualElapsedTime: in minutes 
13. CRSElapsedTime: in minutes 
14. AirTime: in minutes 
15. ArrDelay: arrival delay, in minutes 
16. DepDelay: departure delay, in minutes 
17. Origin: origin IATA airport code 
18. Dest: des tination IATA airport code 
19. Distance: in miles 
20. TaxiIn: taxi in time, in minutes 
21. TaxiOut: taxi out time in minutes 
22. Cancelled: was the flight cancelled? 
23. CancellationCode: reason for cancellation (A = carrier, B = weather, C = NAS, D = security) 
24. Diverted: 1 = yes, 0 = no 
25. CarrierDelay: in minutes 
26. WeatherDelay: in minutes 
27. NASDelay: in minutes 
28. SecurityDelay: in minutes 
29. LateAircraftDelay: in minutes

## 1.1 Tìm hiểu thông tin thuộc tính

In [17]:
data['Year'].unique()

array([2008], dtype=int64)

In [18]:
data['Month'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12], dtype=int64)

In [19]:
data['DayofMonth'].unique()

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
       20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,  2,  1],
      dtype=int64)

In [20]:
data['DayOfWeek'].unique()

array([4, 5, 6, 7, 1, 2, 3], dtype=int64)

# 2. Kiểm tra một số vấn đề của dữ liệu

- Vì tập dữ liệu khá lớn, ta sẽ thực hiện kiểm tra một số lỗi có thể xảy ra. Trước khi thực hiện kiểm tra lỗi, ta sẽ chuyển đổi dữ liệu để dễ cho việc thao tác kiểm tra
- Thực hiện kiểm tra tất cả các vấn đề của dữ liệu
- Đưa ra phương pháp xử lý đối với các vấn đề đó

## 2.0. Chuyển đổi dữ liệu (Data Transform)


Chuyển đổi dữ liệu từ ba cột `Year`,`Month`, `Day` gộp lại thành dữ liệu datetime tại cột mới `Date`

In [30]:

def tf_date(X):
    date = str(X.Year) +'-'+ str(X.Month) +'-'+ str(X.DayofMonth)
    return date
col = ['Year','Month','DayofMonth']
data['Date'] = pd.to_datetime(data[col].apply(tf_date,axis=1))
data.drop(columns=col,inplace=True)

In [32]:
data.head()

Unnamed: 0,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,...,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,Date
0,4,2003.0,1955,2211.0,2225,WN,335,N712SW,128.0,150.0,...,8.0,0,N,0,,,,,,2008-01-03
1,4,754.0,735,1002.0,1000,WN,3231,N772SW,128.0,145.0,...,10.0,0,N,0,,,,,,2008-01-03
2,4,628.0,620,804.0,750,WN,448,N428WN,96.0,90.0,...,17.0,0,N,0,,,,,,2008-01-03
3,4,1829.0,1755,1959.0,1925,WN,3920,N464WN,90.0,90.0,...,10.0,0,N,0,2.0,0.0,0.0,0.0,32.0,2008-01-03
4,4,1940.0,1915,2121.0,2110,WN,378,N726SW,101.0,115.0,...,10.0,0,N,0,,,,,,2008-01-03


Chuyển đổi dữ liệu `Time (local, hhmm)` thành dữ liệu datetime tại cột mới có ký hiệu ở cuối `_TF`

In [92]:
from datetime import time,datetime
def convert_to_time(X):
    try:
        X = int(X)
        time_str = str(X).zfill(4)
        hour = int(time_str[:2])
        minute = int(time_str[2:])
        if hour == 24:
            hour = 0
        return time(hour, minute)
    except Exception as msg:
        return None



In [65]:
data['DepTime_TF'] = data['DepTime'].apply(convert_to_time)
data['CRSDepTime_TF'] = data['CRSDepTime'].apply(convert_to_time)
data['ArrTime_TF'] = data['ArrTime'].apply(convert_to_time)
data['CRSArrTime_TF'] = data['CRSArrTime'].apply(convert_to_time)

In [66]:
data.head()

Unnamed: 0,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,...,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,Date,DepTime_TF,CRSDepTime_TF,ArrTime_TF,CRSArrTime_TF
0,4,2003.0,1955,2211.0,2225,WN,335,N712SW,128.0,150.0,...,,,,,,2008-01-03,20:03:00,19:55:00,22:11:00,22:25:00
1,4,754.0,735,1002.0,1000,WN,3231,N772SW,128.0,145.0,...,,,,,,2008-01-03,07:54:00,07:35:00,10:02:00,10:00:00
2,4,628.0,620,804.0,750,WN,448,N428WN,96.0,90.0,...,,,,,,2008-01-03,06:28:00,06:20:00,08:04:00,07:50:00
3,4,1829.0,1755,1959.0,1925,WN,3920,N464WN,90.0,90.0,...,2.0,0.0,0.0,0.0,32.0,2008-01-03,18:29:00,17:55:00,19:59:00,19:25:00
4,4,1940.0,1915,2121.0,2110,WN,378,N726SW,101.0,115.0,...,,,,,,2008-01-03,19:40:00,19:15:00,21:21:00,21:10:00


Đã có thêm 4 cột mới sau khi chuyển đổi dữ liệu $\rightarrow$ xóa bỏ các cột cũ không cần sử dụng

In [67]:
data.drop(columns=['DepTime', 'CRSDepTime', 'ArrTime', 'CRSArrTime'],inplace=True)

In [68]:
data.head()

Unnamed: 0,DayOfWeek,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,...,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,Date,DepTime_TF,CRSDepTime_TF,ArrTime_TF,CRSArrTime_TF
0,4,WN,335,N712SW,128.0,150.0,116.0,-14.0,8.0,IAD,...,,,,,,2008-01-03,20:03:00,19:55:00,22:11:00,22:25:00
1,4,WN,3231,N772SW,128.0,145.0,113.0,2.0,19.0,IAD,...,,,,,,2008-01-03,07:54:00,07:35:00,10:02:00,10:00:00
2,4,WN,448,N428WN,96.0,90.0,76.0,14.0,8.0,IND,...,,,,,,2008-01-03,06:28:00,06:20:00,08:04:00,07:50:00
3,4,WN,3920,N464WN,90.0,90.0,77.0,34.0,34.0,IND,...,2.0,0.0,0.0,0.0,32.0,2008-01-03,18:29:00,17:55:00,19:59:00,19:25:00
4,4,WN,378,N726SW,101.0,115.0,87.0,11.0,25.0,IND,...,,,,,,2008-01-03,19:40:00,19:15:00,21:21:00,21:10:00


## 2.1. Kiểm tra vấn đề dữ liệu bị thiếu

In [69]:
data_missing = data.isnull()
data_missing.sum()[data_missing.sum()>0]

TailNum                   5
ActualElapsedTime      8387
CRSElapsedTime          198
AirTime                8387
ArrDelay               8387
TaxiIn                 7110
TaxiOut                 455
CarrierDelay         689270
WeatherDelay         689270
NASDelay             689270
SecurityDelay        689270
LateAircraftDelay    689270
ArrTime_TF             7110
dtype: int64

In [71]:
data_missing.sum()[data_missing.sum()>0].shape[0]

13

**Nhận xét:**

- Có đến 13 cột bị gặp vấn đề missing value

### a. Kiểm tra thuộc tính ArrTime

- ArrTime là thời gian đến thực tế

In [72]:
data_Arr_ms = data[data['ArrTime_TF'].isnull()]
data_Arr_ms.head(10)

Unnamed: 0,DayOfWeek,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,...,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,Date,DepTime_TF,CRSDepTime_TF,ArrTime_TF,CRSArrTime_TF
1280,4,WN,1069,N630WN,,95.0,,,7.0,SAN,...,,,,,,2008-01-03,09:22:00,09:15:00,,10:50:00
1372,4,WN,2092,N302SW,,90.0,,,265.0,SFO,...,,,,,,2008-01-03,23:25:00,19:00:00,,20:30:00
1776,5,WN,1403,N504SW,,65.0,,,44.0,BOI,...,,,,,,2008-01-04,19:49:00,19:05:00,,19:10:00
1831,5,WN,178,N718SW,,80.0,,,32.0,BUR,...,,,,,,2008-01-04,07:37:00,07:05:00,,08:25:00
2244,5,WN,239,N636WN,,85.0,,,139.0,LAS,...,,,,,,2008-01-04,18:49:00,16:30:00,,17:55:00
2245,5,WN,298,N728SW,,80.0,,,10.0,LAS,...,,,,,,2008-01-04,19:05:00,18:55:00,,20:15:00
2720,5,WN,985,N613SW,,50.0,,,76.0,OAK,...,,,,,,2008-01-04,17:21:00,16:05:00,,16:55:00
2831,5,WN,3513,N348SW,,80.0,,,257.0,PDX,...,,,,,,2008-01-04,18:37:00,14:20:00,,15:40:00
3075,5,WN,1511,N259WN,,100.0,,,37.0,SAN,...,,,,,,2008-01-04,18:32:00,17:55:00,,19:35:00
3179,5,WN,2285,N368SW,,70.0,,,106.0,SJC,...,,,,,,2008-01-04,22:26:00,20:40:00,,21:50:00


**Nhận xét:**

- Cột ArrTime bị thiếu khá là nhiều, tuy nhiên tại cột CRSArrTime không bị gặp vấn đề missing value

### b. Kiểm tra thuộc tính CRSElapsedTime và ActualElapsedTime

- CRSElapsedTime thời gian bay dự kiến
- ActualElapsedTime thời gian bay thực tế

In [73]:
data_Elapsed_ms = data[data['CRSElapsedTime'].isnull()].loc[:,['CRSElapsedTime','ActualElapsedTime']]
data_Elapsed_ms.head(10)

Unnamed: 0,CRSElapsedTime,ActualElapsedTime
138532,,
138574,,
138697,,
138786,,
138946,,
139027,,
139508,,
139770,,
139944,,
140015,,


In [74]:
data_Elapsed_ms['ActualElapsedTime'].sum()

0.0

**Nhận xét:**

- Những dòng bị thiếu của thuộc tính CRSElapsedTime thì thuộc tính ActualElapsedTime cũng bị thiếu

### c. Kiểm tra thuộc tính ArrDelay

- ArrDelay thời gian trễ đến thực tế

In [76]:
data_ArrDelay_ms = data[data['ArrDelay'].isnull()]
data_ArrDelay_ms[data_ArrDelay_ms['ArrTime_TF'].isnull()]

Unnamed: 0,DayOfWeek,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,...,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,Date,DepTime_TF,CRSDepTime_TF,ArrTime_TF,CRSArrTime_TF
1280,4,WN,1069,N630WN,,95.0,,,7.0,SAN,...,,,,,,2008-01-03,09:22:00,09:15:00,,10:50:00
1372,4,WN,2092,N302SW,,90.0,,,265.0,SFO,...,,,,,,2008-01-03,23:25:00,19:00:00,,20:30:00
1776,5,WN,1403,N504SW,,65.0,,,44.0,BOI,...,,,,,,2008-01-04,19:49:00,19:05:00,,19:10:00
1831,5,WN,178,N718SW,,80.0,,,32.0,BUR,...,,,,,,2008-01-04,07:37:00,07:05:00,,08:25:00
2244,5,WN,239,N636WN,,85.0,,,139.0,LAS,...,,,,,,2008-01-04,18:49:00,16:30:00,,17:55:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1934590,7,DL,1743,N958DL,,130.0,,,42.0,BUF,...,,,,,,2008-12-07,15:26:00,14:44:00,,16:54:00
1935491,3,DL,1405,N906DL,,125.0,,,9.0,ATL,...,,,,,,2008-12-10,14:31:00,14:22:00,,15:27:00
1935651,3,DL,1706,N914DN,,123.0,,,12.0,ATL,...,,,,,,2008-12-10,14:59:00,14:47:00,,16:50:00
1935876,4,DL,892,N928DL,,144.0,,,31.0,ATL,...,,,,,,2008-12-11,10:26:00,09:55:00,,12:19:00


**Nhận xét:**

- Tại thuộc tính ArrDelay, bị thiếu 8387 mẫu dữ liệu. Trong đó, 7110 mẫu dữ liệu bị thiếu thời gian đến thức tế

**Nhận xét 1 số thuộc tính còn lại:**

- Dữ liệu tại 5 thuộc tính CarrierDelay, WeatherDelay, NASDelay, SecurityDelay và LateAircraftDelay bị thiếu khá nhiều (Nguyên nhân có thể đến từ việc trễ không xuất hiện do các nguyên nhân này)
- TaxiIn và TaxiOut thời gian taxi vào ra tính bằng phút, ta có thể suy xét đến việc loại bỏ
- Airtime cần hiểu rõ nghĩa hơn về thuộc tính này

**Đề xuất giải pháp:**

- Dữ liệu thời gian đến thực tế, ta có thể xử lý bằng 1 cách đến giản: Thời gian đến dự kiến - Thời gian bay khởi hành dự kiến + Thời gian bay khởi hành thực tế

## 2.2. Kiểm tra dữ liệu bị lặp

- Kiểm tra xem có 2 dòng nào giống nhau hoàn toàn hay không
- Kiểm tra dựa trên liệu trong cùng 1 thời điểm có 1 máy bay nào xuất hiện 2 lần hay không

### a. Kiểm tra giống nhau trên cùng 1 dòng

In [26]:
data_dup = data[data.duplicated(keep=False)]
data_dup.head(10)

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
294862,2008,2,28,4,1854.0,1807,1946.0,1902,F9,773,...,8.0,13.0,0,N,0,44.0,0.0,0.0,0.0,0.0
294863,2008,2,28,4,1854.0,1807,1946.0,1902,F9,773,...,8.0,13.0,0,N,0,44.0,0.0,0.0,0.0,0.0
294864,2008,2,28,4,2027.0,1942,2314.0,2229,F9,780,...,10.0,13.0,0,N,0,1.0,0.0,44.0,0.0,0.0
294865,2008,2,28,4,2027.0,1942,2314.0,2229,F9,780,...,10.0,13.0,0,N,0,1.0,0.0,44.0,0.0,0.0


**Nhận xét:**

- Chỉ  có 4 dòng giống nhau hoàn toàn với từng thuộc tính

### b. Kiểm tra xem có 1 máy bay nào bay đi 2 nơi cùng 1 thời điểm

In [77]:
data['TailNum'].unique()

array(['N712SW', 'N772SW', 'N428WN', ..., 'N75428', 'N75429', 'N78008'],
      dtype=object)

In [78]:
data_check = data[~data.duplicated(keep='first')]
data_check.head()

Unnamed: 0,DayOfWeek,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,...,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,Date,DepTime_TF,CRSDepTime_TF,ArrTime_TF,CRSArrTime_TF
0,4,WN,335,N712SW,128.0,150.0,116.0,-14.0,8.0,IAD,...,,,,,,2008-01-03,20:03:00,19:55:00,22:11:00,22:25:00
1,4,WN,3231,N772SW,128.0,145.0,113.0,2.0,19.0,IAD,...,,,,,,2008-01-03,07:54:00,07:35:00,10:02:00,10:00:00
2,4,WN,448,N428WN,96.0,90.0,76.0,14.0,8.0,IND,...,,,,,,2008-01-03,06:28:00,06:20:00,08:04:00,07:50:00
3,4,WN,3920,N464WN,90.0,90.0,77.0,34.0,34.0,IND,...,2.0,0.0,0.0,0.0,32.0,2008-01-03,18:29:00,17:55:00,19:59:00,19:25:00
4,4,WN,378,N726SW,101.0,115.0,87.0,11.0,25.0,IND,...,,,,,,2008-01-03,19:40:00,19:15:00,21:21:00,21:10:00


In [80]:
data_check[data_check.duplicated(subset=['Date','DepTime_TF','TailNum'],keep=False)]

Unnamed: 0,DayOfWeek,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,...,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,Date,DepTime_TF,CRSDepTime_TF,ArrTime_TF,CRSArrTime_TF
183297,1,DL,110,N613DL,309.0,298.0,275.0,25.0,14.0,ATL,...,0.0,0.0,11.0,0.0,14.0,2008-01-14,08:49:00,08:35:00,10:58:00,10:33:00
183371,1,DL,970,N613DL,119.0,130.0,90.0,-2.0,9.0,ATL,...,,,,,,2008-01-14,08:49:00,08:40:00,10:48:00,10:50:00
247295,5,OO,5886,N924SW,41.0,63.0,27.0,55.0,77.0,SBN,...,0.0,0.0,0.0,0.0,55.0,2008-02-15,21:23:00,20:06:00,21:04:00,20:09:00
247361,5,OO,6218,N924SW,118.0,134.0,92.0,22.0,38.0,ORD,...,0.0,0.0,0.0,0.0,22.0,2008-02-15,21:23:00,20:45:00,00:21:00,23:59:00
625152,3,OO,5806,N961SW,106.0,111.0,79.0,27.0,32.0,ORD,...,0.0,0.0,0.0,0.0,27.0,2008-04-09,15:05:00,14:33:00,17:51:00,17:24:00
625220,3,OO,6202,N961SW,37.0,46.0,22.0,37.0,46.0,SBN,...,37.0,0.0,0.0,0.0,0.0,2008-04-09,15:05:00,14:19:00,14:42:00,14:05:00
811249,1,EV,4183,N738EV,43.0,54.0,23.0,45.0,56.0,ATL,...,45.0,0.0,0.0,0.0,0.0,2008-05-26,11:46:00,10:50:00,11:29:00,10:44:00
811250,1,EV,4183,N738EV,55.0,50.0,33.0,21.0,16.0,BHM,...,16.0,0.0,5.0,0.0,0.0,2008-05-26,11:46:00,11:30:00,13:41:00,13:20:00
1354845,6,EV,4597,N979EV,47.0,52.0,29.0,25.0,30.0,ATL,...,25.0,0.0,0.0,0.0,0.0,2008-08-09,14:18:00,13:48:00,14:05:00,13:40:00
1354853,6,EV,4597,N979EV,54.0,60.0,33.0,7.0,13.0,DHN,...,,,,,,2008-08-09,14:18:00,14:05:00,16:12:00,16:05:00


In [81]:
data_check[data_check.duplicated(subset=['Date','DepTime_TF','TailNum'],keep=False)]['TailNum']


183297     N613DL
183371     N613DL
247295     N924SW
247361     N924SW
625152     N961SW
625220     N961SW
811249     N738EV
811250     N738EV
1354845    N979EV
1354853    N979EV
1825831    N968UW
1826074    N968UW
1846259    N851AS
1846282    N851AS
Name: TailNum, dtype: object

`Dest`: Điểm đến

In [83]:
data_check[data_check.duplicated(subset=['Date','DepTime_TF','TailNum','Origin','Dest'],keep=False)]

Unnamed: 0,DayOfWeek,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,...,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,Date,DepTime_TF,CRSDepTime_TF,ArrTime_TF,CRSArrTime_TF


**Nhận xét:**

- Xuất hiện vấn đề bị lặp dữ liệu khi 1 số hiệu đuôi máy bay lại xuất phát cùng lúc tại một thời điểm nhưng đến hai sân bay khác nhau

## 2.3. Kiểm tra vấn đề bất thường của dữ liệu

### a. Thời gian khởi hành muộn hơn thời gian hạ cánh

In [85]:
data_Dep_more_than_Arr =  data[data['DepTime_TF']>=data['ArrTime_TF']]

In [86]:
data_Dep_more_than_Arr.head(10)

Unnamed: 0,DayOfWeek,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,...,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,Date,DepTime_TF,CRSDepTime_TF,ArrTime_TF,CRSArrTime_TF
8,4,WN,2272,N263WN,52.0,50.0,37.0,11.0,9.0,IND,...,,,,,,2008-01-03,10:29:00,10:20:00,10:21:00,10:10:00
50,4,WN,890,N618WN,74.0,80.0,60.0,77.0,83.0,LAS,...,7.0,0.0,0.0,0.0,70.0,2008-01-03,22:48:00,21:25:00,01:02:00,23:45:00
53,4,WN,302,N473WN,256.0,275.0,243.0,78.0,97.0,LAS,...,8.0,0.0,0.0,0.0,70.0,2008-01-03,18:32:00,16:55:00,01:48:00,00:30:00
56,4,WN,2021,N499WN,146.0,155.0,127.0,54.0,63.0,LAS,...,23.0,0.0,0.0,0.0,31.0,2008-01-03,21:18:00,20:15:00,01:44:00,00:50:00
58,4,WN,1018,N245WN,275.0,285.0,253.0,49.0,59.0,LAS,...,19.0,0.0,0.0,0.0,30.0,2008-01-03,17:39:00,16:40:00,01:14:00,00:25:00
61,4,WN,3940,N434WN,196.0,205.0,177.0,60.0,69.0,LAS,...,0.0,0.0,22.0,0.0,38.0,2008-01-03,20:39:00,19:30:00,01:55:00,00:55:00
63,4,WN,2383,N290WN,233.0,250.0,221.0,52.0,69.0,LAS,...,48.0,0.0,0.0,0.0,4.0,2008-01-03,18:24:00,17:15:00,01:17:00,00:25:00
74,4,WN,2632,N784SW,245.0,260.0,230.0,32.0,47.0,LAS,...,7.0,0.0,0.0,0.0,25.0,2008-01-03,18:17:00,17:30:00,01:22:00,00:50:00
76,4,WN,564,N455WN,212.0,230.0,195.0,51.0,69.0,LAS,...,10.0,0.0,0.0,0.0,41.0,2008-01-03,18:49:00,17:40:00,01:21:00,00:30:00
79,4,WN,632,N203WN,96.0,110.0,77.0,63.0,77.0,LAS,...,0.0,0.0,7.0,0.0,56.0,2008-01-03,22:32:00,21:15:00,01:08:00,00:05:00


In [88]:
data_Dep_more_than_Arr.shape

(113663, 27)

**Nhận xét:**
- Một số khả năng xảy ra:

    - Máy bay bay sang ngày hôm sau
    - Máy bay bay lệch múi giờ
    - Sai sót thực sự

Kiểm tra máy bay sang ngày hôm sau

In [63]:
data_Dep_more_than_Arr['Distance']

8           162
50          487
53         2237
56         1090
58         2298
           ... 
1936462    4502
1936465     151
1936669     151
1936676    2182
1936709    2486
Name: Distance, Length: 112526, dtype: int64

In [None]:
# Do it 

# 3. Làm sạch dữ liệu

- Ưu tiên xử lý vấn đề bị lặp trước
- Sau đó, thực hiện xử lý với các vấn đề khác của dữ liệu

## 3.1 Xử lý vấn đề dữ liệu bị lặp


### a. Xử lý dữ liệu giống nhau trên 1 dòng
- Vì dữ liệu giống nhau hoàn toàn trên cùng 1 dòng, ta sẽ chỉ dữ liệu 1 bản ghi duy nhất

### b. Xử lý dữ liệu giống nhau 

## 3.2 Xử lý vấn đề bất thường của dữ liệu

- Xử lý vấn đề thời gian về chuẩn kiểu dữ liệu date (hh:mm)
- Xóa một số mẫu dữ liệu về thời gian bất bình thường khi quãng đường bay ngắn + thời gian bay quá lâu

### a. Chuyển đổi kiểu dữ liệu

## 3.3 Xử lý vấn đề bị thiếu

- Xóa dữ liệu dòng các chuyến bay có TailNum bị mất
- Xóa cột TaxiIn và TaxiOut
- ArrTime có thể thực hiện thay thế dựa trên cột CRSArrTime, DepTime và CRSDepTime
- CRSElapsedTime có thể thay thế dựa trên CRSArrTime và CRSDepTime
- ActualElapsedTime có thể thay thế dựa trên cột CRSElapsedTime


In [None]:
# do something