# BÀI TẬP PHÂN TÍCH DỰ ĐOÁN

## Đề Bài

### Cơ Bản

Thực hiện phân tích mô tả cho dữ liệu chuyến bay 'nycflights.csv':
1. Cho cột dep_delay (khởi hành trễ).
2. Cho cột arr_delay (đến nơi trễ).
3. Cho cột distance (khoảng cách chuyến bay).
4. Sử dụng linear regression xây dựng mô hình dự đoán thời gian đến nơi trễ (arr_delay) dựa vào thời gian xuất phát trễ (dep_delay) và khoảng cách (distance).

### Nâng Cao

Tiếp tục với dữ liệu 'nycflights.csv':
1. Thực hiện phân tích mô tả cho 3 cột ở trên nhưng chia theo nơi xuất phát: cột origin (gồm 3 sân bay: JFK, LGA, EWR).
2. Chia ra làm 3 mô hình cho 3 sân bay xuất phát (JFK, LGA, EWR) và nhận xét về độ chính xác so với mô hình chung.

## Script

### Using

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression

### Contract Fields

In [2]:
CN_MINUTE = 'minute'
CN_HOUR = 'hour'
CN_DAY = 'day'
CN_MONTH = 'month'
CN_YEAR = 'year'
CN_DEP_TIME = 'dep_time'
CN_DEP_DELAY = 'dep_delay'
CN_ARR_TIME = 'arr_time'
CN_ARR_DELAY = 'arr_delay'
CN_CARRIER = 'carrier'
CN_TAILNUM = 'tailnum'
CN_FLIGHT = 'flight'
CN_ORIGIN = 'origin'
CN_DEST = 'dest'
CN_AIR_TIME = 'air_time'
CN_DISTANCE = 'distance'

### Contract Methods

In [3]:
# Refactor
def refactor(s):
    return s.str.strip().str.upper()

In [4]:
# Try parse to int
def try_prs_int(s):
    return pd.to_numeric(s, errors='coerce').astype('Int64')

In [5]:
# Valid string series
def vld_str_ser(s):
    return s.notna() & ~s.eq('')

In [6]:
# Describe advanced
def des_adv(s):
    return s.loc[s.notna() & vld_str_ser(s)].describe()

### Processing

In [7]:
df = pd.read_csv('nycflights.csv')

In [8]:
minute = try_prs_int(df[CN_MINUTE])
hour = try_prs_int(df[CN_HOUR])
day = try_prs_int(df[CN_DAY])
month = try_prs_int(df[CN_MONTH])
year = try_prs_int(df[CN_YEAR])
dep_time = try_prs_int(df[CN_DEP_TIME])
dep_delay = try_prs_int(df[CN_DEP_DELAY])
arr_time = try_prs_int(df[CN_ARR_TIME])
arr_delay = try_prs_int(df[CN_ARR_DELAY])
carrier = refactor(df[CN_CARRIER])
tailnum = refactor(df[CN_TAILNUM])
flight = try_prs_int(df[CN_FLIGHT])
origin = refactor(df[CN_ORIGIN])
dest = refactor(df[CN_DEST])
air_time = try_prs_int(df[CN_AIR_TIME])
distance = try_prs_int(df[CN_DISTANCE])

In [9]:
# Request 1 basic
print(des_adv(dep_delay))

count    328521.000000
mean         12.639070
std          40.210061
min         -43.000000
25%          -5.000000
50%          -2.000000
75%          11.000000
max        1301.000000
Name: dep_delay, dtype: float64


In [10]:
# Request 2 basic
print(des_adv(arr_delay))

count    327346.000000
mean          6.895377
std          44.633292
min         -86.000000
25%         -17.000000
50%          -5.000000
75%          14.000000
max        1272.000000
Name: arr_delay, dtype: float64


In [11]:
# Request 3 basic
print(des_adv(distance))

count    336776.000000
mean       1039.912604
std         733.233033
min          17.000000
25%         502.000000
50%         872.000000
75%        1389.000000
max        4983.000000
Name: distance, dtype: float64


In [12]:
# Request 4 basic
df4 = df.loc[dep_delay.notna() & arr_delay.notna() & distance.notna() & vld_str_ser(dep_delay) & vld_str_ser(arr_delay)& vld_str_ser(distance)]
X = df4[[CN_DEP_DELAY, CN_DISTANCE]]
y = df4[CN_ARR_DELAY]
model = LinearRegression().fit(X, y)
print('Coefficients:', model.coef_)
print('Intercept:', model.intercept_)

Coefficients: [ 1.01807721 -0.00255059]
Intercept: -3.2127794408253623


In [13]:
# Request 1.1 advanced
print('JFK')
print(df4[df4[CN_ORIGIN] == 'JFK'][[CN_DEP_DELAY, CN_ARR_DELAY, CN_DISTANCE]].describe())

JFK
           dep_delay      arr_delay       distance
count  109079.000000  109079.000000  109079.000000
mean       12.023607       5.551481    1275.210590
std        38.827098      44.277448     896.377852
min       -43.000000     -79.000000      94.000000
25%        -5.000000     -18.000000     427.000000
50%        -1.000000      -6.000000    1069.000000
75%        10.000000      13.000000    2248.000000
max      1301.000000    1272.000000    4983.000000


In [14]:
# Request 1.2
print('LGA')
print(df4[df4[CN_ORIGIN] == 'LGA'][[CN_DEP_DELAY, CN_ARR_DELAY, CN_DISTANCE]].describe())

LGA
           dep_delay      arr_delay       distance
count  101140.000000  101140.000000  101140.000000
mean       10.286583       5.783488     784.756110
std        39.911298      43.862273     371.034203
min       -33.000000     -68.000000      96.000000
25%        -6.000000     -17.000000     502.000000
50%        -3.000000      -5.000000     762.000000
75%         7.000000      12.000000    1035.000000
max       911.000000     915.000000    1620.000000


In [15]:
# Request 1.3
print('EWR')
print(df4[df4[CN_ORIGIN] == 'EWR'][[CN_DEP_DELAY, CN_ARR_DELAY, CN_DISTANCE]].describe())

EWR
           dep_delay      arr_delay       distance
count  117127.000000  117127.000000  117127.000000
mean       15.009110       9.107055    1064.752166
std        41.185208      45.529183     733.624574
min       -25.000000     -86.000000      80.000000
25%        -4.000000     -16.000000     533.000000
50%        -1.000000      -4.000000     872.000000
75%        15.000000      16.000000    1400.000000
max      1126.000000    1109.000000    4963.000000


In [16]:
# Request 2 advanced
df_JFK = df4[df4[CN_ORIGIN] == 'JFK']
df_LGA = df4[df4[CN_ORIGIN] == 'LGA']
df_EWR = df4[df4[CN_ORIGIN] == 'EWR']

In [17]:
# Request 2.1 advanced
X_JFK = df_JFK[[CN_DEP_DELAY, CN_DISTANCE]]
y_JFK = df_JFK[CN_ARR_DELAY]
model_JFK = LinearRegression().fit(X_JFK, y_JFK)
print('JFK Coefficients:', model_JFK.coef_)
print('JFK Intercept:', model_JFK.intercept_)

JFK Coefficients: [ 1.02687973 -0.00182887]
JFK Intercept: -4.463121059324201


In [18]:
# Request 2.2 advanced
X_LGA = df_LGA[[CN_DEP_DELAY, CN_DISTANCE]]
y_LGA = df_LGA[CN_ARR_DELAY]
model_LGA = LinearRegression().fit(X_LGA, y_LGA)
print('LGA Coefficients:', model_LGA.coef_)
print('LGA Intercept:', model_LGA.intercept_)

LGA Coefficients: [ 1.00382354 -0.00305928]
LGA Intercept: -2.1416406592863213


In [19]:
# Request 2.3 advanced
X_EWR = df_EWR[[CN_DEP_DELAY, CN_DISTANCE]]
y_EWR = df_EWR[CN_ARR_DELAY]
model_EWR = LinearRegression().fit(X_EWR, y_EWR)
print('EWR Coefficients:', model_EWR.coef_)
print('EWR Intercept:', model_EWR.intercept_)

EWR Coefficients: [ 1.02348384 -0.00308813]
EWR Intercept: -2.9664297290861334


So sánh với mô hình chung, các mô hình tách biệt cho từng sân bay xuất phát có hệ số tương ứng với dep_delay khá gần nhau (từ 1.003 đến 1.027), nhưng các hệ số tương ứng với distance và intercept khác nhau đáng kể giữa các sân bay. Điều này cho thấy tốc độ và độ trễ của các chuyến bay từ các sân bay khác nhau có sự khác biệt và có ảnh hưởng đến kết quả dự đoán. Nếu chỉ quan tâm đến độ trễ và khoảng cách, mô hình chung sẽ cho kết quả dự đoán chính xác nhưng không hiệu quả bằng các mô hình tách biệt cho từng sân bay. Vì vậy, nếu quan tâm đến độ chính xác và tính ứng dụng thực tế, nên sử dụng các mô hình tách biệt cho từng sân bay xuất phát.