**머신러닝 분석 프로그래밍 평가문제**
### **항공권 데이터를 이용한 <span style="color:darkgreen">항공권 가격</span> 예측 문제**
- 항공권 데이터를 읽어들여 데이터를 분석 및 전처리한 후 머신러닝 학습으로 항공권 가격을 예측하고 결과를 분석하세요.
---


**[ 데이터 컬럼 설명]**
* airline : 항공사 이름
  * ['SpiceJet', 'AirAsia', 'Vistara', 'GO_FIRST', 'Indigo', 'Air_India']
* flight : 항공편명
  * ['SG-8709', 'SG-8157', 'I5-764', ..., '6E-7127', '6E-7259', 'AI-433']
* source_city : 출발 도시
  * ['Delhi', 'Mumbai', 'Bangalore', 'Kolkata', 'Hyderabad', 'Chennai']
* departure_time : 출발 시간
  * ['Evening', 'Early_Morning', 'Morning', 'Afternoon', 'Night', 'Late_Night']
* stops : 환승장 수
  * ['zero', 'one', 'two_or_more']
* arrival_time : 도착 시간
  * ['Evening', 'Early_Morning', 'Morning', 'Afternoon', 'Night', 'Late_Night']
* destination_city : 도착 도시
  * ['Delhi', 'Mumbai', 'Bangalore', 'Kolkata', 'Hyderabad', 'Chennai'](출발 도시와 같음)
* class : 좌석 등급
  * ['Economy', 'Business']
* duration : 비행시간
* days_left : 출발까지 남은 일자
* price : 항공권 가격

### **1. 모델링을 위해 분석 및 처리할 데이터 파일을 읽어오려고 합니다.**
### **Pandas함수로 데이터 파일을 읽어 데이터프레임 변수명 df에 할당하는 코드를 작성하세요.**
* **
- https://raw.githubusercontent.com/kim-juwan/data_folder/main/data/flight_price.csv 파일을 읽어 데이터 프레임 변수명 df에 할당하세요.
---

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [None]:
df=pd.read_csv('https://raw.githubusercontent.com/kim-juwan/data_folder/main/data/flight_price.csv')
df.head()

In [None]:
df.info()

### **2. 모델링 성능을 제대로 얻기 위해서 결측치 처리는 필수입니다.**
### **아래 가이드를 따라 결측치 처리하세요.**
* **
- 대상 데이터프레임 : df
- 결측치를 확인하는 코드를 작성하세요.
---

In [None]:
# 여기에 코드를 작성하세요.
df.isna().sum()

### **3. price에 대한 분포도를 알아 보려고 합니다.**
### **price에 대해 histplot그래프로 만들고 아래 가이드에 따라 답하세요.**

* **
- 대상 데이터프레임 : df
- Seaborn을 활용하세요.
- price에 대해서 분포를 보여주는 histplot 그래프 그리세요.
- bins는 10의 값을 넣으세요.
---

In [None]:
# 여기에 코드를 작성하세요.
sns.histplot(data=df, x='price', bins=10)

### **4. 좌석 등급에 따른 항공권 가격 평균을 확인하려고 합니다.**
### **class(좌석 등급)과 price(항공권 가격)을 barplot그래프로 만드세요.**

* **
- 대상 데이터프레임 : df
- Seaborn을 활용하세요.
- X축에는 class(좌석 등급)을 표시하고 Y축에는 price(항공권 가격)을 표시하세요.
---

In [None]:
# 여기에 코드를 작성하세요.
sns.barplot(data=df, x='class', y='price')

### **5. 좌석 등급에 따른 항공권 가격의 차이를 확인하려고 합니다.**
### **class(좌석 등급)과 price(항공권 가격)을 통계 검정을 통해 연관성을 확인하세요.**

* **
- 대상 데이터프레임 : df
- scipy의 stats을 활용하세요.
- 평균비교(T Test) 검정하세요.
---

In [None]:
df['class'].value_counts()

In [None]:
from scipy import stats

V_1=df[df['class'] =='Economy']['price']
V_2=df[df['class'] =='Business']['price']
sns.histplot(V_1, kde=True)
sns.histplot(V_2, kde=True)

In [None]:
# 정규성 검정
print(stats.kstest(V_1, 'norm'))
print(stats.kstest(V_2, 'norm'))

stats.mannwhitneyu(V_1,V_2)

In [None]:
print(stats.ttest_1samp(V_1, df['price'].mean()))
print(stats.ttest_1samp(V_2, df['price'].mean()))

# p-value가 0.05보다 작으므로 변수 V_1, V_2는 모평균을 따르지 않는다.

### **6. 비행 시간과 항공권 가격의 분포를 같이 확인하려고 합니다.**
### **duration(비행 시간)과 Price(항공권 가격)을 jointplot그래프로 만드세요.**

* **
- 대상 데이터프레임 : df
- Seaborn을 활용하세요.
- X축에는 duration(비행 시간)을 표시하고 Y축에는 price(항공권 가격)을 표시하세요.
---

In [None]:
# 여기에 코드를 작성하세요
sns.jointplot(data=df, x='duration', y='price')

### **7. 비행 시간과 항공권 가격의 분포를 같이 확인하려고 합니다.**
### **duration(비행 시간)과 Price(항공권 가격)을 통계 검정을 통해 연관성을 확인하세요.**

* **
- 대상 데이터프레임 : df
- scipy의 stats을 활용하세요.
- 상관분석 검정하세요.
---

In [None]:
# 여기에 코드를 작성하세요.
print(stats.pearsonr(df['duration'], df['price']))
print(stats.spearmanr(df['duration'], df['price']))
print(stats.kendalltau(df['duration'], df['price']))

## 모든 검정에서 pvalue=0.0 이므로 비행시간과 항공권가격은 상관계가 있다. 

### **8. 항공편의 종류에 대해 살펴보려고 합니다.**
### **아래 가이드를 따라 항공편 종류의 개수를 확인하세요.**
* **
- 대상 데이터프레임 : df
- 활용 함수 : unique()
- flight(항공편명)의 컬럼 확인
---

In [None]:
# 여기에 코드를 작성하세요.
print(df['flight'].unique())
print(df['flight'].value_counts())

### **9. 모델링 성능을 제대로 얻기 위해서 불필요한 변수는 삭제해야 합니다.**
### **아래 가이드를 따라 불필요 데이터를 삭제 처리하세요.**
* **
- 대상 데이터프레임 : df
- 'flight' , 'arrival_time' 2개 컬럼을 삭제하세요.
- 전처리 반영된 결과를 새로운 데이터프레임 변수명 df_del 에 저장하세요.
---

In [None]:
# 여기에 코드를 작성하세요.
df_del=df.drop(['flight' , 'arrival_time'], axis=1)
df_del.columns

In [None]:
df.info()

### **10. 원-핫 인코딩(One-hot encoding)은 범주형 변수를 1과 0의 이진형 벡터로 변환하기 위하여 사용하는 방법입니다.**
### **원-핫 인코딩으로 아래 조건에 해당하는 컬럼 데이터를 변환하세요.**
* **
- 대상 데이터프레임 : df_del
- 원-핫 인코딩 대상 : object 타입의 전체 컬럼
- 활용 함수: Pandas의 get_dummies
- 해당 전처리가 반영된 결과를 데이터프레임 변수 df_preset에 저장해 주세요.
---

In [None]:
# 여기에 코드를 작성하세요.
df_preset=pd.get_dummies(df_del)
print(df_preset.shape)
df_preset.info()

In [None]:
df_preset.head()

### **11. 훈련과 검증 각각에 사용할 데이터셋을 분리하려고 합니다.**
### **price(항공권 가격) 컬럼을 label값 y로, 나머지 컬럼을 feature값 X로 할당하세요.**
### **X와 y를 훈련 데이터셋과 테스트 데이터셋으로 분리하세요.**
* **
- 대상 데이터프레임 : df_preset
- 훈련 데이터셋 label : y_train, 훈련 데이터셋 Feature: X_train
- 검증 데이터셋 label : y_test, 검증 데이터셋 Feature: X_test
- 훈련 데이터셋과 검증데이터셋 비율은 75:25
- random_state : 42
---


In [None]:
from sklearn.model_selection import train_test_split
X=df_preset.drop('price', axis=1)
y=df_preset['price']
X_train,X_test,y_train,y_test= train_test_split(X,y, test_size=0.25, random_state=42)
print(X_train.shape, X_test.shape,y_train.shape, y_test.shape)

###  **12. price(항공권 가격)를 예측하는 머신러닝 모델을 만들려고 합니다.**
###  **LinearRegression 모델로 학습을 진행하세요.**

* **
- 모델을 lr_reg 변수에 저장해 주세요.
- fit을 활용해 모델을 학습해 주세요. 학습 시 훈련데이터 셋을 활용해 주세요.
---

In [None]:
from sklearn.linear_model import LinearRegression
lr_reg=LinearRegression()
lr_reg.fit(X_train,y_train)

### **13. 위 모델의 성능을 평가하려고 합니다.**
### **예측 결과의 MSE를 구하세요.**
* **
- 성능 평가는 검증 데이터셋을 활용하세요.
- 12번 문제에서 만든 모델로 y값을 예측(predict)하여 y_pred에 저장하세요.
- 검증 정답(y_test)과 예측값(y_pred)의 MSE를 구하고 lr_mse 변수에 저장하세요.
---

In [None]:
from sklearn.metrics import mean_squared_error
y_pred=lr_reg.predict(X_test)
lr_mse=mean_squared_error(y_test,y_pred)
lr_mse

In [None]:
lr_rmse=np.sqrt(lr_mse)
lr_rmse

In [None]:
## 실제값과 에측값의 차이
def get_top_error_data(y_test, pred, n_top=10):
    result_df=pd.DataFrame(y_test.values, columns=['real_count'])
    result_df['pred_count']=np.round(pred)
    result_df['diff']=np.abs(result_df['real_count'] - result_df['pred_count'])
    print(result_df.sort_values('diff', ascending=False)[:n_top])
get_top_error_data(y_test, y_pred, n_top=10)

###  **14. price(항공권 가격)를 예측하는 머신러닝 모델을 만들려고 합니다.**
###  **GBM(Gradient Boosting Machine)로 학습을 진행하세요.**

* **
- 트리의 최대 깊이 : 3로 설정
- 노드를 분할하기 위한 최소한의 샘플 데이터수(min_samples_split) : 5로 설정
- 학습률(learning_rate) : 0.01로 설정
- random_state : 0으로 설정
- 모델을 gbm 변수에 저장해 주세요.
- fit을 활용해 모델을 학습해 주세요. 학습 시 훈련데이터 셋을 활용해 주세요.
---

In [None]:
from sklearn.ensemble import GradientBoostingRegressor
gbm=GradientBoostingRegressor(max_depth=3, min_samples_split=5, learning_rate=0.01, random_state=0)
gbm.fit(X_train, y_train)

### **15. 위 모델의 성능을 평가하려고 합니다.**
### **예측 결과의 MSE를 구하세요.**
* **
- 성능 평가는 검증 데이터셋을 활용하세요.
- 15번 문제에서 만든 모델로 y값을 예측(predict)하여 y_pred에 저장하세요.
- 검증 정답(y_test)과 예측값(y_pred)의 MSE를 구하고 gbm_mse 변수에 저장하세요.
---

In [None]:
y_pred=gbm.predict(X_test)
gbm_mse=mean_squared_error(y_test,y_pred)
gbm_mse

In [None]:
gbm_rmse=np.sqrt(gbm_mse)
np.round(gbm_rmse,2)

In [None]:
## 실제값과 에측값의 차이
def get_top_error_data(y_test, pred, n_top=10):
    result_df=pd.DataFrame(y_test.values, columns=['real_count'])
    result_df['pred_count']=np.round(pred)
    result_df['diff']=np.abs(result_df['real_count'] - result_df['pred_count'])
    print(result_df.sort_values('diff', ascending=False)[:n_top])
get_top_error_data(y_test, y_pred, n_top=10)

### **16. 위 모델의 성능을 향상하려고 합니다.**
### **여러가지 방법 중 하나를 적용하여 코드를 작성해보세요.**
* **
- 불필요한 변수 제거(통계검정 혹은 그래프를 통해 근거작성)
- 다항회귀
- 규제
- 그리드서치
- 등등
---

#### 이상치 제거, 스케일링(min-max), 규제(Ridge) 및 5가지 모델 실습

In [None]:
df_del.info()

In [None]:
df_del.describe()

In [None]:
df_del.corr(numeric_only=True)

In [None]:
# price 이상치 제거 (약 150 row)
IQR = df_del['price'].quantile(0.75) - df_del['price'].quantile(0.25)
high_border = df_del['price'].quantile(0.75) + IQR * 1.5
low_border = df_del['price'].quantile(0.25) - IQR * 1.5
print(high_border, low_border)

In [None]:
df_2=df_del[(df_del['price'] < high_border) & (df_del['price'] > low_border)]
df_2.describe()

In [None]:
# 인코딩
df_2_enc= pd.get_dummies(df_2)

In [None]:
df_2_enc

In [None]:
# 스케일링
X=df_2_enc.drop('price', axis=1)
y=df_2_enc['price']
X_train,X_test,y_train,y_test= train_test_split(X,y, test_size=0.25, random_state=42)
print(X_train.shape, X_test.shape,y_train.shape, y_test.shape)

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train=scaler.fit_transform(X_train)
X_test=scaler.fit_transform(X_test)

In [None]:
def get_model_predict(model, X_train, X_test,  y_train, y_test):
    model.fit(X_train,y_train)
    pred=model.predict(X_test)
    model_mse=mean_squared_error(y_test,pred)
    print('RMSE값', np.sqrt(model_mse))

In [None]:
from sklearn.linear_model import Ridge
from sklearn.ensemble import GradientBoostingRegressor
from xgboost import XGBRegressor
from sklearn.linear_model import SGDRegressor
from sklearn.ensemble import RandomForestRegressor

#rf_reg=RandomForestRegressor(random_state=0, n_estimators=100)
rf_reg=RandomForestRegressor()
rdge=Ridge(alpha=10)
xgb_reg = XGBRegressor(random_state=0, n_estimators=1000)
models = [rf_reg, rdge, xgb_reg]
for model in models: 
    get_model_predict(model, X_train, X_test,  y_train, y_test)

In [None]:
# 1번 LinearRegression 2번 Ridge 3번 XGB
# 1번 선형회귀는 버림
# 2번 Ridge는 전처리(스케일링, 이상치제거) 전 데이터로 찾은 적합한 alpha로 실습함 -- 오차 줄음
# 3번 

In [None]:
# 적합한 Ridge의 alpha 값 찾기
from sklearn.model_selection import cross_val_score
alphas=[0,0.1,1,10,100]
for alpha in alphas:
    ridge=Ridge(alpha=alpha)
    neg_mse_scores=cross_val_score(ridge, X, y, scoring='neg_mean_squared_error',cv=5)
    avg_rmse= np.mean(np.sqrt(-1*neg_mse_scores))
    print(f'alpha {alpha} 일 때 5fold의 평균 RMSE: {avg_rmse:.3f}')

In [None]:
# 한가지 더 해봄 - RandomForest

rf_reg=RandomForestRegressor(random_state=0, n_estimators=100)
neg_mse_scores=cross_val_score(rf_reg,X,y, scoring='neg_mean_squared_error',cv=5)
rmse_scores=np.sqrt(-1 * neg_mse_scores)
avg_rmse= np.mean(rmse_scores)

print('5fold NMSE scores: ', np.round(neg_mse_scores, 2))
print('5fold  RMSE scores: ', np.round(rmse_scores, 2))
print(f'5fold 평균 RMSE: {avg_rmse:3f}')

In [51]:
###############
X=df_2_enc.drop('price', axis=1)
y=df_2_enc['price']
X_train,X_test,y_train,y_test= train_test_split(X,y, test_size=0.25, random_state=42)
print(X_train.shape, X_test.shape,y_train.shape, y_test.shape)

(225022, 31) (75008, 31) (225022,) (75008,)


In [52]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import ElasticNet
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, include_bias=False)
std=StandardScaler()
pip=Pipeline([[('std', StandardScaler),('poly', P),
              ('model', XGBRegressor)]])

params={'model__estimator':  [100,500, 1000],
        'elast__alpha' : [10, 5, 1, 0.1, 0.01]}
grid = GridSearchCV(pip, param_grid=params, scoring='neg_root_mean_squared_error', cv=3, verbose=True)

In [None]:
grid.fit(X_train, y_train)

In [None]:
model = grid.best_estimator_
print(grid.best_params_)

### **1번부터 16번까지 모든 문제를 풀었습니다. 수고하셨습니다.**

In [None]:
poly = PolynomialFeatures(degree=2, include_bias=False)

pipe = Pipeline([('poly', poly), 
                 ('linear', LinearRegression())])

params = [{'poly__degree' : [2, 3, 4], 
          'linear' : [Ridge(), 
                      Lasso()],
          'linear__alpha' : [1, 0.1, 0.01, 10, 100]},
          
          {'poly__degree' : [2, 3, 4], 
          'linear' : [LinearRegression()]},
          
          {'poly__degree' : [1], 
          'linear' : [RandomForestRegressor()],
           'linear__max_depth' : [None, 3, 5, 7],
           'linear__min_samples_leaf' : [1, 3, 5]}
]
grid = GridSearchCV(pipe, param_grid=params, 
                    scoring='neg_root_mean_squared_error', cv = 5, verbose=True)

grid.fit(X_train, y_train)