In [1]:
import pandas as pd

# 파일 경로 설정
file_paths = {
    'international_trade': 'international_trade.csv',
    'test': 'test.csv',
    'train': 'train.csv'
}

# 각 파일을 데이터프레임으로 읽기
dataframes = {name: pd.read_csv(path) for name, path in file_paths.items()}

# 각 데이터프레임의 처음 5줄 출력
for name, df in dataframes.items():
    print(f"{name} 데이터의 처음 5줄:")
    print(df.head(), "\n")


international_trade 데이터의 처음 5줄:
        기간                        품목명   수출 중량  수출 금액    수입 중량  수입 금액  무역수지
0  2019-01  토마토(신선한 것이나 냉장한 것으로 한정한다)  356571    990        0      0   990
1  2019-01                         양파  821330    222  4003206   1118  -896
2  2019-01                         쪽파      60      1    93405    128  -127
3  2019-01       꽃양배추와 브로콜리(broccoli)     160      1   638913    563  -562
4  2019-01                  방울다다기 양배추       0      0     7580     38   -38 

test 데이터의 처음 5줄:
                ID   timestamp item corporation location
0  TG_A_J_20230304  2023-03-04   TG           A        J
1  TG_A_J_20230305  2023-03-05   TG           A        J
2  TG_A_J_20230306  2023-03-06   TG           A        J
3  TG_A_J_20230307  2023-03-07   TG           A        J
4  TG_A_J_20230308  2023-03-08   TG           A        J 

train 데이터의 처음 5줄:
                ID   timestamp item corporation location  supply(kg)  \
0  TG_A_J_20190101  2019-01-01   TG           A        J         

In [2]:
# 데이터프레임 컬럼 이름 확인
dataframes['international_trade'].columns.tolist()


['기간', '품목명', '수출 중량', '수출 금액', '수입 중량', '수입 금액', '무역수지']

In [3]:
# 다시 international_trade.csv 파일을 읽어서 '기간' 컬럼이 있는지 확인합니다.
international_trade_df = pd.read_csv('international_trade.csv')

# 데이터프레임의 처음 5개 행을 출력하여 '기간' 컬럼을 확인합니다.
international_trade_df.head()


Unnamed: 0,기간,품목명,수출 중량,수출 금액,수입 중량,수입 금액,무역수지
0,2019-01,토마토(신선한 것이나 냉장한 것으로 한정한다),356571,990,0,0,990
1,2019-01,양파,821330,222,4003206,1118,-896
2,2019-01,쪽파,60,1,93405,128,-127
3,2019-01,꽃양배추와 브로콜리(broccoli),160,1,638913,563,-562
4,2019-01,방울다다기 양배추,0,0,7580,38,-38


In [4]:
# '기간' 컬럼을 pandas의 datetime 형식으로 변환합니다.
international_trade_df['timestamp'] = pd.to_datetime(international_trade_df['기간'], format='%Y-%m')

# 변환된 'timestamp' 컬럼 확인
international_trade_df[['기간', 'timestamp']].head()


Unnamed: 0,기간,timestamp
0,2019-01,2019-01-01
1,2019-01,2019-01-01
2,2019-01,2019-01-01
3,2019-01,2019-01-01
4,2019-01,2019-01-01


In [5]:
# train.csv와 test.csv 파일을 다시 읽어서 'timestamp' 컬럼의 형식을 확인합니다.
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')

# 두 데이터프레임의 'timestamp' 컬럼의 형식을 확인합니다.
train_timestamp_format = train_df['timestamp'].iloc[0]
test_timestamp_format = test_df['timestamp'].iloc[0]

train_timestamp_format, test_timestamp_format


('2019-01-01', '2023-03-04')

In [6]:
# '품목명' 컬럼과 'item' 컬럼의 고유한 값을 확인합니다.
unique_trade_items = international_trade_df['품목명'].unique()
unique_train_items = train_df['item'].unique()

unique_trade_items, unique_train_items


(array(['토마토(신선한 것이나 냉장한 것으로 한정한다)', '양파', '쪽파', '꽃양배추와 브로콜리(broccoli)',
        '방울다다기 양배추', '양배추', '결구(結球) 상추',
        '위트루프 치커리(Witloof chicory)[시코리엄 인티부스 변종 포리오섬(Cichorium intybus var. foliosum)]',
        '당근', '오이류(신선한 것이나 냉장한 것으로 한정한다)',
        '콩[비그나(Vigna)속ㆍ파세러스(Phaseolus)속)]', '대추야자', '무화과', '파인애플',
        '망고(mango)', '망고스틴(mangosteen)', '오렌지', '감귤',
        '그레이프프루트(grapefruit)와 포멜로(pomelo)',
        '레몬[시트러스 리몬(Citrus limon)ㆍ시트러스 리머늄(Citrus limonum)]', '수박',
        '포포(papaw)[파파야(papaya)]', '사과', '배', '자두',
        '완두[피섬 새티범(Pisum sativum)]', '구아바(guava)', '살구',
        '신 체리[프루너스 체라서스(Prunus cerasus)]', '복숭아[넥터린(nectarine)을 포함한다]',
        '순무', '방울토마토', '샬롯(shallot)', '참외'], dtype=object),
 array(['TG', 'CR', 'CB', 'RD', 'BC'], dtype=object))

In [7]:
# 월별 수출 중량, 수입 중량, 무역수지의 총합을 계산합니다.
monthly_trade_stats = international_trade_df.groupby('timestamp').agg({
    '수출 중량': 'sum',
    '수입 중량': 'sum',
    '무역수지': 'sum'
}).reset_index()

# 계산된 월별 통계 확인
monthly_trade_stats.head()


Unnamed: 0,timestamp,수출 중량,수입 중량,무역수지
0,2019-01-01,5121505,30213638,-22735
1,2019-02-01,1822974,26066327,-27796
2,2019-03-01,2529464,71320997,-89935
3,2019-04-01,7627956,76100447,-109101
4,2019-05-01,3279216,32009791,-42177


In [8]:
# train 데이터의 'timestamp' 컬럼도 datetime으로 변환합니다.
train_df['timestamp'] = pd.to_datetime(train_df['timestamp'])

# train 데이터와 월별 통계 데이터를 'timestamp' 컬럼을 기준으로 병합합니다.
merged_train_data = pd.merge(train_df, monthly_trade_stats, on='timestamp', how='left')

# 병합된 데이터 확인
merged_train_data.head()


Unnamed: 0,ID,timestamp,item,corporation,location,supply(kg),price(원/kg),수출 중량,수입 중량,무역수지
0,TG_A_J_20190101,2019-01-01,TG,A,J,0.0,0.0,5121505.0,30213638.0,-22735.0
1,TG_A_J_20190102,2019-01-02,TG,A,J,0.0,0.0,,,
2,TG_A_J_20190103,2019-01-03,TG,A,J,60601.0,1728.0,,,
3,TG_A_J_20190104,2019-01-04,TG,A,J,25000.0,1408.0,,,
4,TG_A_J_20190105,2019-01-05,TG,A,J,32352.0,1250.0,,,


In [9]:
# train 데이터의 'timestamp' 컬럼도 datetime으로 변환합니다.
train_df['timestamp'] = pd.to_datetime(train_df['timestamp'])

# train 데이터와 월별 통계 데이터를 'timestamp' 컬럼을 기준으로 병합합니다.
merged_train_data = pd.merge(train_df, monthly_trade_stats, on='timestamp', how='left')

# 병합된 데이터 확인
merged_train_data.head()


Unnamed: 0,ID,timestamp,item,corporation,location,supply(kg),price(원/kg),수출 중량,수입 중량,무역수지
0,TG_A_J_20190101,2019-01-01,TG,A,J,0.0,0.0,5121505.0,30213638.0,-22735.0
1,TG_A_J_20190102,2019-01-02,TG,A,J,0.0,0.0,,,
2,TG_A_J_20190103,2019-01-03,TG,A,J,60601.0,1728.0,,,
3,TG_A_J_20190104,2019-01-04,TG,A,J,25000.0,1408.0,,,
4,TG_A_J_20190105,2019-01-05,TG,A,J,32352.0,1250.0,,,


In [10]:
# test 데이터의 'timestamp' 컬럼도 datetime으로 변환합니다.
test_df['timestamp'] = pd.to_datetime(test_df['timestamp'])

# test 데이터와 월별 통계 데이터를 'timestamp' 컬럼을 기준으로 병합합니다.
merged_test_data = pd.merge(test_df, monthly_trade_stats, on='timestamp', how='left')

# 동일 월 내에서 NaN 값을 앞 방향으로 채우기
merged_test_data.fillna(method='ffill', inplace=True)

# NaN 값 처리 후 병합된 데이터 확인
merged_test_data.head()


Unnamed: 0,ID,timestamp,item,corporation,location,수출 중량,수입 중량,무역수지
0,TG_A_J_20230304,2023-03-04,TG,A,J,,,
1,TG_A_J_20230305,2023-03-05,TG,A,J,,,
2,TG_A_J_20230306,2023-03-06,TG,A,J,,,
3,TG_A_J_20230307,2023-03-07,TG,A,J,,,
4,TG_A_J_20230308,2023-03-08,TG,A,J,,,


In [11]:
# monthly_trade_stats 데이터의 가장 마지막 통계치를 확인합니다.
latest_trade_stats = monthly_trade_stats.iloc[-1]

# test 데이터의 NaN 값을 가장 최근의 통계치로 채웁니다.
merged_test_data.fillna(latest_trade_stats, inplace=True)

# NaN 값이 채워진 병합된 데이터를 확인합니다.
merged_test_data.head()


Unnamed: 0,ID,timestamp,item,corporation,location,수출 중량,수입 중량,무역수지
0,TG_A_J_20230304,2023-03-04,TG,A,J,2462340.0,25485095.0,-27716.0
1,TG_A_J_20230305,2023-03-05,TG,A,J,2462340.0,25485095.0,-27716.0
2,TG_A_J_20230306,2023-03-06,TG,A,J,2462340.0,25485095.0,-27716.0
3,TG_A_J_20230307,2023-03-07,TG,A,J,2462340.0,25485095.0,-27716.0
4,TG_A_J_20230308,2023-03-08,TG,A,J,2462340.0,25485095.0,-27716.0


In [13]:
from xgboost import XGBRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# 타겟 변수 설정
target = 'price(원/kg)'

# 범주형 변수를 원-핫 인코딩합니다.
categorical_features = ['item', 'corporation', 'location']
onehot_encoder = OneHotEncoder(sparse=False, handle_unknown='ignore')
encoded_categorical = onehot_encoder.fit_transform(merged_train_data[categorical_features])

# 원-핫 인코딩된 특성을 DataFrame으로 변환합니다.
encoded_categorical_df = pd.DataFrame(encoded_categorical, 
                                      columns=onehot_encoder.get_feature_names(categorical_features))

# 원-핫 인코딩된 특성을 원래 데이터에 병합합니다.
merged_train_data_encoded = pd.concat([merged_train_data.drop(categorical_features, axis=1), 
                                       encoded_categorical_df], axis=1)

# 타겟 변수와 특성을 분리합니다.
X = merged_train_data_encoded.drop(['ID', 'timestamp', target], axis=1)
y = merged_train_data_encoded[target]

# 훈련 데이터와 검증 데이터로 분리합니다.
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델을 정의합니다.
model = XGBRegressor(objective='reg:squarederror', random_state=42)

# 모델을 훈련합니다.
model.fit(X_train, y_train)

# 검증 데이터에 대해 예측을 수행합니다.
y_pred = model.predict(X_valid)

# 성능을 평가합니다. 여기서는 RMSE를 사용합니다.
rmse = np.sqrt(mean_squared_error(y_valid, y_pred))
rmse




647.3769251574879

In [14]:
from sklearn.metrics import r2_score

# 검증 데이터에 대한 R^2 점수를 계산합니다.
r2 = r2_score(y_valid, y_pred)
r2


0.8973020000374826

In [15]:
from sklearn.model_selection import RandomizedSearchCV

# 탐색할 하이퍼파라미터 그리드 설정
param_grid = {
    'n_estimators': [50, 100, 150],
    'max_depth': [3, 5, 7],
    'learning_rate': [0.1, 0.01, 0.05],
    'subsample': [0.8, 0.9, 1.0],
    'colsample_bytree': [0.8, 0.9, 1.0],
}

# RandomizedSearchCV 설정
random_search = RandomizedSearchCV(
    estimator=XGBRegressor(objective='reg:squarederror', random_state=42),
    param_distributions=param_grid,
    n_iter=10,  # 탐색 횟수
    scoring='r2',  # 성능 평가 지표
    cv=3,  # 교차 검증 분할 수
    random_state=42
)

# 하이퍼파라미터 튜닝을 수행합니다.
random_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 조합을 출력합니다.
best_params = random_search.best_params_
best_score = random_search.best_score_

best_params, best_score


({'subsample': 0.9,
  'n_estimators': 100,
  'max_depth': 7,
  'learning_rate': 0.05,
  'colsample_bytree': 1.0},
 0.9058576042164179)

In [20]:
# 예시 하이퍼파라미터 설정
hyp_params = {
    'n_estimators': 100,
    'max_depth': 7,
    'learning_rate': 0.05,
    'subsample': 0.9,
    'colsample_bytree': 1.0
}

# XGBoost 모델을 정의합니다.
xgb_model = XGBRegressor(
    n_estimators=hyp_params['n_estimators'],
    max_depth=hyp_params['max_depth'],
    learning_rate=hyp_params['learning_rate'],
    subsample=hyp_params['subsample'],
    colsample_bytree=hyp_params['colsample_bytree'],
    objective='reg:squarederror',
    random_state=42
)

# 모델을 훈련합니다.
xgb_model.fit(X_train, y_train)

# 검증 데이터에 대해 예측을 수행합니다.
y_pred_valid = xgb_model.predict(X_valid)

# 검증 데이터에 대한 성능 평가
rmse_valid = np.sqrt(mean_squared_error(y_valid, y_pred_valid))
r2_valid = r2_score(y_valid, y_pred_valid)

rmse_valid, r2_valid


(639.1573157399454, 0.8998933142989274)

In [51]:
#train데이터 전처리

import pandas as pd

# 파일을 읽어오기
file_path = 'train.csv'
data = pd.read_csv(file_path)

# 데이터의 처음 몇 줄을 출력하여 구조 확인
data.head()


Unnamed: 0,ID,timestamp,item,corporation,location,supply(kg),price(원/kg)
0,TG_A_J_20190101,2019-01-01,TG,A,J,0.0,0.0
1,TG_A_J_20190102,2019-01-02,TG,A,J,0.0,0.0
2,TG_A_J_20190103,2019-01-03,TG,A,J,60601.0,1728.0
3,TG_A_J_20190104,2019-01-04,TG,A,J,25000.0,1408.0
4,TG_A_J_20190105,2019-01-05,TG,A,J,32352.0,1250.0


In [52]:
# 1. 결측치 확인
missing_values = data.isnull().sum()

# 2. 이상치 확인
# Z-score를 사용하여 이상치를 확인할 수 있으나, 여기서는 단순히 0이 아닌 값들에 대해 기초 통계량을 확인함으로써 이상치를 대략적으로 파악합니다.
supply_price_stats = data[(data['supply(kg)'] != 0) & (data['price(원/kg)'] != 0)][['supply(kg)', 'price(원/kg)']].describe()

# 3. 데이터 타입 확인
data_types = data.dtypes

# 4. 기초 통계량 확인
basic_stats = data.describe()

missing_values, supply_price_stats, data_types, basic_stats


(ID             0
 timestamp      0
 item           0
 corporation    0
 location       0
 supply(kg)     0
 price(원/kg)    0
 dtype: int64,
          supply(kg)   price(원/kg)
 count  2.394200e+04  23942.000000
 mean   2.950876e+04   2807.553128
 std    7.910079e+04   2348.996937
 min    6.000000e+00     50.000000
 25%    1.536250e+03    999.000000
 50%    7.061500e+03   2031.500000
 75%    2.362225e+04   4189.750000
 max    1.222800e+06  20909.000000,
 ID              object
 timestamp       object
 item            object
 corporation     object
 location        object
 supply(kg)     float64
 price(원/kg)    float64
 dtype: object,
          supply(kg)   price(원/kg)
 count  5.939700e+04  59397.000000
 mean   1.189453e+04   1131.680674
 std    5.226400e+04   2029.941445
 min    0.000000e+00      0.000000
 25%    0.000000e+00      0.000000
 50%    0.000000e+00      0.000000
 75%    3.800000e+03   1519.000000
 max    1.222800e+06  20909.000000)

In [30]:
# 'timestamp' 컬럼의 데이터 타입을 datetime으로 변경
data['timestamp'] = pd.to_datetime(data['timestamp'])

# 변경된 데이터 타입 확인
updated_data_types = data.dtypes

updated_data_types


ID                     object
timestamp      datetime64[ns]
item                   object
corporation            object
location               object
supply(kg)            float64
price(원/kg)           float64
dtype: object

In [31]:
# 데이터를 시간 순으로 정렬
data_sorted = data.sort_values(by='timestamp')

# 'forward fill'을 사용하여 0 값을 대체
data_ffill = data_sorted.copy()
data_ffill['supply(kg)'] = data_ffill['supply(kg)'].replace(0, method='ffill')
data_ffill['price(원/kg)'] = data_ffill['price(원/kg)'].replace(0, method='ffill')

# 'backward fill'을 사용하여 남은 0 값을 대체 (처음 시작하는 0 값들에 대해)
data_ffill['supply(kg)'] = data_ffill['supply(kg)'].replace(0, method='bfill')
data_ffill['price(원/kg)'] = data_ffill['price(원/kg)'].replace(0, method='bfill')

# 대체 후의 데이터 확인
data_ffill.describe()


Unnamed: 0,supply(kg),price(원/kg)
count,59397.0,59397.0
mean,25068.54,3372.514723
std,71074.8,2544.811717
min,6.0,50.0
25%,1121.0,1250.0
50%,4855.0,2539.0
75%,18860.0,5467.0
max,1222800.0,20909.0


In [36]:
# 범주형 변수에 대한 원-핫 인코딩 수행
categorical_columns = ['item', 'corporation', 'location']
data_encoded = pd.get_dummies(data_ffill, columns=categorical_columns)

# 인코딩 결과 확인
data_encoded.head()


Unnamed: 0,ID,timestamp,supply(kg),price(원/kg),item_BC,item_CB,item_CR,item_RD,item_TG,corporation_A,corporation_B,corporation_C,corporation_D,corporation_E,corporation_F,location_J,location_S
0,TG_A_J_20190101,2019-01-01,50752.0,1692.0,0,0,0,0,1,1,0,0,0,0,0,1,0
27414,CB_A_S_20190101,2019-01-01,50752.0,1692.0,0,1,0,0,0,1,0,0,0,0,0,0,1
36552,RD_D_J_20190101,2019-01-01,50752.0,1692.0,0,0,0,1,0,0,0,0,1,0,0,1,0
51782,BC_D_J_20190101,2019-01-01,50752.0,1692.0,1,0,0,0,0,0,0,0,1,0,0,1,0
56351,CB_F_J_20190101,2019-01-01,50752.0,1692.0,0,1,0,0,0,0,0,0,0,0,1,1,0


In [38]:
# ID 컬럼 제거
data_encoded = data_encoded.drop('ID', axis=1)

# timestamp 컬럼을 연도, 월, 일, 요일로 분해
data_encoded['year'] = data_encoded['timestamp'].dt.year
data_encoded['month'] = data_encoded['timestamp'].dt.month
data_encoded['day'] = data_encoded['timestamp'].dt.day
data_encoded['weekday'] = data_encoded['timestamp'].dt.weekday

# 원래의 timestamp 컬럼 제거
data_encoded = data_encoded.drop('timestamp', axis=1)

# 최종 데이터프레임 확인
data_encoded.head()


Unnamed: 0,supply(kg),price(원/kg),item_BC,item_CB,item_CR,item_RD,item_TG,corporation_A,corporation_B,corporation_C,corporation_D,corporation_E,corporation_F,location_J,location_S,year,month,day,weekday
0,50752.0,1692.0,0,0,0,0,1,1,0,0,0,0,0,1,0,2019,1,1,1
27414,50752.0,1692.0,0,1,0,0,0,1,0,0,0,0,0,0,1,2019,1,1,1
36552,50752.0,1692.0,0,0,0,1,0,0,0,0,1,0,0,1,0,2019,1,1,1
51782,50752.0,1692.0,1,0,0,0,0,0,0,0,1,0,0,1,0,2019,1,1,1
56351,50752.0,1692.0,0,1,0,0,0,0,0,0,0,0,1,1,0,2019,1,1,1


In [57]:
# 최종 예측을 위해 테스트 데이터를 준비합니다.

# 이미 훈련 데이터셋에서 사용한 동일한 전처리를 적용해야 합니다.
# 테스트 데이터에서 더미 변수 생성
X_test = dataframes['test'].drop(columns=['ID', 'timestamp'])
X_test = pd.get_dummies(X_test, columns=['item', 'corporation', 'location'])

# 훈련 데이터에 있는 모든 더미 변수가 테스트 데이터에도 포함되도록 합니다.
X_test_aligned = X_train.align(X_test, join='left', axis=1, fill_value=0)[1]

# XGBoost 모델을 사용하여 테스트 데이터셋에 대한 최종 예측을 수행합니다.
y_test_pred = xgb_model.predict(X_test_aligned)

# 예측된 값들을 확인합니다.
y_test_pred[:10]  # 처음 10개의 예측값을 출력합니다.



array([4067.0872, 4067.0872, 4067.0872, 4067.0872, 4067.0872, 4067.0872,
       4067.0872, 4067.0872, 4067.0872, 4067.0872], dtype=float32)

In [64]:
y_test_pred.shape[0]

1092

In [66]:
import pandas as pd

# 샘플 제출 파일 로드
sample_submission = pd.read_csv('sample_submission.csv')

# 예측 모델을 사용하여 train.csv 데이터에 대한 가격을 예측 (가정)
# (여기서 xgb_model은 이미 훈련된 XGBoost 모델이고, X_test는 예측에 사용할 특성 데이터입니다.)
# y_pred = xgb_model.predict(X_test)

# 예측 결과를 샘플 제출 파일에 할당
sample_submission['price'] = y_pred  # 여기서 'price'는 샘플 파일의 가격 컬럼 이름입니다.

# 파일로 저장
submission_file_path = 'my_submission.csv'
sample_submission.to_csv(submission_file_path, index=False)

# 저장된 파일 경로를 출력
print(f"Submission file saved to: {submission_file_path}")


ValueError: Length of values (11880) does not match length of index (1092)