# 2393096 AI응용학과 황인서 머신러닝 기말과제

주제: xgboost를 활용하여 소셜 네트워크 광고 클릭 예측

## 1 - 기말과제 개요

- 목표: 온라인 광고 클릭 예측 
- 모델: XGBoost
- 데이터: https://data.mendeley.com/datasets/wrvjmdtjd9/1
- 목표 변수: 클릭 수

## 2 - 패키지 설치

- 이 과제 중에 필요한 모든 패키지 가져오기

In [361]:
!pip install xgboost
!pip install scikit-learn



In [362]:
# 패키지 설치
import pandas as pd
import xgboost as xgb
import numpy as np
from sklearn.model_selection import GridSearchCV, train_test_split
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

## 3 - 데이터 가져오기

모델 훈련에 사용할 데이터 가져오기
- 데이터는 10000개의 행과 16개의 열을 가진 데이터프레임
- 이용자 정보(나이, 성별, 수입 등등)와 광고 정보(광고 id, 광고 주제, 광고 타입 등등), 목표 변수(클릭률, CTR 등)를 포함

In [389]:
# 원본 데이터를 저장
url = 'https://github.com/inseo831/-/raw/main/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D%20%EA%B8%B0%EB%A7%90%EA%B3%BC%EC%A0%9C%20%EB%8D%B0%EC%9D%B4%ED%84%B0.xlsx'
 
data = pd.read_excel(url)

In [390]:
# 데이터 확인
print(data.head(3))

   Age  Gender  Gender_num    Income  Location  Location_num  Ad.Id Ad.Type  \
0   31    Male           0  25623.37     Rural             0      9   Video   
1   49  Female           1  50912.94  Suburban             1     28  Native   
2   27  Female           1  55550.91     Rural             0     34   Video   

   Ad.Type_num    Ad.Topic  Ad.Topic_num  Ad.Placement  Ad.Placement_num  \
0            3  Technology             4       Website                 2   
1            1  Technology             4  Social Media                 1   
2            3     Fashion             0       Website                 2   

   Clicks  Conversion.Rate     CTR  
0       1           0.1568  0.0784  
1       5           0.3004  0.0448  
2       3           0.5044  0.0283  


## 4 - 데이터 인코딩 및 준비

사용할 데이터를 저장하고 변환이 필요에 따라 데이터를 전처리하여 저장
- 변환이 필요한 데이터: 'Gender', 'Income', 'Location', 'Ad.Id', 'Ad.Type', 'Ad.Topic', 'Ad.Placement'
   - 'Gender': 성별 (Male/Female)
   - 'Income': 수입 (구체적인 수치가 아닌 구간으로 변환)
   - 'Location': 이용자 위치 (Urban/Rural/Suburban)
   - 'Ad.Id': 광고 ID (광고 구분)
   - 'Ad.Type': 광고 타입 (Banner/Native/Text/Video)
   - 'Ad.Topic': 광고 주제 (Fashion/Finance/Food/Health/Technology/Travel)
   - 'Ad.Placement': 광고 위치 (Search Engine/Social Media/Website)
- 데이터 전처리:
   - 범주형 데이터를 라벨 인코딩 or 원-핫 인코딩으로 변환
   - 결측값 처리: 누락된 데이터를 적절히 처리
   - 이상값 처리: Age가 -3, Income이 $10^9$ 등 비정상적인 값 처리 혹은 변환

In [391]:
# 사용할 데이터 저장
data1=data[['Age','Gender','Income','Location','Ad.Id','Ad.Type','Ad.Topic','Ad.Placement','Clicks']]

In [392]:
# 인코딩할 열 지정 및 인코딩
encode_columns= ['Gender', 'Location','Ad.Id','Ad.Type', 'Ad.Topic', 'Ad.Placement']
data_encoded = pd.get_dummies(data1, columns=encode_columns, drop_first=False)
data_encoded = data_encoded.astype(int)

In [393]:
# Income를 구간별로 나누는 함수 정의 (열 기준으로 처리)
def income_category(Income):
    if 10001 <= Income <= 20000:
        return 'income_10001_20000'
    elif 20001 <= Income <= 30000:
        return 'income_20001_30000'
    elif 30001 <= Income <= 40000:
        return 'income_30001_40000'
    elif 40001 <= Income <= 50000:
        return 'income_40001_50000'
    elif 50001 <= Income <= 60000:
        return 'income_50001_60000'
    elif 60001 <= Income <= 70000:
        return 'income_60001_70000'
    elif 70001 <= Income <= 80000:
        return 'income_70001_80000'
    else:
        return 'income_above_90000'

# Age를 구간별로 나누는 함수 정의 (열 기준으로 처리)
def age_category(Age):
    if 20 <= Age <= 29:
        return 'age_20_29'
    elif 30 <= Age <= 39:
        return 'age_30_39'
    elif 40 <= Age <= 49:
        return 'age_40_49'
    elif 50 <= Age <= 59:
        return 'age_50_59'
    else:
        return 'age_above_60'

In [394]:
# 열을 구간별로 분류한 새로운 열 생성
data_encoded['income_category'] = data_encoded['Income'].apply(income_category)
data_encoded['age_category'] = data_encoded['Age'].apply(age_category)

# 인코딩 적용
new_data_encoded = pd.get_dummies(data_encoded, columns=['income_category', 'age_category'])
new_data_encoded = new_data_encoded.astype(int)

In [395]:
# 데이터 확인
print(new_data_encoded.head(3))  

   Age  Income  Clicks  Gender_Female  Gender_Male  Location_Rural  \
0   31   25623       1              0            1               1   
1   49   50912       5              1            0               0   
2   27   55550       3              1            0               1   

   Location_Suburban  Location_Urban  Ad.Id_1  Ad.Id_2  ...  \
0                  0               0        0        0  ...   
1                  1               0        0        0  ...   
2                  0               0        0        0  ...   

   income_category_income_20001_30000  income_category_income_30001_40000  \
0                                   1                                   0   
1                                   0                                   0   
2                                   0                                   0   

   income_category_income_40001_50000  income_category_income_50001_60000  \
0                                   0                                   0   
1  

In [396]:
# 데이터 열 확인
print(new_data_encoded.columns)

Index(['Age', 'Income', 'Clicks', 'Gender_Female', 'Gender_Male',
       'Location_Rural', 'Location_Suburban', 'Location_Urban', 'Ad.Id_1',
       'Ad.Id_2',
       ...
       'income_category_income_20001_30000',
       'income_category_income_30001_40000',
       'income_category_income_40001_50000',
       'income_category_income_50001_60000',
       'income_category_income_60001_70000',
       'income_category_income_70001_80000', 'age_category_age_20_29',
       'age_category_age_30_39', 'age_category_age_40_49',
       'age_category_age_50_59'],
      dtype='object', length=104)


In [397]:
# 사용할 데이터 추출
user_data=new_data_encoded[['age_category_age_20_29', 'age_category_age_30_39',
                           'age_category_age_40_49', 'age_category_age_50_59',
                           'Gender_Female', 'Gender_Male', 'income_category_income_10001_20000',
                           'income_category_income_20001_30000', 'income_category_income_30001_40000',
                           'income_category_income_40001_50000', 'income_category_income_50001_60000',
                           'income_category_income_60001_70000', 'income_category_income_70001_80000',
                           'Location_Rural', 'Location_Suburban', 'Location_Urban']]

ad_data=new_data_encoded[['Ad.Id_1', 'Ad.Id_2', 'Ad.Id_3','Ad.Id_4', 'Ad.Id_5', 'Ad.Id_6', 'Ad.Id_7', 'Ad.Id_8', 'Ad.Id_9',
                         'Ad.Id_10', 'Ad.Id_11', 'Ad.Id_12', 'Ad.Id_13', 'Ad.Id_14', 'Ad.Id_15', 'Ad.Id_16', 'Ad.Id_17', 'Ad.Id_18',
                         'Ad.Id_19', 'Ad.Id_20', 'Ad.Id_21', 'Ad.Id_22', 'Ad.Id_23', 'Ad.Id_24', 'Ad.Id_25', 'Ad.Id_26', 'Ad.Id_27',
                         'Ad.Id_28', 'Ad.Id_29', 'Ad.Id_30', 'Ad.Id_31', 'Ad.Id_32', 'Ad.Id_33', 'Ad.Id_34', 'Ad.Id_35', 'Ad.Id_36',
                         'Ad.Id_37', 'Ad.Id_38', 'Ad.Id_39', 'Ad.Id_40', 'Ad.Id_41', 'Ad.Id_42', 'Ad.Id_43', 'Ad.Id_44', 'Ad.Id_45',
                         'Ad.Id_46', 'Ad.Id_47', 'Ad.Id_48', 'Ad.Id_49', 'Ad.Id_50', 'Ad.Id_51', 'Ad.Id_52', 'Ad.Id_53', 'Ad.Id_54',
                         'Ad.Id_55', 'Ad.Id_56', 'Ad.Id_57', 'Ad.Id_58', 'Ad.Id_59', 'Ad.Id_60', 'Ad.Id_61', 'Ad.Id_62', 'Ad.Id_63',
                         'Ad.Id_64', 'Ad.Id_65', 'Ad.Id_66', 'Ad.Id_67', 'Ad.Id_68', 'Ad.Id_69', 'Ad.Id_70', 'Ad.Id_71', 'Ad.Id_72',
                         'Ad.Type_Banner', 'Ad.Type_Native', 'Ad.Type_Text', 'Ad.Type_Video', 'Ad.Topic_Fashion', 'Ad.Topic_Finance',
                         'Ad.Topic_Food', 'Ad.Topic_Health', 'Ad.Topic_Technology', 'Ad.Topic_Travel', 'Ad.Placement_Search Engine',
                         'Ad.Placement_Social Media', 'Ad.Placement_Website']]

click=new_data_encoded[['Clicks']]

In [398]:
# 데이터 확인
print(user_data.head(3))
print(ad_data.head(3))
print(click.head(3))

   age_category_age_20_29  age_category_age_30_39  age_category_age_40_49  \
0                       0                       1                       0   
1                       0                       0                       1   
2                       1                       0                       0   

   age_category_age_50_59  Gender_Female  Gender_Male  \
0                       0              0            1   
1                       0              1            0   
2                       0              1            0   

   income_category_income_10001_20000  income_category_income_20001_30000  \
0                                   0                                   1   
1                                   0                                   0   
2                                   0                                   0   

   income_category_income_30001_40000  income_category_income_40001_50000  \
0                                   0                                   0   

## 5 -  모델 훈련

- 훈련 데이터 준비:
  - X (특성): 이용자 정보(성별, 나이...), 광고 정보(주제, 위치...)
  - y (목표 변수): 클릭 수 또는 클릭률
- XGBoost 모델 훈련:
  - 학습 파라미터 설정: learning_rate, n_estimators, max_depth 등
  - 교차 검증 (Cross-validation): 과적합 방지를 위한 모델 평가
  - 모델 훈련: 훈련 데이터를 이용해 모델 학습

In [399]:
# 데이터 하나로 합쳐 저장
X = pd.concat([user_data, ad_data], axis=1)

# 목표 변수 데이터 저장
y = click

# 훈련 데이터와 테스트 데이터 분리 (8 : 2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [400]:
# 데이터 확인
print(X.head(3))
print(y.head(3))

   age_category_age_20_29  age_category_age_30_39  age_category_age_40_49  \
0                       0                       1                       0   
1                       0                       0                       1   
2                       1                       0                       0   

   age_category_age_50_59  Gender_Female  Gender_Male  \
0                       0              0            1   
1                       0              1            0   
2                       0              1            0   

   income_category_income_10001_20000  income_category_income_20001_30000  \
0                                   0                                   1   
1                                   0                                   0   
2                                   0                                   0   

   income_category_income_30001_40000  income_category_income_40001_50000  \
0                                   0                                   0   

In [401]:
# 데이터 확인
print(f'훈련 데이터 크기: {X_train.shape[0]}')
print(f'테스트 데이터 크기: {X_test.shape[0]}')
print(type(X_train))
print(X_train.shape)

훈련 데이터 크기: 8000
테스트 데이터 크기: 2000
<class 'pandas.core.frame.DataFrame'>
(8000, 101)


In [402]:
train_data = xgb.DMatrix(X_train, label=y_train)
test_data = xgb.DMatrix(X_test, label=y_test)

In [403]:
# 모델 선택 및 훈련
model = xgb.train({'objective': 'reg:squarederror'}, train_data, num_boost_round=100)

# 예측
y_pred = model.predict(test_data)

In [404]:
# 예측값 출력
print(y_pred)

[2.7134905 2.713997  2.9105706 ... 3.7541256 4.156489  3.7996786]


## 6 -  모델 최적화

- 하이퍼파라미터 튜닝을 통해 모델 성능을 최적화

In [406]:
# 최적화된 하이퍼파라미터 후보
param_grid = {
    'learning_rate': [0.006],
    'n_estimators': [76],
    'max_depth': [0],
    'min_child_weight': [0],
    'subsample': [0.5],
    'colsample_bytree': [0.6],
    'gamma': [0],
    'scale_pos_weight': [1],
    'lambda': [1],
    'alpha': [0.12]
}

In [407]:
# 모델 정의
xgb_model = xgb.XGBRegressor(objective='reg:squarederror')

# GridSearchCV 실행
grid_search = GridSearchCV(estimator=xgb_model, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 1 candidates, totalling 5 fits


In [408]:
# 최적 모델로 예측
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

In [409]:
# 최적화된 모델 평가
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse}")
print(f"R² Score: {r2}")

# 예측 결과 출력
print(y_pred)

Mean Squared Error (MSE): 1.5241131837616109
R² Score: 0.0029937835577096283
[3.4385657 3.51693   3.591463  ... 3.5789125 3.7174716 3.6238024]


## 7 -  광고 효과 분석

- 클릭 수를 기반으로 광고 효과를 분석하여 데이터 프레임으로 저장

In [410]:
# 광고 효과를 구분하는 함수
def categorize_ad_effect(clicks):
    if 0 <= clicks <= 1:
        return '효과 없음'
    elif 2 <= clicks <= 3:
        return '적당함'
    elif 4 <= clicks <= 5:
        return '효과 있음'
    else:
        return '알 수 없음'

In [411]:
# 예측값에 대한 광고 효과 구분
ad_effect = [categorize_ad_effect(round(click)) for click in y_pred]

# 결과를 데이터프레임으로 저장
result_df = pd.DataFrame({
    '예측 (소수)': y_pred,
    '반올림': [round(click) for click in y_pred],
    '광고 효과': ad_effect
})

In [412]:
# 결과 출력
print(result_df)

       예측 (소수)  반올림  광고 효과
0     3.438566    3    적당함
1     3.516930    4  효과 있음
2     3.591463    4  효과 있음
3     3.556617    4  효과 있음
4     3.470915    3    적당함
...        ...  ...    ...
1995  3.529416    4  효과 있음
1996  3.501325    4  효과 있음
1997  3.578912    4  효과 있음
1998  3.717472    4  효과 있음
1999  3.623802    4  효과 있음

[2000 rows x 3 columns]


## 8 -  결과 분석

모델이 평균 정도의 분석만 가능하고 결과값의 오차가 약 1.3 정도 발생한다. 사용한 데이터, 모델 훈련 방식 or 기간 등 문제점들을 보완하여 추후에 모델 재훈련이 필요함.
