In [6]:
#[1단계] 데이터셋 준비 및 특성/타겟 분리

import pandas as pd # 데이터 처리를 위한 pandas 라이브러리 임포트

# 1. CSV 파일 불러오기
# 'starcraft_units.csv' 파일을 읽어와 'df_sc'라는 데이터프레임으로 저장합니다.
# 이 파일은 현재 Jupyter Notebook이 실행되는 폴더에 있어야 합니다.
# 파일명: starcraft_units.csv, 컬럼명: 한글로 유지됩니다.
df_sc = pd.read_csv('starcraft_units.csv')

print("--- 원본 스타크래프트 유닛 데이터프레임 (상위 5개 행) ---")
print(df_sc.head()) # .head()는 데이터프레임의 맨 위 5개 행을 보여줍니다.
print("\n")

# --- 회귀 모델을 위한 데이터 분리 ---
# 회귀 모델은 '연속적인 숫자 값' (예: 온도, 가격, 승률 등)을 예측하는 데 사용됩니다.

# 2. 회귀 모델을 위한 특성(X_reg)과 타겟(y_reg) 분리
# 목표: 유닛의 능력치(미네랄_비용, 체력, 공격력 등)를 사용하여 '예상_승률'을 예측합니다.

# '특성 (Features, X)': 모델이 학습할 '입력' 데이터입니다. 예측을 위해 사용될 정보들입니다.
# df_sc.drop(): 데이터프레임에서 특정 컬럼(열)을 제거하는 함수입니다.
# ['예상_승률', '강한_유닛_여부']: 제거할 컬럼들의 이름입니다.
#                               '예상_승률'은 예측 대상(타겟)이므로 특성에서 제외하고,
#                               '강한_유닛_여부'도 다른 예측 대상(분류 타겟)이므로 특성에서 제외합니다.
# axis=1: 컬럼(열)을 제거하라는 의미입니다. (axis=0은 행을 제거)
X_reg = df_sc.drop(['예상_승률', '강한_유닛_여부'], axis=1) # <- 한글 컬럼명 적용

# '타겟 (Target, y)': 모델이 예측해야 할 '정답' 데이터입니다.
# df_sc['예상_승률']: 데이터프레임에서 '예상_승률'이라는 이름의 컬럼(열)만 선택합니다.
y_reg = df_sc['예상_승률'] # <- 한글 컬럼명 적용

print("--- 회귀 모델 특성(X_reg) 데이터프레임 (상위 5개 행) ---")
# '예상_승률'과 '강한_유닛_여부' 컬럼이 사라지고, 유닛의 능력치들만 남은 것을 확인하세요.
print(X_reg.head())
print("\n")

print("--- 회귀 모델 타겟(y_reg) 시리즈 (상위 5개) ---")
# '예상_승률' 컬럼만 분리되어 Series 형태로 나타난 것을 확인하세요.
print(y_reg.head())
print("\n")

# --- 분류 모델을 위한 데이터 분리 ---
# 분류 모델은 '범주형 값' (예: 스팸/정상, 이탈/유지, 강함/약함 등)을 예측하는 데 사용됩니다.

# 3. 분류 모델을 위한 특성(X_clf)과 타겟(y_clf) 분리
# 목표: 유닛의 능력치(위와 동일)를 사용하여 '강한_유닛_여부' (0은 약함, 1은 강함)를 분류합니다.
# 여기서는 회귀 모델과 동일한 입력 특성을 사용하되, 타겟만 '강한_유닛_여부'로 변경합니다.
X_clf = df_sc.drop(['예상_승률', '강한_유닛_여부'], axis=1) # <- 한글 컬럼명 적용

# '강한_유닛_여부' 컬럼을 분류 모델의 타겟(y_clf)으로 선택합니다.
y_clf = df_sc['강한_유닛_여부'] # <- 한글 컬럼명 적용

print("--- 분류 모델 타겟(y_clf) 시리즈 (상위 5개) ---")
# '강한_유닛_여부' 컬럼만 분리되어 Series 형태로 나타난 것을 확인하세요.
print(y_clf.head())
print("\n")

--- 원본 스타크래프트 유닛 데이터프레임 (상위 5개 행) ---
      유닛명    종족  미네랄_비용  가스_비용   체력  공격력  공격_속도  공중_유닛_여부  예상_승률  강한_유닛_여부
0      해병    테란      50      0   45    6    1.0         0   0.55         0
1     저글링    저그      25      0   35    5    0.7         0   0.52         0
2     광전사  프로토스     100      0  100    8    1.2         0   0.60         0
3      불곰    테란     100     25  125   10    1.5         0   0.65         0
4  히드라리스크    저그      75     25   80   12    1.3         0   0.68         0


--- 회귀 모델 특성(X_reg) 데이터프레임 (상위 5개 행) ---
      유닛명    종족  미네랄_비용  가스_비용   체력  공격력  공격_속도  공중_유닛_여부
0      해병    테란      50      0   45    6    1.0         0
1     저글링    저그      25      0   35    5    0.7         0
2     광전사  프로토스     100      0  100    8    1.2         0
3      불곰    테란     100     25  125   10    1.5         0
4  히드라리스크    저그      75     25   80   12    1.3         0


--- 회귀 모델 타겟(y_reg) 시리즈 (상위 5개) ---
0    0.55
1    0.52
2    0.60
3    0.65
4    0.68
Name: 예상_승률, dtype: float64


---

In [9]:
#[2단계] 학습 세트와 테스트 세트 분리
from sklearn.model_selection import train_test_split # 데이터 분할을 위한 함수 임포트

# 회귀 모델 데이터 분리
# X_reg, y_reg: 위 1단계에서 정의된 회귀용 특성/타겟 데이터입니다.
# test_size=0.3: 전체 데이터의 30%를 테스트 세트로 사용하겠다는 의미입니다.
# random_state=42: 데이터 분할을 고정하는 난수 시드입니다.
#                  이 값을 설정하면 코드를 다시 실행해도 항상 동일한 학습/테스트 세트가 생성되어
#                  결과를 일관성 있게 재현할 수 있습니다. AICE 시험에서 중요합니다!
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.3, random_state=42)

print("--- 회귀 모델 학습 세트(X_train_reg) 크기 ---")
print(X_train_reg.shape) # (샘플 수, 특성 수) 형태로 출력됩니다.
print("\n")

print("--- 회귀 모델 테스트 세트(X_test_reg) 크기 ---")
print(X_test_reg.shape) # (샘플 수, 특성 수)
print("\n")

print("--- 회귀 모델 학습 세트(y_train_reg) 크기 ---")
print(y_train_reg.shape) # (샘플 수,) 형태로 출력됩니다.
print("\n")

print("--- 회귀 모델 테스트 세트(y_test_reg) 크기 ---")
print(y_test_reg.shape) # (샘플 수,)
print("\n")


# 분류 모델 데이터 분리 (회귀와 동일한 비율과 random_state 사용)
# X_clf, y_clf: 위 1단계에서 정의된 분류용 특성/타겟 데이터입니다.
X_train_clf, X_test_clf, y_train_clf, y_test_clf = train_test_split(X_clf, y_clf, test_size=0.3, random_state=42)

print("--- 분류 모델 학습 세트(X_train_clf) 크기 ---")
print(X_train_clf.shape)
print("\n")

print("--- 분류 모델 테스트 세트(X_test_clf) 크기 ---")
print(X_test_clf.shape)
print("\n")

--- 회귀 모델 학습 세트(X_train_reg) 크기 ---
(68, 8)


--- 회귀 모델 테스트 세트(X_test_reg) 크기 ---
(30, 8)


--- 회귀 모델 학습 세트(y_train_reg) 크기 ---
(68,)


--- 회귀 모델 테스트 세트(y_test_reg) 크기 ---
(30,)


--- 분류 모델 학습 세트(X_train_clf) 크기 ---
(68, 8)


--- 분류 모델 테스트 세트(X_test_clf) 크기 ---
(30, 8)




In [13]:
#[3단계] 머신러닝 모델 구축 및 평가: 회귀 (승률 예측)
from sklearn.linear_model import LinearRegression # 선형 회귀 모델 임포트
from sklearn.metrics import mean_squared_error, r2_score # 회귀 모델 평가 지표 임포트
from sklearn.preprocessing import OneHotEncoder, StandardScaler # 데이터 전처리 도구 임포트
from sklearn.compose import ColumnTransformer # 다양한 컬럼에 다른 전처리를 적용하기 위한 도구 임포트
from sklearn.pipeline import Pipeline # 전처리 단계와 모델 학습 단계를 하나로 묶기 위한 도구 임포트

# 1. 전처리 파이프라인 정의 (ColumnTransformer 활용)
categorical_features_reg = ['종족'] # 한글 컬럼명 적용
numerical_features_reg = ['미네랄_비용', '가스_비용', '체력', '공격력', '공격_속도', '공중_유닛_여부'] # 한글 컬럼명 적용

preprocessor_reg = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features_reg),
        ('num', StandardScaler(), numerical_features_reg)
    ],
    remainder='drop' # '유닛명' 컬럼은 이 단계에서 제거됩니다.
)

# 2. 최종 모델 파이프라인 구축 (전처리 + 모델)
model_pipeline_regression_sc = Pipeline(steps=[
    ('preprocessor', preprocessor_reg),
    ('regressor', LinearRegression())
])

# 3. 모델 학습 (fit)
print("--- 유닛 예상 승률 예측 모델 학습 시작 ---")
model_pipeline_regression_sc.fit(X_train_reg, y_train_reg)
print("--- 유닛 예상 승률 예측 모델 학습 완료 ---")
print("\n")

# 4. 테스트 세트로 예측 수행 (predict)
y_pred_reg_sc = model_pipeline_regression_sc.predict(X_test_reg)

print("--- 테스트 세트 유닛별 실제 승률 vs. 예측 승률 ---")
# 예측 결과를 더 쉽게 이해하기 위해, 실제 유닛명과 실제 승률, 예측된 승률을 함께 출력합니다.

# X_test_reg의 인덱스를 사용하여 원본 df_sc에서 '유닛명'과 실제 '예상_승률'을 가져옵니다.
# 주의: X_test_reg는 이미 '유닛명' 컬럼이 제거된 상태이므로, 원본 df_sc에서 직접 가져와야 합니다.
comparison_df_reg = pd.DataFrame({
    '유닛명': df_sc.loc[X_test_reg.index, '유닛명'], # X_test_reg의 인덱스에 해당하는 유닛명 가져오기
    '실제_예상_승률': y_test_reg,
    '예측된_예상_승률': y_pred_reg_sc
})

print(comparison_df_reg.head(10)) # 상위 10개만 출력해 봅니다.
print("\n")

# 5. 모델 성능 평가 (회귀)
mse_sc = mean_squared_error(y_test_reg, y_pred_reg_sc)
print(f"Mean Squared Error (MSE): {mse_sc:.4f}")

r2_sc = r2_score(y_test_reg, y_pred_reg_sc)
print(f"R-squared (R2 Score): {r2_sc:.4f}")

print("\n")

--- 유닛 예상 승률 예측 모델 학습 시작 ---
--- 유닛 예상 승률 예측 모델 학습 완료 ---


--- 테스트 세트 유닛별 실제 승률 vs. 예측 승률 ---
       유닛명  실제_예상_승률  예측된_예상_승률
62     해방선      0.75   0.745685
40     예언자      0.72   0.717727
94     불사조      0.78   0.731518
18     해방선      0.75   0.745685
81     분열기      0.70   0.729377
83   공허포격기      0.75   0.796027
64   땅거미지뢰      0.68   0.727355
42     폭풍함      0.90   0.910447
10  울트라리스크      0.92   0.896310
0       해병      0.55   0.574111


Mean Squared Error (MSE): 0.0018
R-squared (R2 Score): 0.8583




In [15]:
#[4단계] 머신러닝 모델 구축 및 평가: 분류 (강한 유닛 여부 예측)

from sklearn.linear_model import LogisticRegression # 로지스틱 회귀 모델 (분류) 임포트
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix # 분류 평가 지표 임포트
from sklearn.preprocessing import OneHotEncoder, StandardScaler # 데이터 전처리 도구 임포트
from sklearn.compose import ColumnTransformer # 다양한 컬럼에 다른 전처리를 적용하기 위한 도구 임포트
from sklearn.pipeline import Pipeline # 전처리 단계와 모델 학습 단계를 하나로 묶기 위한 도구 임포트

# 1. 전처리 파이프라인 정의 (회귀 모델과 동일한 방식 사용)
categorical_features_clf = ['종족'] # 한글 컬럼명 적용
numerical_features_clf = ['미네랄_비용', '가스_비용', '체력', '공격력', '공격_속도', '공중_유닛_여부'] # 한글 컬럼명 적용

preprocessor_clf = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features_clf),
        ('num', StandardScaler(), numerical_features_clf)
    ],
    remainder='drop' # '유닛명' 컬럼은 이 단계에서 제거됩니다.
)

# 2. 최종 모델 파이프라인 구축 (전처리 + 분류 모델)
model_pipeline_classification_sc = Pipeline(steps=[
    ('preprocessor', preprocessor_clf),
    ('classifier', LogisticRegression(random_state=42, solver='liblinear'))
])

# 3. 모델 학습 (fit)
print("--- 유닛 강함 여부 예측 모델 학습 시작 ---")
model_pipeline_classification_sc.fit(X_train_clf, y_train_clf)
print("--- 유닛 강함 여부 예측 모델 학습 완료 ---")
print("\n")

# 4. 테스트 세트로 예측 수행 (predict)
y_pred_clf_sc = model_pipeline_classification_sc.predict(X_test_clf)

print("--- 테스트 세트 유닛별 실제 강함 여부 vs. 예측 강함 여부 ---")
# 예측 결과를 더 쉽게 이해하기 위해, 실제 유닛명과 실제 강함 여부, 예측된 강함 여부를 함께 출력합니다.

# X_test_clf의 인덱스를 사용하여 원본 df_sc에서 '유닛명'과 실제 '강한_유닛_여부'를 가져옵니다.
# 3단계와 동일하게, X_test_clf에는 '유닛명' 컬럼이 없으므로 원본 df_sc에서 직접 가져와야 합니다.
comparison_df_clf = pd.DataFrame({
    '유닛명': df_sc.loc[X_test_clf.index, '유닛명'], # X_test_clf의 인덱스에 해당하는 유닛명 가져오기
    '실제_강한_유닛_여부': y_test_clf,
    '예측된_강한_유닛_여부': y_pred_clf_sc
})

print(comparison_df_clf.head(10)) # 상위 10개만 출력해 봅니다.
print("\n")

# 5. 모델 성능 평가 (분류)
accuracy_sc = accuracy_score(y_test_clf, y_pred_clf_sc)
print(f"Accuracy (정확도): {accuracy_sc:.2f}")

precision_sc = precision_score(y_test_clf, y_pred_clf_sc, zero_division=0)
print(f"Precision (정밀도): {precision_sc:.2f}")

recall_sc = recall_score(y_test_clf, y_pred_clf_sc, zero_division=0)
print(f"Recall (재현율): {recall_sc:.2f}")

f1_sc = f1_score(y_test_clf, y_pred_clf_sc, zero_division=0)
print(f"F1-Score: {f1_sc:.2f}")

cm_sc = confusion_matrix(y_test_clf, y_pred_clf_sc)
print("\n--- Confusion Matrix (혼동 행렬) ---")
print(cm_sc)

--- 유닛 강함 여부 예측 모델 학습 시작 ---
--- 유닛 강함 여부 예측 모델 학습 완료 ---


--- 테스트 세트 유닛별 실제 강함 여부 vs. 예측 강함 여부 ---
       유닛명  실제_강한_유닛_여부  예측된_강한_유닛_여부
62     해방선            1             0
40     예언자            0             0
94     불사조            0             0
18     해방선            1             0
81     분열기            0             0
83   공허포격기            0             0
64   땅거미지뢰            1             1
42     폭풍함            1             1
10  울트라리스크            1             1
0       해병            0             0


Accuracy (정확도): 0.93
Precision (정밀도): 1.00
Recall (재현율): 0.75
F1-Score: 0.86

--- Confusion Matrix (혼동 행렬) ---
[[22  0]
 [ 2  6]]
