In [10]:
#[1단계] 데이터셋 준비 및 특성/타겟 분리

import pandas as pd # 데이터 처리를 위한 pandas 라이브러리 임포트

# 1.CSV 파일 불러오기
# 'starcraft_units.csv' 파일을 읽어와 'df_sc'라는 데이터프레임으로 저장합니다.
# 이 파일은 현재 Jupyter Notebook이 실행되는 폴더에 있어야 합니다.
# 파일명:starcraft_units.csv, 컬럼명: 한글로 유지됩니다.
df_sc = pd.read_csv('starcraft_units.csv')

print("---원본 스타크래프트 유닛 데이터프레임 (상위 5개 행)---")
print(df_sc.head()) # .head()는 데이터프레임의 맨 위 5개 행을 보여줍니다.
print("\n")

# --- 회귀 모델을 위한 데이터 분리 ---
# 회귀 모델은 '연속적인 숫자 값' (예: 온도, 가격, 승률 등)을 예측하는데 사용됩니다.

# 2.회귀 모델을 위한 특성(X_reg)과 타겟(y_reg) 분리
# 목표: 유닛의 능력체(미네랄_비용, 체력, 공격력) 등 을 사용아여 '예상_승률'을 예측합니다.

#'특성(Features, X)': 모델이 학습할 '입력' 데이터입니다. 예측을 위해 사용될 정보들입니다.
#df_sc.drop(): 데이터프레임에서 특정 컬럼(열)을 제거하는 함수입니다.
#['예상_승률','강한_유닛_여부']: 제거할 칼럼들의 이름입니다.
#'예상_승률'은 예측 대상(타겟)이므로 특성에서 제외하고,
#'강한_유닛_여부'도 다른 예측 대상(타겟)이므로 특성에서 제외합니다.
# axis=1: 컬럼(열)을 제거하라는 의미입니다. (axis=0은 행을 제거)
X_reg = df_sc.drop(['예상_승률', '강한_유닛_여부'], axis=1)

# '타겟(Target, y)': 모델이 예측해야 할 '정답' 데이터입니다.
# df_sc[예상_승률]: 데이터프레임에서 '예상_승률'이라는 이름의 컬럼(열)만 선택합니다.

y_reg = df_sc['예상_승률']

print("--- 회귀 모델 특성(X_reg) 데이터프레임 (상위 5개 행) ---")
print(X_reg.head())
print("\n")

print("--- 회귀 모델 타겟(y_reg) 시리즈 (상위 5개) ---")
# '예상_승률' 컬럼만 분리되어 Series 형태로 나타난 것을 확인하세요.
print(y_reg.head())
print("\n")

# --- 분류 모델을 위한 데이터 분리 ---
# 분류 모델은 '범주형 값' (예: 스팸/정상, 이탈/유지, 강함/약함 등)을 예측하는 데 사용됩니다.

# 3. 분류 모델을 위한 특성(X_clf)과 타겟(y_clf) 분리
# 목표: 유닛의 능력치(위와 동일)를 사용하여 '강한_유닛_여부' (0은 약함, 1은 강함)를 분류합니다.
# 여기서는 외귀 모델과 동일한 입력 특성을 사용하되, 타겟만 '강한_유닛_여부'로 변경합니다.

X_clf = df_sc.drop(['예상_승률','강한_유닛_여부'],axis=1)

# '강한_유닛_여부' 컬럼을 분류 모델의 타겟(y_clf)으로 선택합니다.
y_clf = df_sc['강한_유닛_여부']

print("--- 분류 모델 타겟(y_clf) 시리즈 (상위 5개) ---")
# '강한_유닛_여부' 컬럼만 분리되어 Series 형태로 나타난 것을 확인하세요.
print(y_clf.head())
print("\n")

#[2단계] 학습 세트와 테스트 세트 분리
from sklearn.model_selection import train_test_split # 데이터 분할을 위한 함수 임포트

#회귀 모델 데이터 분리
# X_reg, y_reg: 위 1단계에서 정의된 회귀용 특성/타겟 데이터입니다.
# test_size = 0.3: 전체 데이터의 30%를 테스트 세트로 사용하겠다는 의미입니다.
# random_state = 42: 데이터분할을 고정하는 난수 시드입니다.
# 이 값을 설정하면 코드를 다시 실행해도 항상 동일한 학습/테스트 세트가 생성되어
# 결과를 일관성 있게 재현할 수 있습니다. AICE 시험에서 중요합니다!

X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size = 0.3, random_state=42)

print("--- 회귀 모델 학습 세트(X_train_reg) 크기 ---")
print(X_train_reg.shape) #(샘플 수, 특성 수) 형태로 출력됩니다.
print("\n")

print("---회귀 모델 테스트 세트(X_test_reg) 크기 ---")
print(X_test_reg.shape) # (샘플 수, 특성 수)
print("\n")

print("---회귀 모델 학습 세트(y_train_reg) 크기 ---")
print(Y_train_reg.shape)
print("\n")

print("---회귀 모델 테스트 세트(y_test_reg) 크기 ---")
print(y_test_reg.shape) 
print("\n")

# 분류 모델 데이터 분리(회귀와 동일한 비율과 random_state 사용)
# X_clf, y_clf: 위 1단계에서 정의된 분류용 특성/타겟 데이터입니다.


---원본 스타크래프트 유닛 데이터프레임 (상위 5개 행)---
      유닛명    종족  미네랄_비용  가스_비용   체력  공격력  공격_속도  공중_유닛_여부  예상_승률  강한_유닛_여부
0      해병    테란      50      0   45    6    1.0         0   0.55         0
1     저글링    저그      25      0   35    5    0.7         0   0.52         0
2     광전사  프로토스     100      0  100    8    1.2         0   0.60         0
3      불곰    테란     100     25  125   10    1.5         0   0.65         0
4  히드라리스크    저그      75     25   80   12    1.3         0   0.68         0


--- 회귀 모델 특성(X_reg) 데이터프레임 (상위 5개 행) ---
       유닛명    종족  미네랄_비용  가스_비용   체력  공격력  공격_속도  공중_유닛_여부
0       해병    테란      50      0   45    6    1.0         0
1      저글링    저그      25      0   35    5    0.7         0
2      광전사  프로토스     100      0  100    8    1.2         0
3       불곰    테란     100     25  125   10    1.5         0
4   히드라리스크    저그      75     25   80   12    1.3         0
5      추적자  프로토스     125     50   80   10    1.4         0
6      바이킹    테란     150     75  125   10    2.0         1