In [5]:

#1단계: 데이터 준비 - 재료와 목표 나누기
import pandas as pd

# 'lol_champions.csv' 파일을 읽어와 'df_lol' 데이터프레임으로 저장합니다.
df_lol = pd.read_csv('lol_champions.csv')

# --- 소수점 출력 포맷 설정 ---
# pandas의 출력 옵션을 설정하여 모든 부동 소수점 숫자를 소수점 2자리까지 표시합니다.
pd.options.display.float_format = '{:.2f}'.format

print("--- 전체 챔피언 데이터 (상위 5개) ---")
print(df_lol.head())
print(f"총 챔피언 데이터 수: {len(df_lol)}개")
print("\n")

# --- 예측에 사용할 재료(X)와 목표(y) 나누기 ---

# '특성(Features, X)': 모델이 학습할 '입력' 재료입니다.
# 예측 목표인 '티어'와 '승률', 그리고 '챔피언명'은 재료에서 제외합니다.
X = df_lol.drop(['챔피언명', '티어', '승률'], axis=1)

# '목표 1: 승률 예측'을 위한 정답(y_reg)
y_reg = df_lol['승률']

# '목표 2: 티어 분류'를 위한 정답(y_clf)
y_clf = (df_lol['티어'] == 1).astype(int)

print("--- 예측 재료 데이터 (상위 5개) ---")
print(X.head())
print("\n")

print("--- 승률 예측 목표 데이터 (상위 5개) ---")
# .to_frame()을 사용하여 시리즈를 데이터프레임으로 변환해 출력 위치를 맞춥니다.
print(y_reg.head().to_frame())
print("\n")

print("--- 티어 분류 목표 데이터 (상위 5개) ---")
print(y_clf.head().to_frame())
print("\n")

--- 전체 챔피언 데이터 (상위 5개) ---
     챔피언명  포지션  난이도  공격력  방어력  마법저항력   체력   마나  이동속도  티어    승률    픽률  KDA
0      가렌   정글    1    8    5      7  671  466   347   1 51.59  9.42 3.98
1    이즈리얼  서포터    2    6    2      5  607   21   349   2 51.12  2.95 2.52
2    카타리나   정글    2    3    7      4  613  130   331   1 55.14 14.28 4.88
3  블리츠크랭크   정글    1    2    4      7  557  430   359   4 46.82 10.28 2.59
4    마스터이   미드    2    2   10      2  563  350   339   1 53.25  1.63 2.64
총 챔피언 데이터 수: 105개


--- 예측 재료 데이터 (상위 5개) ---
   포지션  난이도  공격력  방어력  마법저항력   체력   마나  이동속도    픽률  KDA
0   정글    1    8    5      7  671  466   347  9.42 3.98
1  서포터    2    6    2      5  607   21   349  2.95 2.52
2   정글    2    3    7      4  613  130   331 14.28 4.88
3   정글    1    2    4      7  557  430   359 10.28 2.59
4   미드    2    2   10      2  563  350   339  1.63 2.64


--- 승률 예측 목표 데이터 (상위 5개) ---
     승률
0 51.59
1 51.12
2 55.14
3 46.82
4 53.25


--- 티어 분류 목표 데이터 (상위 5개) ---
   티어
0   1
1   0
2   1
3   0
4   1



In [4]:
#2단계: 데이터 분리 - 연습용과 시험용 재료 나누기

from sklearn.model_selection import train_test_split

# 승률 예측 모델을 위한 재료 나누기
# test_size=0.3: 전체 데이터의 30%를 시험용으로 사용합니다.
# random_state=42: 데이터 분할 방식을 고정하여 결과를 재현할 수 있게 합니다.
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X, y_reg, test_size=0.3, random_state=42)

# 티어 분류 모델을 위한 재료 나누기
# stratify=y_clf: '1티어'와 '1티어가 아님'의 비율을 연습용과 시험용 데이터에 동일하게 맞춰줍니다.
X_train_clf, X_test_clf, y_train_clf, y_test_clf = train_test_split(X, y_clf, test_size=0.3, random_state=42, stratify=y_clf)

print("--- 승률 예측 모델 연습용 재료 크기 ---")
print(X_train_reg.shape)
print("\n")

print("--- 티어 분류 모델 시험용 재료 크기 ---")
print(X_test_clf.shape)
print("\n")

NameError: name 'X' is not defined

In [1]:
#3단계: 승률 예측 기계 만들기 (회귀 모델)

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import pandas as pd

# 'lol_champions.csv' 파일을 읽어와 'df_lol' 데이터프레임으로 저장합니다.
df_lol = pd.read_csv('lol_champions.csv')
X = df_lol.drop(['챔피언명', '티어', '승률'], axis=1)
y_reg = df_lol['승률']

from sklearn.model_selection import train_test_split
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X, y_reg, test_size=0.3, random_state=42)

# 재료 손질 규칙 정의
preprocessor_reg = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(), ['포지션']),
        ('num', StandardScaler(), ['난이도', '공격력', '방어력', '마법저항력', 
                                   '체력', '마나', '이동속도', '픽률', 'KDA'])
    ],
    remainder='drop'
)

# 예측 기계 만들기 (재료 손질 + 예측)
model_pipeline_regression_lol = Pipeline(steps=[
    ('preprocessor', preprocessor_reg),
    ('regressor', LinearRegression())
])

# 기계에게 연습시키기
print("--- 승률 예측 기계 학습 시작 ---")
model_pipeline_regression_lol.fit(X_train_reg, y_train_reg)
print("--- 학습 완료 ---")
print("\n")

# 시험 보기
y_pred_reg_lol = model_pipeline_regression_lol.predict(X_test_reg)

# 시험 결과 정리
comparison_df_reg = pd.DataFrame({
    '챔피언명': df_lol.loc[X_test_reg.index, '챔피언명'],
    '실제_승률': y_test_reg,
    '예측된_승률': y_pred_reg_lol
})

print("--- 예측 결과 (상위 10개) ---")
# 소수점 4자리까지 표시되도록 설정
pd.options.display.float_format = '{:.2f}'.format
print(comparison_df_reg.head(10))
print("\n")

# 결과 평가: f-string을 사용하여 소수점 2자리까지 포맷팅합니다.
mse = mean_squared_error(y_test_reg, y_pred_reg_lol)
r2 = r2_score(y_test_reg, y_pred_reg_lol)
print(f"평균 오차(MSE): {mse:.2f}")
print(f"예측 정확도(R2 Score): {r2:.2f}")
print("\n")

--- 승률 예측 기계 학습 시작 ---
--- 학습 완료 ---


--- 예측 결과 (상위 10개) ---
     챔피언명   실제_승률  예측된_승률
30     룰루 49.7347 48.7011
65    트런들 55.6982 47.6413
64   볼리베어 47.0173 49.5153
53    갈리오 52.1247 50.5687
45    신드라 51.0278 48.6572
94     녹턴 54.9935 50.3954
104   시비르 54.7554 50.5449
47    빅토르 45.4685 47.7766
10     리신 51.4769 48.1970
0      가렌 51.5926 48.2775


평균 오차(MSE): 13.6062
예측 정확도(R2 Score): -0.3436




In [4]:
#4단계: 티어 분류 기계 만들기 (분류 모델)

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import pandas as pd

# 'lol_champions_100.csv' 파일을 읽어와 'df_lol' 데이터프레임으로 저장합니다.
df_lol = pd.read_csv('lol_champions.csv')
X = df_lol.drop(['챔피언명', '티어', '승률'], axis=1)
y_clf = (df_lol['티어'] == 1).astype(int)

from sklearn.model_selection import train_test_split
X_train_clf, X_test_clf, y_train_clf, y_test_clf = train_test_split(X, y_clf, test_size=0.3, 
random_state=42, stratify=y_clf)

# 재료 손질 규칙 정의
preprocessor_clf = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(), ['포지션']),
        ('num', StandardScaler(), ['난이도', '공격력', '방어력', '마법저항력', '체력', '마나', 
                                   '이동속도', '픽률', 'KDA'])
    ],
    remainder='drop'
)

# 예측 기계 만들기 (재료 손질 + 예측)
model_pipeline_classification_lol = Pipeline(steps=[
    ('preprocessor', preprocessor_clf),
    ('classifier', LogisticRegression(random_state=42))
])

# 기계에게 연습시키기
print("--- 1티어 분류 기계 학습 시작 ---")
model_pipeline_classification_lol.fit(X_train_clf, y_train_clf)
print("--- 학습 완료 ---")
print("\n")

# 시험 보기
y_pred_clf_lol = model_pipeline_classification_lol.predict(X_test_clf)

# 결과 평가: f-string을 사용하여 소수점 2자리까지 포맷팅합니다.
accuracy = accuracy_score(y_test_clf, y_pred_clf_lol)
precision = precision_score(y_test_clf, y_pred_clf_lol, zero_division=0)
recall = recall_score(y_test_clf, y_pred_clf_lol, zero_division=0)
f1 = f1_score(y_test_clf, y_pred_clf_lol, zero_division=0)

print(f"정확도: {accuracy:.2f}")
print(f"정밀도: {precision:.2f}")
print(f"재현율: {recall:.2f}")
print(f"F1-점수: {f1:.2f}") 
print("\n")

--- 1티어 분류 기계 학습 시작 ---
--- 학습 완료 ---


정확도: 0.69
정밀도: 0.20
재현율: 0.14
F1-점수: 0.17


