In [None]:
# 필수 라이브러리 import
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import OneHotEncoder

# 데이터 로드
data = pd.read_csv('train.csv')

# 피처와 타깃 변수 정의
X = data.drop(['ID', 'SUBCLASS'], axis=1)  # ID와 타깃 열은 피처에서 제외
y = data['SUBCLASS']  # 타깃 변수 (암종)

# 문자열 데이터를 수치형으로 변환 (One-Hot Encoding)
encoder = OneHotEncoder(sparse=False)
X_encoded = encoder.fit_transform(X)

# 학습 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# 모델 초기화 및 학습
clf = RandomForestClassifier(n_estimators=500, max_features='sqrt', random_state=42)
clf.fit(X_train, y_train)

# 예측 및 평가
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')
print(classification_report(y_test, y_pred))


In [None]:
from sklearn.preprocessing import LabelEncoder

# 데이터 로드 및 전처리
data = pd.read_csv('train.csv')

X = data.drop(['ID', 'SUBCLASS'], axis=1)  # ID와 타깃 열은 피처에서 제외
y = data['SUBCLASS']

# Label Encoding (카테고리 데이터를 정수로 변환)
label_encoders = {}
for column in X.columns:
    le = LabelEncoder()
    X[column] = le.fit_transform(X[column])
    label_encoders[column] = le  # 이후 디코딩에 사용 가능

# 학습 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# RandomForest 모델 적용
clf = RandomForestClassifier(n_estimators=500, max_features='sqrt', random_state=42)
clf.fit(X_train, y_train)

# 예측 및 평가
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')
print(classification_report(y_test, y_pred))


In [None]:
# Frequency Encoding을 사용한 변이 데이터 처리
for column in X.columns:
    freq = X[column].value_counts(normalize=True)  # 빈도를 계산
    X[column] = X[column].map(freq)  # 빈도 값으로 대체

# 이후 RandomForest 등 모델 적용
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = RandomForestClassifier(n_estimators=500, max_features='sqrt', random_state=42)
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')
