In [19]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import  OrdinalEncoder
from sklearn.ensemble import ExtraTreesClassifier

### Data Load

In [9]:
train = pd.read_csv("../data/train.csv").drop(columns=['ID'])
test = pd.read_csv("../data/test.csv").drop(columns=['ID'])

In [11]:
X = train.drop('임신 성공 여부', axis=1)
y = train['임신 성공 여부']

### Data Pre-processing

In [13]:
categorical_columns = [
    "시술 시기 코드",
    "시술 당시 나이",
    "시술 유형",
    "특정 시술 유형",
    "배란 자극 여부",
    "배란 유도 유형",
    "단일 배아 이식 여부",
    "착상 전 유전 검사 사용 여부",
    "착상 전 유전 진단 사용 여부",
    "남성 주 불임 원인",
    "남성 부 불임 원인",
    "여성 주 불임 원인",
    "여성 부 불임 원인",
    "부부 주 불임 원인",
    "부부 부 불임 원인",
    "불명확 불임 원인",
    "불임 원인 - 난관 질환",
    "불임 원인 - 남성 요인",
    "불임 원인 - 배란 장애",
    "불임 원인 - 여성 요인",
    "불임 원인 - 자궁경부 문제",
    "불임 원인 - 자궁내막증",
    "불임 원인 - 정자 농도",
    "불임 원인 - 정자 면역학적 요인",
    "불임 원인 - 정자 운동성",
    "불임 원인 - 정자 형태",
    "배아 생성 주요 이유",
    "총 시술 횟수",
    "클리닉 내 총 시술 횟수",
    "IVF 시술 횟수",
    "DI 시술 횟수",
    "총 임신 횟수",
    "IVF 임신 횟수",
    "DI 임신 횟수",
    "총 출산 횟수",
    "IVF 출산 횟수",
    "DI 출산 횟수",
    "난자 출처",
    "정자 출처",
    "난자 기증자 나이",
    "정자 기증자 나이",
    "동결 배아 사용 여부",
    "신선 배아 사용 여부",
    "기증 배아 사용 여부",
    "대리모 여부",
    "PGD 시술 여부",
    "PGS 시술 여부"
]

In [15]:
# 카테고리형 컬럼들을 문자열로 변환
for col in categorical_columns:
    X[col] = X[col].astype(str)
    test[col] = test[col].astype(str)

In [21]:
ordinal_encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)

X_train_encoded = X.copy()
X_train_encoded[categorical_columns] = ordinal_encoder.fit_transform(X[categorical_columns])

X_test_encoded = test.copy()
X_test_encoded[categorical_columns] = ordinal_encoder.transform(test[categorical_columns])

In [23]:
numeric_columns = [
    "임신 시도 또는 마지막 임신 경과 연수",
    "총 생성 배아 수",
    "미세주입된 난자 수",
    "미세주입에서 생성된 배아 수",
    "이식된 배아 수",
    "미세주입 배아 이식 수",
    "저장된 배아 수",
    "미세주입 후 저장된 배아 수",
    "해동된 배아 수",
    "해동 난자 수",
    "수집된 신선 난자 수",
    "저장된 신선 난자 수",
    "혼합된 난자 수",
    "파트너 정자와 혼합된 난자 수",
    "기증자 정자와 혼합된 난자 수",
    "난자 채취 경과일",
    "난자 해동 경과일",
    "난자 혼합 경과일",
    "배아 이식 경과일",
    "배아 해동 경과일"
]

In [25]:
X_train_encoded[numeric_columns] = X_train_encoded[numeric_columns].fillna(0)
X_test_encoded[numeric_columns] = X_test_encoded[numeric_columns].fillna(0)

In [27]:
# 전처리된 훈련 데이터와 테스트 데이터를 CSV 파일로 저장
X_train_encoded['임신 성공 여부'] = y  # 타겟 변수도 훈련 데이터에 포함시킴
X_train_encoded.to_csv('../data/train_encoded.csv', index=False)  # 훈련 데이터 저장

X_test_encoded.to_csv('../data/test_encoded.csv', index=False)  # 테스트 데이터 저장

print("전처리된 데이터가 성공적으로 저장되었습니다.")

전처리된 데이터가 성공적으로 저장되었습니다.


### Train

In [56]:
model = ExtraTreesClassifier(random_state=42)

model.fit(X_train_encoded, y)

### Predict

In [10]:
pred_proba = model.predict_proba(X_test_encoded)[:, 1]

### Submission

In [11]:
sample_submission = pd.read_csv('../submission/sample_submission.csv')
sample_submission['probability'] = pred_proba

In [13]:
sample_submission.to_csv('../submission/baseline_submit.csv', index=False)

In [None]:
#앙상븡 모델 적용 후 성능평가

In [60]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier, VotingClassifier
from sklearn.metrics import confusion_matrix, classification_report
import xgboost as xgb
import lightgbm as lgb

# 전처리된 훈련 데이터와 테스트 데이터를 파일에서 로드
X_train_encoded = pd.read_csv('../data/train_encoded.csv')
X_test_encoded = pd.read_csv('../data/test_encoded.csv')

# 타겟 변수와 특성 분리
y = X_train_encoded['임신 성공 여부']
X = X_train_encoded.drop('임신 성공 여부', axis=1)

# 훈련 데이터 나누기
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 정의 (여러 모델을 사용)
et_model = ExtraTreesClassifier(random_state=42)
rf_model = RandomForestClassifier(random_state=42)
xgb_model = xgb.XGBClassifier(random_state=42)
lgb_model = lgb.LGBMClassifier(random_state=42)

# 앙상블 모델 정의 (Voting Classifier)
voting_model = VotingClassifier(estimators=[
    ('et', et_model),
    ('rf', rf_model),
    ('xgb', xgb_model),
    ('lgb', lgb_model)
], voting='soft')  # soft voting: 예측 확률의 평균으로 최종 예측

# 모델 학습
voting_model.fit(X_train, y_train)

# 예측
y_pred = voting_model.predict(X_val)
y_pred_proba = voting_model.predict_proba(X_val)[:, 1]  # 예측 확률

# 성능 평가
print("Confusion Matrix")
print(confusion_matrix(y_val, y_pred))
print("\nClassification Report")
print(classification_report(y_val, y_pred))

# 예측 결과를 sample_submission 파일에 저장
pred_proba = voting_model.predict_proba(X_test_encoded)[:, 1]
sample_submission = pd.read_csv('../submission/sample_submission.csv')
sample_submission['probability'] = pred_proba

# 제출 파일로 저장
sample_submission.to_csv('../submission/baseline_submit.csv', index=False)

print("예측 결과가 'baseline_submit.csv'에 저장되었습니다.")

[LightGBM] [Info] Number of positive: 53102, number of negative: 151978
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.026711 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 716
[LightGBM] [Info] Number of data points in the train set: 205080, number of used features: 62
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258933 -> initscore=-1.051521
[LightGBM] [Info] Start training from score -1.051521
Confusion Matrix
[[35869  2276]
 [11035  2091]]

Classification Report
              precision    recall  f1-score   support

           0       0.76      0.94      0.84     38145
           1       0.48      0.16      0.24     13126

    accuracy                           0.74     51271
   macro avg       0.62      0.55      0.54     51271
weighted avg       0.69      0.74      0.69     51271

예측 결과가 'baseline_submit.csv'에 저장되었습니다.


smote 적용 코드(아주 조금 오름)

In [None]:

import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier, VotingClassifier
from sklearn.metrics import confusion_matrix, classification_report
from imblearn.over_sampling import SMOTE
import xgboost as xgb
import lightgbm as lgb

# 데이터 로드
X_train_encoded = pd.read_csv('../data/train_encoded.csv')
X_test_encoded = pd.read_csv('../data/test_encoded.csv')

# 타겟 변수와 특성 분리
y = X_train_encoded['임신 성공 여부']
X = X_train_encoded.drop('임신 성공 여부', axis=1)

# 훈련 데이터와 검증 데이터 나누기 (테스트 데이터는 원본 그대로 둠)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# SMOTE 적용 (훈련 데이터에만 오버샘플링 적용)
smote = SMOTE(sampling_strategy='auto', random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

# 데이터 크기 조정 (필요시)
target_size = 150000
if len(X_train_resampled) > target_size:
    X_train_resampled = X_train_resampled[:target_size]
    y_train_resampled = y_train_resampled[:target_size]

# 개별 모델 정의
et_model = ExtraTreesClassifier(random_state=42)
rf_model = RandomForestClassifier(random_state=42)
xgb_model = xgb.XGBClassifier(random_state=42)
lgb_model = lgb.LGBMClassifier(random_state=42)

# 개별 모델 하이퍼파라미터 튜닝
param_grid_et = {'n_estimators': [100, 200]}
grid_et = GridSearchCV(et_model, param_grid_et, cv=3, n_jobs=4, verbose=2)
grid_et.fit(X_train_resampled, y_train_resampled)

param_grid_rf = {'n_estimators': [100, 200]}
grid_rf = GridSearchCV(rf_model, param_grid_rf, cv=3, n_jobs=4, verbose=2)
grid_rf.fit(X_train_resampled, y_train_resampled)

param_grid_xgb = {'max_depth': [3, 5]}
grid_xgb = GridSearchCV(xgb_model, param_grid_xgb, cv=3, n_jobs=4, verbose=2)
grid_xgb.fit(X_train_resampled, y_train_resampled)

param_grid_lgb = {'num_leaves': [31, 50]}
grid_lgb = GridSearchCV(lgb_model, param_grid_lgb, cv=3, n_jobs=4, verbose=2)
grid_lgb.fit(X_train_resampled, y_train_resampled)

# 최적의 하이퍼파라미터로 학습된 모델로 VotingClassifier 생성
voting_model = VotingClassifier(estimators=[
    ('et', grid_et.best_estimator_),
    ('rf', grid_rf.best_estimator_),
    ('xgb', grid_xgb.best_estimator_),
    ('lgb', grid_lgb.best_estimator_)
], voting='soft')

# 앙상블 모델 학습
voting_model.fit(X_train_resampled, y_train_resampled)

# 검증 데이터 예측
y_pred = voting_model.predict(X_val)
y_pred_proba = voting_model.predict_proba(X_val)[:, 1]  # 예측 확률

# 성능 평가
print("Confusion Matrix")
print(confusion_matrix(y_val, y_pred))
print("\nClassification Report")
print(classification_report(y_val, y_pred))

# 테스트 데이터 예측 및 제출 파일 생성
pred_proba = voting_model.predict_proba(X_test_encoded)[:, 1]
sample_submission = pd.read_csv('../submission/sample_submission.csv')
sample_submission['probability'] = pred_proba

# CSV 파일로 저장
sample_submission.to_csv('../submission/baseline_submit.csv', index=False)
print("예측 결과가 'baseline_submit.csv'에 저장되었습니다.")

In [None]:
테스트 데이터 비율 5:5

In [None]:
#테스트 데이터 비율 5:5

In [31]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier, VotingClassifier
from sklearn.metrics import confusion_matrix, classification_report
import xgboost as xgb
import lightgbm as lgb

# 데이터 로드
X_train_encoded = pd.read_csv('../data/train_encoded.csv')
X_test_encoded = pd.read_csv('../data/test_encoded.csv')

# 타겟 변수와 특성 분리
y = X_train_encoded['임신 성공 여부']
X = X_train_encoded.drop('임신 성공 여부', axis=1)

# 1. **테스트 데이터 0과 1의 개수를 1:1로 맞추기**
y_test = X_test_encoded['임신 성공 여부']  # 테스트 데이터의 실제 정답 (있다면 사용)
X_test_encoded = X_test_encoded.drop('임신 성공 여부', axis=1)  # 모델 학습을 위해 타겟 제거

# 0과 1 개수 확인
count_0 = (y_test == 0).sum()
count_1 = (y_test == 1).sum()

# 0과 1 개수를 동일하게 맞추기 위해 많은 쪽에서 일부 제거
if count_0 > count_1:
    idx_0 = y_test[y_test == 0].index[:count_1]  # 1과 개수 맞추기
    idx_1 = y_test[y_test == 1].index
elif count_1 > count_0:
    idx_1 = y_test[y_test == 1].index[:count_0]  # 0과 개수 맞추기
    idx_0 = y_test[y_test == 0].index
else:
    idx_0 = y_test[y_test == 0].index
    idx_1 = y_test[y_test == 1].index

# 균형 잡힌 테스트 데이터셋 생성
balanced_idx = idx_0.append(idx_1)  # 0과 1이 같은 개수로 맞춰짐
X_test_balanced = X_test_encoded.loc[balanced_idx]
y_test_balanced = y_test.loc[balanced_idx]  # 0과 1이 1:1로 맞춰진 라벨

# 2. **훈련 데이터 나누기**
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# 3. **모델 정의**
et_model = ExtraTreesClassifier(random_state=42)
rf_model = RandomForestClassifier(random_state=42)
xgb_model = xgb.XGBClassifier(random_state=42)
lgb_model = lgb.LGBMClassifier(random_state=42)

# 4. **앙상블 모델 정의 (Voting Classifier)**
voting_model = VotingClassifier(estimators=[
    ('et', et_model),
    ('rf', rf_model),
    ('xgb', xgb_model),
    ('lgb', lgb_model)
], voting='soft')

# 5. **모델 학습**
voting_model.fit(X_train, y_train)

# 6. **검증 데이터 예측**
y_pred = voting_model.predict(X_val)

# 7. **성능 평가**
print("Confusion Matrix")
print(confusion_matrix(y_val, y_pred))
print("\nClassification Report")
print(classification_report(y_val, y_pred))

# 8. **테스트 데이터 예측**
y_test_pred = voting_model.predict(X_test_balanced)

# 9. **제출 파일 생성**
sample_submission = pd.DataFrame({'id': balanced_idx, 'label': y_test_pred})  # 0과 1의 개수를 맞춘 테스트 데이터셋
sample_submission.to_csv('../submission/baseline_submit.csv', index=False)

print("예측 결과가 'baseline_submit.csv'에 저장되었습니다. (테스트 데이터 0과 1 비율 1:1 조정됨)")

KeyError: '임신 성공 여부'