In [72]:
import numpy as np
import pandas as pd

from tensorflow.keras.callbacks import EarlyStopping
from sklearn.preprocessing import  OrdinalEncoder
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv1D, MaxPooling2D, Flatten, Dense
from sklearn.model_selection import train_test_split

In [73]:
train = pd.read_csv('./train.csv').drop(columns=['ID'])
test = pd.read_csv('./test.csv').drop(columns=['ID'])

In [74]:
print(len(train.columns), len(test.columns))

68 67


In [75]:
# 나이는 따로 진행
# 매핑 딕셔너리 생성
age_mapping = {
    '만18-34세': 0,
    '만35-37세': 1,
    '만38-39세': 2,
    '만40-42세': 3,
    '만43-44세': 4,
    '만45-50세': 5,
    '알 수 없음': -1
}

# '시술당시 나이' 컬럼에 매핑 적용
train['시술 당시 나이'] = train['시술 당시 나이'].replace(age_mapping)
test['시술 당시 나이'] = test['시술 당시 나이'].replace(age_mapping)

In [76]:
y_train = train['임신 성공 여부']
train = train.drop('임신 성공 여부', axis=1)
print(len(train.columns), len(test.columns))

67 67


In [77]:
# 카테고리 

categorical_columns = [
    "시술 시기 코드",
    "시술 유형",
    "특정 시술 유형",
    "배란 자극 여부",
    "배란 유도 유형",
    "단일 배아 이식 여부",
    "착상 전 유전 검사 사용 여부",
    "착상 전 유전 진단 사용 여부",
    "남성 주 불임 원인",
    "남성 부 불임 원인",
    "여성 주 불임 원인",
    "여성 부 불임 원인",
    "부부 주 불임 원인",
    "부부 부 불임 원인",
    "불명확 불임 원인",
    "불임 원인 - 난관 질환",
    "불임 원인 - 남성 요인",
    "불임 원인 - 배란 장애",
    "불임 원인 - 여성 요인",
    "불임 원인 - 자궁경부 문제",
    "불임 원인 - 자궁내막증",
    "불임 원인 - 정자 농도",
    "불임 원인 - 정자 면역학적 요인",
    "불임 원인 - 정자 운동성",
    "불임 원인 - 정자 형태",
    "배아 생성 주요 이유",
    "총 시술 횟수",
    "클리닉 내 총 시술 횟수",
    "IVF 시술 횟수",
    "DI 시술 횟수",
    "총 임신 횟수",
    "IVF 임신 횟수",
    "DI 임신 횟수",
    "총 출산 횟수",
    "IVF 출산 횟수",
    "DI 출산 횟수",
    "난자 출처",
    "정자 출처",
    "난자 기증자 나이",
    "정자 기증자 나이",
    "동결 배아 사용 여부",
    "신선 배아 사용 여부",
    "기증 배아 사용 여부",
    "대리모 여부",
    "PGD 시술 여부",
    "PGS 시술 여부"
]

# 카테고리형 컬럼들을 문자열로 변환
for col in categorical_columns:
    train[col] = train[col].astype(str)
    test[col] = test[col].astype(str)

In [78]:
ordinal_encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)

X_train_encoded = train.copy()
X_train_encoded[categorical_columns] = ordinal_encoder.fit_transform(train[categorical_columns])

X_test_encoded = test.copy()
X_test_encoded[categorical_columns] = ordinal_encoder.transform(test[categorical_columns])

In [79]:
X_train_encoded[categorical_columns].head()

Unnamed: 0,시술 시기 코드,시술 유형,특정 시술 유형,배란 자극 여부,배란 유도 유형,단일 배아 이식 여부,착상 전 유전 검사 사용 여부,착상 전 유전 진단 사용 여부,남성 주 불임 원인,남성 부 불임 원인,...,난자 출처,정자 출처,난자 기증자 나이,정자 기증자 나이,동결 배아 사용 여부,신선 배아 사용 여부,기증 배아 사용 여부,대리모 여부,PGD 시술 여부,PGS 시술 여부
0,6.0,1.0,4.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,...,1.0,3.0,4.0,6.0,0.0,1.0,0.0,0.0,1.0,1.0
1,5.0,1.0,4.0,0.0,3.0,0.0,1.0,0.0,0.0,0.0,...,1.0,3.0,4.0,6.0,0.0,1.0,0.0,0.0,1.0,1.0
2,3.0,1.0,15.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,...,1.0,3.0,4.0,6.0,0.0,1.0,0.0,0.0,1.0,1.0
3,2.0,1.0,4.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,...,1.0,3.0,4.0,6.0,0.0,1.0,0.0,0.0,1.0,1.0
4,3.0,1.0,4.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,...,1.0,3.0,4.0,6.0,0.0,1.0,0.0,0.0,1.0,1.0


In [80]:
numeric_columns = [
    "임신 시도 또는 마지막 임신 경과 연수",
    "총 생성 배아 수",
    "미세주입된 난자 수",
    "미세주입에서 생성된 배아 수",
    "이식된 배아 수",
    "미세주입 배아 이식 수",
    "저장된 배아 수",
    "미세주입 후 저장된 배아 수",
    "해동된 배아 수",
    "해동 난자 수",
    "수집된 신선 난자 수",
    "저장된 신선 난자 수",
    "혼합된 난자 수",
    "파트너 정자와 혼합된 난자 수",
    "기증자 정자와 혼합된 난자 수",
    "난자 채취 경과일",
    "난자 해동 경과일",
    "난자 혼합 경과일",
    "배아 이식 경과일",
    "배아 해동 경과일"
]

In [81]:
X_train_encoded[numeric_columns] = X_train_encoded[numeric_columns].fillna(0)
X_test_encoded[numeric_columns] = X_test_encoded[numeric_columns].fillna(0)

In [82]:
X_train_encoded.head()

Unnamed: 0,시술 시기 코드,시술 당시 나이,임신 시도 또는 마지막 임신 경과 연수,시술 유형,특정 시술 유형,배란 자극 여부,배란 유도 유형,단일 배아 이식 여부,착상 전 유전 검사 사용 여부,착상 전 유전 진단 사용 여부,...,신선 배아 사용 여부,기증 배아 사용 여부,대리모 여부,PGD 시술 여부,PGS 시술 여부,난자 채취 경과일,난자 해동 경과일,난자 혼합 경과일,배아 이식 경과일,배아 해동 경과일
0,6.0,0,0.0,1.0,4.0,1.0,0.0,0.0,1.0,0.0,...,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,3.0,0.0
1,5.0,5,0.0,1.0,4.0,0.0,3.0,0.0,1.0,0.0,...,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0
2,3.0,0,0.0,1.0,15.0,1.0,0.0,0.0,1.0,0.0,...,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0
3,2.0,1,0.0,1.0,4.0,1.0,0.0,0.0,1.0,0.0,...,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0
4,3.0,0,0.0,1.0,4.0,1.0,0.0,0.0,1.0,0.0,...,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,3.0,0.0


In [83]:
train.columns

Index(['시술 시기 코드', '시술 당시 나이', '임신 시도 또는 마지막 임신 경과 연수', '시술 유형', '특정 시술 유형',
       '배란 자극 여부', '배란 유도 유형', '단일 배아 이식 여부', '착상 전 유전 검사 사용 여부',
       '착상 전 유전 진단 사용 여부', '남성 주 불임 원인', '남성 부 불임 원인', '여성 주 불임 원인',
       '여성 부 불임 원인', '부부 주 불임 원인', '부부 부 불임 원인', '불명확 불임 원인', '불임 원인 - 난관 질환',
       '불임 원인 - 남성 요인', '불임 원인 - 배란 장애', '불임 원인 - 여성 요인', '불임 원인 - 자궁경부 문제',
       '불임 원인 - 자궁내막증', '불임 원인 - 정자 농도', '불임 원인 - 정자 면역학적 요인',
       '불임 원인 - 정자 운동성', '불임 원인 - 정자 형태', '배아 생성 주요 이유', '총 시술 횟수',
       '클리닉 내 총 시술 횟수', 'IVF 시술 횟수', 'DI 시술 횟수', '총 임신 횟수', 'IVF 임신 횟수',
       'DI 임신 횟수', '총 출산 횟수', 'IVF 출산 횟수', 'DI 출산 횟수', '총 생성 배아 수',
       '미세주입된 난자 수', '미세주입에서 생성된 배아 수', '이식된 배아 수', '미세주입 배아 이식 수', '저장된 배아 수',
       '미세주입 후 저장된 배아 수', '해동된 배아 수', '해동 난자 수', '수집된 신선 난자 수', '저장된 신선 난자 수',
       '혼합된 난자 수', '파트너 정자와 혼합된 난자 수', '기증자 정자와 혼합된 난자 수', '난자 출처', '정자 출처',
       '난자 기증자 나이', '정자 기증자 나이', '동결 배아 사용 여부', '신선 배아 사용 여부', '기증 배아 사용 여부',
       '대리모 여부', 'PGD 시술 여부', 'PGS 시술 여부', '난자

## 논문에서 사용한 features
- Patient Age
- Total number of previous cycles
- Total number of IVF pregnancies
- Total number of live births- conceived through IVF
- Type of infertility—female primary
- Type of Infertility—female secondary
- Type of infertility—male primary
- Type of infertility—male secondary
- Type of infertility—couple primary
- Type of infertility—couple secondary
- Cause of infertility—tubal disease
- Cause of infertility—ovulatory disorder
- Cause of infertility—male factor
- Cause of infertility—patient unexplained
- Cause of infertility—endometriosis
- Cause of infertility—cervical factors
- Cause of infertility—female factors
- Cause of infertility—partner sperm concentration
- Cause of infertility—partner sperm morphology
- Cause of infertility—partner sperm motility
- Cause of infertility—partner sperm immunological factors
- Stimulation used
- Egg source
- Sperm source
- Fresh cycle
- Frozen cycle
- Eggs thawed
- Fresh eggs collected
- Eggs mixed with partner sperm Embryos transferred

In [84]:
# 매핑된 컬럼 이름 리스트 (한국어)
selected_columns = [
    '시술 당시 나이', '총 시술 횟수', 'IVF 시술 횟수', 'IVF 출산 횟수',
    '여성 주 불임 원인', '여성 부 불임 원인', '남성 주 불임 원인', '남성 부 불임 원인',
    '부부 주 불임 원인', '부부 부 불임 원인', '불임 원인 - 난관 질환', '불임 원인 - 배란 장애',
    '불임 원인 - 남성 요인', '불명확 불임 원인', '불임 원인 - 자궁내막증', '불임 원인 - 자궁경부 문제',
    '불임 원인 - 여성 요인', '불임 원인 - 정자 농도', '불임 원인 - 정자 형태', '불임 원인 - 정자 운동성',
    '불임 원인 - 정자 면역학적 요인', '배란 유도 유형', '난자 출처', '정자 출처', '신선 배아 사용 여부',
    '동결 배아 사용 여부', '해동 난자 수', '수집된 신선 난자 수', '파트너 정자와 혼합된 난자 수', '이식된 배아 수'
]

# train, test 데이터프레임에서 선택된 컬럼만 필터링
filtered_train = X_train_encoded[selected_columns]
filtered_test = X_test_encoded[selected_columns]

# 결과 확인
filtered_train.head()

Unnamed: 0,시술 당시 나이,총 시술 횟수,IVF 시술 횟수,IVF 출산 횟수,여성 주 불임 원인,여성 부 불임 원인,남성 주 불임 원인,남성 부 불임 원인,부부 주 불임 원인,부부 부 불임 원인,...,불임 원인 - 정자 면역학적 요인,배란 유도 유형,난자 출처,정자 출처,신선 배아 사용 여부,동결 배아 사용 여부,해동 난자 수,수집된 신선 난자 수,파트너 정자와 혼합된 난자 수,이식된 배아 수
0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,3.0,1.0,0.0,0.0,7.0,5.0,2.0
1,5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,3.0,1.0,3.0,1.0,0.0,0.0,1.0,1.0,0.0
2,0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,3.0,1.0,0.0,0.0,8.0,7.0,2.0
3,1,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,3.0,1.0,0.0,0.0,5.0,4.0,0.0
4,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,3.0,1.0,0.0,0.0,7.0,6.0,2.0


In [85]:
# 데이터 스케일링
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_train_encoded)

# 데이터를 CNN 입력 형태로 변환 (2D 이미지 형태로 reshape)
X_scaled_reshaped = X_scaled.reshape(X_scaled.shape[0], X_scaled.shape[1], 1)

# 데이터 나누기
X_train, X_val, y_train, y_val = train_test_split(X_scaled_reshaped, y_train, test_size=0.2, random_state=42)
X_train.shape

(205080, 67, 1)

In [None]:
# 모델 정의
model = Sequential()

# 첫 번째 Conv1D 계층 (1D 컨볼루션)
model.add(Conv1D(32, 2, activation='relu', input_shape=(X_train.shape[1], X_train.shape[2])))
model.add(MaxPooling1D(2))

# 두 번째 Conv1D 계층
model.add(Conv1D(64, 2, activation='relu'))
model.add(MaxPooling1D(2))

# 평탄화
model.add(Flatten())

# 완전 연결 계층 (Dense)
model.add(Dense(128, activation='relu'))
model.add(Dense(1, activation='sigmoid'))  # 이진 분류 문제이므로 sigmoid 활성화 함수 사용

# 모델 컴파일
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 모델 요약
model.summary()

# 모델 훈련
# model.fit(X_train, y_train, epochs=100, batch_size=32, validation_data=(X_val, y_val))

# Early Stopping 도입
early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)
history = model.fit(X_train, y_train, epochs=100, validation_data=(X_val, y_val), callbacks=[early_stopping])


Model: "sequential_9"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv1d_9 (Conv1D)           (None, 66, 32)            96        
                                                                 
 max_pooling1d_6 (MaxPoolin  (None, 33, 32)            0         
 g1D)                                                            
                                                                 
 conv1d_10 (Conv1D)          (None, 32, 64)            4160      
                                                                 
 max_pooling1d_7 (MaxPoolin  (None, 16, 64)            0         
 g1D)                                                            
                                                                 
 flatten_3 (Flatten)         (None, 1024)              0         
                                                                 
 dense_6 (Dense)             (None, 128)              

In [None]:
y_pred = model.predict(X_test_encoded)

In [None]:
y_pred

In [None]:
# 예측 결과는 (샘플 수, 1) 형식이므로, 1차원 배열로 변환합니다.
y_pred = y_pred.flatten()

# sample_submission.csv 파일 읽기
sample_submission = pd.read_csv('sample_submission.csv')

# 예측된 probability 값을 'probability' 열에 할당
sample_submission['probability'] = y_pred

# 결과를 새로운 CSV 파일로 저장
sample_submission.to_csv('submission.csv', index=False)

In [None]:
sample_submission.shape

In [None]:
y_pred.shape