## 결측치 처리

In [1]:
import pandas as pd

df = pd.read_csv("../data/train.csv")

In [2]:
# Target 비율 확인
df['임신 성공 여부'].value_counts()

임신 성공 여부
0    190123
1     66228
Name: count, dtype: int64

In [3]:
len(df)

256351

In [4]:
# 각 컬럼별 결측치 개수와 비율 계산
missing_counts = df.isnull().sum()
missing_percentage = df.isnull().mean() * 100

# 결측치가 존재하는 컬럼만 선택하여 DataFrame 생성
missing_info = pd.DataFrame({
    'Missing Count': missing_counts,
    'Missing Percentage': missing_percentage
})

# 결측치가 없는 컬럼은 제외하고, 결측치 비율 기준으로 내림차순 정렬
missing_info = missing_info[missing_info['Missing Count'] > 0].sort_values(by='Missing Percentage', ascending=False)

# 결과 출력
missing_info


## 결과
## 전체 데이터는 256,351로서 결측치가 95% 이상 되는 것들은 없애고 진행해도 좋을 것 같다.
## 다만, 중요한 정보를 놓칠 수도 있기 때문에 이후 추가적인 검증이 필요할 듯 싶다.

Unnamed: 0,Missing Count,Missing Percentage
난자 해동 경과일,254915,99.439831
PGS 시술 여부,254422,99.247516
PGD 시술 여부,254172,99.149994
착상 전 유전 검사 사용 여부,253633,98.939735
임신 시도 또는 마지막 임신 경과 연수,246981,96.344855
배아 해동 경과일,215982,84.252451
난자 채취 경과일,57488,22.425503
난자 혼합 경과일,53735,20.961494
배아 이식 경과일,43566,16.994667
저장된 배아 수,6291,2.454057


In [7]:
df.shape

(256351, 69)

In [8]:
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 폰트 설정
plt.rcParams['font.family'] = 'NanumGothic'  # 설치된 폰트 중 하나 선택
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호 깨짐 방지

In [9]:
import seaborn as sns

# 폰트 설정
sns.set(font="NanumGothic", rc={"axes.unicode_minus": False})

### 수치형 범주형 나눠서 EDA

In [10]:
# 1. 결측치 95% 이상 확인
missing_ratio = df.isnull().sum() / len(df) * 100
high_missing_cols = missing_ratio[missing_ratio > 95].index
print("95% 이상 결측치 컬럼:")
print(missing_ratio[missing_ratio > 95])

95% 이상 결측치 컬럼:
임신 시도 또는 마지막 임신 경과 연수    96.344855
착상 전 유전 검사 사용 여부         98.939735
PGD 시술 여부                99.149994
PGS 시술 여부                99.247516
난자 해동 경과일                99.439831
dtype: float64


In [24]:
# 2. 데이터 타입 분리
df_cleaned = df.drop(columns=high_missing_cols)
numeric_cols = df_cleaned.select_dtypes(include=['int64', 'float64']).columns
categorical_cols = df_cleaned.select_dtypes(include=['object']).columns

print("\n수치형 변수 목록:")
print(numeric_cols.tolist())
print("\n범주형 변수 목록:")
print(categorical_cols.tolist(), end='\n\n')

print(f"결측치를 제외한 총 컬럼 개수: 수치형: {len(numeric_cols)}개, 범주형: {len(categorical_cols)}개, 총 컬럼 개수: {len(numeric_cols) + len(categorical_cols)}개")


수치형 변수 목록:
['배란 자극 여부', '단일 배아 이식 여부', '착상 전 유전 진단 사용 여부', '남성 주 불임 원인', '남성 부 불임 원인', '여성 주 불임 원인', '여성 부 불임 원인', '부부 주 불임 원인', '부부 부 불임 원인', '불명확 불임 원인', '불임 원인 - 난관 질환', '불임 원인 - 남성 요인', '불임 원인 - 배란 장애', '불임 원인 - 여성 요인', '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증', '불임 원인 - 정자 농도', '불임 원인 - 정자 면역학적 요인', '불임 원인 - 정자 운동성', '불임 원인 - 정자 형태', '총 생성 배아 수', '미세주입된 난자 수', '미세주입에서 생성된 배아 수', '이식된 배아 수', '미세주입 배아 이식 수', '저장된 배아 수', '미세주입 후 저장된 배아 수', '해동된 배아 수', '해동 난자 수', '수집된 신선 난자 수', '저장된 신선 난자 수', '혼합된 난자 수', '파트너 정자와 혼합된 난자 수', '기증자 정자와 혼합된 난자 수', '동결 배아 사용 여부', '신선 배아 사용 여부', '기증 배아 사용 여부', '대리모 여부', '난자 채취 경과일', '난자 혼합 경과일', '배아 이식 경과일', '배아 해동 경과일', '임신 성공 여부']

범주형 변수 목록:
['ID', '시술 시기 코드', '시술 당시 나이', '시술 유형', '특정 시술 유형', '배란 유도 유형', '배아 생성 주요 이유', '총 시술 횟수', '클리닉 내 총 시술 횟수', 'IVF 시술 횟수', 'DI 시술 횟수', '총 임신 횟수', 'IVF 임신 횟수', 'DI 임신 횟수', '총 출산 횟수', 'IVF 출산 횟수', 'DI 출산 횟수', '난자 출처', '정자 출처', '난자 기증자 나이', '정자 기증자 나이']

결측치를 제외한 총 컬럼 개수: 수치형: 43개, 범주형: 21개, 총 컬럼 개수: 64개


In [20]:
# 3. 각 타입별 결측치 비율
print("\n수치형 변수 결측치 비율:")
print((df_cleaned[numeric_cols].isnull().sum() / len(df_cleaned) * 100).sort_values(ascending=False))

print("\n범주형 변수 결측치 비율:")
print((df_cleaned[categorical_cols].isnull().sum() / len(df_cleaned) * 100).sort_values(ascending=False))


수치형 변수 결측치 비율:
배아 해동 경과일             84.252451
난자 채취 경과일             22.425503
난자 혼합 경과일             20.961494
배아 이식 경과일             16.994667
미세주입 배아 이식 수           2.454057
미세주입 후 저장된 배아 수        2.454057
이식된 배아 수               2.454057
저장된 배아 수               2.454057
단일 배아 이식 여부            2.454057
착상 전 유전 진단 사용 여부       2.454057
저장된 신선 난자 수            2.454057
대리모 여부                 2.454057
기증자 정자와 혼합된 난자 수       2.454057
파트너 정자와 혼합된 난자 수       2.454057
혼합된 난자 수               2.454057
신선 배아 사용 여부            2.454057
기증 배아 사용 여부            2.454057
총 생성 배아 수              2.454057
동결 배아 사용 여부            2.454057
미세주입된 난자 수             2.454057
수집된 신선 난자 수            2.454057
해동 난자 수                2.454057
해동된 배아 수               2.454057
미세주입에서 생성된 배아 수        2.454057
배란 자극 여부               0.000000
남성 부 불임 원인             0.000000
남성 주 불임 원인             0.000000
불임 원인 - 난관 질환          0.000000
불명확 불임 원인              0.000000
부부 부 불임 원인             0.000000
부부 주 불임 원인             0

### 결측치 패턴에서 보여지는 것

---
1. 시간 관련 변수들의 높은 결측률
- 배아 해동 경과일 (84.25%)
- 난자 채취 경과일 (22.43%)
- 난자 혼합 경과일 (20.96%)
- 배아 이식 경과일 (17.00%)
---
2. 배아/난자 관련 변수들의 일관된 결측률
- 대부분 2.45% 정도의 동일한 결측률
- 특정 케이스들에서의 시스템적 missing일 가능성이 있음
---
3. 범주형 변수들
- 대부분 결측치 X
- 배아 생성 주요 이유만 2.45% 결측
---

- 확인해볼 것
1. 2.45%의 동일한 결측률을 보이는 변수들 간의 관계
2. 시간 관련 변수들의 높은 결측률이 특정 시술 유형과 관련이 있는지

In [27]:
# 1. 2.45% 동일한 결측률을 보이는 변수들 간의 관계 확인

missing_2_45 = [col for col in df_cleaned.columns if (df_cleaned[col].isnull().sum() / len(df_cleaned) * 100) > 2.4 and (df_cleaned[col].isnull().sum() / len(df_cleaned) * 100) < 2.5]

# 이 변수들의 결측치가 같은 행에서 발생하는지 확인
missing_pattern = df_cleaned[missing_2_45].isnull().sum(axis=1)
print("2.45% 결측 변수들의 패턴:")
print(missing_pattern.value_counts())

2.45% 결측 변수들의 패턴:
0     250060
21      6291
Name: count, dtype: int64


- 2.45% 결측률을 가진 변수들의 패턴

1. 250,060개의 행은 결측치가 없음
2. 6,291개의 행에서 21개 변수가 모두 결측
3. 이는 체계적인(systematic) 결측 패턴을 보여줌
4. 특정 조건/상황에서 데이터가 수집되지 않았을 가능성이 있음

In [28]:
# 2. 시간 관련 변수들의 결측치와 시술 유형의 관계
time_cols = ['배아 해동 경과일', '난자 채취 경과일', '난자 혼합 경과일', '배아 이식 경과일']

print("\n시술 유형별 시간 관련 변수 결측치 비율:")
for col in time_cols:
    print(f"\n{col}:")
    missing_by_type = (df_cleaned[col].isnull().groupby(df_cleaned['시술 유형']).mean() * 100)
    print(missing_by_type)

# 특정 시술 유형별로도 확인
print("\n특정 시술 유형별 시간 관련 변수 결측치 비율:")
for col in time_cols:
    print(f"\n{col}:")
    missing_by_specific_type = (df_cleaned[col].isnull().groupby(df_cleaned['특정 시술 유형']).mean() * 100)
    print(missing_by_specific_type.sort_values(ascending=False).head())


시술 유형별 시간 관련 변수 결측치 비율:

배아 해동 경과일:
시술 유형
DI     100.000000
IVF     83.856274
Name: 배아 해동 경과일, dtype: float64

난자 채취 경과일:
시술 유형
DI     100.000000
IVF     20.473886
Name: 난자 채취 경과일, dtype: float64

난자 혼합 경과일:
시술 유형
DI     100.000000
IVF     18.973046
Name: 난자 혼합 경과일, dtype: float64

배아 이식 경과일:
시술 유형
DI     100.000000
IVF     14.906422
Name: 배아 이식 경과일, dtype: float64

특정 시술 유형별 시간 관련 변수 결측치 비율:

배아 해동 경과일:
특정 시술 유형
GIFT                  100.0
Generic DI            100.0
ICI                   100.0
IVI                   100.0
IVF / AH:ICSI / AH    100.0
Name: 배아 해동 경과일, dtype: float64

난자 채취 경과일:
특정 시술 유형
ICI                        100.0
Generic DI                 100.0
IUI                        100.0
ICSI / BLASTOCYST :ICSI    100.0
IVI                        100.0
Name: 난자 채취 경과일, dtype: float64

난자 혼합 경과일:
특정 시술 유형
ICI                        100.0
Generic DI                 100.0
IUI                        100.0
ICSI / BLASTOCYST :ICSI    100.0
IVI                        100.0
Name: 

- 시간 관련 변수의 결측 패턴:


1. DI 시술: 모든 시간 관련 변수가 100% 결측
2. IVF 시술:
    - 배아 해동 경과일: 83.9% 결측
    - 나머지 시간 변수: 14.9~20.5% 결측
3. 특정 시술별로는 ICI, Generic DI, IUI 등에서 대부분 100% 결측

----

- 시술 유형별로 다른 `결측치 처리 방법` 적용
    - DI 시술의 경우 시간 관련 변수 제외 고려
    - IVF 시술의 경우 시기별 중앙값으로 대체

- 추가 확인이 필요한 사항:
    1. 체계적 결측이 있는 6,291개 행의 특성
    2. 이 행들의 임신 성공률이 다른지
    3. etc

In [29]:
# 1. 체계적 결측이 있는 행들의 특성 파악
missing_pattern = df_cleaned[missing_2_45].isnull().sum(axis=1)
systematic_missing = df_cleaned[missing_pattern > 0]
normal_data = df_cleaned[missing_pattern == 0]

In [35]:
# 두 그룹의 기본 특성 비교
print("체계적 결측 데이터 vs 정상 데이터 비교")
print("\n결측 데이터 건수:", len(systematic_missing))
print("정상 데이터 건수:", len(normal_data))

체계적 결측 데이터 vs 정상 데이터 비교

결측 데이터 건수: 6291
정상 데이터 건수: 250060


In [31]:
# 2. 두 그룹의 임신 성공률 비교
print("\n임신 성공률 비교:")
print("결측 데이터 성공률:", systematic_missing['임신 성공 여부'].mean())
print("정상 데이터 성공률:", normal_data['임신 성공 여부'].mean())


임신 성공률 비교:
결측 데이터 성공률: 0.12891432204736925
정상 데이터 성공률: 0.2616052147484604


In [32]:
# 3. 두 그룹의 시술 유형 분포 (DI: 정자를 제공받아서 하는 시술 -> 체내 시술 , IVF: 체외 수정 -> 체외(시험관) 시술)
print("\n시술 유형 분포:")
print("\n결측 데이터:")
print(systematic_missing['시술 유형'].value_counts(normalize=True))
print("\n정상 데이터:")
print(normal_data['시술 유형'].value_counts(normalize=True))


시술 유형 분포:

결측 데이터:
시술 유형
DI    1.0
Name: proportion, dtype: float64

정상 데이터:
시술 유형
IVF    1.0
Name: proportion, dtype: float64


In [33]:
# 4. 시기별 분포
print("\n시기별 분포:")
print("\n결측 데이터:")
print(systematic_missing['시술 시기 코드'].value_counts(normalize=True))
print("\n정상 데이터:")
print(normal_data['시술 시기 코드'].value_counts(normalize=True))


시기별 분포:

결측 데이터:
시술 시기 코드
TRVNRY    0.155619
TRDQAZ    0.153235
TRZKPL    0.147194
TRXQMD    0.142108
TRYBLT    0.136226
TRJXFG    0.133365
TRCMWS    0.132252
Name: proportion, dtype: float64

정상 데이터:
시술 시기 코드
TRDQAZ    0.151984
TRCMWS    0.148996
TRYBLT    0.143390
TRVNRY    0.140742
TRJXFG    0.140734
TRZKPL    0.138439
TRXQMD    0.135715
Name: proportion, dtype: float64


In [34]:
# 5. 연령대 분포
print("\n연령대 분포:")
print("\n결측 데이터:")
print(systematic_missing['시술 당시 나이'].value_counts(normalize=True))
print("\n정상 데이터:")
print(normal_data['시술 당시 나이'].value_counts(normalize=True))


연령대 분포:

결측 데이터:
시술 당시 나이
만18-34세    0.329200
만35-37세    0.230488
만38-39세    0.167382
만40-42세    0.164680
만43-44세    0.066603
만45-50세    0.041647
Name: proportion, dtype: float64

정상 데이터:
시술 당시 나이
만18-34세    0.401524
만35-37세    0.225266
만38-39세    0.152739
만40-42세    0.145213
만43-44세    0.047325
만45-50세    0.026618
알 수 없음     0.001316
Name: proportion, dtype: float64


- 추가 확인함으로써 나온 결론

---

1. 성공률
    - 결측 데이터: 6,291건 (약 2.45%), 성공률 12.89%
    - 정상 데이터: 250,060건 (약 97.55%), 성공률 26.16%
    - `결측 데이터의 성공률`이 정상 데이터보다 `약 13.27%p 낮음`

---

2. 시술 유형 완벽한 분리
    - 결측 데이터: 100% DI 시술
    - 정상 데이터: 100% IVF 시술
    - 결측치는 `DI와 IVF의 시술 과정 차이로 인한 체계적 결측임`을 확인. 
    
        -> DI는 체내 시술(수정), IVF는 체외 시술(수정)

---

3. 시기별 분포
- 두 그룹 모두 시기별로 비교적 균등하게 분포 (13~15% 범위)
- 시기에 따른 큰 편향성은 없음

---

4. 연령대 분포

- 결측 데이터(DI): 34세 이하가 32.9%
- 정상 데이터(IVF): 34세 이하가 40.2%
- IVF가 상대적으로 더 젊은 연령대에 집중

---
그래서?
1) DI와 IVF를 분리해서 데이터 전처리를 고려
- 두 시술의 특성과 결측 패턴이 완전히 다름
- 각각의 특성에 맞는 피처 엔지니어링 가능

2) 시간 관련 변수 처리
- IVF의 경우 시기별 중앙값으로 대체 (중앙값으로 대체하는 것은 이상치 처리가 되지 않았기 때문, 따라서 초안 작업)
- DI의 경우 해당 변수를 제외 (100% 결측이기 때문)

In [36]:
# 1. 데이터 분리
df_di = df_cleaned[df_cleaned['시술 유형'] == 'DI'].copy()
df_ivf = df_cleaned[df_cleaned['시술 유형'] == 'IVF'].copy()

# 기본 정보 출력
print("DI 데이터:")
print("- 샘플 수:", len(df_di))
print("- 성공률:", df_di['임신 성공 여부'].mean())

print("\nIVF 데이터:")
print("- 샘플 수:", len(df_ivf))
print("- 성공률:", df_ivf['임신 성공 여부'].mean())

DI 데이터:
- 샘플 수: 6291
- 성공률: 0.12891432204736925

IVF 데이터:
- 샘플 수: 250060
- 성공률: 0.2616052147484604


In [37]:
# 2. 시간 변수 처리
time_cols = ['배아 해동 경과일', '난자 채취 경과일', '난자 혼합 경과일', '배아 이식 경과일']

# DI: 시간 변수 제거
df_di = df_di.drop(columns=time_cols)

# IVF: 시기별 중앙값으로 대체
for col in time_cols:
    df_ivf[col] = df_ivf.groupby('시술 시기 코드')[col].transform(lambda x: x.fillna(x.median()))

# 처리 후 결측치 확인
print("\nIVF 데이터 시간 변수 결측치 처리 후:")
for col in time_cols:
    if col in df_ivf.columns:
        missing_ratio = df_ivf[col].isnull().mean() * 100
        print(f"{col}: {missing_ratio:.2f}% 결측")


IVF 데이터 시간 변수 결측치 처리 후:
배아 해동 경과일: 0.00% 결측
난자 채취 경과일: 0.00% 결측
난자 혼합 경과일: 0.00% 결측
배아 이식 경과일: 0.00% 결측


- 범주형 변수 전처리를 위해서 살펴보기

In [41]:
# 횟수 관련 변수 분포 확인
count_cols = ['총 시술 횟수', '클리닉 내 총 시술 횟수', 
              '총 임신 횟수', '총 출산 횟수']

print("IVF 데이터:")
for col in count_cols:
    print(f"\nIVF-{col} 분포:")
    print(df_ivf[col].value_counts().sort_index())

print("\nDI 데이터:")
for col in count_cols:
    print(f"\nDI-{col} 분포:")
    print(df_di[col].value_counts().sort_index())

IVF 데이터:

IVF-총 시술 횟수 분포:
총 시술 횟수
0회       97203
1회       55920
2회       38232
3회       23491
4회       14232
5회        8367
6회 이상    12615
Name: count, dtype: int64

IVF-클리닉 내 총 시술 횟수 분포:
클리닉 내 총 시술 횟수
0회       120757
1회        58574
2회        33402
3회        17428
4회         9224
5회         4766
6회 이상      5909
Name: count, dtype: int64

IVF-총 임신 횟수 분포:
총 임신 횟수
0회       201681
1회        41663
2회         5919
3회          700
4회           87
5회            7
6회 이상         3
Name: count, dtype: int64

IVF-총 출산 횟수 분포:
총 출산 횟수
0회       214229
1회        33576
2회         2091
3회          148
4회           13
5회            1
6회 이상         2
Name: count, dtype: int64

DI 데이터:

DI-총 시술 횟수 분포:
총 시술 횟수
0회        396
1회        899
2회       1106
3회       1040
4회        909
5회        739
6회 이상    1202
Name: count, dtype: int64

DI-클리닉 내 총 시술 횟수 분포:
클리닉 내 총 시술 횟수
0회        918
1회       1179
2회       1160
3회        929
4회        794
5회        630
6회 이상     681
Name: count, dtype: int64

DI-총 임신 횟수 분포:
총

- 시술 횟수 관련 변수들
- 분포가 매우 치우침 (0회가 대부분)
- IVF와 DI의 분포가 매우 다름
- Label Encoding이 아닌 구간화(Binning) 필요

    0회: 미시술
    1-2회: 초기
    3-5회: 중기
    6회 이상: 후기

    -> 3회 이상을 하나(반복 시술군)로 묶는 기준도 의학계에서 많이 사용된다고도 함.
    -> 체외수정 횟수와 임신 성공률의 상관관계를 다룬 [보고서](https://nibp.kr/xe/news2/52677)​에서도 3회 이상의 시술 이후 결과 변화가 유의하게 나타난다는 점을 확인할 수 있음.

In [44]:
# 연령 관련 변수 분포 확인
age_cols = ['시술 당시 나이', '난자 기증자 나이', '정자 기증자 나이']

print("IVF 데이터")
for col in age_cols:
    print(f"\nIVF-{col} 범주:")
    print(df_ivf[col].value_counts().sort_index())
    
print("\nDI 데이터")
for col in age_cols:
    print(f"\nDI-{col} 범주:")
    print(df_di[col].value_counts().sort_index())

IVF 데이터

IVF-시술 당시 나이 범주:
시술 당시 나이
만18-34세    100405
만35-37세     56330
만38-39세     38194
만40-42세     36312
만43-44세     11834
만45-50세      6656
알 수 없음        329
Name: count, dtype: int64

IVF-난자 기증자 나이 범주:
난자 기증자 나이
만20세 이하       294
만21-25세      2334
만26-30세      4976
만31-35세      6366
알 수 없음     236090
Name: count, dtype: int64

IVF-정자 기증자 나이 범주:
정자 기증자 나이
만20세 이하       760
만21-25세      4403
만26-30세      3881
만31-35세      3788
만36-40세      4111
만41-45세      2941
알 수 없음     230176
Name: count, dtype: int64

DI 데이터

DI-시술 당시 나이 범주:
시술 당시 나이
만18-34세    2071
만35-37세    1450
만38-39세    1053
만40-42세    1036
만43-44세     419
만45-50세     262
Name: count, dtype: int64

DI-난자 기증자 나이 범주:
난자 기증자 나이
알 수 없음    6291
Name: count, dtype: int64

DI-정자 기증자 나이 범주:
정자 기증자 나이
만20세 이하     307
만21-25세    1264
만26-30세    1177
만31-35세    1123
만36-40세    1171
만41-45세     907
알 수 없음      342
Name: count, dtype: int64


- 알 수 없음의 경우
- 데이터 수집 과정에서 생긴 누락된 정보이거나
- Not Applicable인 경우 (ex. DI의 경우 난자 기증자는 본인이기 때문에 `알 수 없음` 으로 처리된 것)
- 따라서, 별도의 값으로 대체

In [45]:
# 통합 데이터 전처리 전략

# 1. 횟수 관련 변수 전처리
count_features = {
    '시술 횟수': ['총 시술 횟수', '클리닉 내 총 시술 횟수'],  # 구간화 적용
    '임신/출산 횟수': ['총 임신 횟수', '총 출산 횟수']  # Label Encoding 유지
}

# 구간화 함수 정의
def create_count_group(x):
    if x == '0회': return 0
    elif x in ['1회', '2회']: return 1
    elif x in ['3회', '4회', '5회']: return 2
    else: return 3  # '6회 이상'

# 2. 연령 관련 전처리
age_features = {
    '시술 당시 나이',  # Label Encoding
    '난자 기증자 나이',  # 'Not Applicable' 를 포함한 Label Encoding
    '정자 기증자 나이'  # 'Not Applicable' 를 포함한 Label Encoding
}

# 시술 당시 나이 매핑 (순서 보존)
age_mapping = {
    '만18-34세': 0, '만35-37세': 1, '만38-39세': 2,
    '만40-42세': 3, '만43-44세': 4, '만45-50세': 5,
    '알 수 없음': 6
}

print("전처리 적용 전 데이터 형태 확인:")
print(df_cleaned[list(count_features['시술 횟수'])].head())
print("\n시술 당시 나이 분포:")
print(df_cleaned['시술 당시 나이'].value_counts())

전처리 적용 전 데이터 형태 확인:
  총 시술 횟수 클리닉 내 총 시술 횟수
0      0회            0회
1      0회            0회
2      1회            0회
3      1회            1회
4      0회            0회

시술 당시 나이 분포:
시술 당시 나이
만18-34세    102476
만35-37세     57780
만38-39세     39247
만40-42세     37348
만43-44세     12253
만45-50세      6918
알 수 없음        329
Name: count, dtype: int64


In [46]:
# 통합 데이터 전처리 적용

# 1. 시술 횟수 관련 변수 전처리
# 구간화 적용할 변수
for col in ['총 시술 횟수', '클리닉 내 총 시술 횟수']:
   df_cleaned[f'{col}_구간'] = df_cleaned[col].apply(create_count_group)
   
# 임신/출산 횟수는 원래 카테고리 유지하되 숫자만 추출
for col in ['총 임신 횟수', '총 출산 횟수']:
   df_cleaned[col] = df_cleaned[col].str.replace('회', '').str.replace('이상', '')
   df_cleaned[col] = pd.to_numeric(df_cleaned[col])

In [47]:
# 2. 연령 관련 변수 전처리
# 시술 당시 나이: 순서가 있는 Label Encoding
df_cleaned['시술 당시 나이'] = df_cleaned['시술 당시 나이'].map(age_mapping)

# 기증자 나이: Not Applicable 고려한 처리
for col in ['난자 기증자 나이', '정자 기증자 나이']:
   # 알 수 없음은 -1로 처리 (Not Applicable 의미)
   df_cleaned[col] = pd.Categorical(df_cleaned[col]).codes

In [48]:
# 3. 확인
print("전처리 후 시술 횟수 구간 분포:")
for col in ['총 시술 횟수_구간', '클리닉 내 총 시술 횟수_구간']:
   print(f"\n{col}:")
   print(df_cleaned[col].value_counts(sort=False))

print("\n전처리 후 연령 관련 변수:")
for col in ['시술 당시 나이', '난자 기증자 나이', '정자 기증자 나이']:
   print(f"\n{col}:")
   print(df_cleaned[col].value_counts(sort=False))

전처리 후 시술 횟수 구간 분포:

총 시술 횟수_구간:
총 시술 횟수_구간
0    97599
1    96157
3    13817
2    48778
Name: count, dtype: int64

클리닉 내 총 시술 횟수_구간:
클리닉 내 총 시술 횟수_구간
0    121675
1     94315
3      6590
2     33771
Name: count, dtype: int64

전처리 후 연령 관련 변수:

시술 당시 나이:
시술 당시 나이
0    102476
5      6918
1     57780
2     39247
3     37348
4     12253
6       329
Name: count, dtype: int64

난자 기증자 나이:
난자 기증자 나이
4    242381
1      2334
3      6366
2      4976
0       294
Name: count, dtype: int64

정자 기증자 나이:
정자 기증자 나이
6    230518
2      5058
1      5667
5      3848
4      5282
3      4911
0      1067
Name: count, dtype: int64


- 수정이 필요한 부분:

1. 시술 횟수 구간 순서 조정
2. 기증자 나이 인코딩 방식 통일
    - '알 수 없음'을 모두 같은 값(-1)으로 처리
    - 실제 나이 범주를 순서대로 인코딩

In [52]:
# 데이터 전처리 재시작
# 1. 데이터 다시 불러오기
df = pd.read_csv('../data/train.csv')

# 2. 95% 이상 결측치 컬럼 제거
missing_ratio = df.isnull().sum() / len(df) * 100
high_missing_cols = missing_ratio[missing_ratio > 95].index
df_cleaned = df.drop(columns=high_missing_cols)

# 3. 연령 관련 변수들의 unique 값 확인
print("시술 당시 나이 unique 값:")
print(df_cleaned['시술 당시 나이'].unique())

print("\n난자 기증자 나이 unique 값:")
print(df_cleaned['난자 기증자 나이'].unique())

print("\n정자 기증자 나이 unique 값:")
print(df_cleaned['정자 기증자 나이'].unique())

시술 당시 나이 unique 값:
['만18-34세' '만45-50세' '만35-37세' '만38-39세' '만40-42세' '만43-44세' '알 수 없음']

난자 기증자 나이 unique 값:
['알 수 없음' '만21-25세' '만31-35세' '만26-30세' '만20세 이하']

정자 기증자 나이 unique 값:
['알 수 없음' '만26-30세' '만21-25세' '만41-45세' '만36-40세' '만31-35세' '만20세 이하']


In [53]:
# 1. 시술 횟수 구간화
count_group_mapping = {
    '0회': 0,          # 미시술
    '1회': 1,          # 초기
    '2회': 1,          # 초기
    '3회': 2,          # 중기
    '4회': 2,          # 중기
    '5회': 2,          # 중기
    '6회 이상': 3      # 후기
}

# 시술 횟수 관련 변수 전처리
for col in ['총 시술 횟수', '클리닉 내 총 시술 횟수']:
    df_cleaned[f'{col}_구간'] = df_cleaned[col].map(count_group_mapping)

# 2. 연령 관련 변수 전처리
# 시술 당시 나이 매핑
age_mapping = {
    '만18-34세': 0,
    '만35-37세': 1, 
    '만38-39세': 2,
    '만40-42세': 3, 
    '만43-44세': 4,
    '만45-50세': 5,
    '알 수 없음': -1
}

# 기증자 나이 매핑
donor_age_mapping = {
    '만20세 이하': 0,
    '만21-25세': 1,
    '만26-30세': 2,
    '만31-35세': 3,
    '만36-40세': 4,
    '만41-45세': 5,
    '알 수 없음': -1
}

# 연령 변수 매핑 적용
df_cleaned['시술 당시 나이_인코딩'] = df_cleaned['시술 당시 나이'].map(age_mapping)
df_cleaned['난자 기증자 나이_인코딩'] = df_cleaned['난자 기증자 나이'].map(donor_age_mapping)
df_cleaned['정자 기증자 나이_인코딩'] = df_cleaned['정자 기증자 나이'].map(donor_age_mapping)

In [54]:
# 3. 결과 확인
print("시술 횟수 구간 분포:")
for col in ['총 시술 횟수_구간', '클리닉 내 총 시술 횟수_구간']:
    print(f"\n{col}:")
    print(df_cleaned[col].value_counts().sort_index())

print("\n연령 변수 인코딩 결과:")
for col in ['시술 당시 나이_인코딩', '난자 기증자 나이_인코딩', '정자 기증자 나이_인코딩']:
    print(f"\n{col}:")
    print(df_cleaned[col].value_counts().sort_index())

시술 횟수 구간 분포:

총 시술 횟수_구간:
총 시술 횟수_구간
0    97599
1    96157
2    48778
3    13817
Name: count, dtype: int64

클리닉 내 총 시술 횟수_구간:
클리닉 내 총 시술 횟수_구간
0    121675
1     94315
2     33771
3      6590
Name: count, dtype: int64

연령 변수 인코딩 결과:

시술 당시 나이_인코딩:
시술 당시 나이_인코딩
-1       329
 0    102476
 1     57780
 2     39247
 3     37348
 4     12253
 5      6918
Name: count, dtype: int64

난자 기증자 나이_인코딩:
난자 기증자 나이_인코딩
-1    242381
 0       294
 1      2334
 2      4976
 3      6366
Name: count, dtype: int64

정자 기증자 나이_인코딩:
정자 기증자 나이_인코딩
-1    230518
 0      1067
 1      5667
 2      5058
 3      4911
 4      5282
 5      3848
Name: count, dtype: int64


----

이제 다음 단계로

1. 나머지 범주형 변수들에 대한 전처리
2. 수치형 변수들의 스케일링
3. 이전에 했던 피처 엔지니어링 (배아/난자 성공 비율 등)

특히 나머지 범주형 변수들 중에서:
- '시술 유형', '배란 유도 유형' 등은 One-Hot Encoding
- '총 임신 횟수', '총 출산 횟수' 등은 Label Encoding

- 스케일링을 진행하기 전에 우선 `이상치를 먼저 확인하고 처리`해야 함
- 수치형 변수 43개(우선 Target 포함)

(수치형 변수 목록:
['배란 자극 여부', '단일 배아 이식 여부', '착상 전 유전 진단 사용 여부', '남성 주 불임 원인', '남성 부 불임 원인', '여성 주 불임 원인', '여성 부 불임 원인', '부부 주 불임 원인', '부부 부 불임 원인', '불명확 불임 원인', '불임 원인 - 난관 질환', '불임 원인 - 남성 요인', '불임 원인 - 배란 장애', '불임 원인 - 여성 요인', '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증', '불임 원인 - 정자 농도', '불임 원인 - 정자 면역학적 요인', '불임 원인 - 정자 운동성', '불임 원인 - 정자 형태', '총 생성 배아 수', '미세주입된 난자 수', '미세주입에서 생성된 배아 수', '이식된 배아 수', '미세주입 배아 이식 수', '저장된 배아 수', '미세주입 후 저장된 배아 수', '해동된 배아 수', '해동 난자 수', '수집된 신선 난자 수', '저장된 신선 난자 수', '혼합된 난자 수', '파트너 정자와 혼합된 난자 수', '기증자 정자와 혼합된 난자 수', '동결 배아 사용 여부', '신선 배아 사용 여부', '기증 배아 사용 여부', '대리모 여부', '난자 채취 경과일', '난자 혼합 경과일', '배아 이식 경과일', '배아 해동 경과일', '임신 성공 여부'])