In [21]:
import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv("train.csv")

# 데이터 확인
df.head(1)  # 데이터 상위 5개 확인


Unnamed: 0,ID,시술 시기 코드,시술 당시 나이,임신 시도 또는 마지막 임신 경과 연수,시술 유형,특정 시술 유형,배란 자극 여부,배란 유도 유형,단일 배아 이식 여부,착상 전 유전 검사 사용 여부,...,기증 배아 사용 여부,대리모 여부,PGD 시술 여부,PGS 시술 여부,난자 채취 경과일,난자 해동 경과일,난자 혼합 경과일,배아 이식 경과일,배아 해동 경과일,임신 성공 여부
0,TRAIN_000000,TRZKPL,만18-34세,,IVF,ICSI,1,기록되지 않은 시행,0.0,,...,0.0,0.0,,,0.0,,0.0,3.0,,0


In [24]:
import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv("train.csv")

# ✅ 범주형 컬럼별 매핑 정의
age_mapping = {
    "만18-34세": 0, "만35-37세": 1, "만38-39세": 2, "만40-42세": 3,
    "만43-44세": 4, "만45-50세": 5, "알 수 없음": 6
}

procedure_mapping = {
    "IVF": 0, "DI": 1
}

specific_procedure_mapping = {
    "IVF": 0, "ICSI": 1, "IUI": 2, "ICI": 3, "GIFT": 4, "FER": 5, 
    "Generic DI": 6, "IVI": 7, "BLASTOCYST": 8, "AH": 9, "Unknown": 10
}

egg_source_mapping = {
    "기증 제공": 0, "본인 제공": 1, "알 수 없음": 2
}

sperm_source_mapping = {
    "기증 제공": 0, "미할당": 1, "배우자 및 기증 제공": 2, "배우자 제공": 3
}

donor_age_mapping = {
    "만20세 이하": 0, "만21-25세": 1, "만26-30세": 2, "만31-35세": 3, 
    "만36-40세": 4, "만41-45세": 5, "알 수 없음": 6
}

# ✅ 각 범주형 컬럼을 직접 매핑하여 변환
mapping_dict = {
    "시술 당시 나이": age_mapping,
    "시술 유형": procedure_mapping,
    "특정 시술 유형": specific_procedure_mapping,
    "난자 출처": egg_source_mapping,
    "정자 출처": sperm_source_mapping,
    "난자 기증자 나이": donor_age_mapping,
    "정자 기증자 나이": donor_age_mapping
}

for col, mapping in mapping_dict.items():
    if col in df.columns:
        df[col] = df[col].map(mapping)

# ✅ 0과 1로 처리할 수 있는 이진형 데이터 (예: True/False 여부)
binary_columns = [
    "배란 자극 여부", "단일 배아 이식 여부", "착상 전 유전 검사 사용 여부", "착상 전 유전 진단 사용 여부",
    "남성 주 불임 원인", "남성 부 불임 원인", "여성 주 불임 원인", "여성 부 불임 원인",
    "부부 주 불임 원인", "부부 부 불임 원인", "불명확 불임 원인", "불임 원인 - 난관 질환",
    "불임 원인 - 남성 요인", "불임 원인 - 배란 장애", "불임 원인 - 여성 요인", "불임 원인 - 자궁경부 문제",
    "불임 원인 - 자궁내막증", "불임 원인 - 정자 농도", "불임 원인 - 정자 면역학적 요인",
    "불임 원인 - 정자 운동성", "불임 원인 - 정자 형태", "동결 배아 사용 여부", "신선 배아 사용 여부",
    "기증 배아 사용 여부", "대리모 여부", "PGD 시술 여부", "PGS 시술 여부"
]

# ✅ NaN 값을 0으로 채운 후, int 변환 (오류 방지)
df[binary_columns] = df[binary_columns].fillna(0).astype(int)

# ✅ 범주형 데이터 중 숫자로 변환되지 않은 나머지 컬럼 (시술 시기 코드, 배란 유도 유형 등)
categorical_columns = [
    "시술 시기 코드", "배란 유도 유형", "배아 생성 주요 이유", "총 시술 횟수", "클리닉 내 총 시술 횟수", 
    "IVF 시술 횟수", "DI 시술 횟수", "총 임신 횟수", "IVF 임신 횟수", "DI 임신 횟수", "총 출산 횟수", 
    "IVF 출산 횟수", "DI 출산 횟수"
]

# ✅ 문자열 범주형 데이터를 숫자로 변환 (자동 매핑)
for col in categorical_columns:
    if col in df.columns:
        df[col] = df[col].astype("category").cat.codes

# ✅ 결측치(NaN) 값을 0으로 변환
df.fillna(0, inplace=True)

# ✅ 전처리된 데이터 저장 (필요시)
df.to_csv("processed_train.csv", index=False, encoding="utf-8-sig")


In [25]:
# CSV 파일 불러오기
df2 = pd.read_csv("processed_train.csv")

for col in df.columns:
    print(f"컬럼: {col}")
    print(df2[col].value_counts())  # 각 값의 빈도수 확인
    print("\n")


컬럼: ID
ID
TRAIN_000000    1
TRAIN_170906    1
TRAIN_170893    1
TRAIN_170894    1
TRAIN_170895    1
TRAIN_170896    1
TRAIN_170897    1
TRAIN_170898    1
TRAIN_170899    1
TRAIN_170900    1
TRAIN_170901    1
TRAIN_170902    1
TRAIN_170903    1
TRAIN_170904    1
TRAIN_170905    1
TRAIN_170907    1
TRAIN_170922    1
TRAIN_170908    1
TRAIN_170909    1
TRAIN_170910    1
TRAIN_170911    1
TRAIN_170912    1
TRAIN_170913    1
TRAIN_170914    1
TRAIN_170915    1
TRAIN_170916    1
TRAIN_170917    1
TRAIN_170918    1
TRAIN_170919    1
TRAIN_170920    1
TRAIN_170892    1
TRAIN_170891    1
TRAIN_170890    1
TRAIN_170889    1
TRAIN_170862    1
TRAIN_170863    1
TRAIN_170864    1
TRAIN_170865    1
TRAIN_170866    1
TRAIN_170867    1
TRAIN_170868    1
TRAIN_170869    1
TRAIN_170870    1
TRAIN_170871    1
TRAIN_170872    1
TRAIN_170873    1
TRAIN_170874    1
TRAIN_170875    1
TRAIN_170876    1
TRAIN_170877    1
TRAIN_170878    1
TRAIN_170879    1
TRAIN_170880    1
TRAIN_170881    1
TRAIN_170882    1


In [26]:
import pandas as pd

# 결측치 개수를 데이터프레임으로 변환
missing_values = df2.isnull().sum().reset_index()
missing_values.columns = ["컬럼명", "결측치 개수"]

# 데이터프레임 형태로 보기 좋게 출력
print(missing_values)  # 일반 출력
pd.set_option('display.max_rows', None)  # 모든 행 출력
print(missing_values)


                      컬럼명  결측치 개수
0                      ID       0
1                시술 시기 코드       0
2                시술 당시 나이       0
3   임신 시도 또는 마지막 임신 경과 연수       0
4                   시술 유형       0
5                특정 시술 유형       0
6                배란 자극 여부       0
7                배란 유도 유형       0
8             단일 배아 이식 여부       0
9        착상 전 유전 검사 사용 여부       0
10       착상 전 유전 진단 사용 여부       0
11             남성 주 불임 원인       0
12             남성 부 불임 원인       0
13             여성 주 불임 원인       0
14             여성 부 불임 원인       0
15             부부 주 불임 원인       0
16             부부 부 불임 원인       0
17              불명확 불임 원인       0
18          불임 원인 - 난관 질환       0
19          불임 원인 - 남성 요인       0
20          불임 원인 - 배란 장애       0
21          불임 원인 - 여성 요인       0
22        불임 원인 - 자궁경부 문제       0
23          불임 원인 - 자궁내막증       0
24          불임 원인 - 정자 농도       0
25     불임 원인 - 정자 면역학적 요인       0
26         불임 원인 - 정자 운동성       0
27          불임 원인 - 정자 형태       0
28            