# 머신러닝 초보자를 위한 연습문제 (1~7단계)

이 노트북은 머신러닝의 기초 과정을 단계별로 연습할 수 있도록 구성되었습니다.
각 단계의 주석에 따라 코드를 작성하고 실행해 보세요.

**학습 목표:**
1. 데이터 불러오기
2. 데이터 확인 및 탐색 (EDA)
3. 데이터 전처리 (결측치 처리 등)
4. 특성 공학 (Feature Engineering)
5. 데이터 분리 (학습/테스트)
6. 모델 학습
7. 모델 평가 및 예측

---

## 1단계: 라이브러리 임포트 및 데이터 불러오기
**문제:**
필요한 라이브러리(`pandas`, `numpy`, `matplotlib`, `seaborn`)를 임포트하고, Scikit-learn에 내장된 `titanic` 데이터를 불러오세요.
(참고: `fetch_openml`을 사용하거나 `seaborn`의 `load_dataset('titanic')`을 사용해도 됩니다. 여기서는 편의상 `seaborn`을 사용하여 데이터프레임으로 바로 불러오겠습니다.)

In [52]:
# 1. 필요한 라이브러리를 임포트하세요.
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 2. Seaborn의 load_dataset 함수를 사용하여 'titanic' 데이터를 불러와 'df' 변수에 저장하세요.
from seaborn import load_dataset
df = load_dataset('titanic')
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


## 2단계: 데이터 확인 및 기본 정보 파악 (EDA 기초)
**문제:**
불러온 데이터의 앞부분 5개 행을 출력하고, 데이터의 전반적인 정보(행/열 개수, 컬럼별 데이터 타입, 결측치 개수 등)를 확인하세요.

In [53]:
# 1. 데이터의 상위 5개 행을 출력하세요.
# df.head()

# # 2. 데이터의 정보를 확인하세요 (info() 함수 사용).
# df.info()
# # 3. 수치형 데이터의 기초 통계량을 확인하세요 (describe() 함수 사용).
# df.describe()
# # 4. 각 컬럼별 결측치(NaN)의 개수를 확인하세요.
df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

## 3단계: 데이터 결측치 처리 (Data Cleaning)
**문제:**
결측치가 너무 많은 컬럼(`deck` 등)은 삭제하고, `age` 컬럼의 결측치는 평균값으로 채우세요. `embarked`의 결측치는 최빈값(가장 많이 나온 값)으로 채우세요.
(팁: `drop`, `fillna` 등을 활용하세요)

In [54]:
# 1. 'deck' 컬럼을 삭제하세요.
df = df.drop('deck', axis=1)
# 2. 'age' 컬럼의 결측치를 'age'의 평균값으로 채우세요.
df['age']=df['age'].fillna(df['age'].mean())
# 3. 'embarked' 컬럼의 결측치를 최빈값('S')으로 채우세요. (2개밖에 없으므로 직접 'S'로 채워도 됩니다)
df['embarked'] = df['embarked'].fillna('S')
# 4. 결측치 처리가 잘 되었는지 다시 한번 확인하세요.
df.isnull().sum()


survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
embark_town    2
alive          0
alone          0
dtype: int64

## 4단계: 특성 공학 및 데이터 인코딩 (Feature Engineering)
**문제:**
모델 학습을 위해 범주형 데이터(문자열)를 수치형 데이터로 변환해야 합니다.
`sex` 컬럼과 `embarked` 컬럼, `pclass` 등을 학습에 사용할 수 있도록 처리하세요.
필요 없는 컬럼(`who`, `adult_male`, `alive`, `embark_town`, `class` 등 중복되거나 불필요한 것)은 삭제하여 학습 데이터셋 `X`와 정답 데이터셋 `y`를 준비하세요.

- 타겟(정답) 변수: `survived`
- 피처(입력) 변수: `pclass`, `sex`, `age`, `sibsp`, `parch`, `fare`, `embarked`

In [55]:
# 1. 필요한 컬럼만 선택 (이미 df가 정상이라면 이 줄은 선택사항이지만 명시적으로 좋음)
features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'survived']
df = df[features]

# 2. 원-핫 인코딩 (결과를 df_encoded에 저장)
df_encoded = pd.get_dummies(df, columns=['sex', 'embarked'], drop_first=True)

# 3. 데이터 분리 (중요: df가 아니라 df_encoded를 사용!)
# X는 정답(survived)을 제외한 나머지
X_data = df_encoded.drop('survived', axis=1)
# y는 정답(survived)
y_target = df_encoded['survived']

print(X_data.head())
print(y_target.head())

   pclass   age  sibsp  parch     fare  sex_male  embarked_Q  embarked_S
0       3  22.0      1      0   7.2500      True       False        True
1       1  38.0      1      0  71.2833     False       False       False
2       3  26.0      0      0   7.9250     False       False        True
3       1  35.0      1      0  53.1000     False       False        True
4       3  35.0      0      0   8.0500      True       False        True
0    0
1    1
2    1
3    1
4    0
Name: survived, dtype: int64


In [56]:
print(X_data.head())
print(y_target.head())

   pclass   age  sibsp  parch     fare  sex_male  embarked_Q  embarked_S
0       3  22.0      1      0   7.2500      True       False        True
1       1  38.0      1      0  71.2833     False       False       False
2       3  26.0      0      0   7.9250     False       False        True
3       1  35.0      1      0  53.1000     False       False        True
4       3  35.0      0      0   8.0500      True       False        True
0    0
1    1
2    1
3    1
4    0
Name: survived, dtype: int64


## 5단계: 데이터 분리 (Train / Test Split)
**문제:**
전체 데이터를 학습용 데이터(`train`)와 테스트용 데이터(`test`)로 나누세요.
비율은 8:2 로 설정하고, `random_state`는 42로 지정하세요.

In [57]:
from sklearn.model_selection import train_test_split

# 1. train_test_split 함수를 사용하여 X_train, X_test, y_train, y_test 로 분리하세요.
X_train, X_test, y_train, y_test = train_test_split(X_data, y_target, test_size=0.2, random_state=42)


## 6단계: 머신러닝 모델 생성 및 학습
**문제:**
가장 기본적인 분류 모델인 `DecisionTreeClassifier`(의사결정나무)를 생성하고, 학습 데이터(`X_train`, `y_train`)를 사용하여 모델을 학습시키세요.

In [63]:
from sklearn.tree import DecisionTreeClassifier

# 1. 모델 객체 생성 (random_state=42)
model = DecisionTreeClassifier(random_state=42)
# 2. 모델 학습 (fit 함수 사용)
model.fit(X_data, y_target)



0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,42
,max_leaf_nodes,
,min_impurity_decrease,0.0


## 7단계: 예측 및 평가
**문제:**
학습된 모델을 사용하여 테스트 데이터(`X_test`)의 생존 여부를 예측하고, 실제값(`y_test`)과 비교하여 정확도(Accuracy)를 계산하세요.

In [61]:
from sklearn.metrics import accuracy_score

# 1. 테스트 데이터에 대한 예측 및 결과 저장
y_pred = model.predict(X_test)

# 2. 정확도 출력
print("Accuracy:", accuracy_score(y_test, y_pred))

Accuracy: 0.994413407821229
