# 머신러닝 초보자를 위한 연습문제 - 정답지 (Solution)

이 노트북은 `Beginner_ML_Exercises.ipynb`의 예시 답안입니다.

---

## 1단계: 라이브러리 임포트 및 데이터 불러오기

In [1]:
# 1. 필요한 라이브러리를 임포트하세요.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 2. Seaborn의 load_dataset 함수를 사용하여 'titanic' 데이터를 불러와 'df' 변수에 저장하세요.
df = sns.load_dataset('titanic')

## 2단계: 데이터 확인 및 기본 정보 파악 (EDA 기초)

In [2]:
# 1. 데이터의 상위 5개 행을 출력하세요.
print(df.head())

# 2. 데이터의 정보를 확인하세요 (info() 함수 사용).
print(df.info())

# 3. 수치형 데이터의 기초 통계량을 확인하세요 (describe() 함수 사용).
print(df.describe())

# 4. 각 컬럼별 결측치(NaN)의 개수를 확인하세요.
print(df.isnull().sum())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-nu

## 3단계: 데이터 결측치 처리 (Data Cleaning)

In [3]:
# 1. 'deck' 컬럼을 삭제하세요.
df = df.drop('deck', axis=1)

# 2. 'age' 컬럼의 결측치를 'age'의 평균값으로 채우세요.
df['age'] = df['age'].fillna(df['age'].mean())
# 또는 df.fillna({'age': df['age'].mean()}, inplace=True)

# 3. 'embarked' 컬럼의 결측치를 최빈값('S')으로 채우세요.
df['embarked'] = df['embarked'].fillna('S')

# 4. 결측치 처리가 잘 되었는지 다시 한번 확인하세요.
print(df.isnull().sum())

survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
embark_town    2
alive          0
alone          0
dtype: int64


## 4단계: 특성 공학 및 데이터 인코딩 (Feature Engineering)

In [4]:
# 1. 분석에 필요한 컬럼만 선택하여 새로운 데이터프레임을 만드세요.
features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'survived']
df_selected = df[features]

# 2. 범주형 변수('sex', 'embarked')를 원-핫 인코딩(One-Hot Encoding) 하세요.
df_encoded = pd.get_dummies(df_selected, columns=['sex', 'embarked'], drop_first=True)
# drop_first=True는 다중공선성 방지를 위해 첫 번째 카테고리를 제거합니다. (선택사항)
print(df_encoded.head())

# 3. 독립변수(X)와 종속변수(y)로 데이터를 분리하세요.
X = df_encoded.drop('survived', axis=1)
y = df_encoded['survived']

print("X shape:", X.shape)
print("y shape:", y.shape)

   pclass   age  sibsp  parch     fare  survived  sex_male  embarked_Q  \
0       3  22.0      1      0   7.2500         0      True       False   
1       1  38.0      1      0  71.2833         1     False       False   
2       3  26.0      0      0   7.9250         1     False       False   
3       1  35.0      1      0  53.1000         1     False       False   
4       3  35.0      0      0   8.0500         0      True       False   

   embarked_S  
0        True  
1       False  
2        True  
3        True  
4        True  
X shape: (891, 8)
y shape: (891,)


## 5단계: 데이터 분리 (Train / Test Split)

In [5]:
from sklearn.model_selection import train_test_split

# 1. train_test_split 함수를 사용하여 X_train, X_test, y_train, y_test 로 분리하세요.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Train set size:", X_train.shape)
print("Test set size:", X_test.shape)

Train set size: (712, 8)
Test set size: (179, 8)


## 6단계: 머신러닝 모델 생성 및 학습

In [None]:
# 1. 모델 객체 생성 (random_state=42)
model = DecisionTreeClassifier(random_state=42)

# 2. 모델 학습 (fit 함수 사용)
model.fit(X_train, y_train)

0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,42
,max_leaf_nodes,
,min_impurity_decrease,0.0


## 7단계: 예측 및 평가

In [8]:
from sklearn.metrics import accuracy_score

# 1. 테스트 데이터에 대한 예측 및 결과 저장
y_pred = model.predict(X_test)

# 2. 정확도 출력
print("Predictions:", y_pred[:10])
print("Actual:", y_test[:10].values)
print("Accuracy:", accuracy_score(y_test, y_pred))

Predictions: [0 1 1 1 1 0 1 0 1 1]
Actual: [1 0 0 1 1 1 1 0 1 1]
Accuracy: 0.7932960893854749
