## 1. 타이타닉 승객 생존 예측
- 각 승객에 대해 Survived 열을 예측하세요. Survived 값은 0 (사망) 또는 1 (생존)입니다.

### 데이터 로딩 및 전처리

In [10]:
import pandas as pd

# 데이터 로딩
train_data = pd.read_csv('data/train.csv')
test_data = pd.read_csv('data/test.csv')

test_data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [12]:
# 1. 각 열의 결측치 파악

# print(train_data.isnull().sum())    # Age 177 ,  86 /  Cabin  687, 327 / Embarked  2 / Fare 1
print(test_data.isnull().sum())

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64


#### 1. 결측치 채워넣기 

- Age와 같은 연속형 변수는 평균값/중앙값으로 채우는 것이 일반적입니다.      `mean(), median()`
- Embarked와 같은 범주형 변수는 최빈값으로 채울 수 있습니다.               `mode()[인덱스]`
- Fare가 결측인 경우, 중앙값으로 채우는 것이 좋습니다.
- Cabin이 결측인 경우 U로 채우기 (unknown)

In [15]:
# Age 평균값으로 채우기

age_mean = train_data['Age'].mean()

train_data['Age'] = train_data['Age'].fillna(age_mean)

In [18]:
age_mean = test_data['Age'].mean()

test_data['Age'] = test_data['Age'].fillna(age_mean)
# train_data['Age'].isnull().sum()

np.int64(0)

In [27]:
# Embarked 최빈값으로 채우기 

train_data['Embarked'].value_counts()
train_mode = train_data['Embarked'].mode()[0]                              # 최빈값으로 넣어줄 인덱스 지정해줘야 함.
train_data['Embarked'] = train_data['Embarked'].fillna(train_mode)

# train_data['Embarked'].isnull().sum()

Embarked
S    646
C    168
Q     77
Name: count, dtype: int64

In [40]:
# Cabin U로 채우기

train_data['Cabin'] = train_data['Cabin'].fillna('U')  # 결측값을 'U'로 채움 (Unknown)
test_data['Cabin'] = test_data['Cabin'].fillna('U')

#test_data.isnull().sum()

In [39]:
# Fare 중앙값으로 채우기 

Fare_median = test_data['Fare'].median()

test_data['Fare'] = test_data['Fare'].fillna(Fare_median)
test_data.isnull().sum()

PassengerId    0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

#### 2. 특성 공학

- Name에서 승객의 직책을 추출하여 새로운 특성(Title)을 만듭니다 (예: Mr., Mrs., Miss. 등).
    - `extract_title` : 필요 함수를 만듦.
    - `split()` : 나눠주기 
    - `strip()` : 제거해주기
- Family Size: SibSp와 Parch를 더하여 승객의 가족 크기를 나타내는 새로운 특성을 만듭니다.
    - `concat`하여 특성 만들기 (가족에는 `나` 자신도 포함해야 하므로 + 1)
- Age와 Fare를 그룹화하여 추가적인 특성을 생성할 수 있습니다.
    - 함수 생성

In [41]:
# Name에서 직책(Title)을 추출하는 함수 만들기
def extract_title(name):
    title = name.split(',')[1].split('.')[0].strip()  # [1] 직책,이름을 가져오고 -> .을 기준으로 나누고 0번 가져오기 -> 직책 뽑아내기
    return title

# Name에서 직책을 추출하여 새로운 특성 'Title' 생성
train_data['Title'] = train_data['Name'].apply(extract_title)           # .apply : 사용자 정의 함수 처리 
test_data['Title'] = test_data['Name'].apply(extract_title)

# 직책의 분포 확인 (ex: Mr., Mrs., Miss 등)
print(train_data['Title'].value_counts())

Title
Mr              517
Miss            182
Mrs             125
Master           40
Dr                7
Rev               6
Col               2
Mlle              2
Major             2
Ms                1
Mme               1
Don               1
Lady              1
Sir               1
Capt              1
the Countess      1
Jonkheer          1
Name: count, dtype: int64


In [57]:
# Family Size: SibSp(형제 자매 or 배우자)와 Parch(부모 자식)를 더하여 승객의 가족 크기를 나타내는 새로운 특성

train_data.head()
train_data['Family_Size'] = train_data['SibSp'] + train_data['Parch'] + 1
test_data['Family_Size'] = test_data['SibSp'] + test_data['Parch'] + 1
train_data['Family_Size'].value_counts()

Family_Size
1     537
2     161
3     102
4      29
6      22
5      15
7      12
11      7
8       6
Name: count, dtype: int64

In [49]:
# Age를 나이대별로 그룹화하는 함수
def age_group(age):
    if age <= 12:
        return 'Child'
    elif age <= 18:
        return 'Teenager'
    elif age <= 60:
        return 'Adult'
    else:
        return 'Senior'

# 'AgeGroup' 특성 생성
train_data['AgeGroup'] = train_data['Age'].apply(age_group)
test_data['AgeGroup'] = test_data['Age'].apply(age_group)

# AgeGroup의 분포 확인
print(train_data['AgeGroup'].value_counts())

AgeGroup
Adult       730
Teenager     70
Child        69
Senior       22
Name: count, dtype: int64


In [50]:
# Fare를 요금별로 그룹화하는 함수

def fare_group(fare):
    if fare <= 10:
        return 'Low'
    elif fare <= 30:
        return 'Medium'
    else:
        return 'High'

# fare_group 특성 생성
train_data['FareGroup'] = train_data['Fare'].apply(fare_group)
test_data['FareGroup'] = test_data['Fare'].apply(fare_group)

print(train_data['FareGroup'].value_counts())

FareGroup
Low       336
Medium    321
High      234
Name: count, dtype: int64


### 3. 모델 선택 및 훈련

- 로지스틱 회귀: Survived를 예측하는 로지스틱 회귀 모델을 학습시키세요.
- 결정 트리: Survived를 예측하는 결정 트리 모델을 학습시키세요.
- k-최근접 이웃분류: Survived를 예측하는 k-NN 모델을 학습시키세요.

#### 3.1 로지스틱 회귀 / 다중 회귀 / 확률적 경사 하강법 활용
- 'Pclass', 'Sex', 'Age', 'Fare', 'Embarked', 'Family_Size' 특성을 활용하여 'Survived' 분류

    - 범주형 변수 변환 (원-핫 인코딩) : `data = pd.get_dummies(data, columns=['Sex', 'Embarked'], drop_first=True)`
- 확률적 경사 하강법 : 로지스틱 회귀의 가중치 최적화 목적 (다중회귀 유리 , 여러번 반복 가능)

In [95]:
# 1. 훈련 데이터, 테스트용 데이터 만들기

data = train_data[['Pclass', 'Age', 'Fare', 'Family_Size']]
target = train_data[['Survived']]

# data

In [96]:
# 2. 훈련, 테스트용 데이터 넣고 섞기 

from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = \
train_test_split(data, target)

In [103]:
# 3. 표준화 해주기 

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()

ss.fit(train_input, train_target)

train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

In [118]:
# 4. 로지스틱 회귀 

from sklearn.linear_model import SGDClassifier
lr = SGDClassifier(loss = 'log_loss', max_iter = 100)

lr.fit(train_scaled, train_target)

  y = column_or_1d(y, warn=True)


In [119]:
print(lr.score(train_scaled, train_target))
print(lr.score(test_scaled, test_target))

0.6946107784431138
0.6905829596412556


#### 3.2 결정 트리
- max_depth으로 트리의 깊이 조정 

In [91]:
# 1. 훈련 데이터, 테스트용 데이터 만들기

data = train_data[['Pclass', 'Age', 'Fare', 'Family_Size']]
target = train_data[['Survived']]

# data

In [93]:
# 2. 훈련, 테스트용 데이터 넣고 섞기 

from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = \
train_test_split(data, target)

In [94]:
# 3. 표준화 해주기 

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()

ss.fit(train_input, train_target)

train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

In [122]:
# 4. 결정 트리 

from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(max_depth = 10)

dt.fit(train_scaled, train_target)

In [124]:
print(dt.score(train_scaled, train_target))
print(dt.score(test_scaled, test_target))

0.8218562874251497
0.672645739910314


#### 3.3 k-최근접 이웃
- Survived를 예측하는 k-NN 모델을 학습

In [125]:
from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier()

kn.fit(train_scaled, train_target)

  return self._fit(X, y)


In [126]:
print(kn.score(train_scaled, train_target))
print(kn.score(test_scaled, test_target))

0.7919161676646707
0.6995515695067265


In [131]:
# kn.predict_proba(test_scaled)

### 4. 모델 평가

#### 4.1 교차검증 

In [132]:
# 1. 훈련 데이터, 테스트용 데이터 만들기

data = train_data[['Pclass', 'Age', 'Fare', 'Family_Size']]
target = train_data[['Survived']]

# data

In [133]:
# 2. 훈련, 테스트용 데이터 넣고 섞기 

from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = \
train_test_split(data, target)

sub_input, val_input, sub_target, val_target = \
train_test_split(train_input, train_target)

In [134]:
# 3. 결정 트리로 검증 세트 채점

from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier()

dt.fit(sub_input, sub_target)

In [139]:
print(dt.score(sub_input, sub_target))
print(dt.score(val_input, val_target))

0.9740518962075848
0.6706586826347305


In [140]:
# 4. 테스트세트 채점

print(dt.score(test_input, test_target))

0.5426008968609866


In [141]:
# 5. 교차검증 (테스트세트에만 맞춰질 수도 있으니 성능이 일반화되었는지 검증)

from sklearn.model_selection import cross_validate

scores = cross_validate(dt, train_input, train_target)          #fit, score_time : 각각 훈련, 검증 시간 의미 / test_score : 검증 폴드의 점수 = 80점대 중반으로 큰 변동성 없이 균일함 확인 
print(scores)

{'fit_time': array([0.00432229, 0.00567365, 0.0033915 , 0.0035274 , 0.0033462 ]), 'score_time': array([0.00593638, 0.00396323, 0.00319028, 0.00260735, 0.00210238]), 'test_score': array([0.64925373, 0.70895522, 0.64925373, 0.72180451, 0.68421053])}


### 5. 하이퍼파라미터 튜닝

GridSearchCV나 RandomizedSearchCV를 사용하여 모델의 하이퍼파라미터를 최적화하세요.

#### 5.1 그리드 서치
- 하이퍼파라미터 탐색 & 교차검증 한번에 수행 --> 별도로 교차검증 필요 없음

In [144]:
from sklearn.model_selection import GridSearchCV

params = {
    'C': [0.01, 0.1, 1, 10, 100],  # 규제 강도
    'solver': ['liblinear', 'lbfgs']
}

gs= GridSearchCV(LogisticRegression(max_iter=1000), params, cv=5, scoring='accuracy', n_jobs=-1)
gs.fit(train_input, train_target)

  y = column_or_1d(y, warn=True)


In [145]:
dt = gs.best_estimator_
print(gs.score(train_input, train_target))

0.7140718562874252


### 6. 최종 제출

훈련된 모델을 사용하여 테스트 데이터를 예측하고, 결과를 제출하세요.