## STEP 1: 문제 정의 및 목표 설정

**목표:**
- 타이타닉호 승객데이터를 기반으로 생존에 영향을 미치는 요인을 분석합니다.

**주요 과제:**
- 기본 EDA (Exploratory Data Analysis)
- 데이터 전처리 (불필요한 데이터 삭제, 추가, 변경)
- 인사이트 발굴

## STEP 2: 모듈 import

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

## STEP 3: 데이터셋 로드

In [None]:
df = sns.load_dataset('titanic')
df.head()

In [None]:
df.shape

**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 성별과 동일
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

## STEP 4: 기본 데이터 조회

### 상위 5개의 행을 출력

In [None]:
# 코드를 입력해 주세요
df.head()

### 하위 5개의 행을 출력

In [None]:
# 코드를 입력해 주세요
df.tail()

### 데이터는 몇개의 행과 열로 이루어져 있는지 확인

In [None]:
# 코드를 입력해 주세요
df.shape

In [None]:
#단 아래를 수행하기 전에 class의 값이 pclass와 동일하고 type이 맞추어져 있어야 한다!
df['same'] = df[['pclass', 'class']].apply(lambda x : 0 if x['class'] == x['pclass'] else 1, axis = 1)

### 컬럼 별 데이터의 dtype과 개수를 확인

In [None]:
# 코드를 입력해 주세요
df.info()

### 데이터의 컬럼별 결측치를 확인

In [None]:
# 코드를 입력해 주세요
df.isnull().sum()

### 생존자와 사망자의 분포를 확인해 주세요

0: 사망, 1: 생존

In [None]:
# 코드를 입력해 주세요
df['survived'].value_counts()

## STEP 5: 탐색적 데이터 분석 (EDA)

### 항구별 생존자

#### 합계

In [16]:
# 코드를 입력해 주세요
df.groupby('embarked')['survived'].sum()

embarked
C     93
Q     30
S    217
Name: survived, dtype: int64

#### 생존율

In [17]:
# 코드를 입력해 주세요
df.groupby('embarked')['survived'].mean()

embarked
C    0.553571
Q    0.389610
S    0.336957
Name: survived, dtype: float64

#### 합계 & 생존율 동시 출력

In [18]:
# 코드를 입력해 주세요
df.groupby('embarked')['survived'].agg(['sum', 'mean'])

Unnamed: 0_level_0,sum,mean
embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,93,0.553571
Q,30,0.38961
S,217,0.336957


### 성별 합계 & 생존율 동시 출력

In [19]:
# 코드를 입력해 주세요
df.groupby('sex')['survived'].agg(['sum', 'mean'])

Unnamed: 0_level_0,sum,mean
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,233,0.742038
male,109,0.188908


### 혼자인 사람과 혼자가 아닌 경우 합계 & 생존율 동시 출력

In [20]:
# 코드를 입력해 주세요
df.groupby('alone')['survived'].agg(['sum', 'mean'])

Unnamed: 0_level_0,sum,mean
alone,Unnamed: 1_level_1,Unnamed: 2_level_1
False,179,0.50565
True,163,0.303538


### 등급(pclass)별 생존자 합계 & 생존율 동시 출력

In [21]:
# 코드를 입력해 주세요
df.groupby('pclass')['survived'].agg(['sum', 'mean'])

Unnamed: 0_level_0,sum,mean
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,136,0.62963
2,87,0.472826
3,119,0.242363


### 성별, 등급별 생존자 합계 & 생존율 동시 출력

In [22]:
# 코드를 입력해 주세요
df.groupby(['sex', 'pclass'])['survived'].agg(['sum', 'mean'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
sex,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1
female,1,91,0.968085
female,2,70,0.921053
female,3,72,0.5
male,1,45,0.368852
male,2,17,0.157407
male,3,47,0.135447


### pivot_table 을 활용하여, (성별, pclass) 별 생존자 합계(sum)를 출력 하세요

In [23]:
df.pivot_table(index='sex', columns='pclass', values='survived', aggfunc=['sum', 'mean'])

Unnamed: 0_level_0,sum,sum,sum,mean,mean,mean
pclass,1,2,3,1,2,3
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,91,70,72,0.968085,0.921053,0.5
male,45,17,47,0.368852,0.157407,0.135447


### 혼자인 경우 / 성별 합계 & 생존율 동시 출력

In [24]:
# 코드를 입력해 주세요
df.groupby(['alone', 'sex'])['survived'].agg(['sum', 'mean'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
alone,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
False,female,134,0.712766
False,male,45,0.271084
True,female,99,0.785714
True,male,64,0.155718


### who, 등급별 생존자 합계 & 생존율 동시 출력

In [25]:
# 코드를 입력해 주세요
df.groupby(['who', 'pclass'])['survived'].agg(['sum', 'mean'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
who,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1
child,1,5,0.833333
child,2,19,1.0
child,3,25,0.431034
man,1,42,0.352941
man,2,8,0.080808
man,3,38,0.119122
woman,1,89,0.978022
woman,2,60,0.909091
woman,3,56,0.491228


### 다음을 수행하세요

위의 결과를 토대로
1. 별도의 DataFrame로 생성 
2. 인덱스 초기화 `reset_index()` 
3. 생존율 내림차순 정렬

In [26]:
# 코드를 입력해 주세요
result = df.groupby(['who', 'pclass'])['survived'].agg(['sum', 'mean']).reset_index()
result.sort_values(by='mean', ascending=False).reset_index(drop=True)

Unnamed: 0,who,pclass,sum,mean
0,child,2,19,1.0
1,woman,1,89,0.978022
2,woman,2,60,0.909091
3,child,1,5,0.833333
4,woman,3,56,0.491228
5,child,3,25,0.431034
6,man,1,42,0.352941
7,man,3,38,0.119122
8,man,2,8,0.080808


In [29]:
df.loc[df['who']=='child', 'age'].describe()

count    83.000000
mean      6.369518
std       4.729063
min       0.420000
25%       2.000000
50%       5.000000
75%       9.500000
max      15.000000
Name: age, dtype: float64

### child의 나이는 몇 세부터 몇 세까지 정의되었는지 확인

hint: `.loc`와 `agg`를 활용합니다.

In [None]:
# 코드를 입력해 주세요
df.loc[df['who'] == 'child', 'age'].agg(['min', 'max'])

### 등급별(pclass) / 연령별(who) 평균 요금 비교

In [30]:
# 코드를 입력해 주세요
pd.DataFrame(df.groupby(['pclass', 'who'])['fare'].mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,fare
pclass,who,Unnamed: 2_level_1
1,child,139.382633
1,man,65.951086
1,woman,104.317995
2,child,28.323905
2,man,19.054124
2,woman,20.868624
3,child,23.22019
3,man,11.340213
3,woman,15.354351


In [31]:
df["pclass2"] = df['pclass'].apply(lambda x : 1 if x == 1 else 9)

In [34]:
df["pclass2"].value_counts()

9    675
1    216
Name: pclass2, dtype: int64

### 부자는 살았을까? (fare 요금 기준 상위 10%의 생존율 확인)

fare 요금 기준 상위 10% 기준 요금 확인

In [35]:
# 코드를 입력해 주세요
rich = df['fare'].quantile(0.9)
rich

77.9583

부자의 데이터 개수와 생존율 확인

In [36]:
# 코드를 입력해 주세요
df.loc[df['fare'] >= rich, 'survived'].agg(['count', 'mean'])

count    90.000000
mean      0.766667
Name: survived, dtype: float64

In [37]:
df['fare'].describe()

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: fare, dtype: float64

### 생존자의 평균 나이와 사망자의 평균 나이 비교

In [38]:
# 코드를 입력해 주세요
df.groupby('survived')['age'].mean()

survived
0    30.626179
1    28.343690
Name: age, dtype: float64

### deck 정보가 NaN인 경우와 채워져 있는 경우 생존율 비교

deck 정보가 결측치인 경우 생존율

In [39]:
# 코드를 입력해 주세요
df.loc[df['deck'].isnull(), 'survived'].mean()

0.29941860465116277

deck 정보가 결측치가 아닌 경우 생존율

In [40]:
# 코드를 입력해 주세요
df.loc[df['deck'].notnull(), 'survived'].mean()

0.6699507389162561

In [42]:
df.loc[~df['deck'].isnull(), 'survived'].mean()

0.6699507389162561

## STEP 6: 전처리 (pre-processing)

### 결측치 처리

a) 결측치 확인

In [43]:
# 코드를 입력해 주세요
df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
same             0
pclass2          0
dtype: int64

b) `embarked` 컬럼은 **최빈값(mode)**으로 채워 주세요

In [44]:
# 코드를 입력해 주세요
df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])

In [45]:
# 코드 검증 (Cell 실행시 에러가 나지 않아야 함)
assert 0 == df['embarked'].isnull().sum()

c) `age` 컬럼의 결측치 처리
- 남자라면 => 남자 평균 나이로 채웁니다.
- 여자라면 => 여자 평균 나이로 채웁니다.

남성과 여성의 평균 나이를 출력

In [None]:
# 코드를 입력해 주세요
df.groupby('sex')['age'].mean()

In [None]:
# 코드를 입력해 주세요
male_mean = df.groupby('sex')['age'].mean()['male']
female_mean = df.groupby('sex')['age'].mean()['female']

df.loc[df['sex'] == 'male', 'age'] = df.loc[df['sex'] == 'male', 'age'].fillna(male_mean)
df.loc[df['sex'] == 'female', 'age'] = df.loc[df['sex'] == 'female', 'age'].fillna(female_mean)

In [None]:
# 코드 검증 (Cell 실행시 에러가 나지 않아야 함)
assert 27.92 == round(df.groupby('sex')['age'].mean()['female'], 2)
assert 30.73 == round(df.groupby('sex')['age'].mean()['male'], 2)

- embarked는 최빈값(most frequent)으로 일괄 채워주세요

d) `deck` 컬럼 결측치는 **No Data**로 채웁니다.

In [None]:
df['deck'].value_counts()

CategoricalDtype 임을 염두해 주세요

In [None]:
df['deck'].dtype

`No Data`를 카테고리에 먼저 **추가**하기

In [None]:
# 코드를 입력해 주세요
df['deck'] = df['deck'].cat.add_categories('No Data')

`No Data`로 결측치 채우기

In [None]:
# 코드를 입력해 주세요
df['deck'] = df['deck'].fillna('No Data')

In [None]:
df['deck'].value_counts()

### 중복된 컬럼 제거

제거 대상 컬럼
- `class`, `embark_town`, `alive`

In [None]:
df.head()

In [None]:
# 코드를 입력해 주세요
df = df.drop(['class', 'embark_town', 'alive'], axis=1)

In [None]:
df.head()

### 특성 공학 (feature engineering)

a) 가족의 숫자는 `sibsp` + `parch` 숫자 입니다. `family` 컬럼을 만들고 **sibsp + parch 더한 값을 입력**해 주세요

In [None]:
# 코드를 입력해 주세요
df['family'] = df['sibsp']+df['parch']

In [None]:
df.head()

다음을 수행하세요

- 성별(sex), 가족수(family)별 생존율을 확인
- `reset_index()`후 생존율 내림차순 정렬

b) 성별 가족수 별 생존율 확인

In [None]:
# 코드를 입력해 주세요
pd.DataFrame(df.groupby(['sex', 'family'])['survived'].mean())

c) 생존율 TOP 5 출력

In [None]:
# 코드를 입력해 주세요
df.groupby(['sex', 'family'])['survived'].mean().reset_index().sort_values('survived', ascending=False).head().reset_index(drop=True)

d) 생존율 하위 TOP 10 출력

In [None]:
# 코드를 입력해 주세요
df.groupby(['sex', 'family'])['survived'].mean().reset_index().sort_values('survived', ascending=False).tail(10).reset_index(drop=True)

e) apply 함수를 활용하여, 남자는 1, 여자는 0으로 값을 변경하고 `gender` 컬럼을 새로 만들어 적용하세요

In [None]:
# 코드를 입력해 주세요
def make_bin(x):
    if x == 'male':
        return 1
    elif x == 'female':
        return 0
    
df['gender'] = df['sex'].apply(make_bin)

In [None]:
# 코드 검증
df['gender'].value_counts()

f) 요금을 5구간으로 나누어 `fare_bin` 컬럼을 새로 만들어 적용하세요 (동일한 분포를 갖도록 `pd.qcut()`을 사용합니다)

In [None]:
# 코드를 입력해 주세요
df['fare_bin'] = pd.qcut(df['fare'], 5)

In [None]:
df['fare_bin'].value_counts()

g) 나이를 10구간으로 나누어 `age_bin` 컬럼을 새로 만들어 적용하세요 (동일한 구간을 갖도록 `pd.cut()`을 사용합니다.)

In [None]:
# 코드를 입력해 주세요
df['age_bin'] = pd.cut(df['age'], 10)

In [None]:
df['age_bin'].value_counts()