## 문제 정의 및 목표 설정

**목표:**
- 타이타닉호 승객데이터를 기반으로 생존에 영향을 미치는 요인을 분석합니다.

**주요 과제:**
- 기본 EDA (Exploratory Data Analysis)
- 데이터 전처리 (불필요한 데이터 삭제, 추가, 변경)
- 인사이트 발굴

## 모듈 import

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

## 데이터셋 로드

In [None]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 성별과 동일
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

### 상위 5개의 행을 출력

In [None]:
# 코드를 입력해 주세요
df.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### 하위 5개의 행을 출력

In [None]:
# 코드를 입력해 주세요
df.tail(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


### 데이터는 몇개의 행과 열로 이루어져 있는지 확인

In [None]:
# 코드를 입력해 주세요
print('행&열:', df.shape)

행&열: (891, 15)


### 컬럼 별 데이터의 dtype과 개수를 확인

In [None]:
# 코드를 입력해 주세요
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.6+ KB


### 데이터의 컬럼별 결측치를 확인

In [None]:
# 코드를 입력해 주세요
df.isnull().sum() 

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

### 생존자와 사망자의 분포를 확인해 주세요

0: 사망, 1: 생존

In [None]:
# 코드를 입력해 주세요
df['survived'].value_counts()


0    549
1    342
Name: survived, dtype: int64

### child의 나이는 몇 세부터 몇 세까지 정의되었는지 확인

hint: `.loc`와 `agg`를 활용합니다.

In [None]:
# 코드를 입력해 주세요
df.loc[df['who']=='child', 'age'].agg(['min','max'])

min     0.42
max    15.00
Name: age, dtype: float64

### 부자는 살았을까? (fare 요금 기준 상위 10%의 생존율 확인)

fare 요금 기준 상위 10% 기준 요금 확인

In [None]:
# 코드를 입력해 주세요

print(df['fare'].quantile([0.9]))
rich = 77.9583
rich

0.9    77.9583
Name: fare, dtype: float64


77.9583

부자의 데이터 개수와 생존율 확인

In [None]:
# 코드를 입력해 주세요
rich_survival = (df['fare']>=rich)
df.loc[rich_survival,'survived'].agg(['count','mean'])


count    90.000000
mean      0.766667
Name: survived, dtype: float64

### deck 정보가 NaN인 경우와 채워져 있는 경우 생존율 비교

deck 정보가 결측치인 경우 생존율

In [None]:
# 코드를 입력해 주세요
df.loc[df['deck'].isna(),'survived'].mean()

0.29941860465116277

deck 정보가 결측치가 아닌 경우 생존율

In [None]:
# 코드를 입력해 주세요
df.loc[df['deck'].notna(),'survived'].mean()

0.6699507389162561

### 중복된 컬럼 제거

제거 대상 컬럼
- `class`, `embark_town`, `alive`

In [None]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [None]:
# 코드를 입력해 주세요
df.drop(['class', 'embark_town','alive'], axis=1, inplace=True)

# 삭제 후 변경된 df 정보 조회
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,who,adult_male,deck,alone
0,0,3,male,22.0,1,0,7.2500,S,man,True,,False
1,1,1,female,38.0,1,0,71.2833,C,woman,False,C,False
2,1,3,female,26.0,0,0,7.9250,S,woman,False,,True
3,1,1,female,35.0,1,0,53.1000,S,woman,False,C,False
4,0,3,male,35.0,0,0,8.0500,S,man,True,,True
...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,man,True,,True
887,1,1,female,19.0,0,0,30.0000,S,woman,False,B,True
888,0,3,female,,1,2,23.4500,S,woman,False,,False
889,1,1,male,26.0,0,0,30.0000,C,man,True,C,True
