# EDA (Exploratory Data Analysis)
데이터를 다각도에서 탐색하면서 <b>데이터의 이해도를 높이는 과정</b>입니다. 데이터의 이해도가 높아지면서 숨겨진 의미를 발견하고 잠재적인 문제를 미리 발견할 수 있습니다. 이를 바탕으로 데이터를 보완하거나 기존의 가설을 수정할 수 있습니다. 

기존에는 `가설`을 설정하고 가설을 `검증`하는 형태로 데이터 분석을 했다면, EDA에서는 `가설설정` -> `데이터분석` -> `가설수정` -> `데이터분석` 과정을 반복해서 인사이트를 발견합니다. 

- 분석의 목적 확인
- 데이터 타입 확인하기
- 결측값 확인하기
- 데이터 분포 확인
- 관계 분석하기

<div class="alert alert-block alert-danger">
    <b>목표</b> : 생존률과 관련 있는 Factor를 찾는다. 
</div>

타이타닉 CSV 데이터를 데이터프레임으로 읽어옵니다. 
- `train.csv`

In [None]:
import pandas as pd
df = pd.read_csv("https://drive.google.com/u/0/uc?id=1ouQckC0yl-gxUl8i3wVtXvIcLUWboA0B&export=download")
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


- `SibSp` : 형제 자매와 배우자
- `Parch` : 부모와 자식
- `Cabin` : 선실 번호  
- `Embarked` : 탑승 항구(C = Cherbourg, Q = Queenstown, S = Southampton)

단순히 상관관계만을 참고한다면 성별과 클래스가 생존률과 높은 관계가 있다고 결론 내릴 수 있습니다.
- `Survived` 행에서 높은 값을 갖는 두 변수

In [None]:
df.corr()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
survived,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307,-0.55708,-0.203367
pclass,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495,0.094035,0.135207
age,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067,0.280328,0.19827
sibsp,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651,-0.253586,-0.584471
parch,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225,-0.349943,-0.583398
fare,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0,-0.182024,-0.271832
adult_male,-0.55708,0.094035,0.280328,-0.253586,-0.349943,-0.182024,1.0,0.404744
alone,-0.203367,0.135207,0.19827,-0.584471,-0.583398,-0.271832,0.404744,1.0


In [None]:
abs(df.corr()['survived']).sort_values(ascending=False).index[1:3]

Index(['adult_male', 'pclass'], dtype='object')

## 데이터 타입과 결측값 확인하기

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   who          891 non-null    object 
 10  adult_male   891 non-null    bool   
 11  deck         203 non-null    object 
 12  embark_town  889 non-null    object 
 13  alive        891 non-null    object 
 14  alone        891 non-null    bool   
dtypes: bool(2), float64(2), int64(4), object(7)
memory usage: 92.4+ KB


결측값 개수 출력하기

In [None]:
df.isna().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

결측비율 출력하기

In [None]:
# df.count()
df.shape

(891, 15)

In [None]:
(df.isna().sum() / df.shape[0]).sort_values(ascending=False)

deck           0.772166
age            0.198653
embarked       0.002245
embark_town    0.002245
survived       0.000000
pclass         0.000000
sex            0.000000
sibsp          0.000000
parch          0.000000
fare           0.000000
class          0.000000
who            0.000000
adult_male     0.000000
alive          0.000000
alone          0.000000
dtype: float64

In [None]:
# shape말고 len써도된다
df.isna().sum() / len(df)

survived       0.000000
pclass         0.000000
sex            0.000000
age            0.198653
sibsp          0.000000
parch          0.000000
fare           0.000000
embarked       0.002245
class          0.000000
who            0.000000
adult_male     0.000000
deck           0.772166
embark_town    0.002245
alive          0.000000
alone          0.000000
dtype: float64

격측값 찾았고
- deck : 결측값 많은거는 빼고 
- age : 평균으로 채워넣을까?

In [None]:
df.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


In [None]:
df = df[df.columns[:7]]
df.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare
0,0,3,male,22.0,1,0,7.25
1,1,1,female,38.0,1,0,71.2833


In [None]:
df.groupby('sex').agg(mean=('age','mean'))

Unnamed: 0_level_0,mean
sex,Unnamed: 1_level_1
female,27.915709
male,30.726645


In [None]:
# 나이 nan값 남녀평균으로 채워넣어보기
import numpy as np

# fe_m = df.groupby('sex').agg(mean=('age','mean')).loc['female']
# ma_m = df.groupby('sex').agg(mean=('age','mean')).loc['male']
# df['avg_age'] = np.where((df.age.isna())&(df.sex == 'female'),fe_m,
#                         ((df.age.isna())&(df.sex == 'male'),ma_m,df.age))

In [None]:
# 강사코드
# # 남자 업데이트
# cond0 = df['age'].isna()
# cond1 = df['sex'] == "male"
# cond = cond0 & cond1
# df.loc[cond   , "age" ] = avg.iloc[1, 0]

# # 여자 업데이트
# cond0 = df['age'].isna()
# cond1 = df['sex'] == "female"
# cond = cond0 & cond1
# df.loc[cond, "age"] = avg.iloc[0, 0]

In [None]:
cond1 = (df['age'].isna() & (df['sex']=='female'))
cond2 = (df['age'].isna() & (df['sex']=='male'))
df.loc[cond1,'age'] = df.groupby('sex').agg(mean=('age','mean')).iloc[0,0]
df.loc[cond2,'age'] = df.groupby('sex').agg(mean=('age','mean')).iloc[1,0]
df.isna().sum()

survived    0
pclass      0
sex         0
age         0
sibsp       0
parch       0
fare        0
dtype: int64

나이는 평균으로 채우기
- 전체 평균이 정답인가?
- Pclass가 같은 사람들의 평균이 좋지 않을까?

불필요한 컬럼 제거하기

In [None]:
df.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare
0,0,3,male,22.0,1,0,7.25
1,1,1,female,38.0,1,0,71.2833


In [None]:
df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare'], dtype='object')

In [None]:
df = df[  ['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']  ]
df.head()

KeyError: ignored

In [None]:
how = {
    'survived' : np.uint8,
    'pclass' : np.uint8,
    'sex' : 'category',
    'age' : np.uint8
}
df.astype( how )

## 데이터 분포 확인하기

중복되지 않는 값 

In [None]:
df['survived'].unique()

In [None]:
df['survived'].nunique()

###### 성별
생존률의 차이가 있지 않을까?

In [None]:
df.groupby('sex').agg(생존율=('survived','mean'))

성별은 생존률에 영향을 미친다.  

----

분석하기 좋게 남자를 0, 여자를 1로 변경해 봅시다.

In [None]:
df['sexc'] = np.where(df['sex']=='female',1,0)
df.head()

`get_dummies` 함수는 0과 1로 이루어진 가변수를 만듭니다. 
- One-hot encoding이라고도 부릅니다.

In [None]:
pd.get_dummies(df['sex'])

하나의 예제를 더 확인해 보면서 `get_dummies`를 익혀봅시다.

In [None]:
data = {
    "항목" : ["A", "B", "C", "A"],
    "가격" : [100, 200, 150, 300]
}
t = pd.DataFrame(data)
t

###### 형제/자매와 와이프
보호자인 경우 생존률이 높지 않을까?

In [None]:
df['sibsp'].unique()

In [None]:
df.plot.hist(y='sibsp', bins=10, figsize=(10, 4))

0을 제외하고 분포 확인하기

In [None]:
df[df['sibsp'] > 0].plot.hist(y='sibsp', bins=10, figsize=(10,4))

In [None]:
df.loc[df['sibsp']!=0,'sibsp'].plot.hist()

평균은?

형제/자매 및 와이프가 있는 경우의 평균

요약 정보 확인하기

없음/보통/많음으로 구분하기

In [None]:
# 0 : 없음
# 1 : 보통
# 많음

def func(x):
    if x == 0:
        return "없음"
    elif x ==1:
        return "보통"
    else:
        return "많음"

df['sibsp_c'] = df['sibsp'].map(func)
df.head()

구분에 따른 생존률 분석

In [None]:
df.groupby('sibsp_c').agg(생존율=('survived','mean'))

In [None]:
df.groupby(['sibsp_c','sex']).agg(생존율=('survived','mean'))

###### 부모 및 아이

In [None]:
df.head()

In [None]:
df['parch'].unique()

보호자는 생존률이 높지 않을까?

In [None]:
df.groupby('parch').agg(생존율=('survived','mean'))

`없음`/`보통`/`많음`으로 분류하기

In [None]:
df['피보호자']=df['parch'].map(func)
df

In [None]:
df.groupby('피보호자').agg(생존율=('survived','mean'))

In [None]:
df.groupby(['피보호자','sex']).agg(생존율=('survived','mean'), 생존자수=('survived','sum'), 총인원=('피보호자','count'))

## 나이 

나이 분포 출력하기

In [None]:
df['age'].plot.hist()

`유아`/`청소년`/`성인`/`노약자` 분류하기

In [None]:
# 유아 : 0~10
# 청소년 : 10~20
# 성인 : 20~50
# 노약자 : 50 ~

df['나이대']=pd.cut(df.age, [0,10,20,50,df.age.max()], labels=["유아","청소년","성인","노약자"])
df.head()

In [None]:
df.groupby(['나이대','피보호자']).agg(생존율=('survived','mean'), 생존자수=('survived','sum'), 총인원=('피보호자','count'))

요금 비교

In [None]:
df.fare.plot.hist(bins=20, figsize=(10,3))

In [None]:
df.fare.describe()

In [None]:
df.fare.plot.box(figsize=(10,10))

In [None]:
df.fare.quantile(0.25)

In [None]:
df.loc[     (df.fare > df.fare.quantile(0.25)) & (df.fare < df.fare.quantile(0.75)), 'fare'  ].plot.hist(bins=20, figsize=(10,3))

시각화를 하는 `seaborn` 모듈
- https://seaborn.pydata.org/tutorial.html#

In [None]:
import seaborn as sns
sns.histplot(x='sibsp', data=df)

In [None]:
sns.kdeplot(x='sibsp', data=df)

## 다변수 분석

여자 보호자의 생존률은 더 높지 않을까?
- 성별이 여자이면서 `Parch`가 존재

In [None]:
df.head()

In [None]:
pd.get_dummies(df)