## **[상관 분석 + 히트맵]**

### **타이타닉호 생존율 분석하기**

### **분석 미리보기**

* 목표: 타이타닉호 승객 변수를 분석하여 생존율과의 상관관계를 찾는다.
* 핵심 개념: 상관 분석, 상관 계수, 피어슨 상관 계수, 히트맵
* 데이터 수집: 타이타닉 데이터(seaborn 내장 데이터셋)
* 데이터 준비: 결측치 치환(중앙값 치환, 최빈값 치환)
* 데이터 탐색:
    1. 정보 확인: info()
    2. 차트를 통한 데이터 탐색: pie(), countplot()
* 데이터 모델링:
    1. 모든 변수 간 상관 관계 구하기
    2. 지정한 두 변수 간 상관계수 구하기

### **핵심 개념 이해하기**

* 상관 분석:
    상관 분석(correlation analysis)은 두 변수가 어떤 선형적 관계에 있는지를 분석하는 방법이다. 두 변수는 서로 독립적이거나 상관된 관계일 수 있는데, 두 변수의 관계의 강도를 상관관계라고 한다. 상관 분석에서는 상관관계의 정도를 나타내는 단위로 모상관 계수 p를 사용한다.

    인과 관계를 분석하는 회귀 분석과 달리 상관 계수(correlation coefficient)는 두 변수가 연관된 정도를 나타낼 뿐 인과 관계를 설명하지 않으므로 정확한 예측치를 계산할 수는 없다.
    * 단순 상관 분석(simple correlation analysis): 두 변수가 어느 정도 강한 관계에 있는지 측정한다.
    * 다중 상관 분석(multiple correlation analysis): 세 개 이상의 변수 간 관계의 강도를 측정한다.
    이때, 다른 변수와의 관계를 고정하고 두 변수 간 관계의 강도를 나타내는 것을 편상관 분석(partial correlation analysis)이라고 한다.

* 상관 계수 p:
    상관 계수 p는 변수 간 관계의 정도(0~1)와 방향(+,-)을 하나의 수치로 요약해주는 지수로 -1에서 +1 사이의 값을 가진다.
    상관 계수가 +이면 양의 상관계수이며 한 변수가 증가하면 다른 변수도 증가한다.
    상관 계수가 -이면 음의 상관계수이며 한 변수가 증가할 때 다른 변수는 감소한다.

    상관 계수에 대한 해석은 분야에 따라 다르지만 일반적으로 다음과 같다.
    * 0.0~0.2: 상관관계가 거의 없다.
    * 0.2~0.4: 약한 상관관계가 있다.
    * 0.4~0.6: 상관관계가 있다.
    * 0.6~0.8: 강한 상관관계가 있다.
    * 0.8~1.0: 매우 강한 상관관계가 있다.

* 피어슨 상관 계수:
    상관 계수 중에서 많이 사용하는 것은 피어슨 상관 계수(Pearson correlation coefficient)이다.
    피어슨 상관 계수는 r로 표현한다.

* 상관 분석 결과의 시각화:
    상관 분석 결과를 시각화할 때는 두 변수의 관계를 보여주는 산점도나 히트맵을 많이 사용한다.

### **데이터 수집**

프로젝트에 사용할 타이타닉호 생존자에 대한 데이터는 파이썬의 seaborn 라이브러리 패키지에서 제공하는 타이타닉 데이터를 사용한다.

In [1]:
import seaborn as sns
import pandas as pd

In [2]:
titanic = sns.load_dataset("titanic")

In [3]:
titanic.to_csv('./titanic.csv', index=False)

### **데이터 준비**

저장한 titanic.csv 파일을 열어서 데이터 정리 작업이 필요한지 확인해본다.

age와 embarked, deck, embark_town 항목 중에 결측값(누락된 값)이 있다.
결측값이 있으면 정확한 분석을 할 수 없으므로 치환해서 채워야 한다.
age의 결측값은 중앙값으로 치환하고 embarked와 embark_town은 최빈값으로 치환한다.
deck는 형식이 category이므로 최빈 category로 바꾸어 채워넣는다.

In [4]:
titanic.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [5]:
titanic['age'] = titanic['age'].fillna(titanic['age'].median())

In [6]:
titanic['embarked'].value_counts()

embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [7]:
titanic['embarked'] = titanic['embarked'].fillna('S')

In [8]:
titanic['embark_town'].value_counts()

embark_town
Southampton    644
Cherbourg      168
Queenstown      77
Name: count, dtype: int64

In [9]:
titanic['embark_town'] = titanic['embark_town'].fillna('Southampton')

In [10]:
titanic['deck'].value_counts()

deck
C    59
B    47
D    33
E    32
A    15
F    13
G     4
Name: count, dtype: int64

In [11]:
titanic['deck'] = titanic['deck'].fillna('C')

In [12]:
titanic.isnull().sum()

survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
deck           0
embark_town    0
alive          0
alone          0
dtype: int64

### **데이터 탐색**

데이터의 기본 정보를 탐색해본다.

#### **데이터의 기본 정보 탐색하기**

titanic 데이터의 기본 정보를 탐색하기 위해 info() 함수를 사용한다.

In [13]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          891 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     891 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         891 non-null    category
 12  embark_town  891 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [14]:
titanic.survived.value_counts()

survived
0    549
1    342
Name: count, dtype: int64

전체 샘플의 수는 891개이고 속성은 15개이다.
샘플 891 명 중에서 생존자는 342명이고 사망자는 549 명이다.

pclass와 class는 객실 등급을 나타내고, sibsp는 탑승한 형제자매와 배우자 수, parch는 함께 탑승한 부모/자식 수를 나타낸다.
embarked와 embark_town은 탑승 항구를 나타내고 adult_male은 성인 남자 여부를, alone은 동행 여부를 True/False로 나타낸다.

#### **차트를 그려 데이터를 시각적으로 탐색하기**

데이터 탐색을 시각적으로 쉽게 하기 위해 차트를 그려본다.

In [15]:
import matplotlib.pyplot as plt