# **Lesson 4. 심장마비 발생 여부 분석**

# **1.비즈니스 시나리오**

* 질병관리본부에서 배포한 보도자료에 따르면, 한국의 심혈관 질환 사망은 연간 53,150명으로, 질병으로 인한 전체 사망의 약 19%를 차지하고 있다고 합니다.
* 특이한 것은 뇌혈관질환 사망률은 지속적으로 감소한 반면, 심혈관 질환 사망률은 지속적으로 상승 추세를 보이고 있다는 것인데요. 심혈관 질환이 있거나 발병 위험률이 높은 사람은 이를 조기에 발견하고 관리해주는 것이 매우 중요합니다.
* 그렇다면, 이번 실습에서는 수집된 데이터를 활용해 심장마비 발생에 영향을 미치는 요인은 무엇인지 분석해 봅시다.




# **2.환경준비**

## (1) 라이브러리 불러오기

In [None]:
# jupyter lite에서 패키지 설치
import piplite
await piplite.install("seaborn")

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from statsmodels.graphics.mosaicplot import mosaic

## (2) 데이터 로딩

In [None]:
data = pd.read_csv('heart_attack.csv')

* 변수 설명
    * sex : 성별 (1 = male; 0 = female)
    * exang: 운동시 협심증 여부 (1 = yes; 0 = no)
    * cp : 가슴통증 종류
        * Value 1: 일반 협심증
        * Value 2: 비정형 협심증
        * Value 3: 비 협심증 통증
        * Value 4: 무증상
    * trestbps : 혈압
    * chol : 콜레스테롤 수치
    * target : 0 = 심장마비가능성 낮음. 1= 심장마비가능성 높음


# **3.데이터 정보조회**

## (1) 상,하위 데이터 조회

In [None]:
data.head()

In [None]:
data.tail()

## (2) 데이터프레임 정보 조회(info)

In [None]:
data.info()

# **4.이변량분석 : 범주형 --> 범주형**

* 시각화 : 모자익플롯

In [None]:
target = 'target'

## (1) sex -- > target

* 교차표와 그래프

In [None]:
var = 'sex'

# 교차표
display(pd.crosstab(data[target], data[var], normalize = 'columns'))

# 그래프
mosaic(data, [var, target])
plt.axhline(1-data[target].mean(), color = 'red')
plt.show()

* 파악된 내용을 적어 봅시다.

In [None]:
# 남자, 심장마비 가능성이 높고
# 여자, 심장마비 가능성이 낮음
# 성별에 따라 심장마비 여부는 관련이 있다.

## (2) cp -- > target

* 교차표와 그래프

In [None]:
var = 'cp'

# 교차표
display(pd.crosstab(data[target], data[var], normalize = 'columns'))

# 그래프
mosaic(data, [var, target])
plt.axhline(1-data[target].mean(), color = 'red')
plt.show()

* 파악된 내용을 적어 봅시다.

In [None]:
# 일반 협심증 환자일수록 심장마비 가능성이 굉장히 높다.
# 가슴통증의 종류와 심장마비 여부는 관련이 크다.

## (3) exang -- > target

* 교차표와 그래프

In [None]:
var = 'exang'

# 교차표
display(pd.crosstab(data[target], data[var], normalize = 'columns'))

# 그래프
mosaic(data, [var, target])
plt.axhline(1-data[target].mean(), color = 'red')
plt.show()

* 파악된 내용을 적어 봅시다.

In [None]:
# 운동시 협심증 증상 여부와 심장마비 여부는 관련이 크다.

# **5.이변량분석 : 수치형 --> 범주형**

* 시각화 : 평균 비교 막대 그래프

## (1) trestbps -- > target

* 그래프

In [None]:
var = 'trestbps'

# 그래프
sns.barplot(x = target, y = var, data = data)
plt.grid()
plt.show()

* 파악된 내용을 적어 봅시다.

In [None]:
# 심장마비 위험이 높은 사람, 혈압이 약간 높다.
# 혈압과 심장마비 여부는 약간 관련이 있어 보인다.

## (2) chol -- > target

* 그래프

In [None]:
var = 'chol'

# 그래프
sns.barplot(x = target, y = var, data = data)
plt.grid()
plt.show()

* 파악된 내용을 적어 봅시다.

In [None]:
# 콜레스테롤 수치와 심장마비여부는 관련이 거의 없어 보인다.