# 5장 시각화 라이브러리II

## 5.2 시본(Seaborn) 라이브러리

### 1) 데이터 수집 - 2020년 국민건강보험공단 건강검진 데이터 일부

In [None]:
# 데이터 수집
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

data = pd.read_excel('https://github.com/cheonhae/2024_KPC_DA_02/blob/master/5%E1%84%8C%E1%85%A1%E1%86%BC/05_data1.xlsx'+'?raw=true')
data.head()

In [None]:
data.info()

### 2) 성별, 음주여부, 흡연 상태 데이터 전처리

In [None]:
data6 = data.loc[:,['gender','height','weight', 'waist','drinking','smoking']]
print(data6)
data6.loc[data6['gender']==1,['gender']]


In [None]:
# 데이터 전처리

data6 = data.loc[:,['gender','height','weight', 'waist','drinking','smoking']]
# 성별이 1인 데이터의 성별을 'M'으로 변경
data6.loc[data6['gender']==1,['gender']]='M'
# 성별이 2인 데이터의 성별을 'F'으로 변경
data6.loc[data6['gender']==2,['gender']]='F'
# 음주 여부가 0인 데이터의 음주 여부를 'Non-drinking'으로 변경
data6.loc[data6['drinking']==0,['drinking']]='Non-drinking'
# 음주 여부가 1인 데이터의 음주 여부를 'Drinking'으로 변경
data6.loc[data6['drinking']==1,['drinking']]='Drinking'
# 흡연 여부가 1인 데이터의 흡연 여부를 'Non-smoking'으로 변경
data6.loc[data6['smoking']==1,['smoking']]='Non-smoking'
data6.loc[data6['smoking']==2,['smoking']]='Quit-smoking'
data6.loc[data6['smoking']==3,['smoking']]='Smoking'


In [None]:
data6

In [None]:

# 성별 및 음주 여부에 따른 음주 인원 수 계산
drinking = data6.groupby(['gender','drinking'])['drinking'].count()
print(drinking)
# 성별 및 흡연 여부에 따른 흡연 인원 수 계산
smoking = data6.groupby(['gender','smoking'])['smoking'].count()
print(smoking)


#### 음주 여부 및 흡연 상태 데이터 준비하기

In [None]:


# 'drinking' 컬럼의 이름을 'count'로 설정하고 데이터프레임으로 변환
drinking = drinking.to_frame(name='count')
# 'smoking' 컬럼의 이름을 'count'로 설정하고 데이터프레임으로 변환
smoking = smoking.to_frame(name='count')
print(drinking)
# 인덱스를 컬럼으로 변환
drinking = drinking.reset_index()
smoking = smoking.reset_index()
drinking

### 3)  성별 음주 여부 및 흡연 상태 막대 그래프 - 데이터 시각화를 통한 데이터 분석

#### 3.1) 막대그래프

In [None]:
## matplotlib의 막대 그래프로 시각화하기

fig = plt.figure(figsize=(12,10))
fig.suptitle('2020 Health Check Drinking & Smoking Type Bar Graph',fontweight='bold')
index1 = np.arange(4) # 음주 유형에 대한 x축 인덱스 생성
index2 = np.arange(6) # 흡연 유형에 대한 x축 인덱스 생성
fig.add_subplot(2,1,1) # 2행 1열의 첫 번째 서브플롯 생성
plt.bar(index1, drinking['count']) # 음주 유형별 인원 수를 막대 그래프로 표시
plt.title('Drinking Type') # 서브플롯 제목 설정
plt.ylabel('Count') # y축 레이블 설정
plt.xticks(index1, ['Non-drinking(M)','Drinking(M)','Non-drinking(F)','Drinking(F)']) # x축 눈금 레이블 설정
fig.add_subplot(2,1,2) # 2행 1열의 두 번째 서브플롯 생성
plt.bar(index2, smoking['count']) # 흡연 유형별 인원 수를 막대 그래프로 표시
plt.title('Smoking Type') # 서브플롯 제목 설정
plt.ylabel('Count') # y축 레이블 설정
plt.xticks(index2, ['Non-smoking(M)','Quit-smoking(M)','Smoking(M)','Non-smoking(F)','Quit-smoking(F)','Smoking(F)']) # x축 눈금 레이블 설정
plt.show()


In [None]:
## seaborn의 막대 그래프로 시각화하기

fig = plt.figure(figsize=(12,12))
# 2행 1열의 첫 번째 서브플롯 생성, area1 변수에 저장
area1 = fig.add_subplot(2,1,1)
# 2행 1열의 두 번째 서브플롯 생성, area2 변수에 저장
area2 = fig.add_subplot(2,1,2)
# seaborn의 barplot을 이용하여 'drinking' 데이터를 막대 그래프로 표시
# x축은 'gender', y축은 'count', hue는 'drinking'으로 설정
# ax 인자에 area1을 전달하여 첫 번째 서브플롯에 그래프를 표시
ax1=sns.barplot(x='gender',y='count',hue='drinking',data=drinking,ax=area1)
# seaborn의 barplot을 이용하여 'smoking' 데이터를 막대 그래프로 표시
# x축은 'gender', y축은 'count', hue는 'smoking'으로 설정
# ax 인자에 area2를 전달하여 두 번째 서브플롯에 그래프를 표시
ax2=sns.barplot(x='gender',y='count',hue='smoking',data=smoking,ax=area2)
# 전체 그래프 제목 설정
fig.suptitle('2020 Health Check Drinking & Smoking Type Seaborn Bar Graph',fontweight='bold')
# 첫 번째 서브플롯의 제목 설정
area1.set_title('Drinking Type')
# 두 번째 서브플롯의 제목 설정
area2.set_title('Smoking Type')
plt.show()

In [None]:
fig = plt.figure(figsize=(17,6))

area1 = fig.add_subplot(1,2,1)
area2 = fig.add_subplot(1,2,2)

ax1=sns.barplot(y='gender',x='count',hue='drinking',data=drinking,ax=area1)
ax2=sns.barplot(y='gender',x='count',hue='smoking',data=smoking,ax=area2)

fig.suptitle('2020 Health Check Drinking & Smoking Type Seaborn Bar Graph',fontweight='bold')
area1.set_title('Drinking Type')
area2.set_title('Smoking Type')

plt.show()

#### 3.2) seaborn 산점도(strip plot, swarm plot) 그래프 <br> 맷플롯립의 산점도처럼 모든 데이터를 점으로 표현 <br> - 스트립플롯: 데이터 분포를 요약하여 간단히 띠 형태로 보여주는 그래프이며, 일반적으로 작은 데이터를 표힌하는 용도도 사용

In [None]:
## data6에서 남성 및 여성의 성별, 키, 몸무게, 허리둘레, 음주 여부, 흡연 상태 데이터 가져오기
maledata=data6.loc[data6.gender=='M',['gender','height','weight','waist','drinking','smoking']]
femaledata=data6.loc[data6.gender=='F',['gender','height','weight','waist','drinking','smoking']]

In [None]:
plt.figure(figsize=(10,5))
plt.title('Seaborn Strip Plot Graph')
sns.stripplot(x='height', y='weight', data=femaledata)

sns.stripplot(x='height', y='weight', data=maledata)
plt.show()

In [None]:
plt.figure(figsize=(10,5))
plt.title('Seaborn Strip Plot Graph - Color Palette')
sns.stripplot(x='height',y='weight',data=femaledata,hue='gender',palette='Set1')
sns.stripplot(x='height',y='weight',data=maledata,hue='gender',palette='dark')

plt.show()

- swarmplot()<br>보정 방식: swarmplot은 데이터를 보정하는 방식으로 각 점들이 서로 겹치지 않도록 배치합니다. 데이터 포인트가 동일한 범주에 많이 몰려 있는 경우에도 점들이 겹치지 않도록 수평 방향으로 자동으로 퍼지도록 배치하는 방식입니다. 이렇게 하면 데이터가 더 명확하게 구분되어 나타나지만, 이로 인해 축의 범위가 확장될 수 있습니다.
특징: 데이터 포인트 사이의 겹침을 피하기 위해 공간을 균등하게 분산시키므로, 데이터가 밀집된 영역도 시각적으로 명확하게 나타납니다. 이는 점들이 얼마나 많이 겹치는지 쉽게 파악할 수 있는 장점이 있습니다.

In [None]:
maledata100 = maledata.head(100)
femaledata100 = femaledata.head(100)

In [None]:
# swarmplot을 사용하는 경우
plt.figure(figsize=(10,5))
plt.title('Seaborn Swarm Plot Graph')
sns.swarmplot(x='height',y='weight',data=femaledata100,hue='gender',palette='Set1')
sns.swarmplot(x='height',y='weight',data=maledata100,hue='gender',palette='dark')

plt.show()

#### 3.3) seaborn 히스토그램

In [None]:


import matplotlib.pyplot as plt
# 그래프 크기 설정
plt.figure(figsize=(10,6))

# 남성 체중 데이터 히스토그램 생성
# bins: 히스토그램 막대 개수
# alpha: 투명도
# label: 범례에 표시될 레이블
sns.histplot(maledata['weight'],bins=8,alpha=0.5,label='Male')

# 여성 체중 데이터 히스토그램 생성
# color: 히스토그램 색상 설정
sns.histplot(femaledata['weight'],bins=8,alpha=0.5,label='Female',color='r')

# x축 범위 설정
plt.xlim(20,130)

# x축 레이블 설정
plt.xlabel('weight')

# y축 레이블 설정
plt.ylabel('count')

# 그래프 제목 설정
plt.title('Weight Seaborn Histogram')

# 범례 표시
plt.legend()

# 그리드 표시
plt.grid()

# 그래프 표시
plt.show()


In [None]:
 # 히스토그램에 커널밀도추정(KDE) 속성 지정
plt.figure(figsize=(10,6))
sns.histplot(maledata['waist'],bins=7,alpha=0.5,label='Male',kde=True)
sns.histplot(femaledata['waist'],bins=7,alpha=0.5,label='Female',color='r',kde=True)

plt.xlim(40,130)
plt.xlabel('waist')
plt.ylabel('count')
plt.title('Waist Seaborn Histogram - KDE(Kernel Density Estimator)')
plt.legend()
plt.grid()
plt.show()

#### 3.4) seaborn 상자수염(box plot) <br>

*   hue속성으로 매우 쉽게 **비교 상자 수염**을 그릴 수 있음
*   데이터프레임 데이터를 사용할 때 매우 용이



In [None]:
# 음주 여부와 몸무게 상자 수염 그래프
plt.figure(figsize=(10,6))
plt.title('Drinking & Weight Seaborn Box Plot Graph')

sns.boxplot(x='drinking',y='weight',hue='gender',data=data6)
plt.ylim(30,100)
plt.show()

In [None]:
# 흡연 상태와 몸무게 가로 상자수염 그래프

plt.figure(figsize=(10,10))
plt.title('Smoking & Weight Seaborn Box Plot Graph - Horizontal')

sns.boxplot(x='weight',y='smoking',hue='gender',data=data6,orient='h')
plt.xlim(30,100)
plt.show()

#### 3.5) 카운트 플롯(Count Plot)

In [None]:
plt.figure(figsize=(10,6))
plt.title('Drinking Count Plot Graph')
sns.countplot(x='drinking',hue='gender',data=data6)

In [None]:
plt.figure(figsize=(10,8))
plt.title('Smoking Count Plot Graph - Horizontal')
sns.countplot(y='smoking',hue='gender',data=data6,order=['Smoking','Quit-smoking','Non-smoking'])

#### 3.6) 바이올린 플롯(Violin Plot)

In [None]:
plt.figure(figsize=(10,6))
plt.title('Gender Weight Violin Plot Graph - Drinking category')
sns.violinplot(x='gender',y='weight',hue='drinking',data=data6[data6.weight<120])

In [None]:
plt.figure(figsize=(7,8))
plt.title('Gender Waist Violin Plot Graph - Drinking category')
sns.violinplot(x='waist', y='gender',hue='drinking',data=data6[data6.waist<150])

#### 3.7) 시본 히트맵(Heat Map)

In [None]:
data3 = data.loc[:,['gender','drinking','smoking']]
data8 = data.loc[:,['gender','weight','waist','drinking','smoking','cholesterol','HDL','LDL']]

In [None]:
plt.figure(figsize=(10,6))
plt.title('3×3 Heat Map Graph')

correlation_data3 = data3.corr()
sns.heatmap(correlation_data3, annot=True, cmap='YlGnBu')

In [None]:
plt.figure(figsize=(13,10))
plt.title('8×8 Heat Map Graph')

correlation_data8= data8.corr()
upp_mat = np.triu(correlation_data8)

sns.heatmap(correlation_data8, annot=True, cmap='RdYlGn', mask=upp_mat)

#### 3.8) 다중 플롯 그리드

In [None]:
# 열 기준으로 나눈 패싯 그리드 그리기

# data6 데이터를 사용하여 FacetGrid 객체를 생성합니다.
# col='drinking'은 음주 여부('drinking')에 따라 서브플롯을 생성하도록 지정합니다.
# height=5는 각 서브플롯의 높이를 5로 설정합니다.
# aspect=1.3은 서브플롯의 가로 세로 비율을 1.3으로 설정합니다.
fg = sns.FacetGrid(data6,col='drinking',height=5,aspect=1.3)

# 각 서브플롯에 히스토그램을 그립니다.
# 'waist' 컬럼을 사용하여 히스토그램을 생성합니다.
# bins=10은 히스토그램의 막대 개수를 10으로 설정합니다.
# color='g'은 히스토그램의 색상을 녹색('g')으로 설정합니다.
# kde=True는 커널 밀도 추정(KDE)을 함께 표시하도록 설정합니다.
fg.map(sns.histplot,'waist',bins=10,color='g',kde=True)


In [None]:
# 행과 열 기준으로 나눈 패싯 그리드 그리기

# data6 데이터를 사용하여 FacetGrid 객체를 생성합니다.
# row='gender'는 성별('gender')에 따라 행 기준으로 서브플롯을 생성하도록 지정합니다.
# col='drinking'은 음주 여부('drinking')에 따라 열 기준으로 서브플롯을 생성하도록 지정합니다.
# height=4.5는 각 서브플롯의 높이를 4.5로 설정합니다.
# aspect=1.5는 서브플롯의 가로 세로 비율을 1.5로 설정합니다.
fg = sns.FacetGrid(data6,row='gender',col='drinking',height=4.5,aspect=1.5)

# 각 서브플롯에 히스토그램을 그립니다.
# 'waist' 컬럼을 사용하여 히스토그램을 생성합니다.
# bins=10은 히스토그램의 막대 개수를 10으로 설정합니다.
# color='deeppink'은 히스토그램의 색상을 진한 분홍색('deeppink')으로 설정합니다.
# kde=True는 커널 밀도 추정(KDE)을 함께 표시하도록 설정합니다.
fg.map(sns.histplot,'waist',bins=10,color='deeppink',kde=True)


#### 3.9) 페어 플롯(Pair plot)

In [None]:
# pairplot() 으로 그리기
pp = sns.pairplot(data6,height=3.3,aspect=1.3)

In [None]:
()

# 패싯그리드로 페어플랫 그리기
# data6 데이터를 사용하여 PairGrid 객체를 생성합니다.
# hue='gender'는 성별('gender')에 따라 색상을 다르게 표시하도록 지정합니다.
# palette=color는 성별에 따라 색상을 다르게 지정합니다.
# height=3.3은 각 서브플롯의 높이를 3.3으로 설정합니다.
# aspect=1.3은 서브플롯의 가로 세로 비율을 1.3으로 설정합니다.
color = ['#00994C', '#FF007F'] # 적용할 색상 지정
pp = sns.PairGrid(data6,hue='gender',palette=color,height=3.3,aspect=1.3)
# 대각선 방향 서브플롯에 히스토그램을 그립니다.
# bins=10은 히스토그램의 막대 개수를 10으로 설정합니다.
pp.map_diag(sns.histplot,bins=10)
# 대각선 방향이 아닌 서브플롯에 커널 밀도 추정(KDE) 플롯을 그립니다.
pp.map_offdiag(sns.kdeplot)
# 범례를 추가합니다.
pp.add_legend()
