#  10_05 분포 시각화

In [None]:
# 필요 패키지 설치 및 임포트

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import numpy as np
import plotly.express as px
from pywaffle import Waffle

In [None]:
# 데이터 불러오기

df = pd.read_csv('/Users/adam/Data_Analytics/Python/Datasets/six_countries/six_countries_height_samples.csv')

df.head()

In [None]:
# 기본 히스토그램 시각화

# 신장 컬럼만 필터링
df1 = df[['height_cm']]

# 10cm 단위로 히스토그램 시각화
plt.hist(df1, bins=10, label='bin=10')
plt.legend()
plt.show()

# 그래프에 봉우리가 2개인 것은 성별에 따른 데이터의 분포가 다르기 떄문이다.
# 이 때는 데이터를 두 개의 데이터 세트로 분리해서 히스토그램에 표현한다.

In [None]:
# 남성 여성 히스토그램 시각화

# 남성 여성 별도 데이터 세트 생성
df1_1 = df[df['sex'].isin(['man'])]
df1_1 = df1_1[['height_cm']]
df1_2 = df[df['sex'].isin(['woman'])]
df1_2 = df1_2[['height_cm']]

# 10cm 단위로 남성, 여성 신장 히스토그램 시각화
plt.hist(df1_1, color='green', alpha=0.2, bins=10, label='MAN', density=True)
plt.hist(df1_2, color='red', alpha=0.2, bins=10, label='WOMAN', density=True)
plt.legend()
plt.show()

# alpha 값으로 불투명도를 조정하여 겹치는 부분을 효과적으로 표현한다.

In [None]:
# 파이차트, 도넛차트 시각화를 위한 데이터 전처리
df2 = df[['country','height_cm']]

# 키175 이상만 추출
df2 = df2[df.height_cm >= 175]
df2 = df2.groupby('country').count().reset_index()

df2.head(10)

In [None]:
# 파이차트 시각화
fig = plt.figure(figsize=(8,8)) ## 캔버스 생성
fig.set_facecolor('white') ## 캔버스 배경색 설정
ax = fig.add_subplot() ## 프레임 생성

# 파이차트 출력
ax.pie(df2.height_cm,
       labels=df2.country, # 라벨 출력
       startangle=0, # 시작점 degree 설정
       counterclock=False, # 시계 방향
       autopct=lambda x : '{:.1f}%'.format(x) # 퍼센트 자릿수 설정
      ) 

plt.legend() # 범례 표시
plt.show()

In [None]:
# 도넛차트 시각화

# 차트 형태 옵션 설정
wedgeprops={'width':0.7, 'edgecolor':'w', 'linewidth':5}

plt.pie(df2.height_cm, labels=df2.country, autopct='%.1f%%',
        startangle=90, counterclock=False, wedgeprops=wedgeprops)
plt.show()

In [None]:
# 트리맵 차트용 데이터 세트 전처리

df3 = df[['country','sex','height_cm']]
df3 = df3[df.height_cm >= 175]

# 국가, 성별 단위 신장 175cm 이상 카운팅
df3 = df3.groupby(['country','sex']).count().reset_index()

df3.head(10)

In [None]:
# 트리맵 차트 시각화

fig = px.treemap(df3,
                 path=['sex','country'],
                 values='height_cm',
                 color='height_cm',
                 color_continuous_scale='viridis')

fig.show()

# 트리맵 차트는 path 옵션으로 위계구조를 표현할 수 있으므로 위계 구조 순소별 컬럼을 넣어주면 된다.

In [None]:
# 와플차트 시각화

fig = plt.figure(
    FigureClass=Waffle,
    plots={
        111: {
            'values': df2['height_cm'],
            'labels': ["{0} ({1})".format(n, v) for n, v in df2['country'].items()],
            'legend': {'loc': 'upper left', 'bbox_to_anchor': (1.05, 1), 'fontsize': 8},
            'title': {'label': 'Waffle chart test', 'loc': 'left'}
        }
    },
    rows=10,
    figsize=(10, 10) 
)

# rows 옵션을 통해 차트 형태 조정 가능하다.