<a href="https://colab.research.google.com/github/JSJeong-me/SEMICON-BigData/blob/main/visulaization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Visualization**

In [None]:
# 데이터 처리 패키지
import pandas as pd
# 행렬 연산 패키지
import numpy as np
# 데이터 시각화 패키지
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
# 경고 메시지 처리
import warnings

In [None]:
# 한글설치 (윈도우 버전)
matplotlib.rc('font', family="Malgun Gothic")
# 음수 표시
matplotlib.rc('axes', unicode_minus=False)
# 실행결과 경고메시지 출력 제외
warnings.filterwarnings('ignore')

In [None]:
path = "./data/"

In [None]:
df_fitness = pd.read_csv(path+"health.csv", encoding ="euc-kr")

In [None]:
df_currency = pd.read_csv(path+"exchange.csv", parse_dates = ["APPL_DATE"])

In [None]:
df_currency.head()

In [None]:
df_count = df_fitness["GENDER"].value_counts()
df_count.plot.bar()

In [None]:
df_count = df_fitness["AGEGROUP"].value_counts()
# sort_index(inplace = True) : 정렬 결과를 저장
df_count.sort_index(inplace = True)

In [None]:
df_count.plot.bar()

In [None]:
df_groupby_total = df_fitness.groupby(["GENDER", "AGEGROUP"]).size()
df_groupby_total.plot.bar()

In [None]:
# 누적 막대 그래프
df_groupby_total = df_fitness.groupby(["GENDER", "AGEGROUP"], as_index = False)['WEIGHT'].agg('count')
df_pivot = df_groupby_total.pivot("AGEGROUP", "GENDER", "WEIGHT")
df_pivot.plot(kind = 'barh', stacked = True)

In [None]:
df_pivot_norm = df_pivot.div(df_pivot.sum(1), axis = 0)
df_pivot_norm.plot(kind = 'barh', stacked = True)

In [None]:
# matplotlib 활용
plt.hist(df_fitness["OXY"])

In [None]:
# pandas 활용
df_fitness["OXY"].hist()

In [None]:
# seaborn 활용
sns.displot(df_fitness, x = "OXY")

In [None]:
sns.histplot(data = df_fitness, x = 'OXY', kde = True)

In [None]:
# pandas 활용
# figsize = (x축 크기, y축 크기)
df_fitness.hist(figsize = (10,7))

In [None]:
# matplotlib 활용
fig, (ax0, ax1) = plt.subplots(nrows =1, ncols = 2)
x1 = df_fitness[df_fitness["GENDER"] == "남성"]["OXY"]
x2 = df_fitness[df_fitness["GENDER"] == "여성"]["OXY"]
ax0.hist(x1, histtype = 'bar', color = 'blue')
ax1.hist(x2, histtype = 'bar', color= 'red' )
ax0.legend('남성')
ax1.legend('여성')
plt.show()

In [None]:
# pandas 활용
# hist(column = 변수, by = 그룹변수, range=(최소값, 최대값))-X축 범위 통일
df_fitness.hist(column="OXY" , by = "GENDER" , range=(35,65))

In [None]:
# seaborn 활용. FacetGrid(데이터 지정, col=컬럼 지정)
grid = sns.FacetGrid(df_fitness, col="GENDER")
# map(함수, 컬럼명)
grid.map(sns.histplot, "OXY")

In [None]:
# seaborn 활용. FacetGrid(데이터 지정, col=컬럼 지정)
grid = sns.FacetGrid(df_fitness, col="GENDER")
# 함수로 matplotlib.pyplot 활용
grid.map(plt.hist, "OXY")

In [None]:
# matplotlib 활용 - hist(변수,label="표시 값" , alpha = 투명도(0~1 지정) )
plt.hist(df_fitness[df_fitness["GENDER"] == "남성"]["OXY"],label = "남성", alpha = 0.5)
plt.hist(df_fitness[df_fitness["GENDER"] == "여성"]["OXY"],label = "여성", alpha = 0.5)
plt.legend()

In [None]:
# seaborn 활용
sns.displot(df_fitness, x = 'OXY', hue = 'GENDER')

In [None]:
# matplotlib 활용
# x축 구간(bin) 조정(상세 분포 확인)
plt.hist(x = "OXY", data = df_fitness, bins = 20)

In [None]:
# pandas 활용
df_fitness.boxplot(column="OXY", by = ["GENDER", "AGEGROUP"])

In [None]:
df_count = df_fitness.groupby(["GENDER"] ).size()

In [None]:
# matplotlib 활용 (데이터, labels=레이블 변수 지정, autopct=비율 %로 표시)
plt.pie(df_count, labels = df_count.index, autopct="%.1f%%")

In [None]:
# pandas 활용
df_count.plot.pie(y = "OXY", autopct="%.1f%%")

In [None]:
df_count = df_fitness.groupby(["GENDER", "AGEGROUP"] ).size()

In [None]:
# matplotlib 활용
plt.pie(df_count, labels = df_count.index, autopct="%.1f%%")

In [None]:
# pandas 활용
df_count.plot.pie(y = "OXY", autopct="%.1f%%")

In [None]:
# seaborn 활용
# scatterplot( x, y, hue: 그룹 변수, style : 그룹별 marker 구분 , data )
sns.scatterplot(x = "RUNTIME", y = "OXY", hue = "GENDER", style= "GENDER", data = df_fitness)

In [None]:
# 회귀선 포함하여 그리기
sns.lmplot(x = "RUNTIME", y = "OXY", hue = "GENDER", data = df_fitness, size = 5)

In [None]:
# seaborn 활용
# pairplot(데이터): Scatter Plot 그래프 생성
sns.pairplot(df_fitness)

In [None]:
# 성별로 그리기
sns.pairplot(df_fitness, hue = "GENDER")

In [None]:
# seaborn 활용
# y변수: 혈당산소 요구량, x변수: 맥박(운동), 맥박(최대), 운동시간 Scatter Matrix 생성
sns.pairplot(df_fitness , y_vars=["OXY"] , x_vars=["RUNPULSE","MAXPULSE","RUNTIME"])

In [None]:
sns.pairplot(df_fitness , y_vars=["OXY"] , x_vars=["RUNPULSE","MAXPULSE","RUNTIME"], hue = 'GENDER')

In [None]:
# pivot 활용하여 각국 통화별 데이터 생성
df_currency_pivot = df_currency.pivot(index = "APPL_DATE", columns="CURRENCY", values = "STD_RATE")
df_currency_pivot.head()

In [None]:
# pandas 활용
# 중국 위안화 그래프 그리기
df_currency_pivot["CNY"].plot()

# 일본 엔화, 미국 달러 그래프 그리기
df_currency_pivot[["JPY", "USD"]].plot()

In [None]:
# 성별과 연령대별 혈당 산소 요구량 평균 계산, groupby: (성별, 연령), agg("mean")
df_agg = df_fitness.groupby(["GENDER", "AGEGROUP"], as_index = False).agg("mean")
# pivot(성별, 연령대, 혈당 산소 요구량): x축(연령대), y축(성별), 값(혈당산소요구량의 평균)으로 pivot
df_pivot = df_agg.pivot("GENDER", "AGEGROUP", "OXY")

In [None]:
# seaborn 활용 : heatmap(데이터, cmap: 색상)
sns.heatmap(df_pivot, annot = True, cmap="Blues")

In [None]:
# seaborn 활용
df_cor = df_fitness.corr(method = 'pearson')
sns.heatmap(df_cor, annot = True, cmap="Blues")

In [None]:
# seaborn 활용 : kdeplot( x축, y축 , shade: 음영 선택 여부)
sns.kdeplot(df_fitness["RUNTIME"], df_fitness["OXY"], shade = False)

In [None]:
# pandas 활용
# parallel_coordinates(데이터, 그룹 변수, cols = 변수, colormap= 다양한 colormap지정)
pd.plotting.parallel_coordinates(df_fitness,"GENDER", cols=["OXY", "WEIGHT", "RSTPULSE"], colormap="Accent")