# 데이터 시각화 분석

### # 월별, 연령대별 본인부담비용 시각화 분석

In [2]:
import pandas as pd

In [None]:
df_month_age_any = pd.read_excel("./files_org/df_month_age_any_월별연령대별본인부담비용.xlsx") 

df_month_age_any

### # 시각화 라이브러리 

In [6]:
import matplotlib.pyplot as plt
import seaborn as sns

### # 월별로 병원을 많이 찾는 연령대 분석
  * 피봇 테이블

In [17]:
pivot_month_age = df_month_age_any.pivot_table(values = "수진자연령",
                            index = "요양개시월",
                            columns = "연령대",
                            aggfunc = "count")

### # 피봇테이블에 NaN(결측치) 데이터가 보인다
  * 평균값, 중간값, 0 중에 하나로 대체한다.
  * 0으로 대체한다.

In [20]:
pivot_month_age = pivot_month_age.fillna(0)

In [None]:
pivot_month_age

### # 선그래프

In [None]:
'''
rc가 붙은 함수는 이후에 이 설정을 유지하는 뜻
  * plt.rc("font", family = "Malgun Gothic", size = 10)
'''

# 그래프 크기 지정 (너비, 높이)
plt.rcParams["figure.figsize"] = (20, 10)

# 선의 두께 지정
plt.rcParams["lines.linewidth"] = 2

# 폰트 지정
plt.rc("font", family = "Malgun Gothic", size = 10)

# 데이터 넣기
pivot_month_age.plot()

# y축 이름
plt.ylabel("연령별 수진자수")

# x축 표시할 눈금 범위 지정
plt.xticks([1,2,3,4,5,6,7,8,9,10,11,12])

# 그래프 제목
plt.title("연령 및 월별로 병원을 많이 찾는 연령대 분석")

# 그래프에 grid 선 그리기
plt.grid(True)

# 범례 표시
plt.legend(loc="upper right")

# 그래프 출력
plt.show()

### # 히트맵 그리기

In [None]:
plt.figure(figsize = (16, 10)) # 그래프 크기 설정

sns.heatmap(pivot_month_age, # 피봇 데이터 넣어서 그래프 그리기
            annot = True, # True = 수치 표시, False = 수치 생략
            fmt = ".0f", # fmt=".0f" 옵션을 하면 소숫점 0자리, "0.1f"는 소숫점 1자리까지 표현.
            cmap = "rocket_r") 

plt.title("연령 및 월별로 병원을 많이 찾는 연령대 분석") # 타이틀 넣기
          
plt.show() # 보여주기

### # 월별 연령대별 본인부담금을 많이 내는 연령대 분석
  * 결과에 대한 해석

In [26]:
df_month_age_any.head(1)

Unnamed: 0,수진자연령,요양개시일자,심결본인부담금,연령대,요양개시월
0,3,20131211,2900,9세이하,12


In [None]:
pivot_month_age_self = df_month_age_any.pivot_table(values = "심결본인부담금",
                            index = "요양개시월",
                            columns = "연령대",
                            aggfunc = "sum") # 평균을 내면 인원수가 달라지기 때문에 수치에 왜곡이 있을 수 있다.

pivot_month_age_self["90대"] = pivot_month_age_self["90대"].fillna(pivot_month_age_self["90대"].mean())

# 선그래프

# 그래프 크기 지정 (너비, 높이)
plt.rcParams["figure.figsize"] = (20, 10)

# 선의 두께 지정
plt.rcParams["lines.linewidth"] = 2

# 폰트 지정
plt.rc("font", family = "Malgun Gothic", size = 10)

# 데이터 넣기
pivot_month_age_self.plot()

# y축 이름
plt.ylabel("연령별 수진자수")

# x축 표시할 눈금 범위 지정
plt.xticks([1,2,3,4,5,6,7,8,9,10,11,12])

# 그래프 제목
plt.title("연령 및 월별로 병원을 많이 찾는 연령대 분석")

# 그래프에 grid 선 그리기
plt.grid(True)

# 범례 표시
plt.legend(loc="upper right")

# 그래프 출력
plt.show()


# 히트맵
plt.figure(figsize = (16, 10)) # 그래프 크기 설정

sns.heatmap(pivot_month_age_self, # 피봇 데이터 넣어서 그래프 그리기
            annot = True, # True = 수치 표시, False = 수치 생략
            fmt = ".0f", # fmt=".0f" 옵션을 하면 소숫점 0자리, "0.1f"는 소숫점 1자리까지 표현.
            cmap = "rocket_r") 

plt.title("월별 연령대별 본인부담금을 많이 내는 연령대 분석") # 타이틀 넣기
          
plt.show() # 보여주기

### # 해석
  * 본인부담금을 가장 많이 내는 연령대는 60대, 70대, 50대, 40대 순이다.
  * 50 ~ 70대는 10 ~ 12월에 본인부담금을 많이 내는 반면, 20대는 1월 ~ 3월, 40대는 8월과 12월에 많이 낸다.
  * 10대에서 부터 서서히 본인부담은 많아지다가 60대에 최고치에 도달하고, 80대부터 본인부담금이 현저히 줄어든다.