## 들어가기 전에
* pandas의 DataFrame을 이용해 데이터를 다루고 시각화하는 방법
* 빅데이터를 대상으로 원하는 데이터를 추출하는 방법
* 결측치 처리, 자료형 변환 등의 데이터 전처리
* 복합적인 정보를 가지고 있는 변수를 이용해 파생변수 만들기
* 코드로 표현된 변수를 알아보기 쉽게 문자열 형태로 변환하기
* 특정 의약품에 대해 시각화하고 상세 정보 조사하기

## 핵심 개념
* 데이터 샘플링
* 데이터 전처리
* 파생변수
* 데이터 시각화

## 의약품 처방정보
* https://www.data.go.kr/data/15007117/fileData.do

* 의약품처방정보는 국민건강보험 가입자 중 의약품처방이력이 있는 각 연도별 수진자 100만 명에 대한 기본정보(성, 연령대, 시도코드 등)와 의약품처방전별 개별 의약품에 대한 처방내역(요양개시일자, 1회투약량, 1일투약량, 총투여일수 등)으로 구성된 개방데이터입니다.

* <img src="https://i.imgur.com/hsrpJp4.png">

* 약품일반성분명코드
* http://www.hira.or.kr/rf/medicine/getHistoryList.do?pgmid=HIRAA030035020000

* 주성분코드부여방법
* https://www.health.kr/drug_info/basedrug/main_ingredient.html

## 라이브러리 로드
### pandas
* 데이터분석 라이브러리입니다.
* https://pandas.pydata.org/

### numpy
* 수치계산 라이브러리입니다.
* https://numpy.org/

### matplotlib.pyplot
* matplotlib.pyplot은 기본적인 시각화를 지원하는 python 라이브러리입니다.
* https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.html

### seaborn
* seaborn은 matplotlib에 기반하여 고수준 API와 통계 시각화 라이브러리입니다. 
* https://seaborn.pydata.org/

In [None]:
# pandas
# numpy
# matplotlib.pyplot
# seaborn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 한글폰트 설정

In [None]:
# 한글폰트 사용을 위해 설치
# !pip install koreanize-matplotlib

In [None]:
import koreanize_matplotlib

# 그래프에 retina display 적용
%config InlineBackend.figure_format = 'retina'
pd.Series([1, -1]).plot(title="한글", figsize=(5, 1))

## 데이터 불러오기

In [None]:
# df = pd.read_csv("nhis_drug_sample_2020_3.csv")
df = pd.read_csv("https://raw.githubusercontent.com/corazzon/open-data-analysis-practical/main/nhis_drug_sample_2020_3.csv")
df.shape

In [None]:
# 처음 n개의 행을 반환합니다.
# 지정하지 않으면 5개의 행을 반환합니다.
df.head(2)

In [None]:
# 마지막 n개의 행을 반환합니다.
# 지정하지 않으면 5개의 행을 반환합니다.
df.tail(2)

## 데이터 요약하기

In [None]:
# DataFrame의 요약을 봅니다.
df.info()

In [None]:
# 지정된 DataFrame의 유일값의 빈도수를 계산합니다.
df.nunique()

## 데이터 전처리
* 데이터 전처리란 데이터에 적절한 작업을 함으로써 활용하기 좋은 형태로 만드는 것입니다.
* 결측치를 탐색하고 처리하는 것, 적절하지 못한 자료형을 바꾸는 것이 전처리에 포함됩니다.

In [None]:
# 결측치의 합을 출력합니다.
# 결측치의 합을 출력하면 결측치가 몇 개 있는지 확인할 수 있습니다.
df.isnull().sum()

### 결측치 처리
* "약품일반성분명코드" 결측치 확인
* 결측치를 처리하는 방법은 여러 가지가 있습니다.
* 결측치를 포함한 행을 버리거나, 최빈값이나 평균값으로 보간하는 방법 등이 있습니다.
* 이번에는 결측치를 포함한 행을 버리겠습니다.

In [None]:
# 결측치가 포함된 행은 삭제하겠습니다.
# 결과를 확인합니다.
df = df.dropna()
df.shape

### 사용하지 않는 데이터 제거

In [None]:
df = df.drop(columns="데이터 공개일자").copy()
df.shape

### 데이터 타입 변경
* "요양개시일자"는 연-월-일을 나타내는 날짜 데이터입니다.
* 그러나 info() 메서드를 통해 확인한 결과 자료형이 int 자료형입니다.
* pandas에서 지원하는 날짜형 데이터형으로 변환하겠습니다.

In [None]:
# "요양개시일자" 변수를 pandas의 datetime 자료형으로 바꾸겠습니다.
# "요양개시일자" 변수의 format은 "%Y%m%d"입니다.
# %Y는 4글자로 된 연도 데이터를 의미합니다. %y는 2글자로 된 연도 데이터를 의미합니다.
# %m, %d는 2글자로 된 월, 일 데이터를 의미합니다.
# 데이터 윗부분 일부 행을 확인합니다.
# 데이터 윗부분 일부 행을 확인합니다.
df['요양개시일자'] = pd.to_datetime(df['요양개시일자'])

In [None]:
# df를 요약합니다.
df.info()

* "요양개시일자"와 "데이터 공개일자"의 데이터 자료형이 datetime64[ns]로 바뀐 것을 확인할 수 있습니다.
* 날짜형 데이터로 변환하면 시간의 흐름에 따라 분석하거나 시각화하는 것이 더 편리해집니다.

### 파생변수 만들기 - 월, 일, 요일
* 변수를 나누거나 합치거나 다른 형태로 바꿔서 분석하면 더 편리한 경우가 있습니다.
* 원래 있던 변수에서 새로 생겨난 변수를 파생변수라고 합니다.
* "요양개시일자" 변수를 다양하게 분석할 수 있도록 나누겠습니다.

In [None]:
# 연월일 데이터는 여러 변수로 나뉠 수 있습니다.
# 월, 일, 요일 코드, 영문 요일로 변수를 나누겠습니다.
# "요양개시일자" 변수에서 월을 새로운 변수로 만듭니다.
# "요양개시일자" 변수에서 일을 새로운 변수로 만듭니다.
# "요양개시일자" 변수에서 요일을 새로운 변수로 만듭니다.
# 요일은 0~6의 숫자가 월~일에 대응되는 형태로 변환됩니다.
# "요양개시일자" 변수에서 영문 요일을 새로운 변수로 만듭니다.
df['월'] = df['요양개시일자'].dt.month
df['일'] = df['요양개시일자'].dt.day
df['요일'] = df['요양개시일자'].dt.dayofweek
df['영문요일'] = df["요양개시일자"].dt.day_name()

In [None]:
# df의 윗부분 일부 행을 확인합니다.
df.head(2)

* column이 많이 늘어나면 한번에 모든 column이 보이지 않습니다.
* 최대로 보이는 column의 개수를 지정하겠습니다.

In [None]:
# max_columns 의 수를 지정합니다.
pd.options.display.max_columns = None

### 파생변수 만들기 - 시도명
* "시도코드" 변수는 숫자로 되어 있어 어느 지역인지 알기 어렵습니다.
* 문자열 정보로 변환하겠습니다.

### map 메서드
* map 메서드를 이용하면 DataFrame의 여러 값을 편리하게 변환할 수 있습니다.
* 여기서 map 메서드란 pandas의 pandas.Series.map을 의미합니다.
* 입력 대응에 따라 Series의 값을 매핑합니다.
* 매핑은 일정한 규칙에 따라 반복 가능한 객체를 변환시키는 것으로 이해하면 됩니다.
    * 반복 가능한 객체란 내부적으로 요소를 여러 개 가지고 있어 값을 차례대로 꺼낼 수 있는 객체입니다.
* function, dict 등을 인자로 받을 수 있습니다.

In [None]:
# 해당 데이터에서 사용하는 대한민국 시도코드 정보입니다.
city = """11 서울특별시
42 강원도
26 부산광역시
43 충청북도
27 대구광역시
44 충청남도
28 인천광역시
45 전라북도
29 광주광역시
46 전라남도
30 대전광역시
47 경상북도
31 울산광역시
48 경상남도
36 세종특별자치시
49 제주특별자치도
41 경기도"""
city

In [None]:
# 대한민국 시도코드 정보를 python의 dictionary 형태로 변환하겠습니다.
# city를 개행문자를 기준으로 나눈 리스트로 바꿉니다.
# 새로운 dict를 선언합니다.
# for 문을 이용해 리스트 안의 내용을 하나씩 다룹니다.
# 시도코드와 지역 이름이 띄어쓰기를 기준으로 구분되어 있습니다.
# 띄어쓰기를 기준으로 분할하고 앞 단어는 key, 뒤 단어는 value가 되도록 dict에 삽입합니다.
# 최종 dict를 확인합니다.
city_list = city.split("\n")
# 딕셔너리 만들기 방법 1) 반복문을 사용하는 방법
city_name = {}
for cl in city_list:
    key = int(cl.split()[0])
    val = cl.split()[1]
    city_name[key] = val

In [None]:
# 딕셔너리 만들기 방법 2) 리스트 컴프리헨션을 사용하는 방법
city_name = {int(cl.split()[0]) : cl.split()[1] for cl in city_list}
city_name

In [None]:
"11" == 11

In [None]:
# map 메서드를 이용해 시도코드에 해당하는 시도명을 갖는 변수를 만듭니다.
df["시도명"] = df['시도코드'].map(city_name)

In [None]:
# map 대신 replace 를 사용하는 방법
df["시도명"] = df['시도코드'].replace(city_name)

In [None]:
# df 윗부분 일부 행을 확인합니다.
df[["시도코드", "시도명"]].sample(5)

### 파생변수 만들기 - 연령대
* "연령대코드(5세단위)" 변수는 코드값으로 되어 있어 어느 연령대인지 알기 어렵습니다.
* 각 코드에 해당하는 연령대를 갖는 변수를 새로 선언하겠습니다.

In [None]:
# '연령대코드(5세단위)' 를 연령대로 나타낸 정보입니다.
age_code = """1 00~04세 
2 05~09세
3 10~14세
4 15~19세
5 20~24세
6 25~29세
7 30~34세
8 35~39세
9 40~44세
10 45~49세
11 50~54세
12 55~59세
13 60~64세
14 65~69세
15 70~74세
16 75~79세
17 80~84세
18 85세+"""
age_code

In [None]:
# 연령대코드 정보를 python의 dictionary 형태로 변환하겠습니다.
# age_code를 개행문자를 기준으로 나눈 리스트로 바꿉니다.
# 새로운 dict를 선언합니다.
# for 문을 이용해 리스트 안의 내용을 하나씩 다룹니다.
# 연령대코드와 연령대가 띄어쓰기를 기준으로 구분되어 있습니다.
# 띄어쓰기를 기준으로 분할하고 앞 단어는 key, 뒤 단어는 value가 되도록 dict에 삽입합니다.
# 최종 dict를 확인합니다.
age_list = age_code.split("\n")
age_dict = {}

age_dict = {int(al.split()[0]) : al.split()[1] for al in age_list}
age_dict

In [None]:
# map 메서드를 이용해 연령대코드에 해당하는 연령대 정보를 갖는 변수를 만듭니다.
df["연령대"] = df["연령대코드(5세단위)"].map(age_dict)
df.head(2)

### 파생변수 만들기 - 성별
* "성별코드" 변수는 남자, 여자를 숫자로 나타내고 있습니다.
* 남자, 여자로 구분된 새로운 "gender" 변수를 선언하겠습니다.

In [None]:
# 성별 코드에서 1은 남자, 2는 여자를 의미합니다.
# 위의 정보를 반영하는 새로운 dict를 선언하겠습니다.
# map 메서드를 이용하여 성별 정보를 담고 있는 "gender" 변수를 선언하겠습니다.
gender_dict = {1 : "남자", 2 : "여자"}
df["성별"] = df["성별코드"].map(gender_dict)

In [None]:
# df 윗부분 일부 행을 확인합니다.
df.head()

### 파생변수 만들기 - 투여경로, 제형
* "약품일반성분명코드" 변수는 여러 정보를 복합적으로 담고 있는 변수입니다.
* 관련 정보는 아래 링크를 확인해주세요.
* https://www.health.kr/drug_info/basedrug/main_ingredient.html
* 이 중에서 투여 경로와 약의 제형을 새로운 변수로 선언하겠습니다.
* pandas에서의 텍스트 데이터 다루기 : https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html

In [None]:
drug_type = "내복제:A, 주사제:B, 외용제:C, 기타:D"
drug_type_dict = {drt.split(":")[1].strip() : drt.split(":")[0].strip() for drt in drug_type.split(",")}
drug_type_dict

In [None]:
df["약품일반성분명코드"].head(1)

In [None]:
# DataFrame에서 문자열 정보에 접근하고 싶을 때 .str을 이용합니다.
# 문자열 중에서 일부 정보만 원할 경우 문자열 슬라이싱을 이용해서 일부만 가져올 수 있습니다.
# "약품일반성분명코드"에서 투여경로에 해당하는 정보만 가져와 "투여경로" 변수로 선언하겠습니다.
# "약품일반성분명코드"에서 제형에 해당하는 정보만 가져와 "제형" 변수로 선언하겠습니다.
# df를 확인합니다.
df['투여경로'] = df["약품일반성분명코드"].str[6].map(drug_type_dict)
df['제형코드'] = df["약품일반성분명코드"].str[-2:]

In [None]:
df["투여경로"].value_counts()

In [None]:
table = pd.read_html("https://www.health.kr/drug_info/basedrug/main_ingredient.html")[1]
df_table = table[["제형코드", "제형명칭"]]
df_table.head(2)

In [None]:
# 딕셔너리 변환방법
drug_dict = df_table.set_index("제형코드")["제형명칭"].to_dict()
drug_dict

In [None]:
df = df.merge(df_table, on="제형코드", how="left")
df.shape

In [None]:
df.head()

In [None]:
df["약품일반성분명코드"].str.replace("[0-9]", "", regex=True).str[0]

## 전체 데이터 분석 및 시각화

### 기술 통계

In [None]:
# 기술 통계를 생성합니다.
df.describe().T

In [None]:
# 20개의 약을 처방받은 가입자 찾기
drug_20 = df.loc[df["일련번호"] == df["일련번호"].max(), "처방내역일련번호"]

df[df["처방내역일련번호"].isin(drug_20)].sort_values(["처방내역일련번호", "일련번호"])

In [None]:
df.describe(include="object")

In [None]:
df.info()

In [None]:
df[df["금액"] == df["금액"].max()]

## 히스토그램

In [None]:
df.hist(bins=50, figsize=(15, 10));

## 상관 분석

상관 분석(相關 分析, Correlation analysis) 또는 '상관관계' 또는 '상관'은 확률론과 통계학에서 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법이다. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로 ρ를 사용하며 표본 상관 계수로 r 을 사용한다.

상관관계의 정도를 파악하는 상관 계수(相關係數, Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

* 출처 : https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D

### 피어슨 상관계수

* r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 
* 결정계수(coefficient of determination)는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/800px-Correlation_examples2.svg.png" width="500">

```
일반적으로
r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
```

<img src="https://upload.wikimedia.org/wikipedia/commons/3/34/Correlation_coefficient.png" width=500>

* 출처 :  https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D#%ED%94%BC%EC%96%B4%EC%8A%A8_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98



### 상관계수 구하기

* corr()은 NA/null 값을 제외한 열의 쌍별 상관 관계를 계산합니다. 기본값은 피어슨 상관계수입니다.
* https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

In [None]:
# df의 상관관계를 구합니다.
corr = df.select_dtypes(include="number").corr()

In [None]:
np.ones([2, 3])

In [None]:
# np.zeros_like(corr)

In [None]:
# 1로 채워진 array 만들기
# np.ones(corr.shape)
mask = np.triu(np.ones_like(corr))

In [None]:
# NA/null 값을 제외한 열의 쌍별 상관 관계에 대해 heatmap을 그립니다.
plt.figure(figsize=(12, 5))
sns.heatmap(corr, annot=True, fmt=".2f", cmap="coolwarm", vmin=-1, vmax=1, mask=mask)

## 기간별 처방
### 월별 처방 수

In [None]:
# 월별 처방 횟수를 시각화합니다.
plt.figure(figsize=(20, 4))
sns.countplot(data=df, x="월")

In [None]:
df["월"].value_counts().plot.bar(figsize=(20, 2), rot=0)

* 여름에 처방 횟수가 적고, 겨울과 환절기에 처방 횟수가 늘어나는 경향을 확인할 수 있습니다.

### 일별 처방 수

In [None]:
# 일별 처방횟수를 시각화합니다.
plt.figure(figsize=(20, 4))
sns.countplot(data=df, x="일")

* 31일의 데이터가 다른 날짜에 비해 유난히 적은 것을 확인할 수 있습니다.
* 이유가 무엇일까요?

### 요일별 처방수

In [None]:
df.columns

In [None]:
# 요일별 처방횟수를 시각화합니다.
# 단, 월요일부터 일요일까지 순서대로 출력되어야 합니다.
plt.figure(figsize=(20, 4))
sns.countplot(data=df.sort_values("요일"), x="영문요일")

In [None]:
list(range(7))

In [None]:
df["요일명"] = df["요일"].map(lambda x : "월화수목금토일"[x])

In [None]:
plt.figure(figsize=(20, 4))
sns.countplot(data=df, x="요일명", order=list("월화수목금토일"))

* 월요일이 가장 많고, 일요일이 가장 적습니다.
* 평일 중에서는 월요일과 금요일이 가장 많고 화, 목, 수 순서로 많습니다.

## 연령대별 처방수

In [None]:
df.columns

In [None]:
age_dict.values()

In [None]:
# 연령대별 처방횟수를 시각화합니다.
# 단, 저연령대부터 고연령대까지 순서대로 출력되어야 합니다.
plt.figure(figsize=(20, 4))
sns.countplot(data=df.sort_values('연령대'), x="연령대")

In [None]:
age_dict.values()

In [None]:
plt.figure(figsize=(20, 4))
sns.countplot(data=df, x="연령대", order=age_dict.values())

### 연령대-성별 처방수

In [None]:
# 연령별 처방횟수를 순서대로 출력하되 성별을 기준으로 나누어 출력합니다.
plt.figure(figsize=(20, 4))
sns.countplot(data=df.sort_values('연령대코드(5세단위)'), x="연령대", hue="성별")

* 데이터상 중장년층 여성의 데이터가 부각되어 보입니다.
* 그렇다면 중장년층 여성이 다른 그룹에 비해 건강이 취약한 것일까요?
* 이것에 대해서 생각해 봅시다.

## 그룹별 분석
### pandas groupby
* <img src = 'https://pandas.pydata.org/docs/_images/06_groupby.svg' width="800">
* pandas에서는 DataFrame을 변수의 값에 따라 그룹별로 나눠 분석할 수 있도록 groupby() 메서드를 지원하고 있습니다.
* groupby()를 이용하여 데이터를 나눠 분석해보겠습니다.

In [None]:
df.groupby(["연령대", "성별"])["금액"].sum().unstack().plot.bar(figsize=(10, 3))

In [None]:
df.groupby(["연령대", "성별"])["금액"].mean().unstack().plot.bar(figsize=(10, 3), title="평균 처방 금액")

* <pandas.core.groupby.generic.DataFrameGroupBy object ... > 문구가 보입니다.
* groupby 메서드로 생성된 결과물은 DataFrameGroupBy object로 DataFrame과는 다릅니다.
* DataFrameGroupBy object에는 여러 메서드를 적용할 수 있습니다.
* groupby() 메서드 뒤에 다른 메서드를 바로 붙여서 사용할 수 있는 것입니다.
* 이렇게 여러 메서드를 붙여 사용하는 것을 **메서드 체이닝**이라고 합니다.

In [None]:
# df를 연령대로 나눈 다음, 합을 출력하겠습니다.
df.pivot_table(index="연령대", columns="성별", values="금액", aggfunc="sum"
              ).plot.bar(figsize=(10, 2), title="연령대 성별 금액 합계")

In [None]:
# df를 연령대로 나눈 다음, 평균을 출력하겠습니다.
df.pivot_table(index="연령대", columns="성별", values="금액", aggfunc="mean"
              ).plot.bar(figsize=(10, 2), title="연령대 성별 금액 합계")

### 연령대별 평균단가

In [None]:
# barplot 으로 연령대별 평균 단가를 시각화 합니다.
plt.figure(figsize=(20, 4))
sns.barplot(data=df, x="연령대", y="단가", order=age_dict.values(), ci=None) # ci 경고 메시지가 난다면 errorbar=None

In [None]:
# 연령대별 빈도수 시각화

plt.figure(figsize=(20, 4))
sns.countplot(data=df.sort_values("연령대"), x="연령대") 

### 투여경로

In [None]:
# "투여경로"별 빈도수를 시각화를 합니다.
sns.countplot(data=df, y="투여경로")

### 단가

In [None]:
# 투여경로별 평균 단가를 확인합니다.
plt.figure(figsize=(20, 4))
sns.barplot(data=df, x="투여경로", y="단가")

### 총투여일수

In [None]:
# 투여경로별 평균 총투여일수를 확인합니다.
plt.figure(figsize=(20, 4))
sns.barplot(data=df, x="투여경로", y="총투여일수")

### 1회 투약량

In [None]:
# 투여경로별 1회 투약량을 확인합니다.
# 제형에 따라 투약량에 대한 단위가 다른 것에 주의해 주세요!
plt.figure(figsize=(20, 4))
sns.barplot(data=df, x="투여경로", y="1회 투약량")

### 연령대별, 투여경로

In [None]:
# 연령대에 대해 투여경로의 약 처방 횟수를 막대 그래프로 나타내겠습니다.
plt.figure(figsize=(20, 4))
sns.countplot(data=df.sort_values("연령대"), x="연령대", hue="투여경로")

In [None]:
plt.figure(figsize=(20, 4))
sns.countplot(data=df[df["투여경로"] == "주사제"].sort_values("연령대"), x="연령대")

In [None]:
df.columns

In [None]:
plt.figure(figsize=(20, 4))
sns.barplot(data=df[df["투여경로"] == "주사제"].sort_values("연령대"), 
            x="연령대", y="총투여일수", estimator=np.sum)

## 파일 저장하기

* ChatGPT를 활용하여 df 변수에 있는 데이터를 월별로 엑설 형태로 저장해 주세요.

In [None]:
# df 변수에 있는 데이터를 월별로 분할합니다.
df_by_month = {}
for month in df['월'].unique():
    df_by_month[month] = df[df['월'] == month]

# 월별 데이터를 별도의 시트로 엑셀 파일로 저장합니다.
with pd.ExcelWriter('월별_처방_데이터.xlsx') as writer:
    for month, df_month in df_by_month.items():
        df_month.to_excel(writer, sheet_name=f'월_{month}', index=False)

## 저장한 엑셀 파일 하나의 데이터프레임으로 불러오기

* ChatGPT를 활용하여 엑셀의 시트 여러 개를 한번에 불러오고 하나의 데이터프레임으로 합쳐주세요.