In [1]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
# 분석에 사용할 pandas, 수치계산에 사용할 numpy, 데이터시각화에 사용할 seaborn을 불러온다.
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# seaborn은 matplotlib를 사용하기 쉽게, 고급통계기술을 사용하도록 만들어진 라이브러리임
# seaborn은 matplotlib을 통해 만들어졌기 때문에 폰트 변경, 스타일 지정, 그래프 사이즈 조정, 서브플롯 그리기 등에서 matplotlib을 같이 사용 가능
# 또, 구 버전의 주피터 노트북에서는 %matplotlib inline 설정이 되어야 노트북 안에서 그래프를 시각화한다.
%matplotlib inline

In [3]:
# 레티나 설정을 해주면 글씨가 좀 더 선명하게 보인다.
# 폰트의 주변이 흐릿하게 보이는 것을 방지한다.
%config InlineBackend.figure_format = 'retina'

In [4]:
# 시각화를 위한 폰트 설정
import os

# os.name # mac이면 'posix'가 뜬다.
if os.name == 'posix':
    sns.set(font="AppleGothic")
elif os.name == 'nt':
    sns.set(font="Malgun Gothic")

In [5]:
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')

In [6]:
# Google Colab 사용 시 아래 주속을 풀고 폰트 설정 하기
# 로컬 아나콘다 사용 시 그대로 주석처리 해놓기
# 나눔고딕 설치
# 이 코드를 사용시 아래에 있는 폰트를 로드할 경우 colab에서는 오류가 발생하니
# 아래에 있는 폰트 설정은 꼭 주석처리를 해주기
!apt -qq -y install fonts-nanum > /deb/null

import matplotlib.font_manager as fm

fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
# fm._rebuild()

# Colab의 한글 폰트 설정
plt.rc('font', family='NanumGothic')
# 마이너스 폰트 깨지는 문제에 대한 대처
plt.rc("axes", unicode_minus=False)

지정된 경로를 찾을 수 없습니다.


In [7]:
import pandas as pd

# 파일 경로 설정 (파일이 현재 작업 디렉토리에 있을 경우 파일 이름만 사용해도 됩니다)
file_path = "data/2017-2019_서울및6개광역시_아토피_지역명수정.xlsx"

# CSV 파일을 데이터프레임으로 읽기
df1 = pd.read_excel(file_path) 
df1

Unnamed: 0,시도코드,요양개시일자,환자 수,지역명
0,11,2017-01-01,2,서울
1,11,2017-01-02,44,서울
2,11,2017-01-03,35,서울
3,11,2017-01-04,42,서울
4,11,2017-01-05,37,서울
...,...,...,...,...
6889,31,2019-12-26,2,울산
6890,31,2019-12-27,5,울산
6891,31,2019-12-28,1,울산
6892,31,2019-12-30,1,울산


In [8]:
# '요양개시일자' 열에서 날짜 부분만 추출
df1['날짜'] = df1['요양개시일자'].dt.date

In [9]:
df1.drop(['요양개시일자', '시도코드'], axis=1, inplace=True)

In [10]:
df1.rename(columns={'지역명': '지역'}, inplace=True)

In [11]:
df1

Unnamed: 0,환자 수,지역,날짜
0,2,서울,2017-01-01
1,44,서울,2017-01-02
2,35,서울,2017-01-03
3,42,서울,2017-01-04
4,37,서울,2017-01-05
...,...,...,...
6889,2,울산,2019-12-26
6890,5,울산,2019-12-27
6891,1,울산,2019-12-28
6892,1,울산,2019-12-30


In [12]:
df1.to_excel('2017-2019_서울및6개광역시_아토피_최종_전처리완료.xlsx', index=False)

In [13]:
import pandas as pd

# 파일 경로 설정 (파일이 현재 작업 디렉토리에 있을 경우 파일 이름만 사용해도 됩니다)
file_path = "data/2020-2021_서울및6개광역시_아토피_지역명수정.xlsx"

# CSV 파일을 데이터프레임으로 읽기
df2 = pd.read_excel(file_path) 
df2

Unnamed: 0,시도코드,요양개시일자,환자 수,지역명
0,11,2020-01-01,1,서울
1,11,2020-01-02,54,서울
2,11,2020-01-03,51,서울
3,11,2020-01-04,29,서울
4,11,2020-01-06,57,서울
...,...,...,...,...
4639,31,2021-12-27,4,울산
4640,31,2021-12-28,4,울산
4641,31,2021-12-29,4,울산
4642,31,2021-12-30,1,울산


In [14]:
# '요양개시일자' 열에서 날짜 부분만 추출
df2['날짜'] = df2['요양개시일자'].dt.date

In [15]:
df2.rename(columns={'지역명': '지역'}, inplace=True)

In [18]:
df2.drop(['요양개시일자', '시도코드'], axis=1, inplace=True)

In [19]:
df2

Unnamed: 0,환자 수,지역,날짜
0,1,서울,2020-01-01
1,54,서울,2020-01-02
2,51,서울,2020-01-03
3,29,서울,2020-01-04
4,57,서울,2020-01-06
...,...,...,...
4639,4,울산,2021-12-27
4640,4,울산,2021-12-28
4641,4,울산,2021-12-29
4642,1,울산,2021-12-30


In [20]:
df2.to_excel('2020-2021_서울및6개광역시_아토피_최종_전처리완료.xlsx', index=False)