### Pandas를 이용한 CSV, Excel 파일의 처리

In [13]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
import json

font_name = font_manager.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)           # 맑은 고딕 폰트 지정
plt.rcParams["font.size"] = 12         # 글자 크기
plt.rcParams["figure.figsize"] = (10, 4) # 10:4의 그래프 비율
plt.rcParams['axes.unicode_minus'] = False  # minus 부호는 unicode 적용시 한글이 깨짐으로 설정

# Jupyter에게 matplotlib 그래프를 출력 영역에 표시할 것을 지시하는 명령
%matplotlib inline

In [2]:
df1 = pd.DataFrame(['아로미', '왕눈이', '투투투', '가길동', '나길순'], columns=['name'])
df1

Unnamed: 0,name
0,아로미
1,왕눈이
2,투투투
3,가길동
4,나길순


In [3]:
np.random.seed(1)
data = np.random.randint(1, 10, size=(5, 3))
data
df2 = pd.DataFrame(data, columns = ['python', 'crawling', 'analysis'])
df2

Unnamed: 0,python,crawling,analysis
0,6,9,6
1,1,1,2
2,8,7,3
3,5,6,3
4,5,3,5


In [4]:
# df1, df2를 가로로 합치기: r의 cbind와 유사
df3 = pd.concat([df1,df2], axis=1) # 동일한 컬럼명을 기준으로 병합
df3

Unnamed: 0,name,python,crawling,analysis
0,아로미,6,9,6
1,왕눈이,1,1,2
2,투투투,8,7,3
3,가길동,5,6,3
4,나길순,5,3,5


In [7]:
# 1. text, csv 파일로 저장
# 인코딩을 utf-8-sig로 하면서 BOM(Byte Order Mark)을 없앤다. 
# Linux에서 에러 방지,  windows utf-8 사용 상관 없음
df3.to_csv('./output/dev.csv', index=False, encoding='utf-8-sig')

In [8]:
# 읽어오기
df = pd.read_csv('./output/dev.csv')
df.head()

Unnamed: 0,name,python,crawling,analysis
0,아로미,6,9,6
1,왕눈이,1,1,2
2,투투투,8,7,3
3,가길동,5,6,3
4,나길순,5,3,5


In [9]:
# 2. json 저장, unicode로 encoding 됨
df.to_json('./output/dev.json')

In [10]:
# 3. json 읽어오기
df = pd.read_json('./output/dev.json')
df.head()

Unnamed: 0,name,python,crawling,analysis
0,아로미,6,9,6
1,왕눈이,1,1,2
2,투투투,8,7,3
3,가길동,5,6,3
4,나길순,5,3,5


In [24]:
# 3. json 한글 저장
dev_dict = dict()
dev_dict['name'] = list(df['name'])
dev_dict['crawling'] = list(df['crawling'])
dev_dict['analysis'] = list(df['analysis'])
print(type(dev_dict))
print(type(dev_dict['name'])) # 시리즈 -> 리스트 형태로 변환 필요
with open('./output/dev_hangul.json', 'w', encoding='utf-8') as fp:
    json.dump(dev_dict, fp, ensure_ascii=False, indent='\t')

<class 'dict'>
<class 'list'>


In [25]:
# 3-2 json 읽어오기
df = pd.read_json('./output/dev_hangul.json')
df.head()

Unnamed: 0,name,crawling,analysis
0,아로미,9,6
1,왕눈이,1,2
2,투투투,7,3
3,가길동,6,3
4,나길순,3,5


### Excel

In [None]:
# 이전에 설치했던 3가지 엑셀 패키지
!pip install xlwt
!pip install openpyxl
!pip install xlrd

In [38]:
# sample_1.xlsx 엑셀데이터 불러오기
# header=1: 컬럼명 1행
# skipfooter=2: 마지막 2행 제외 
# usecols='A:C': 사용할 엑셀 컬럼명, A,B,C
sample_1 = pd.read_excel('./data/sample_1.xlsx', 
                         header=1, 
                         skipfooter=2, 
                         usecols='A:C')
sample_1.head(3)

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319


In [28]:
sample_1.tail(3)

Unnamed: 0,국적코드,성별,입국객수
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [30]:
sample_1.info()
# 6 entries: 6행

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    6 non-null      object
 1   성별      6 non-null      object
 2   입국객수    6 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


In [31]:
sample_1.describe() # std: 표본 표준편차, n-1

Unnamed: 0,입국객수
count,6.0
mean,114995.333333
std,98105.752006
min,42.0
25%,26819.25
50%,132616.0
75%,183305.0
max,232943.0


In [74]:
sample_1['기준년월'] = '2020-06'
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2020-06
1,A01,여성,191436,2020-06
2,A31,남성,319,2020-06
3,A31,여성,42,2020-06
4,A18,남성,158912,2020-06
5,A18,여성,232943,2020-06


In [75]:
# 남성만 출력
sample_1[sample_1['성별']=='남성']

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2020-06
2,A31,남성,319,2020-06
4,A18,남성,158912,2020-06


In [76]:
# 입국 객수가 10만 명 이상인 데이터 필터링
sample_1[sample_1['입국객수'] >= 100000]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2020-06
1,A01,여성,191436,2020-06
4,A18,남성,158912,2020-06
5,A18,여성,232943,2020-06


In [77]:
# 여성을 기준으로 압국 객구사 10만명 이상인 데이터 필터링
# 조건에 괄호를 생략하면 안됨
condition = (sample_1['성별']=='남성') & (sample_1['입국객수'] >= 100000)
condition

0     True
1    False
2    False
3    False
4     True
5    False
dtype: bool

In [78]:
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2020-06
4,A18,남성,158912,2020-06


In [79]:
#isin 함수를 이용한 한 칼럼에 여러 조건 필터링
condition = (sample_1['국적코드'].isin(['A01', 'A31']))
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2020-06
1,A01,여성,191436,2020-06
2,A31,남성,319,2020-06
3,A31,여성,42,2020-06


In [80]:
# 국적 코드가 'A01', 'A31'이 아닌 행 출력
condition = (sample_1['국적코드'].isin(['A01', 'A31'])) 
sample_1[condition == False]

Unnamed: 0,국적코드,성별,입국객수,기준년월
4,A18,남성,158912,2020-06
5,A18,여성,232943,2020-06


In [48]:
# 국적코드표 엑셀파일 불러오기 
code_master = pd.read_excel('./data/sample_codemaster.xlsx')
code_master

Unnamed: 0,국적코드,국적명
0,A01,일본
1,A02,대만
2,A03,홍콩
3,A18,중국
4,A19,이란
5,A22,우즈베키스탄
6,A23,카자흐스탄
7,A99,아시아 기타


In [81]:
# how='left' sample_1은 모두 출력되고 code_master가 대응하는 관계
# 비교기준: 국적코드 기준(left_on, right_on)으로 통합
# how='left', 왼쪽 데이터 프레임은 모두 출력됨, left outer join
sample_1_code = pd.merge(left=sample_1, 
                         right=code_master,
                         how='left',
                         left_on='국적코드',
                         right_on='국적코드')
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2020-06,일본
1,A01,여성,191436,2020-06,일본
2,A31,남성,319,2020-06,
3,A31,여성,42,2020-06,
4,A18,남성,158912,2020-06,중국
5,A18,여성,232943,2020-06,중국


In [82]:
# how='left' sample_1은 모두 출력되고 code_master가 대응하는 관계
# 비교기준: 국적코드 기준(left_on, right_on)으로 통합
# how='right', 오른쪽 데이터 프레임은 모두 출력됨, right outer join
sample_1_code = pd.merge(left=sample_1, 
                         right=code_master,
                         how='right',
                         left_on='국적코드',
                         right_on='국적코드')
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320.0,2020-06,일본
1,A01,여성,191436.0,2020-06,일본
2,A18,남성,158912.0,2020-06,중국
3,A18,여성,232943.0,2020-06,중국
4,A02,,,,대만
5,A03,,,,홍콩
6,A19,,,,이란
7,A22,,,,우즈베키스탄
8,A23,,,,카자흐스탄
9,A99,,,,아시아 기타


In [83]:
# how='left' sample_1은 모두 출력되고 code_master가 대응하는 관계
# 비교기준: 국적코드 기준(left_on, right_on)으로 통합
# how='inner', 국적코드가 일치하는 관측치만 출력, inner join
sample_1_code = pd.merge(left=sample_1, 
                         right=code_master,
                         how='inner',
                         left_on='국적코드',
                         right_on='국적코드')
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2020-06,일본
1,A01,여성,191436,2020-06,일본
2,A18,남성,158912,2020-06,중국
3,A18,여성,232943,2020-06,중국


In [84]:
# 통합의 다른 형태
# 2개의 데이터 프레임의 키가 일치하는 데이터만 출력
# on: 조건 변수명
sample_1_code_inner = pd.merge(sample_1, code_master, 
                               on='국적코드', 
                               how='inner')
sample_1_code_inner

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2020-06,일본
1,A01,여성,191436,2020-06,일본
2,A18,남성,158912,2020-06,중국
3,A18,여성,232943,2020-06,중국


In [85]:
# 아래로 통합할 데이터 준비
sample_2 = pd.read_excel('./data/sample_2.xlsx', 
                         header=1, 
                         skipfooter=2, 
                         usecols='A:C')
sample_2['기준년월']='2020-07'
sample_2

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,92556,2020-07
1,A01,여성,163737,2020-07
2,A18,남성,155540,2020-07
3,A18,여성,249023,2020-07


In [86]:
# sample_2 국적명 병합
sample_2_code = pd.merge(left=sample_2, 
                         right=code_master,
                         how='left',
                         left_on='국적코드',
                         right_on='국적코드')
sample_2_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,92556,2020-07,일본
1,A01,여성,163737,2020-07,일본
2,A18,남성,155540,2020-07,중국
3,A18,여성,249023,2020-07,중국


In [87]:
# sample_2 국적명 병합
sample_2_code_inner = pd.merge(sample_2, 
                         code_master,
                         how='inner',
                         on='국적코드')
sample_2_code_inner

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,92556,2020-07,일본
1,A01,여성,163737,2020-07,일본
2,A18,남성,155540,2020-07,중국
3,A18,여성,249023,2020-07,중국


In [88]:
# 데이터 아래로 통합하기, index가 새로 생성됨
# ignore_index=True 궝장, False를 사용시 중복 index 발생 위험
sample = sample_1_code_inner.append(sample_2_inner, ignore_index=False)
sample

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2020-06,일본
1,A01,여성,191436,2020-06,일본
2,A18,남성,158912,2020-06,중국
3,A18,여성,232943,2020-06,중국
0,A01,남성,92556,2020-07,일본
1,A01,여성,163737,2020-07,일본
2,A18,남성,155540,2020-07,중국
3,A18,여성,249023,2020-07,중국


In [89]:
# index를 포함하는 Excel 저장
sample.to_excel('./output/sample.xlsx')

In [90]:
# index를 제거한 Excel 저장 -> 권장
sample.to_excel('./output/sample_index_false.xlsx', index=False)

### Pivot Table

In [91]:
# pivot 테이블, 그룹화 처리
# values: 집계 데이터
# index: index, 행이름, 행분류명(행 그룹화 변수)
# columns: 컬럼명, 열 분류명(열 그룹화 변수)
# aggfunc: 데이터 그룹화에 적용할 함수
sample_pivot = sample.pivot_table(values='입국객수',
                                  index='국적명',
                                  columns='기준년월',
                                  aggfunc='mean' )
sample_pivot

기준년월,2020-06,2020-07
국적명,Unnamed: 1_level_1,Unnamed: 2_level_1
일본,148878.0,128146.5
중국,195927.5,202281.5


In [92]:
# pivot 테이블, 그룹화 처리
# values: 집계 데이터
# index: index, 행이름, 행분류명(행 그룹화 변수)
# columns: 컬럼명, 열 분류명(열 그룹화 변수)
# aggfunc: 데이터 그룹화에 적용할 함수
sample_pivot = sample.pivot_table(values='입국객수',
                                  index='국적명',
                                  columns='기준년월',
                                  aggfunc='count' )
sample_pivot

기준년월,2020-06,2020-07
국적명,Unnamed: 1_level_1,Unnamed: 2_level_1
일본,2,2
중국,2,2


In [93]:
# pivot 테이블, 그룹화 처리
# values: 집계 데이터
# index: index, 행이름, 행분류명(행 그룹화 변수)
# columns: 컬럼명, 열 분류명(열 그룹화 변수)
# aggfunc: 데이터 그룹화에 적용할 함수
sample_pivot = sample.pivot_table(values='입국객수',
                                  index='국적명',
                                  columns='기준년월',
                                  aggfunc='sum' )
sample_pivot

기준년월,2020-06,2020-07
국적명,Unnamed: 1_level_1,Unnamed: 2_level_1
일본,297756,256293
중국,391855,404563


In [97]:
# 모든 날짜에 대한 집계
sample_pivot = sample.pivot_table(values='입국객수',
                                  index='국적명',
                                  aggfunc='max' )
sample_pivot

Unnamed: 0_level_0,입국객수
국적명,Unnamed: 1_level_1
일본,191436
중국,249023


In [98]:
# 모든 날짜에 대한 집계
sample_pivot = sample.pivot_table(values='입국객수',
                                  index='국적명',
                                  aggfunc='min' )
sample_pivot

Unnamed: 0_level_0,입국객수
국적명,Unnamed: 1_level_1
일본,92556
중국,155540


In [96]:
# 모든 날짜에 대한 집계
sample_pivot = sample.pivot_table(values='입국객수',
                                  index='국적명',
                                  aggfunc='median' )
sample_pivot

Unnamed: 0_level_0,입국객수
국적명,Unnamed: 1_level_1
일본,135028.5
중국,195927.5
