# pandas 맛보기

## 데이터 불러오기 (pd.read_excel)

In [2]:
# 예제 2-1 pandas 라이브러리 불러오기
import pandas as pd 

### 엑셀데이터 특징

- 첫번째 row : 해당 데이터에 대한 제목이 있음 / 데이터 분석에 불필요한 정보
- 9~10번째 row : 총합계와 전년 동기라는 요약 정보로 구성 / 데이터 분석에 불필요한 정보


<img src='img/sample_1.png' width='50%'>

In [3]:
# excel file 불러오기

s1 = pd.read_excel('files/sample_1.xlsx')
s1

Unnamed: 0,2019년 11월 입국객 수,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,국적코드,성별,입국객수,전년동기
1,A01,남성,106320,85815
2,A01,여성,191436,125241
3,A31,남성,319,299
4,A31,여성,42,54
5,A18,남성,158912,124486
6,A18,여성,232943,163466
7,총 합계,689972,,
8,전년동기,499361,,


문제점 : 불필요한 header 및 총합계/전년 동기 데이터 불필요

해결책 : header 삭제 / 총합계, 전년동기 삭제

* 관점 : 교재 book chapter2

In [29]:
# header = 1 : 컬럼명이 있는 위치 의미, header 부분 삭제
# usecols = A~C까지의 컬럼값 불러옴

# header, usecols

s1 = pd.read_excel('./files/sample_1.xlsx',
                   header=1,
                   usecols='A:C')
print(s1.head())
print(s1)

  국적코드  성별      입국객수
0  A01  남성  106320.0
1  A01  여성  191436.0
2  A31  남성     319.0
3  A31  여성      42.0
4  A18  남성  158912.0
    국적코드      성별      입국객수
0    A01      남성  106320.0
1    A01      여성  191436.0
2    A31      남성     319.0
3    A31      여성      42.0
4    A18      남성  158912.0
5    A18      여성  232943.0
6  총 합계   689972       NaN
7   전년동기  499361       NaN


In [30]:
# header = 1 : 컬럼명이 있는 위치 의미
# skipfooter = 2 : 마지막 row에서 두줄은 생략하고 불러옴
# usecols = A~C까지의 컬럼값 불러옴

s1 = pd.read_excel('./files/sample_1.xlsx',
                         header=1,
                         skipfooter=2,
                         usecols='A:C')
s1.head()

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912


In [31]:
# 결과를 보고 단점 정리 총합계와 전년동기 row값 삭제를 권장
# 

s1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [32]:

s1.tail(3)

Unnamed: 0,국적코드,성별,입국객수
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [33]:
s1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [34]:
# 데이터 정보 보기 

s1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    6 non-null      object
 1   성별      6 non-null      object
 2   입국객수    6 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


In [35]:
s1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [36]:
# 숫자형 변수에 대한 데이터 기초통계량 확인 
# 다수의 Series 중에서 연산이 가능한 숫자 타입에 한해서만 통계량 산출

s1.describe()

Unnamed: 0,입국객수
count,6.0
mean,114995.333333
std,98105.752006
min,42.0
25%,26819.25
50%,132616.0
75%,183305.0
max,232943.0


In [37]:
s1.columns

Index(['국적코드', '성별', '입국객수'], dtype='object')

## 데이터 선택하기

- 컬럼(Column) 기준

In [38]:
# 입국객수 한 개 컬럼 선택하기 

s1['입국객수']

0    106320
1    191436
2       319
3        42
4    158912
5    232943
Name: 입국객수, dtype: int64

In [39]:
# '국적코드', '입국객수' 여러 컬럼 선택해서 검색을 요할 경우 [] 구조로 적용

s1[['국적코드', '입국객수']]

Unnamed: 0,국적코드,입국객수
0,A01,106320
1,A01,191436
2,A31,319
3,A31,42
4,A18,158912
5,A18,232943


In [40]:
s1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [42]:
# 기준년월 컬럼 생성하기 
# 2021-06 이라는 데이터로 일괄적으로 처리

s1['기준년월'] = '2021-06'
s1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
1,A01,여성,191436,2021-06
2,A31,남성,319,2021-06
3,A31,여성,42,2021-06
4,A18,남성,158912,2021-06
5,A18,여성,232943,2021-06


## 데이터 선택하기

- 로우(Row) 기준

In [44]:
# 필터링하기 : 성별이 남성인 row는?

gen = s1.성별 == '남성'
gen

0     True
1    False
2     True
3    False
4     True
5    False
Name: 성별, dtype: bool

In [45]:
gen2 = s1['성별'] == '여성'
gen2

0    False
1     True
2    False
3     True
4    False
5     True
Name: 성별, dtype: bool

In [50]:
# 필터링 적용 - 남성 데이터만으로 구성해 보기

gen = s1.성별 == '남성'
genM = s1[gen]
genM

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
2,A31,남성,319,2021-06
4,A18,남성,158912,2021-06


In [53]:
# 조건기반 필터링
# 동작원리  : True값만 유효한 데이터로 반환되면서 새로운 DataFrame 객체가 생성

s1[s1.성별 == '남성']

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
2,A31,남성,319,2021-06
4,A18,남성,158912,2021-06


In [57]:
s1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
1,A01,여성,191436,2021-06
2,A31,남성,319,2021-06
3,A31,여성,42,2021-06
4,A18,남성,158912,2021-06
5,A18,여성,232943,2021-06


In [58]:
# 시리즈 이름으로 검색
s1['입국객수']

0    106320
1    191436
2       319
3        42
4    158912
5    232943
Name: 입국객수, dtype: int64

In [49]:
# 필터링 - 입국 개수가 150,000명 이상인 경우

people = s1['입국객수'] >= 150000
print(people)
many = s1[people]
print(many)

0    False
1     True
2    False
3    False
4     True
5     True
Name: 입국객수, dtype: bool
  국적코드  성별    입국객수     기준년월
1  A01  여성  191436  2021-06
4  A18  남성  158912  2021-06
5  A18  여성  232943  2021-06


In [52]:
# 예제 2-13 데이터 확인하기 
s1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
1,A01,여성,191436,2021-06
2,A31,남성,319,2021-06
3,A31,여성,42,2021-06
4,A18,남성,158912,2021-06
5,A18,여성,232943,2021-06


In [64]:
# 두 개 컬럼에 필터링

gen & people

0    False
1    False
2    False
3    False
4     True
5    False
dtype: bool

In [65]:
# 두 개 컬럼에 필터링 적용하기

s1[gen & people]

Unnamed: 0,국적코드,성별,입국객수,기준년월
4,A18,남성,158912,2021-06


In [66]:
s1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
1,A01,여성,191436,2021-06
2,A31,남성,319,2021-06
3,A31,여성,42,2021-06
4,A18,남성,158912,2021-06
5,A18,여성,232943,2021-06


In [67]:
s1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
1,A01,여성,191436,2021-06
2,A31,남성,319,2021-06
3,A31,여성,42,2021-06
4,A18,남성,158912,2021-06
5,A18,여성,232943,2021-06


In [71]:
# 다중 조건식에서 개중 하나만 True인 결과치가 True인 or 연산식
# Pandas 현 로직
# 성별이 남성 또는 입국객수가 150000이상인 모든 데이터

conditions = (s1['성별'] == '남성') | (s1['입국객수'] >= 150000)
conditions

0     True
1     True
2     True
3    False
4     True
5     True
dtype: bool

In [72]:
s1[conditions]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
1,A01,여성,191436,2021-06
2,A31,남성,319,2021-06
4,A18,남성,158912,2021-06
5,A18,여성,232943,2021-06


In [76]:
# 한 컬럼에 여러 조건 필터링하기

# isin() : 검색하고자 하는 값들을 list 형식으로 적용, 
# 일치하는 값에 해당할 경우 True값 반환

# sql의 in 연산식과 동일
# select * from s1 where 국적코드 in ('A01', 'A31')

c = s1['국적코드'].isin(['A01', 'A31'])
# print('*' * 20)

s1[c]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
1,A01,여성,191436,2021-06
2,A31,남성,319,2021-06
3,A31,여성,42,2021-06


## 데이터 통합하기

- 옆으로 통합(pd.merge)

In [77]:
# 데이터 확인하기 
s1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2021-06
1,A01,여성,191436,2021-06
2,A31,남성,319,2021-06
3,A31,여성,42,2021-06
4,A18,남성,158912,2021-06
5,A18,여성,232943,2021-06


In [79]:
# 국적코드표 엑셀파일 불러오기 
code_master = pd.read_excel('./files/sample_codemaster.xlsx')
code_master

Unnamed: 0,국적코드,국적명
0,A01,일본
1,A02,대만
2,A03,홍콩
3,A18,중국
4,A19,이란
5,A22,우즈베키스탄
6,A23,카자흐스탄
7,A99,아시아 기타


In [84]:
s1_code = pd.merge(left=s1, right=code_master, how='left',
                   left_on='국적코드', right_on='국적코드')
s1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2021-06,일본
1,A01,여성,191436,2021-06,일본
2,A31,남성,319,2021-06,
3,A31,여성,42,2021-06,
4,A18,남성,158912,2021-06,중국
5,A18,여성,232943,2021-06,중국


In [82]:
# 데이터 옆으로 통합하기(left 조건)

'''
병합시 기준점
어떤 DataFrame들을 병합?
각 DataFrame에서 어떤 컬럼명(Series)을 기준으로 병합

* 속성들 의미 

1. left=s1 : 왼쪽 table(DataFrame) 지정
2. right=code_master : 오른쪽 table 지정
3. how='left', : 왼쪽 table 기준으로 두 table 결합
4. left_on='국적코드', : 왼쪽 table의 기준 칼럼은 국적코드
5. right_on='국적코드' : 오른쪽 table의 기준 컬럼은 국적 코드
'''
s1_code = pd.merge(left=s1,
                   right=code_master,
                   how='left',
                   left_on='국적코드',
                   right_on='국적코드')
s1_code


Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2021-06,일본
1,A01,여성,191436,2021-06,일본
2,A31,남성,319,2021-06,
3,A31,여성,42,2021-06,
4,A18,남성,158912,2021-06,중국
5,A18,여성,232943,2021-06,중국


In [85]:
# 데이터 옆으로 통합하기(inner 조건)

#  how='inner' :  두 table의 기준 칼럼의 값이 서로 일치하는 경우에만 데이터 통합
# 교집합 가능

s1_code = pd.merge(left=s1,
                   right=code_master,
                   how='inner',
                   left_on='국적코드',
                   right_on='국적코드')
s1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2021-06,일본
1,A01,여성,191436,2021-06,일본
2,A18,남성,158912,2021-06,중국
3,A18,여성,232943,2021-06,중국


## 데이터 통합하기

- 아래로 통합(pd.append)

In [96]:
# sample_2_code 만들기
s2 = pd.read_excel('./files/sample_2.xlsx',
                   header=1,
                   skipfooter=2,
                   usecols='A:C')
s2['기준년월'] = '2019-12'
print(s2)
s2_code = pd.merge(left=s2,
                   right=code_master,
                   how='left',
                   left_on='국적코드',
                   right_on='국적코드')
print(s2_code)

  국적코드  성별    입국객수     기준년월
0  A01  남성   92556  2019-12
1  A01  여성  163737  2019-12
2  A18  남성  155540  2019-12
3  A18  여성  249023  2019-12
  국적코드  성별    입국객수     기준년월 국적명
0  A01  남성   92556  2019-12  일본
1  A01  여성  163737  2019-12  일본
2  A18  남성  155540  2019-12  중국
3  A18  여성  249023  2019-12  중국


In [70]:
s1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2021-06,일본
1,A01,여성,191436,2021-06,일본
2,A31,남성,319,2021-06,
3,A31,여성,42,2021-06,
4,A18,남성,158912,2021-06,중국
5,A18,여성,232943,2021-06,중국


In [88]:
# 데이터 아래로 통합하기 1
# 아래로 통합할 경우 컬럼 순서 동일해야 함

'''
pd.concat([DataFrame들]) - 상하, 좌우 병합하고자 하는 DataFrame들이 parameter로 유입
pd.merge(left? right?) - 좌우 병합하고자 하는 DataFrame들이 parameter로 유입

DataFrame객체.append(상하로 결합할 DataFrame 객체)
'''


sample = s1_code.append(s2_code, ignore_index=True)
sample

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2021-06,일본
1,A01,여성,191436,2021-06,일본
2,A18,남성,158912,2021-06,중국
3,A18,여성,232943,2021-06,중국
4,A01,남성,92556,2019-12,일본
5,A01,여성,163737,2019-12,일본
6,A18,남성,155540,2019-12,중국
7,A18,여성,249023,2019-12,중국


## 데이터 저장하기(to_excel)

In [89]:
# sample 데이터 확인하기 

sample 

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2021-06,일본
1,A01,여성,191436,2021-06,일본
2,A18,남성,158912,2021-06,중국
3,A18,여성,232943,2021-06,중국
4,A01,남성,92556,2019-12,일본
5,A01,여성,163737,2019-12,일본
6,A18,남성,155540,2019-12,중국
7,A18,여성,249023,2019-12,중국


In [91]:
# sample 데이터 엑셀파일로 저장하기 1

sample.to_excel('./files/sample.xlsx')

In [94]:
# sample 데이터 엑셀파일로 저장하기 2

sample.to_excel('./files/sample_index_false.xlsx', index=False)

In [93]:
# sample 데이터 엑셀파일로 저장하기 2

sample.to_excel('./files/sample_index_true.xlsx', index=True)

## 데이터 집계하기(pivot_table)

In [40]:
# pivot_table() 함수 활용하기 1



기준년월,2019-11,2019-12
국적명,Unnamed: 1_level_1,Unnamed: 2_level_1
일본,148878.0,128146.5
중국,195927.5,202281.5


In [41]:
# pivot_table() 함수 활용하기 2


Unnamed: 0_level_0,입국객수
국적명,Unnamed: 1_level_1
일본,191436
중국,249023
