### pandas

In [None]:
"""
- 행과 열로 되어 있는 데이터를 컨트롤 할때 사용되는 라이브러리
- 행단위 데이터 취합, 또는 열단위 데이터 취합시 사용
- 데이터 필터링(검색)시 사용
- 라이브러리 설치를 통해 사용할 수 있음
- 주로 Database 및 File기반의 엑셀, CSV, Json 등의 데이터
  전처리에 사용됨
"""

### 데이터 불러오기

In [11]:
### 라이브러리 불러들이기
# - as : 별칭
# import 뒤에 대문자는 보통 클래스 객체, 소문자 파일
import pandas as pd 

In [16]:
### 엑셀파일 읽어 들이기
# - 외부 파일을 읽어들일때 사용되는 함수 : read_xxx()
# - header : 컬럼명이 있는 위치 지정
# - skipfooter :  마지막 행부터 제외시킬 갯수 지정
# - usecols : 추출할 컬럼(열)을 지정
# - 파이썬에서는 모든 시작번호는 0부터...
sample_1 = pd.read_excel("./files/sample_1.xlsx",
                         header = 1,
                         skipfooter = 2,
                         usecols = "A:C")

In [17]:
sample_1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [18]:
### 데이터 정보 확인하기
# - 행렬로 구성된 데이터의 형태 확인 가능
# - ** 결측치가 있는지 확인 가능 **
# - 데이터의 갯수 확인 가능
sample_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    6 non-null      object
 1   성별      6 non-null      object
 2   입국객수    6 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


In [20]:
### 데이터프레임의 상위 5개 추출 
# - head() 상위 5개, head(1) 상위1개...
sample_1.head(1)

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320


In [21]:
### 데이터프레임 가장 마지막행부터 조회
# - 디폴트 5개
sample_1.tail()

Unnamed: 0,국적코드,성별,입국객수
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [22]:
### 기초통계함수
# - 데이터프레임의 컬럼들 중에 숫자(정수 또는 수숫점을 가지는)에 
#   대한 count, 평균(mean), 표준편차(std), min(최소값), max(최대값),
#   사분위수값(25%, 50%, 75%) : 이상치 처리시 사용
# - 데이터의 성격을 기준으로 min과 max값을 통해 이상치 데이터
#   확인가능(이상한 데이터)
sample_1.describe()

Unnamed: 0,입국객수
count,6.0
mean,114995.333333
std,98105.752006
min,42.0
25%,26819.25
50%,132616.0
75%,183305.0
max,232943.0


In [23]:
sample_1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


### 데이터 선택하기(컬럼 기준)

In [26]:
### 특정 컬럼 1개 추출하기

# - 행렬 형태(데이터프레임)로 조회시 리스트 기호 두개(2차원 사용)
sample_1[["입국객수"]]

# - 리스트기호 1개만 사용한 경우 : 시리즈 타입으로 추출됨
#   시리즈 형태는 파이썬의 튜플() 형태와 유사합니다.
sample_1["입국객수"]

Unnamed: 0,입국객수
0,106320
1,191436
2,319
3,42
4,158912
5,232943


In [28]:
### 2개 이상의 데이터를 조회하고자 할 때는
# - 리스트 기호 2개를 사용해야함
sample_1[["입국객수", "성별"]]

Unnamed: 0,입국객수,성별
0,106320,남성
1,191436,여성
2,319,남성
3,42,여성
4,158912,남성
5,232943,여성


In [29]:
### 컬럼(열) 추가하기
# - 딕셔너리에 값을 추가할 때와 동일한 방법 사용
#    key : values
sample_1["기준년월"] = "2019-11"
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


### 데이터 처리하기 (행단위)

In [33]:
### 행단위 조회를 위해서는 조건처리를 진행함
# - 조건처리를 -> 분석에서는 "필터링" 이라고 칭합니다.
"""
<조건 연산자 사용>
>, <, >=, <=, ==, !=
"""
### 성별 데이터 중에 "남성" 인 데이터만 추출하기
### - "남성"인 행만 추출
### - 필터링 결과는 boolean 형태로 조회되며,
#     모든 행에 대해서 True/False로 처리됨
condition = sample_1["성별"] == "남성"
condition

0     True
1    False
2     True
3    False
4     True
5    False
Name: 성별, dtype: bool

In [34]:
### 필터링 결과중에 True인 행들만 추출하기
# - 조건이 True인 행의 번호에 대해서만 조회하여
#   실제 데이터 조회가 가능함
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
2,A31,남성,319,2019-11
4,A18,남성,158912,2019-11


In [36]:
### True는 생략 가능
sample_1[condition == True]

sample_1[condition == False]

Unnamed: 0,국적코드,성별,입국객수,기준년월
1,A01,여성,191436,2019-11
3,A31,여성,42,2019-11
5,A18,여성,232943,2019-11


In [37]:
### 필터링을 변수로 처리하지 않고 한번에 처리도 가능
# 조건은 소괄호로 묶어준다 (sample_1["성별"] == "남성")
sample_1[(sample_1["성별"] == "남성") == True]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
2,A31,남성,319,2019-11
4,A18,남성,158912,2019-11


In [38]:
### "입국객수"가 150,000 이상인 데이터만 조회해 주세요.
sample_1[(sample_1["입국객수"] >= 150000) == True]

Unnamed: 0,국적코드,성별,입국객수,기준년월
1,A01,여성,191436,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [39]:
condition = (sample_1["입국객수"] >= 150000) 
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
1,A01,여성,191436,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [None]:
### 논리연산자 : &, |
### "성별"이 "남성" 이면서, "입국객수"가 150,000 이상인
#   데이터 조회하기

In [40]:
condition1 = (sample_1["성별"] == "남성")
condition2 = (sample_1["입국객수"] >= 150000) 
sample_1[condition1&condition2]

Unnamed: 0,국적코드,성별,입국객수,기준년월
4,A18,남성,158912,2019-11


In [41]:
condition = (sample_1["성별"] == "남성") & (sample_1["입국객수"] >= 150000)
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
4,A18,남성,158912,2019-11


In [42]:
# 콤마가 없는 곳에서 줄바꿈은 \하고 바로 엔터
condition = (sample_1["성별"] == "남성") & \
               (sample_1["입국객수"] >= 150000)
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
4,A18,남성,158912,2019-11


In [44]:
### "국적코드"가 "A01" 또는 "A18"인 데이터 조회하기
condition = (sample_1["국적코드"] == "A01") | (sample_1["국적코드"] == "A18")
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [45]:
### 또는(or) 조건을 편하게 사용할 수 있는 함수가 제공됨
# - isin() 함수 사용하면 편리함
# - SQL에서 IN() 함수와 동일함
condition = (sample_1["국적코드"].isin(["A01", "A18"]))
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


### 데이터 통합하기

##### 컬럼단위(옆으로) 통합하기

In [46]:
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [49]:
### 국적코드의 국적명을 담고 있는 데이터 불러들이기
file_nm = "./files/sample_codemaster.xlsx"
code_master = pd.read_excel(file_nm)

In [50]:
code_master

Unnamed: 0,국적코드,국적명
0,A01,일본
1,A02,대만
2,A03,홍콩
3,A18,중국
4,A19,이란
5,A22,우즈베키스탄
6,A23,카자흐스탄
7,A99,아시아 기타


In [51]:
code_master.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    8 non-null      object
 1   국적명     8 non-null      object
dtypes: object(2)
memory usage: 256.0+ bytes


In [52]:
### 다른 데이터의 컬럼값 가지고 오기
# - 사용되는 함수 merge()
# 두개의 데이터에서 특정 컬럼명의 데이터값이 같은 것에 대해서
# merge(합) 하기
# - merge() 함수는 컬럼 단위로 오른쪽으로 열을 추가하는 함수

# - how = "inner" :  두 컬럼의 값이 같은것에 대해서만 조회
sample_1_code = pd.merge(left = sample_1, 
                         right = code_master,
                         how = "inner",
                         left_on = "국적코드", 
                         right_on = "국적코드")
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A18,남성,158912,2019-11,중국
3,A18,여성,232943,2019-11,중국


In [54]:
sample_1_code = pd.merge(left = sample_1, 
                         right = code_master,
                         how = "left",
                         left_on = "국적코드", 
                         right_on = "국적코드")
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국


##### 데이터 통합하기 : 행단위로 추가하기

In [55]:
### 새로운 데이터 읽어 들이기
# - sample_2.xlsx 데이터 일거들이기
# - 변수명 smaple_2
sample_2 = pd.read_excel("./files/sample_2.xlsx",
                         header = 1,
                         skipfooter = 2,
                         usecols = "A:C")

In [56]:
sample_2

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,92556
1,A01,여성,163737
2,A18,남성,155540
3,A18,여성,249023


In [57]:
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [58]:
### sample_2 데이터에 "기준년월" 컬럼 추가
# - 기준년월은 2019-12
sample_2["기준년월"] = "2019-12"
sample_2

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,92556,2019-12
1,A01,여성,163737,2019-12
2,A18,남성,155540,2019-12
3,A18,여성,249023,2019-12


In [59]:
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국


In [60]:
### sample_2에 "국적명" 컬럼 추가하기
# 변수명 : sample_2_code
sample_2_code = pd.merge(left = sample_2, 
                         right = code_master,
                         how = "left",
                         left_on = "국적코드", 
                         right_on = "국적코드")
sample_2_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,92556,2019-12,일본
1,A01,여성,163737,2019-12,일본
2,A18,남성,155540,2019-12,중국
3,A18,여성,249023,2019-12,중국


In [62]:
### 행단위로 데이터 통합시 : 컬럼의 갯수를 일치 시켜야 합니다.
# - 행단위 통합 함수 (concat 함수 사용, append는 옛날 함수)
#      : concat([원본데이터프레임, 추가데이터프레임])
#      : append(추가데이터프레임)
# ignore_index = True : 추가되는 인덱스 번호를 자동 증가시킴
sample = sample_1_code.append(sample_2_code,
                              ignore_index = True)
sample

  sample = sample_1_code.append(sample_2_code,


Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국
6,A01,남성,92556,2019-12,일본
7,A01,여성,163737,2019-12,일본
8,A18,남성,155540,2019-12,중국
9,A18,여성,249023,2019-12,중국


In [65]:
sample = pd.concat([sample_1_code,
                    sample_2_code], ignore_index = True)
sample

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국
6,A01,남성,92556,2019-12,일본
7,A01,여성,163737,2019-12,일본
8,A18,남성,155540,2019-12,중국
9,A18,여성,249023,2019-12,중국


In [None]:
"""
1. 데이터 불러오기
2. 기준년월 컬럼 추가
3. 국적명 컬럼 추가
4. 데이터(행단위) 합치기
"""

### 데이터 저장하기

In [67]:
sample.to_excel("./files/sample.xlsx")

In [68]:
### index=False : 파일로 저장시 인덱스 번호는 제외
sample.to_excel("./files/sample.xlsx", index=False)