##### 가장 작은 제목
#### 제목
### 제목
## 제목
# 제목
<소제목>

In [None]:
"""
<판다스(pandas)>
 - 행렬 데이터를 처리하기 위한 다양한 함수가 들어있는 라이브러리
 - 데이터처러를 위해 가장 많이 사용되는 라이브러리

<넘파이(numpy)>
 - 수치 데이터를 처리하기 위한 라이브러리
 - 판다스에서도 문자/수치 모두 처리는 가능하지만, 
   수치데이터에 대해서는 numpy가 처리 속도가 다소 빠른 장점이 있음

<데이터 분석과정>
 - 데이터 수집 > 데이터 전처리 > 데이터 정제 > 데이터 시각화 > 인사이트 도출
 - 데이터 수집 > 데이터 전처리 > 데이터 정제 > 데이터 분석(머신러닝/딥러닝) > 데이터 시각화
 - 데이터 수집 > 데이터 전처리 > 데이터 정제 > 데이터 분석 > 서비스(어플리케이션 or 웹 서비스)

 * 데이터 수집 : 파일 다운로드, Open-Api 수집, 웹데이터 수집
 * 데이터 전처리 + 정제 : 데이터의 이상유무(결측치, 중복, 이상치) 확인, 정규화(표준화), 분리(훈련/검증/테스트)
"""

In [1]:
### 라이브러리 정의하기
import pandas as pd

In [7]:
### 파일의 데이터를 데이터프레임 형태(타입)으로 읽어들이기
# 사용할 파일
file_path = "./files/sample_1.xlsx"

### 데이터프레임 변수
# - header : 컬럼명의 위치 지정
# - skipfooter : 가장 밑에 행 중에 제외할 행의 갯수
# - usecols : 읽어들일 컬럼 지정(A:C -> A부터 C까지)
#   ("A, C" -> A열과 C열)
sample_1 = pd.read_excel(file_path,
                         header=1,
                         skipfooter=2,
                         usecols="A:C")
sample_1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [8]:
### 타입 확인하기
type(sample_1)

pandas.core.frame.DataFrame

In [9]:
### 데이터프레임에 저장된 데이터의 정보 확인하기
# info()함수를 이용해서 -> 데이터의 결측치(NaN값) 확인이 확인함
sample_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    6 non-null      object
 1   성별      6 non-null      object
 2   입국객수    6 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


In [10]:
### 상위 데이터 조회시 사용
# - 데이터 인사이트 도출 시에 순위 데이터 가져올 때 사용하면 편리합니다.
# - 올해의 인기음원 top10과 같이....
sample_1.head()

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912


In [11]:
sample_1.tail(2)

Unnamed: 0,국적코드,성별,입국객수
4,A18,남성,158912
5,A18,여성,232943


In [12]:
### 기초통계 데이터 조회하기
# - 이상치 데이터 확인 가능
# - 이상치 계산 : 4분위수 데이터를 이용해서 계산공식을 사용하여 처리 가능
# - 일반적으로 컬럼(특성)의 성격을 알고 있다면, min과 max의 값을 이용해서도 확인 가능
sample_1.describe()

Unnamed: 0,입국객수
count,6.0
mean,114995.333333
std,98105.752006
min,42.0
25%,26819.25
50%,132616.0
75%,183305.0
max,232943.0


In [13]:
### 데이터 조회하기

In [15]:
# 특정 컬럼의 값 조회하기
sample_1["국적코드"]

0    A01
1    A01
2    A31
3    A31
4    A18
5    A18
Name: 국적코드, dtype: object

In [17]:
sample_1[["국적코드", "성별"]]

Unnamed: 0,국적코드,성별
0,A01,남성
1,A01,여성
2,A31,남성
3,A31,여성
4,A18,남성
5,A18,여성


In [None]:
### 컬럼 단위 데이터 추가하기

In [18]:
sample_1["기준년월"] = "2019-11"

In [20]:
sample_1["기준년월"] = "2019-09"

In [21]:
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-09
1,A01,여성,191436,2019-09
2,A31,남성,319,2019-09
3,A31,여성,42,2019-09
4,A18,남성,158912,2019-09
5,A18,여성,232943,2019-09


In [None]:
### 행단위 처리
# - 행단위 처리는 일반적으로 조건처리, 즉 필터링 할 때 사용됨
# - 조건처리(필터링) : 조건연산자 사용

In [24]:
### 성별 중에 여성에 대한 데이터만 필터링(추출)하기
condition = sample_1["성별"] == "여성"
condition

0    False
1     True
2    False
3     True
4    False
5     True
Name: 성별, dtype: bool

In [26]:
### 여성인 True인 행만 추출하기
sample_1[condition == True]

Unnamed: 0,국적코드,성별,입국객수,기준년월
1,A01,여성,191436,2019-09
3,A31,여성,42,2019-09
5,A18,여성,232943,2019-09


In [28]:
sample_1[sample_1["성별"]!="여성"]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-09
2,A31,남성,319,2019-09
4,A18,남성,158912,2019-09


In [33]:
# 국적코드가 A01인 데이터에 대한 성별과 입국객수 데이터만 추출해 주세요....
condition = sample_1["국적코드"] == "A01"
condition
sample_1_df = sample_1[condition]
# sample_1[condition][["성별", "입국객수"]]
sample_1_df[["성별", "입국객수"]]

Unnamed: 0,성별,입국객수
0,남성,106320
1,여성,191436


In [None]:
### 데이터 통합하기 ###

In [34]:
### 다른 파일의 데이터 중에 필요한 데이터 가지고 오기
# 데이터프레임 변수명 : code_master
file_path = "./files/sample_codemaster.xlsx"
code_master = pd.read_excel(file_path)
code_master

Unnamed: 0,국적코드,국적명
0,A01,일본
1,A02,대만
2,A03,홍콩
3,A18,중국
4,A19,이란
5,A22,우즈베키스탄
6,A23,카자흐스탄
7,A99,아시아 기타


In [35]:
### 국적코드에 대한 국적명 가지고 오기
# ** merge() : 주로 컬럼 단위로 데이터를 통합할 때 사용되는 함수
# - left : 왼쪽 데이터 정의(기준이 되는 데이터)
# - right : 오른쪽 데이터 정의(가져올 값이 있는 데이터)
# - how : 조건(inner->같은것만 가지고와서 추출)
# - left_on / right_on : 왼쪽과 오른쪽 데이터의 같은 값을 가지는 컬럼명 정의
pd.merge(left=sample_1,
         right=code_master,
         how="inner",
         left_on="국적코드",
         right_on="국적코드")

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-09,일본
1,A01,여성,191436,2019-09,일본
2,A18,남성,158912,2019-09,중국
3,A18,여성,232943,2019-09,중국


In [36]:
### how : left (왼쪽 전체를 기준으로, 오른쪽의 값은 있으면 있는데로, 없으면 NaN)
pd.merge(left=sample_1,
         right=code_master,
         how="left",
         left_on="국적코드",
         right_on="국적코드")

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-09,일본
1,A01,여성,191436,2019-09,일본
2,A31,남성,319,2019-09,
3,A31,여성,42,2019-09,
4,A18,남성,158912,2019-09,중국
5,A18,여성,232943,2019-09,중국


In [37]:
pd.merge(left=sample_1,
         right=code_master,
         how="right",
         left_on="국적코드",
         right_on="국적코드")

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320.0,2019-09,일본
1,A01,여성,191436.0,2019-09,일본
2,A02,,,,대만
3,A03,,,,홍콩
4,A18,남성,158912.0,2019-09,중국
5,A18,여성,232943.0,2019-09,중국
6,A19,,,,이란
7,A22,,,,우즈베키스탄
8,A23,,,,카자흐스탄
9,A99,,,,아시아 기타


In [38]:
sample_1_code = pd.merge(left=sample_1,
                         right=code_master,
                         how="left",
                         left_on="국적코드",
                         right_on="국적코드")
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-09,일본
1,A01,여성,191436,2019-09,일본
2,A31,남성,319,2019-09,
3,A31,여성,42,2019-09,
4,A18,남성,158912,2019-09,중국
5,A18,여성,232943,2019-09,중국


In [None]:
### 행단위로 데이터 통합하기 ###

In [46]:
### sample_2.xlsx 파일을 읽어들인 후 최종완성 컬럼명으로 출력해보기...
# - 읽어들인 데이터프레임 변수명 : sample_2
sample_2 = pd.read_excel("./files/sample_2.xlsx",
                         header=1,
                         skipfooter=2,
                         usecols="A:C")

# - 기준년월 컬럼 추가하기
sample_2["기준년월"] = "2019-11"
sample_2
# - 최종완성 컬럼 : 국적코드, 성별, 입국객수, 기준년월(2019-11), 국적명
# - 최종 데이터프레임 변수명 : sample_2_code
sample_2_code = pd.merge(left=sample_2,
                             right=code_master,
                             how="left",
                             left_on="국적코드",
                             right_on="국적코드")
sample_2_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,92556,2019-11,일본
1,A01,여성,163737,2019-11,일본
2,A18,남성,155540,2019-11,중국
3,A18,여성,249023,2019-11,중국


In [49]:
### sample_1_code에 sample_2_code의 행단위 데이터 추가하기
# - ignore_index : 행인덱스 값을 순차적으로 증가시키기
sample = pd.concat([sample_1_code, sample_2_code], ignore_index=True)
sample

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-09,일본
1,A01,여성,191436,2019-09,일본
2,A31,남성,319,2019-09,
3,A31,여성,42,2019-09,
4,A18,남성,158912,2019-09,중국
5,A18,여성,232943,2019-09,중국
6,A01,남성,92556,2019-11,일본
7,A01,여성,163737,2019-11,일본
8,A18,남성,155540,2019-11,중국
9,A18,여성,249023,2019-11,중국


In [51]:
### 파일로 저장하기
sample.to_excel("./files/sample.xlsx", index=False)

### 여러개 파일 통합하기

In [None]:
"""
<통합 순서>
 1. 데이터 읽어들이기
 2. 기준년월 컬럼 추가 : 2019-01 ~ 2021-12
 3. 국적명 추가
 4. 기존 원본에 행단위 통합
 5. 1~4 반복 (0~36)
 6. 최종 완료된 데이터 파일로 저장...

 위 순서를 모든 파일에 반복하여 수행....
 최종 통합본에는 모든 파일의 데이터 전체가 저장되어 있는 
 데이터프레임변수에 저장하여 파일로 저장
"""

In [59]:
### 기준년월 생성하는 반복문 만들기
# 2019-01 ~ 2021-12
yyyy = 2019
mm = 1
str(yyyy) + "-" + str(mm).zfill(2)

for yyyy in range(2019, 2022, 1) :
    for mm in range(1, 13, 1) :
        ym = f"{yyyy}-{str(mm).zfill(2)}"
        print(ym)

2019-01
2019-02
2019-03
2019-04
2019-05
2019-06
2019-07
2019-08
2019-09
2019-10
2019-11
2019-12
2020-01
2020-02
2020-03
2020-04
2020-05
2020-06
2020-07
2020-08
2020-09
2020-10
2020-11
2020-12
2021-01
2021-02
2021-03
2021-04
2021-05
2021-06
2021-07
2021-08
2021-09
2021-10
2021-11
2021-12


In [61]:
### 파일명 반복하면서 생성하기
# sample_1(0)~sample_1(36)
for i in range(0, 37, 1) :
    file_path = f"sample_1({i}).xlsx"
    print(file_path)

sample_1(0).xlsx
sample_1(1).xlsx
sample_1(2).xlsx
sample_1(3).xlsx
sample_1(4).xlsx
sample_1(5).xlsx
sample_1(6).xlsx
sample_1(7).xlsx
sample_1(8).xlsx
sample_1(9).xlsx
sample_1(10).xlsx
sample_1(11).xlsx
sample_1(12).xlsx
sample_1(13).xlsx
sample_1(14).xlsx
sample_1(15).xlsx
sample_1(16).xlsx
sample_1(17).xlsx
sample_1(18).xlsx
sample_1(19).xlsx
sample_1(20).xlsx
sample_1(21).xlsx
sample_1(22).xlsx
sample_1(23).xlsx
sample_1(24).xlsx
sample_1(25).xlsx
sample_1(26).xlsx
sample_1(27).xlsx
sample_1(28).xlsx
sample_1(29).xlsx
sample_1(30).xlsx
sample_1(31).xlsx
sample_1(32).xlsx
sample_1(33).xlsx
sample_1(34).xlsx
sample_1(35).xlsx
sample_1(36).xlsx


In [64]:
### 딕셔너리로 년-월 데이터 미리 만들어 놓기
# - key는 0~36까지의 번호로 입력
# - value는 년-월 값 입력
# - 결과형태 : {0:'2019-01', 1:'2019-02', ....., 36:'2021-12'}
# - 딕셔너리 변수
ym_dict = {}
i = 0
for yyyy in range(2019, 2022, 1) :
    for mm in range(1, 13, 1) :
        ym = f"{yyyy}-{str(mm).zfill(2)}"
        # print(ym)        
        ym_dict[i] = ym
        i = i + 1

ym_dict

{0: '2019-01',
 1: '2019-02',
 2: '2019-03',
 3: '2019-04',
 4: '2019-05',
 5: '2019-06',
 6: '2019-07',
 7: '2019-08',
 8: '2019-09',
 9: '2019-10',
 10: '2019-11',
 11: '2019-12',
 12: '2020-01',
 13: '2020-02',
 14: '2020-03',
 15: '2020-04',
 16: '2020-05',
 17: '2020-06',
 18: '2020-07',
 19: '2020-08',
 20: '2020-09',
 21: '2020-10',
 22: '2020-11',
 23: '2020-12',
 24: '2021-01',
 25: '2021-02',
 26: '2021-03',
 27: '2021-04',
 28: '2021-05',
 29: '2021-06',
 30: '2021-07',
 31: '2021-08',
 32: '2021-09',
 33: '2021-10',
 34: '2021-11',
 35: '2021-12'}

In [72]:
### 전체 통합할 데이터프레임변수 정의
sample_1_all = pd.DataFrame()

for i in range(0, 36, 1) :
    file_path = f"./files2/sample_1({i}).xlsx"
    # print(file_path, ym_dict[i])

    ### 데이터 읽어들이기
    sample_ = pd.read_excel(file_path, header=1, skipfooter=2, usecols="A:C")

    ### 기준년월 컬럼 추가하기
    sample_["기준년월"] = ym_dict[i]

    # print(sample_)
    
    ### 국적명 추가하기
    sample_code = pd.merge(left    = sample_,
                           right   = code_master,
                           how     = "left",
                           left_on = "국적코드",
                           right_on= "국적코드")
    # print(sample_code)

    ### 최종 통합할 데이터프레임에 행단위로 추가하기
    sample_1_all = pd.concat([sample_1_all, sample_code], ignore_index=True)

sample_1_all

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-01,일본
1,A01,여성,191436,2019-01,일본
2,A31,남성,319,2019-01,
3,A31,여성,42,2019-01,
4,A18,남성,158912,2019-01,중국
...,...,...,...,...,...
211,A01,여성,191436,2021-12,일본
212,A31,남성,319,2021-12,
213,A31,여성,42,2021-12,
214,A18,남성,158912,2021-12,중국
