### 데이터 합치기
- merge
    - pandas 객체의 메서드로 pandas.merge(df1, df2 ...)로 사용
    - 두 개의 데이터프레임에 대해 특정 컬럼을 기준으로 합치기
    - 주요 파라미터
        - how : 합치는 방식으로 inner(기본값), left, right, outer 방식 존재
        - on : 합치는 기준으로 두 개의 데이터프레임에 공통으로 존재하는 컬럼명을 사용해야함 (기본값=None)

In [25]:
import pandas as pd

In [26]:
# 고객번호와 고객명을 저장할고 있는 데이터프레임 생성
# 딕셔너리 타입으로 데이터프레임 데이터 생성 : key:col, value-> list():row
df1 = pd.DataFrame({'no':[30, 31, 32, 33, 34],
            'name':['김파이썬', '이장고', '박팬더스', '강넘파이', '최주피터']})
df1

Unnamed: 0,no,name
0,30,김파이썬
1,31,이장고
2,32,박팬더스
3,33,강넘파이
4,34,최주피터


In [27]:
# 고객 번호와 주문수량을 저장하고 있는 데이터프레임 생성
# 다른 고객번호(no)를 일부 지정
df2 = pd.DataFrame({'no':[30, 32, 33, 40, 41],
                   'amount':[100, 50, 130, 40, 60]})
df2

Unnamed: 0,no,amount
0,30,100
1,32,50
2,33,130
3,40,40
4,41,60


In [28]:
# 가장 기본적인 merge 방식 : 공통 컬럼을 기준으로 두 df에 모두 존재하는 교집합만 추출
# 기본 동작 : how = 'inner'
# df1 & df2의 공통컬럼 : no
# 공통 컬럼 내부의 공통 값 : 30, 33
# df1 : 30 ~ 34
# df2 : 30, 33, 40, 41
pd.merge(df1, df2)

Unnamed: 0,no,name,amount
0,30,김파이썬,100
1,32,박팬더스,50
2,33,강넘파이,130


In [29]:
# outer : 결합 기준으로 공통 컬럼을 사용함
# 교집합니 나닌 부분에 대해서는 NaN으로 처리(누락X)
# 합집합 형태로 제작
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,no,name,amount
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,50.0
3,33,강넘파이,130.0
4,34,최주피터,
5,40,,40.0
6,41,,60.0


In [30]:
# left : 첫 번쨰로 전달한 데이터 프레임의 자료는 모두 살리고,
# 두 번째에서는 교집합만
pd.merge(df1, df2, how = 'left')

Unnamed: 0,no,name,amount
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,50.0
3,33,강넘파이,130.0
4,34,최주피터,


In [31]:
pd.merge(df1, df2, how = 'right')

Unnamed: 0,no,name,amount
0,30,김파이썬,100
1,32,박팬더스,50
2,33,강넘파이,130
3,40,,40
4,41,,60


In [32]:
# 공통 컬럼이 두 개 이상인 경우
# 고객명, 날짜, 정보를 저장하고 있는 데이터프레임 생성
df3 = pd.DataFrame({'고객명':['김파이썬', '이장고', '박팬더스'],
                   '날짜':['2022-10-22', '2022-10-23', '2022-10-24'],
                   '정보':['010', '011', '019']})
df3

Unnamed: 0,고객명,날짜,정보
0,김파이썬,2022-10-22,10
1,이장고,2022-10-23,11
2,박팬더스,2022-10-24,19


In [33]:
# 고객명, 정보를 저장하고 있는 데이터프레임 생성
df4 = pd.DataFrame({'고객명':['김파이썬', '박팬더스', '최넘파이'],
                   '정보':['F', 'M', 'M']})
df4

Unnamed: 0,고객명,정보
0,김파이썬,F
1,박팬더스,M
2,최넘파이,M


In [34]:
# 공통된 이름을 가진 컬럼이 두 개 이상인 경우
# 파라미터가 없으면 결과도 없습니다.
pd.merge(df3, df4)

Unnamed: 0,고객명,날짜,정보


In [35]:
# on 파라미터 : 공통된 컬럼이 여럿인 경우 결합 기준 컬럼을 지정
# 합칠때 key 로 사용할 컬럼 : '고객명'
# 공통컬럼 결과 : 고객명, 정보 -> 정보 컬럼 결과를 확인
# 기본동작으로 merge : inner
pd.merge(df3, df4, on = '고객명')

Unnamed: 0,고객명,날짜,정보_x,정보_y
0,김파이썬,2022-10-22,10,F
1,박팬더스,2022-10-24,19,M


In [36]:
# left_on, right_on : 두 개의 데이터프레임에 대해서 서로 다른 기준컬럼을 지정
# 예) 동일한 속성의 자료를 저장하는 컬럼인데 표기하는 이름이 다른 경우
# 고객이름, 날짜, 구매금액을 저장하고 있는 데이터프레임 생성
df5 = pd.DataFrame({'고객이름':['김파이썬', '박팬더스', '강주피터'],
                   '날짜':['2020-01-01', '2020-02-01', '2020-02-15'],
                   '구매금액':[1, 2, 3]})
df5

Unnamed: 0,고객이름,날짜,구매금액
0,김파이썬,2020-01-01,1
1,박팬더스,2020-02-01,2
2,강주피터,2020-02-15,3


In [37]:
df6 = pd.DataFrame({'고객명':['김파이썬', '박팬더스'],
                   '성별':['F', 'M']})
df6

Unnamed: 0,고객명,성별
0,김파이썬,F
1,박팬더스,M


In [38]:
# 겹치는 컬럼명이 없으므로 에러 출력
# pd.merge(df5, df6)

In [39]:
# left(df5), right(df6) 에서 공통컬럼명을 각각 지정
tmp = pd.merge(df5, df6, left_on='고객이름', right_on='고객명')
tmp

Unnamed: 0,고객이름,날짜,구매금액,고객명,성별
0,김파이썬,2020-01-01,1,김파이썬,F
1,박팬더스,2020-02-01,2,박팬더스,M


In [41]:
# drop 메서드를 이용한 컬럼삭제 (고객명)
tmp.drop('고객명', axis = 1, inplace = True)
tmp

Unnamed: 0,고객이름,날짜,구매금액,성별
0,김파이썬,2020-01-01,1,F
1,박팬더스,2020-02-01,2,M


#### concat
- 특정 key를 기준으로 데이터를 합치는 것이 아니라 행, 열 기준으로 데이터를 연결
- 주요 파라미터
    - axis : 0 / 행 방향(기본값)이며 컬럼을 key로 합치고, 1 / 열 방향으로 로우를 key로 합침
    - join : 데이터프레임끼리 연결할 때 합치는 방법으로 outer(기본값), inner 방식 존재
    - ignore_index : 합친 후 기존 인덱스를 유지 또는 새로운 인덱스를 지정

In [42]:
# 공통 인덱스 라벨을 가지는 Series 2개 생성
s1 = pd.Series([1,2,3], index = list('abc'))
s2 = pd.Series([5, 6,7, 8], index = list('abfh'))
print(s1)
print(s2)

a    1
b    2
c    3
dtype: int64
a    5
b    6
f    7
h    8
dtype: int64


In [43]:
# 두 Series간 연결
# 기본 : axis = 0 (행 방향으로 연결)
# 첫 번째로 전달된 객체가 위에, 두 번째로 전달된 객체가 아래로 추가(연결)
pd.concat([s1, s2])

a    1
b    2
c    3
a    5
b    6
f    7
h    8
dtype: int64

In [45]:
# 새로운 인덱스로 초기화하기
pd.concat([s1, s2], ignore_index = True)

0    1
1    2
2    3
3    5
4    6
5    7
6    8
dtype: int64

In [46]:
print(s1, s2)

a    1
b    2
c    3
dtype: int64 a    5
b    6
f    7
h    8
dtype: int64


In [47]:
# 열 방향 연결 -> 두 개의 Series를 연결해서 하나의 데이터프레임화 시키기
# 길이가 다른경우
pd.concat([s1, s2], axis = 1)

Unnamed: 0,0,1
a,1.0,5.0
b,2.0,6.0
c,3.0,
f,,7.0
h,,8.0


In [49]:
# 열 이름을 설정해가면서 붙여주기 : key 파라미터에 컬럼명을 리스트로 전달
pd.concat([s1,s2], axis = 1, keys = ['c1', 'c2'], sort = False)

Unnamed: 0,c1,c2
a,1.0,5.0
b,2.0,6.0
c,3.0,
f,,7.0
h,,8.0


In [50]:
# 두 개의 데이터프레임 연결
# 고객명, 날짜, 구매금액
df1 = pd.DataFrame({'고객명':['김파이썬', '이장고', '박팬더스'],
                   '날짜':['2020-06-01', '2020-06-02', '2020-06-14'],
                   '구매금액':[1, 2, 3]})
# 고객명, 성별
df2 = pd.DataFrame({'고객명':['김파이썬', '최넘파이'],
                   '성별':['F', 'M']})

In [52]:
df1

Unnamed: 0,고객명,날짜,구매금액
0,김파이썬,2020-06-01,1
1,이장고,2020-06-02,2
2,박팬더스,2020-06-14,3


In [53]:
df2

Unnamed: 0,고객명,성별
0,김파이썬,F
1,최넘파이,M


In [55]:
# 행 방향으로 데이터 프레임 연결 (로우갯수 증가)
pd.concat([df1, df2])

Unnamed: 0,고객명,날짜,구매금액,성별
0,김파이썬,2020-06-01,1.0,
1,이장고,2020-06-02,2.0,
2,박팬더스,2020-06-14,3.0,
0,김파이썬,,,F
1,최넘파이,,,M


In [56]:
# 열 방향으로 데이터프레임 연결
pd.concat([df1, df2], axis = 1)

Unnamed: 0,고객명,날짜,구매금액,고객명.1,성별
0,김파이썬,2020-06-01,1,김파이썬,F
1,이장고,2020-06-02,2,최넘파이,M
2,박팬더스,2020-06-14,3,,


### 집계
- groupby(컬럼명)
    - 특정 속성을 기준으로 묶어서 다양한 집계 함수 적용
    - 대표적인 집계 함수
        - sum : 총합
        - mean : 평균값
        - min : 최소값
        - max : 최대값
        - count : 개수
        - std : 표준편차
- pivot table
    - df.pivot(로우로 사용될 컬럼명, 컬럼으로 사용될 컬럼명, 튜플을 구성하는 값으로 사용될 컬럼명, 집계함수)
    - 일차원으로 컬럼 및 로우가 단순 나열된 형식은 데이터를 파악하는데 적합하지 않기 때문에 pivot을 통해 계층 색인 및 형태 변경을 수행

In [59]:
# Os error -> engine='python'
# Unicode, Encoding -> encoding='utf-8' or 'cp949' or 'utf-16'
data = pd.read_excel('data/인구수예제.xlsx')
data

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [60]:
data.shape

(50, 6)

In [61]:
data.head()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190


In [62]:
data.tail()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
45,부산,동래구,2013,83,65,148
46,부산,동래구,2014,139,87,226
47,부산,동래구,2015,147,115,262
48,부산,동래구,2016,61,102,163
49,부산,동래구,2017,132,105,237


In [64]:
# 자치구별 남,녀 인구 각각 총합
# 조사년도 총 5개년
data.groupby('자치구')[['남자인구', '여자인구']].sum()


Unnamed: 0_level_0,남자인구,여자인구
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,539,513
도봉구,485,550
동래구,562,474
동작구,454,582
서대문구,488,543
송파구,415,559
수영구,502,559
영등포구,629,562
종로구,483,373
해운대구,620,515


In [65]:
# 도시별 남녀인구 총합
data.groupby('도시')[['남자인구', '여자인구']].sum()

Unnamed: 0_level_0,남자인구,여자인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,1684,1548
서울,3493,3682


In [67]:
# 2개이상의 집계조건
# 연도별, 도시별
# 컬럼명을 입력 안 하면 집계하는데 사용한 컬럼 이외의 나머지 것을 전부 export 합니다.
data.groupby(['연도', '도시']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구,여자인구,총인구
연도,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,부산,341,262,603
2013,서울,758,769,1527
2014,부산,314,369,683
2014,서울,882,691,1573
2015,부산,331,266,597
2015,서울,541,710,1251
2016,부산,276,376,652
2016,서울,671,722,1393
2017,부산,422,275,697
2017,서울,641,790,1431


In [71]:
# 도시, 연도별, 총인구 평균
data.groupby(['도시', '연도'])['총인구'].mean().unstack()

연도,2013,2014,2015,2016,2017
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
부산,201.0,227.666667,199.0,217.333333,232.333333
서울,218.142857,224.714286,178.714286,199.0,204.428571
