# 데이터 전처리 (2)  - 데이터 재배치

- 다른 데이터 프레임과 합치기(열)
- 다른 데이터 프레임과 합치기(행)
- 피벗테이블
- 교차표


## #01. 패키지 준비

In [4]:
from pandas import read_excel , DataFrame
from pandas import merge, concat, pivot_table, crosstab

### 2. 데이터 가져오기

In [3]:
고객 = read_excel('https://data.hossam.kr/customer.xlsx')

고객

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [7]:
매출= read_excel('https://data.hossam.kr/money.xlsx')
매출

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


## #02. 다른 데이터 프레임과 데이터 합치기(열)

### 1. 데이터 프레임 기본 병합
일치하는 데이터 끼리의 병합
- 두개의 데이터 프레임에서 이름이 동일한 갈럼을 기준으로 같은 데이터끼리 병합하고 일치하지 않는 데이터는 버려진다
- 만약 양쪽 데이터프레임의 공통칼럼에 중복데이터가 여러개 있는 경우에는 모든 경우의 수를 따져서 조합을 만들어 낸다. (예: 1001번의 둘리의 데이터)
> SQL의 equi 혹은 inner join과 동일

In [8]:
merge(고객,매출)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


### 왼쪽 데이터 프레임을 기준으로 병합

 고객(왼쪽)데이터를 기준으로 일치하는 매출 데이터를 병합한다.

고객의 모든 항목에 대한 출력이 보장


In [9]:
merge(고객,매출,how="left")


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


### 오른쪽 데이터 프레임을 기준으로 병합

오른쪽 데이터를 기준으로 일치하는 매출 데이터를 병합한다.




In [10]:
merge(고객,매출,how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


#### 모든 데이터의 교차병합

> SQL의 OUTERJOIN과 동일

In [11]:
merge(고객,매출,how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0



### 2. 병합 대상 열 지정하기

#### 샘플데이터 가져오기

In [12]:
df_left = read_excel("https://data.hossam.kr/merge_left2.xlsx")
df_left





Unnamed: 0,고객명,날짜,데이터
0,민수,2018-01-01,20000
1,수영,2018-01-01,100000


In [13]:
df_right = read_excel("https://data.hossam.kr/merge_right2.xlsx")
df_right

Unnamed: 0,고객명,데이터
0,민수,21세
1,수영,20세


#### 기본병합
두 데이터프레임에서 이름이 같은열은 모두 키가된다.

샘플데이터에서는 데이터라는이름의 변수가 df_left에서는 숫자, df_right에서는 str이기떄문에 병합기문 충족 x 

따라서 아래코드는 에러

In [14]:
merge(df_left,df_right)

ValueError: You are trying to merge on int64 and object columns. If you wish to proceed you should use pd.concat

#### 병합기준 설정
병합기준이 열이 아니면서 이름이 같은열에는 _x또는 _y와 같은 접미사 붙는다


In [17]:
tmp=merge(df_left,df_right,on='고객명')
tmp

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,민수,2018-01-01,20000,21세
1,수영,2018-01-01,100000,20세


In [20]:
tmp.rename(columns={"데이터_x":"금액","데이터_y":"나이"})


Unnamed: 0,고객명,날짜,금액,나이
0,민수,2018-01-01,20000,21세
1,수영,2018-01-01,100000,20세


#### 두 데이터 프레임의 모든 컬럼의 이름이다른경우


왼쪽 기준열 이름과 오른쪽 기준열 이름을 각각 설정

In [21]:
df_left3=DataFrame({'이름': ['영희', '철수'], '국어': [87, 91]})
df_left3

Unnamed: 0,이름,국어
0,영희,87
1,철수,91


In [22]:
df_right3 = DataFrame({'성명': ['영희', '철수'], '영어': [90, 82]})
df_right3

Unnamed: 0,성명,영어
0,영희,90
1,철수,82


In [26]:
r3 = merge(df_left3,df_right3,left_on="이름",right_on="성명")
r3

Unnamed: 0,이름,국어,성명,영어
0,영희,87,영희,90
1,철수,91,철수,82


In [29]:
r3.drop('성명',axis=1)


Unnamed: 0,이름,국어,영어
0,영희,87,90
1,철수,91,82


#### 인덱스를 활용한 병합
인덱스를 기준으로 한 병ㅎ바

In [30]:
## 학생의 이름을 인덱스로 갖는 두 데이터 프레임

df_left = DataFrame({'수학': [90, 82]}, index=['민철', '봉구'])
df_left

Unnamed: 0,수학
민철,90
봉구,82


In [31]:
df_right = DataFrame({'국어': [90, 82]}, index=['민철', '철수'])
df_right

Unnamed: 0,국어
민철,90
철수,82


In [32]:
merge(df_left,df_right,left_index=True,right_index=True)


Unnamed: 0,수학,국어
민철,90,90


In [35]:
merge(df_left,df_right,left_index=True,right_index=True,how="left")


Unnamed: 0,수학,국어
민철,90,90.0
봉구,82,


In [36]:
merge(df_left,df_right,left_index=True,right_index=True,how="right")


Unnamed: 0,수학,국어
민철,90.0,90
철수,,82


In [37]:
merge(df_left,df_right,left_index=True,right_index=True,how="outer")

Unnamed: 0,수학,국어
민철,90.0,90.0
봉구,82.0,
철수,,82.0


#### 인덱스와 칼럼을 기준으로 하기

In [38]:
df_left = DataFrame({'수학': [90, 82]}, index=['민철', '봉구'])
df_left

Unnamed: 0,수학
민철,90
봉구,82


### 2. 열 단위 필터림

In [39]:
df_right = DataFrame({'성명': ['민철', '철수'], '영어': [90, 82]})
df_right

Unnamed: 0,성명,영어
0,민철,90
1,철수,82


In [41]:
merge(df_left,df_right, left_index=True,right_on=["성명"])

Unnamed: 0,수학,성명,영어
0,90,민철,90


In [43]:
merge(df_left,df_right,left_index=True,right_on=['성명'],how="left")


Unnamed: 0,수학,성명,영어
0.0,90,민철,90.0
,82,봉구,


In [45]:
merge(df_left,df_right,left_index=True,right_on="성명",how="right")

Unnamed: 0,수학,성명,영어
0,90.0,민철,90
1,,철수,82


In [47]:
tmp = merge(df_left,df_right,left_index=True,right_on="성명",how="outer")
tmp

Unnamed: 0,수학,성명,영어
0.0,90.0,민철,90.0
,82.0,봉구,
1.0,,철수,82.0


In [48]:
tmp.set_index("성명")

Unnamed: 0_level_0,수학,영어
성명,Unnamed: 1_level_1,Unnamed: 2_level_1
민철,90.0,90.0
봉구,82.0,
철수,,82.0


##### 딕셔너리로 추가

- 컬럼순서는 상관없다

- 누락되는 값이거나 초과되면 에러


## #03. 다른 데이터 프레임과 데이터 합치기(행)

### 1. 행단위 병합 기본 사용방법
 병합할 데이터 프레임을 리스트로 묶는다. (2개이상가능)

 각 데이터 프레임이 갖는 인덱스는 유지된다. -> 인덱스 중복

In [49]:
df1 = DataFrame({'이름': ['영희', '철수'], '국어': [87, 91]})
df1


Unnamed: 0,이름,국어
0,영희,87
1,철수,91


In [50]:
df2 = DataFrame({'이름': ['민철', '수현'], '국어': [78, 92]})
df2

Unnamed: 0,이름,국어
0,민철,78
1,수현,92


In [52]:
concat([df1,df2])

Unnamed: 0,이름,국어
0,영희,87
1,철수,91
0,민철,78
1,수현,92


### 2.인덱스의 재구성

ignore_index=True 파라미터를 설정하면 병합 후 인덱스를 재구성한다.


In [53]:
concat([df1,df2],ignore_index=True)

Unnamed: 0,이름,국어
0,영희,87
1,철수,91
2,민철,78
3,수현,92


### 3. 서로 다른 변수를 갖는 데이터프레임 병합


In [54]:
df3 =DataFrame({'이름': ['영희', '철수'], '국어': [87, 91]})
df3

Unnamed: 0,이름,국어
0,영희,87
1,철수,91


In [55]:
df4 = DataFrame({'이름': ['민철', '수현'], '수학': [78, 92]})
df4

Unnamed: 0,이름,수학
0,민철,78
1,수현,92


In [56]:
concat([df3,df4],ignore_index=True)

Unnamed: 0,이름,국어,수학
0,영희,87.0,
1,철수,91.0,
2,민철,,78.0
3,수현,,92.0


### 3.인덱스를 설정한 데이터 프레임의 병합


In [57]:
df5 = DataFrame({'국어': [87, 91]}, index=['영희', '철수'])
df5

Unnamed: 0,국어
영희,87
철수,91


In [58]:
df6 = DataFrame({'국어': [78, 92]}, index=['민철', '수현'])
df6

Unnamed: 0,국어
민철,78
수현,92


In [60]:
concat([df5,df6],ignore_index=True)

Unnamed: 0,국어
0,87
1,91
2,78
3,92


In [61]:
concat([df5,df6])

Unnamed: 0,국어
영희,87
철수,91
민철,78
수현,92


### 데이터 프레임 병합 처리시 참고

#### merge()함수
- 열단위 병합
- 변수,인덱스 모두 기준으로 설정 가능
- left_on,right_on, left_index, right_index 파라미터가 있다
- join 보다 사용범위가 넓다

#### join() 함수
- 열단위 병합
- 인덱스만을 기준으로 설정 가능
- left_on, right_on, left_index, right_index 파라미터가 없다.
- merge()보다 사용 범위가 좁다

#### concat 함수
- axis 파라미터를 사용해서 열단위 병합도 가능

### #04. 피벗 테이블

#### 1. 샘플데이터 가져오기

In [62]:
df = read_excel("https://data.hossam.kr/city_people.xlsx")
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


#### 2. 피벗테이블 기본


In [64]:
pivot_table(df,
            index = "도시",
            columns='연도',
            values="인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632035.0,2890451.0


#### 3. 중복 데이터의 집계방법 지정하기

In [65]:
pivot_table(df,
            index = "지역",
            columns = '연도',
            values = '인구',
            aggfunc= 'mean')

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547.0,3393191.0,3448737.0
수도권,9762546.0,6131758.5,6397381.5


#### 4. 복수 집계 함수 지정

In [66]:
pivot_table(df,
            index="지역",
            columns="연도",
            values="인구",
            aggfunc=["sum","mean"])

Unnamed: 0_level_0,sum,sum,sum,mean,mean,mean
연도,2005,2010,2015,2005,2010,2015
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
경상권,3512547,3393191,3448737,3512547.0,3393191.0,3448737.0
수도권,9762546,12263517,12794763,9762546.0,6131758.5,6397381.5


#### 5. 복수 인덱스 지정

In [68]:
pivot_table(df,
            index=["지역","연도"],
            columns="도시",
            values="인구",
            aggfunc = ["mean","sum"]
            )

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,sum,sum,sum
Unnamed: 0_level_1,도시,부산,서울,인천,부산,서울,인천
지역,연도,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
경상권,2005,3512547.0,,,3512547.0,,
경상권,2010,3393191.0,,,3393191.0,,
경상권,2015,3448737.0,,,3448737.0,,
수도권,2005,,9762546.0,,,9762546.0,
수도권,2010,,9631482.0,2632035.0,,9631482.0,2632035.0
수도권,2015,,9904312.0,2890451.0,,9904312.0,2890451.0


## #05 교차표(crosstab)

범주형 자료를 갖는 데이터에 대해 각 범주별로 빈도수를 계산하여 표현한 표

### 1. 샘플데이터 가져오기

In [69]:
df = read_excel("https://data.hossam.kr/score.xlsx")
df

Unnamed: 0,gender,score
0,M,A
1,M,C
2,M,B
3,M,B
4,W,A
5,W,C
6,W,C
7,W,B


### 2. 교차표 만들기

index 파라미터와 columns 파라미터 지정

In [70]:
crosstab(index=df['gender'],columns=df['score'])

score,A,B,C
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
M,1,2,1
W,1,1,2


### 3. 파라미터 설정

- rownames : 인덱스 이름 설정
- colnames : 칼럼이름 설정
- margins : 집계결과 포함여부 (True / False)

In [73]:
crosstab(index=df['gender'],columns=df['score'],colnames=['점수'],rownames=['성별'],
margins=True)

점수,A,B,C,All
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,1,2,1,4
W,1,1,2,4
All,2,3,3,8


### 4. 비율표시

- normalize = True 파라미터 사용

In [75]:
crosstab(index=df['gender'],columns=df['score'],colnames=['점수'],rownames=['성별'],normalize=True,margins=True)

점수,A,B,C,All
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,0.125,0.25,0.125,0.5
W,0.125,0.125,0.25,0.5
All,0.25,0.375,0.375,1.0


## 추가

###  #01. melt 함수