# 데이터 분석에 자주 사용되는 코드들 정리

## 데이터 프레임 병합하기
append, concat, join, merge

*merge
- on
- left_on, right_on
- left_index = True, right_index = True

In [2]:
import pandas as pd

In [7]:
df_top = pd.DataFrame({'국어':[90,80], '수학':[81,76]}, index=['민지', '수진'])
df_top

Unnamed: 0,국어,수학
민지,90,81
수진,80,76


In [8]:
df_mid = pd.DataFrame({'국어':[70,62], '영어':[77,68]}, index=['영민', '정수'])
df_mid

Unnamed: 0,국어,영어
영민,70,77
정수,62,68


In [9]:
df_bott = pd.DataFrame({'영어':[70,88], '과학':[81,76]}, index=['민철', '태영'])
df_bott

Unnamed: 0,영어,과학
민철,70,81
태영,88,76


### 행 단위로 병합하기- concat

In [None]:
"""
append : 그냥 아래에 갖다가 넣음.
데이터 프레임 간에 컬럼이 달라도 존재하지 않은 컬럼은 NaN으로 채워넣음
컬럼이 서로 다를 경우엔, sort=False를 넣어야 경고가 발생하지 않음
우리가 현재 다룰 데이터는 각 컬럼이 다름 !

- sort : 컬럼 이름을 정렬하는 파라미터
"""

In [14]:
df_a = df_top.append([df_mid, df_bott], sort=False)
df_a

Unnamed: 0,국어,수학,영어,과학
민지,90.0,81.0,,
수진,80.0,76.0,,
영민,70.0,,77.0,
정수,62.0,,68.0,
민철,,,70.0,81.0
태영,,,88.0,76.0


#### Concat

In [15]:
df_c = pd.concat([df_top, df_mid, df_bott], sort=False)
df_c
# append랑 concat이랑 똑같죠

Unnamed: 0,국어,수학,영어,과학
민지,90.0,81.0,,
수진,80.0,76.0,,
영민,70.0,,77.0,
정수,62.0,,68.0,
민철,,,70.0,81.0
태영,,,88.0,76.0


### 열 단위로 병합하기 - merge

In [17]:
df_left = pd.DataFrame({'고객번호':[1001, 1002, 1003, 1004], '이름' : ['둘리','도우니','기영', '기철']})
df_left

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우니
2,1003,기영
3,1004,기철


In [18]:
df_right = pd.DataFrame({'고객번호':[1001, 1002, 1003, 1005], '금액' : ['10000','20000','15000', '500']})
df_right

Unnamed: 0,고객번호,금액
0,1001,10000
1,1002,20000
2,1003,15000
3,1005,500


In [None]:
"""
한 번에 두 개의 객체씩만 가능함.
공통 컬럼을 기준으로 병합하기
- SQL에서 inner join과 같은 개념
"""

In [19]:
pd.merge(df_left, df_right)

# 이때 1004번과 1005가 겹치지 않아서 그거 빼고 병합.

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1002,도우니,20000
2,1003,기영,15000


In [20]:
# 그치만 데이터를 함부로 버리면 어떡해

pd.merge(df_left, df_right, how = 'outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1002,도우니,20000.0
2,1003,기영,15000.0
3,1004,기철,
4,1005,,500.0


In [None]:
"""
how 파라미터에 대해서 
how = left, right, outer가 존재. default = inner join
SQL 생각하면 됨.
"""

In [21]:
pd.merge(df_left, df_right, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1002,도우니,20000.0
2,1003,기영,15000.0
3,1004,기철,


In [22]:
pd.merge(df_left, df_right, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1002,도우니,20000
2,1003,기영,15000
3,1005,,500


In [None]:
"""
apppend와 concat 처럼,
merge와 join이 같은 역할을 함.
데이터를 다루는 것인 만큼 concat과 merge로 공부해둘 것.
"""

### 중복되는 데이터가 존재하는 경우의 열 단위 병합 (merge)

In [23]:
# 모든 경우의 수를 따져서 조합을 만들어 냄

df_first = pd.DataFrame({'아이디': ['hello','world','python','hello'], "결제금액":[14000,13000,15000,13000]})
df_first

Unnamed: 0,아이디,결제금액
0,hello,14000
1,world,13000
2,python,15000
3,hello,13000


In [29]:
df_second = pd.DataFrame({'아이디': ['hello','python','python','world'], 
                          "적립금":[300,500,100,200]})
df_second

Unnamed: 0,아이디,적립금
0,hello,300
1,python,500
2,python,100
3,world,200


In [30]:
pd.merge(df_first, df_second)
# 모든 경우의 수를 다 보여주는 방식으로 merge를 함

Unnamed: 0,아이디,결제금액,적립금
0,hello,14000,300
1,hello,13000,300
2,world,13000,200
3,python,15000,500
4,python,15000,100


#### 공통하는 컬럼이 2개 이상 존재하는 경우에는?

In [31]:
# on 파라이터 사용
df_a = pd.DataFrame({'고객명': ['민수','수영'], 
                    '데이터':['20000','10000'],
                    '날짜' : ['2018-01-01', '2018-01-01']})
df_a

Unnamed: 0,고객명,데이터,날짜
0,민수,20000,2018-01-01
1,수영,10000,2018-01-01


In [32]:
df_b = pd.DataFrame({'고객명': ['민수','수영'], 
                    '데이터':['21세','20세']})
df_b

Unnamed: 0,고객명,데이터
0,민수,21세
1,수영,20세


In [33]:
pd.merge(df_a, df_b)
# 데이터라는 컬럼이 두개가 되기 때문에 on을 사용해서 변수를 알려줘야함

Unnamed: 0,고객명,데이터,날짜


In [39]:
merge_temp = pd.merge(df_a, df_b, on = ['고객명'])
merge_temp

Unnamed: 0,고객명,데이터_x,날짜,데이터_y
0,민수,20000,2018-01-01,21세
1,수영,10000,2018-01-01,20세


In [38]:
# Rename을 사용해서 변수명 변경 
# merge_temp = merge_temp.rename(columns ={'데이터_x' : '금액'})
merge_temp
# 1개도 columns에 넣어서 가능

Unnamed: 0,고객명,금액,날짜,데이터_y
0,민수,20000,2018-01-01,21세
1,수영,10000,2018-01-01,20세


In [41]:
merge_temp = merge_temp.rename(columns = {'데이터_x' : '금액', '데이터_y' : '나이' })
merge_temp

Unnamed: 0,고객명,금액,날짜,나이
0,민수,20000,2018-01-01,21세
1,수영,10000,2018-01-01,20세


#### 공통 컬럼은 존재하지 않지만 이름이 다른 두 컬럼을 지정해서 merge하는 방법

In [42]:
국어점수 = pd.DataFrame({'이름':['영희', '철수'], '국어':[87,91]})
국어점수

Unnamed: 0,이름,국어
0,영희,87
1,철수,91


In [43]:
수학점수 = pd.DataFrame({'성명':['영희', '철수'], '영어':[77,81]})
수학점수

Unnamed: 0,성명,영어
0,영희,77
1,철수,81


In [44]:
점수 = pd.merge(국어점수, 수학점수, left_on = ['이름'], right_on = ['성명'])
점수

Unnamed: 0,이름,국어,성명,영어
0,영희,87,영희,77
1,철수,91,철수,81


In [47]:
# 잘 했지만 이름과 성명이 그대로 남아있으니까 지우자 
점수.drop(['성명'], axis = 1, inplace=True)
점수

Unnamed: 0,이름,국어,영어
0,영희,87,77
1,철수,91,81


#### index를 기준으로 병합도 가능.

In [49]:
수학점수 = pd.DataFrame({'수학':[90,82]}, index = ['민철', '봉구'])
수학점수

Unnamed: 0,수학
민철,90
봉구,82


In [50]:
과학점수 = pd.DataFrame({'과학':[90,82]}, index = ['민철', '철수'])
과학점수

Unnamed: 0,과학
민철,90
철수,82


In [51]:
수학과학 = pd.merge(수학점수, 과학점수, left_index=True, right_index=True)
수학과학
# 공통으로 존재하는 민철이만 잡아서 merge

Unnamed: 0,수학,과학
민철,90,90


In [52]:
# 이겨냅니다 outer로

수학과학 = pd.merge(수학점수, 과학점수, left_index=True, right_index=True, how='outer')
수학과학

Unnamed: 0,수학,과학
민철,90.0,90.0
봉구,82.0,
철수,,82.0


#### 예외 경우엔?

In [53]:
한국사 = pd.DataFrame({'한국사':[90,82]}, index = ['영희', '철수'])
한국사

Unnamed: 0,한국사
영희,90
철수,82


In [54]:
세계사 = pd.DataFrame({'세계시':[90,82], '이름' : ['영희', '철수']})
세계사

Unnamed: 0,세계시,이름
0,90,영희
1,82,철수


In [56]:
# 그럴땐 무리없이 짬뽕해서 사용

역사 = pd.merge(한국사, 세계사, left_index=True, right_on = '이름')
역사

Unnamed: 0,한국사,세계시,이름
0,90,90,영희
1,82,82,철수


In [57]:
# index 값 변경
역사.index = 역사['이름'].values
역사

Unnamed: 0,한국사,세계시,이름
영희,90,90,영희
철수,82,82,철수


In [59]:
# 필요없는거 버려 
역사.drop(['이름'], axis = 1, inplace=True)
역사

Unnamed: 0,한국사,세계시
영희,90,90
철수,82,82


# 그룹분석

그룹을 묶어서 분석하는 방법.
성별, 나이 등

In [60]:
grade_dic = {'국어':[98,88,92,63,120],
            '영어':[None, 90,70,60,50],
            '수학':[88,62,None,31,None],
            '과학':[64,72,None,70,88]}

In [61]:
city_people = {'도시':['서울','서울','서울','부산','부산','부산','인천','인천'],
            '연도':['2015','2010','2005','2015','2010','2005','2015','2010'],
            '인구':[9904312,9631482,9762546,3448737,3393191,3512547,2890451,2632035],
            '지역':["수도권","수도권","수도권","경상권","경상권","경상권","수도권","수도권"]}

In [62]:
# 데이터 프레임으로 변경하기
df = pd.DataFrame(grade_dic, index = ['철수', '영희', '민철', '수현', '호영'])
df

Unnamed: 0,국어,영어,수학,과학
철수,98,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


### 집계함수

기본적으로 열방향으로 수행함.
열을 잡고 계산해준다고 생각하면 됨.
- sum(), min(), max(), mean(), std(), var(), prod()

In [63]:
df.sum()

국어    461.0
영어    270.0
수학    181.0
과학    294.0
dtype: float64

In [64]:
df.mean()

국어    92.200000
영어    67.500000
수학    60.333333
과학    73.500000
dtype: float64

In [65]:
# 열별 평균도 삽가능
df['수학'].mean()

60.333333333333336

#### 행 계산
- axis 파라미터로 설정
이때 axis는 1이 행방향 (유일함)

In [67]:
df.mean(axis = 1)
# 각 학생별 점수 평균이 구해짐

철수    83.333333
영희    78.000000
민철    81.000000
수현    56.000000
호영    86.000000
dtype: float64

### 집단별로 나누기 

In [85]:
인구조사  = pd.DataFrame(city_people)
인구조사

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


#### 1. 하나의 column을 잡고 집단별로 나누고 그룹분석하기 
- filter : 묶을 컬럼(복수 가능)과 집계를 매길 컬럼을 **추출**

In [71]:
도시별인구 = 인구조사.filter(['도시', '인구'])
도시별인구
# 추출만 한 것임요..... 추출만!!!!!!!!!!!!!!!!!!!!

Unnamed: 0,도시,인구
0,서울,9904312
1,서울,9631482
2,서울,9762546
3,부산,3448737
4,부산,3393191
5,부산,3512547
6,인천,2890451
7,인천,2632035


#### 2. 하나의 column을 잡고 집단별로 집계수행을 한 번에 처리 
- groupby : 묶인 컬럼을 인덱스로 구성해버림

In [73]:
도시별_최대_인구수 = 도시별인구.groupby('도시').max()
도시별_최대_인구수
# 인덱스로 그룹이 들어갔지롱

Unnamed: 0_level_0,인구
도시,Unnamed: 1_level_1
부산,3512547
서울,9904312
인천,2890451


### 두 개 이상의 컬럼을 집단별로 나눌때
첫번째 기준으로 묶은 후 두 번째 기준으로 묶는 작업을 해야할 때
한번에 명령

In [77]:
지역_연도_인구 = 인구조사.filter(['지역','연도','인구','도시'])
지역_연도_인구

Unnamed: 0,지역,연도,인구,도시
0,수도권,2015,9904312,서울
1,수도권,2010,9631482,서울
2,수도권,2005,9762546,서울
3,경상권,2015,3448737,부산
4,경상권,2010,3393191,부산
5,경상권,2005,3512547,부산
6,수도권,2015,2890451,인천
7,수도권,2010,2632035,인천


In [79]:
지역_연도별_최대인구 = 지역_연도_인구.groupby(['지역','연도','도시']).max()
지역_연도별_최대인구

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,인구
지역,연도,도시,Unnamed: 3_level_1
경상권,2005,부산,3512547
경상권,2010,부산,3393191
경상권,2015,부산,3448737
수도권,2005,서울,9762546
수도권,2010,서울,9631482
수도권,2010,인천,2632035
수도권,2015,서울,9904312
수도권,2015,인천,2890451


#### 인덱스를 그냥 숫자로 넣고 싶을 때 - as_index=False

In [80]:
# as_index 사용하려면 by=[] 사용하시길!!!

지역_연도별_최대인구 = 인구조사.groupby(by = ['지역', '연도'], as_index=False).max()
지역_연도별_최대인구

Unnamed: 0,지역,연도,도시,인구
0,경상권,2005,부산,3512547
1,경상권,2010,부산,3393191
2,경상권,2015,부산,3448737
3,수도권,2005,서울,9762546
4,수도권,2010,인천,9631482
5,수도권,2015,인천,9904312


#### filter랑 groupby 차이 모르겠다면?

In [81]:
지역_연도_인구_temp = 인구조사.filter(['지역','연도','인구']).max()
지역_연도_인구_temp

# 결과 보면 그냥 인구가 최대인 지역과 연도를 출력하기만 함!!!!!!!!!!!!!!!!!!!!!!!!

지역        수도권
연도       2015
인구    9904312
dtype: object

### grooupby : 하나의 컬럼에 집계함수 여러개 먹이는 방법 - agg()

In [None]:
지역_연도별_최대인구 = 인구조사.groupby(by=['지역','연도']).max()
지역_연도별_최소인구 = 인구조사.groupby(by=['지역','연도']).min()
지역_연도별_평균인구 = 인구조사.groupby(by=['지역','연도']).mean()

# 이 방법 대신

In [89]:
도시인구 = 인구조사.filter(['도시','인구'])
도시인구
# 만들어놓은 뒤

Unnamed: 0,도시,인구
0,서울,9904312
1,서울,9631482
2,서울,9762546
3,부산,3448737
4,부산,3393191
5,부산,3512547
6,인천,2890451
7,인천,2632035


In [90]:
도시인구.groupby(['도시']).agg(['min', 'max','mean'])

Unnamed: 0_level_0,인구,인구,인구
Unnamed: 0_level_1,min,max,mean
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3393191,3512547,3451492.0
서울,9631482,9904312,9766113.0
인천,2632035,2890451,2761243.0


#### 내가 만든 함수도 넣기 가능

In [91]:
import numpy as np
def my_range(x):
    return np.max(x)-np.min(x)

In [92]:
도시인구.groupby(['도시']).agg(['min', 'max','mean',my_range])

Unnamed: 0_level_0,인구,인구,인구,인구
Unnamed: 0_level_1,min,max,mean,my_range
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
부산,3393191,3512547,3451492.0,119356
서울,9631482,9904312,9766113.0,272830
인천,2632035,2890451,2761243.0,258416


#### 근데 각 컬럼에 대해서는 다른 집계함수 쓰고 싶단 말이야

In [93]:
지역도시인구= 인구조사.filter(['지역','도시','인구'])
지역도시인구

Unnamed: 0,지역,도시,인구
0,수도권,서울,9904312
1,수도권,서울,9631482
2,수도권,서울,9762546
3,경상권,부산,3448737
4,경상권,부산,3393191
5,경상권,부산,3512547
6,수도권,인천,2890451
7,수도권,인천,2632035


In [95]:
지역도시인구.groupby('지역').agg({'도시':['count'], '인구':['sum']})
# 지역으로 묶은 뒤, 도시는 count, 인구는 sum

Unnamed: 0_level_0,도시,인구
Unnamed: 0_level_1,count,sum
지역,Unnamed: 1_level_2,Unnamed: 2_level_2
경상권,3,10354475
수도권,5,34820826


## Pivot Table
- pivot table 표현법 여러개니까 잊지 마시긔

In [96]:
인구조사

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


In [101]:
# 총 3가지 표현법이 있음!!!!!!!!!!!!!!!!!!!!!!!!!!!!

pv1 = 인구조사.pivot(index = '도시', columns='연도',values = '인구')
pv1 = 인구조사.pivot('도시','연도','인구')
pv1 = pd.pivot(인구조사, index = '도시', columns='연도',values = '인구')
pv1

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632035.0,2890451.0


#### 피벗테이블을 이용해서 집계합수 이용

In [102]:
filter_df = 인구조사.filter(['지역','연도','인구'])
filter_df

Unnamed: 0,지역,연도,인구
0,수도권,2015,9904312
1,수도권,2010,9631482
2,수도권,2005,9762546
3,경상권,2015,3448737
4,경상권,2010,3393191
5,경상권,2005,3512547
6,수도권,2015,2890451
7,수도권,2010,2632035


In [104]:
group_df = filter_df.groupby([filter_df['지역'], filter_df['연도']], as_index=False).mean()
# 지역과 연도별 평균인구를 계산
group_df

Unnamed: 0,지역,연도,인구
0,경상권,2005,3512547.0
1,경상권,2010,3393191.0
2,경상권,2015,3448737.0
3,수도권,2005,9762546.0
4,수도권,2010,6131758.5
5,수도권,2015,6397381.5


In [106]:
# 이름바꿀거임
group_df.columns = ['지역', '연도', '평균인구']
group_df

Unnamed: 0,지역,연도,평균인구
0,경상권,2005,3512547.0
1,경상권,2010,3393191.0
2,경상권,2015,3448737.0
3,수도권,2005,9762546.0
4,수도권,2010,6131758.5
5,수도권,2015,6397381.5


In [107]:
# 피벗 테이블로 변경
pivot = group_df.pivot('지역', '연도','평균인구')
pivot

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547.0,3393191.0,3448737.0
수도권,9762546.0,6131758.5,6397381.5
