In [1]:
#라이브러리 가져오기
import pandas as pd # Series, DataFrame 사용
import numpy as np # 값을 생성하는데 사용


### 계층 색인

- 행, 열의 각 축에 대해 다중 단계 (계층)를 지정하여 데이터에 차원을 설정
- 인덱스에 다차원 리스트를 전달하면 계층 색인을 지정할수 있음
- 데이터 구조를 재배열하거나 pivot 테이블과 같은 그롭 기반 작업에 유용
- 재배열 메서드
    - stack() : 컬럼을 로우로 피벗
    - nustack() : 로우를 컬럼으로 피벗
 

In [2]:
# Series
# 인덱스에 다차원 리스트(아이템 2개) 를 전달
# 다차원 리스트[0] 상위계층
# 상위계층 작성시 주의점 : 각 계층별로 속하는 하위 계층값의 개수만큼 계층명작성
# 상위계층 리스트 개수 = 하위계층 리스트 개수
# 다차원리스트[1] : 하위 계층
# 실습 ---> 
# 로우 인덱스 - 상위계층 : a,b,c,d
# 하위계층 : a(1,2,3), b(1,2),c(1,2,3,4),d(1)
s1 = pd.Series(np.arange(10), index=[['a','a','a','b','b','c','c','c','c','d'],
                                    [1,2,3,1,2,1,2,3,4,1]])
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [3]:
#인덱스 확인
s1.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2),
            ('c', 3),
            ('c', 4),
            ('d', 1)],
           )

In [4]:
# 상위계층에 접근
# 계층 색인 적용된 객체에 상위 인덱스에 접근 : 일반적인 Series인덱싱으로 접근
s1['c']

1    5
2    6
3    7
4    8
dtype: int32

In [5]:
# 계층생긴에 대한 슬라이싱 : 마지막 인덱스도 포함('b':'d'로 입력시 b,c,d로 조회)
s1['b':'d']

b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [6]:
# 하위계층에 접근
# a,b,c,d,에서 하위계층 라벨번호 2인 데이터만 조회
#데이터[상위계층, 하위계층번호]
s1[:,2]

a    1
b    4
c    6
dtype: int32

In [7]:
# 하위 계층에 슬라이싱 : loc메서드를 이용해서 슬라이싱
# 상위계층이 c이고 하위계층을 2~4까지 슬라이싱(.loc는 마지막 번호도 포함)
s1['c'].loc[2:4]

2    6
3    7
4    8
dtype: int32

In [8]:
# unstack() : 최하위(기본동작)에 있는 로우 계층을 컬럼으로 적용하여 위로 올림
# Series 객체를 DataFrame화 할수 있음
# NaN : 기존에 없던 로우 계층에 대한 값
s1.unstack()

Unnamed: 0,1,2,3,4
a,0.0,1.0,2.0,
b,3.0,4.0,,
c,5.0,6.0,7.0,8.0
d,9.0,,,


In [9]:
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [10]:
# stack() 메서드 : 컬럼에 있던 값을 가장 하위 인덱스로 내려서 재배열
# DataFrame을 다시 Series화 할때 사용
s1.unstack().stack()

a  1    0.0
   2    1.0
   3    2.0
b  1    3.0
   2    4.0
c  1    5.0
   2    6.0
   3    7.0
   4    8.0
d  1    9.0
dtype: float64

In [11]:
# DataFrame 생성
# 구조 : 4* 5
# 로우 인덱스 : 상위(2017,2018) / 하위(모든 상위 인덱스에 대해 동일하게 a,b)
# 컬럼 인덱스 : 상위(서울, 경기) / 하위 (서울-강남, 잠실/ 경기-안양,수원,판교)
# 값 = 1씩 증가 20개
df = pd.DataFrame(np.arange(20).reshape(4,5), index=[[2017,2017,2018,2018],['a','b','a','b']] , columns=[['서울','서울', '경기','경기','경기',],['강남','잠실', '안양', '수원', '판교']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,안양,수원,판교
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


In [12]:
# 컬럼의 상위 계층 접근 : 일반적인 df컬럼 인덱싱방식
# 서울 데이터 조회
df['서울']

Unnamed: 0,Unnamed: 1,강남,잠실
2017,a,0,1
2017,b,5,6
2018,a,10,11
2018,b,15,16


In [13]:
# 컬럼이 이중으로 구조가 만들어져있으므로 인덱싱도 이중으로 해야 하나의 요소를 조회할수 있음
df['서울','강남']

2017  a     0
      b     5
2018  a    10
      b    15
Name: (서울, 강남), dtype: int32

In [14]:
# row의 상위 계층 접근
# 2017년 데이터를 조회해주세요
df.loc[2017]

Unnamed: 0_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,강남,잠실,안양,수원,판교
a,0,1,2,3,4
b,5,6,7,8,9


In [15]:
# 2017년도 전반기(a) 데이터 조회
df.loc[(2017,'a')]

서울  강남    0
    잠실    1
경기  안양    2
    수원    3
    판교    4
Name: (2017, a), dtype: int32

In [16]:
# 분당 ~ 수원까지 데이터 조회
# 주의점 : 데이터프레임 컬럼은 row 슬라이싱 결과에 대해서만 슬라이싱 적용가능
# df['경기']['안양':'수원'] -> error
df['경기'].loc[:,'안양':'수원']

Unnamed: 0,Unnamed: 1,안양,수원
2017,a,2,3
2017,b,7,8
2018,a,12,13
2018,b,17,18


In [17]:
# row의 최하위계층(a,b)를 컬럼으로 올리기 :unstack()
df.unstack()

Unnamed: 0_level_0,서울,서울,서울,서울,경기,경기,경기,경기,경기,경기
Unnamed: 0_level_1,강남,강남,잠실,잠실,안양,안양,수원,수원,판교,판교
Unnamed: 0_level_2,a,b,a,b,a,b,a,b,a,b
2017,0,5,1,6,2,7,3,8,4,9
2018,10,15,11,16,12,17,13,18,14,19


In [18]:
# 컬럼 최하위 계층을 로우의 하위계층으로 재배열
df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,경기,서울
2017,a,강남,,0.0
2017,a,수원,3.0,
2017,a,안양,2.0,
2017,a,잠실,,1.0
2017,a,판교,4.0,
2017,b,강남,,5.0
2017,b,수원,8.0,
2017,b,안양,7.0,
2017,b,잠실,,6.0
2017,b,판교,9.0,


In [19]:
# 계층의 인덱스번호 또는 라벨을 사용하여 상, 하위간 교환
# swaplevel(key1,key2,key3)
# axis가 0인 경우는 row의 상하위개념이 뒤집힌다
df.swaplevel(1,0)

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,안양,수원,판교
a,2017,0,1,2,3,4
b,2017,5,6,7,8,9
a,2018,10,11,12,13,14
b,2018,15,16,17,18,19


In [20]:
# swaplevel에 axis=1 을 주면 계층이아닌 컬럼이 바뀐다
df.swaplevel(axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,강남,잠실,안양,수원,판교
Unnamed: 0_level_1,Unnamed: 1_level_1,서울,서울,경기,경기,경기
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


### 객체 복사

- 할당기호(=) / 슬라이싱 : 원본과 상호종속적인 복사본 객체 생성(얕은복사)
- obj.copy() : 원본과 독립적인 복사본 걕체 생성(깊은복사)

In [21]:
# 모든값이 1인 5 * 1구조의 Series생성
s1 = pd.Series(np.ones(5))
s1

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [22]:
# 할당기호 = 로 복사 : 앝은복사
s2 = s1

In [23]:
s2[0] = 10
s2

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [24]:
# = 을 이용한 대입은 원복객체도 변경됨
s1

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [25]:
# 원본객체의 아이템수정
s1[1] = 3
s1

0    10.0
1     3.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [26]:
s2

0    10.0
1     3.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [27]:
# 슬라이싱으로 복사(일반 파이썬 -> 깊은복사,pandas -> 얕은복사로 취급됨)
s3 = s1[:]
s3

0    10.0
1     3.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [28]:
# 복사본 객체 아이템 수정
s3[2]=9
s3

0    10.0
1     3.0
2     9.0
3     1.0
4     1.0
dtype: float64

In [29]:
# s1과 s2확인
print(s1)
print("----------------------")
print(s2)

0    10.0
1     3.0
2     9.0
3     1.0
4     1.0
dtype: float64
----------------------
0    10.0
1     3.0
2     9.0
3     1.0
4     1.0
dtype: float64


In [30]:
# 원본 변경
s1[3] =33
s1

0    10.0
1     3.0
2     9.0
3    33.0
4     1.0
dtype: float64

In [31]:
print(s2)
print(s3)

0    10.0
1     3.0
2     9.0
3    33.0
4     1.0
dtype: float64
0    10.0
1     3.0
2     9.0
3    33.0
4     1.0
dtype: float64


In [32]:
# .copy() 를 이용한깊은복사(복사)
s4 = s1.copy()

In [33]:
s4[0] = 0

In [34]:
s1

0    10.0
1     3.0
2     9.0
3    33.0
4     1.0
dtype: float64

In [35]:
s4

0     0.0
1     3.0
2     9.0
3    33.0
4     1.0
dtype: float64

### 정렬

- obj.sort_index() : 인덱스를 기준으로 정렬 (기본값은 ascending=True, 오름차순 정렬)
    - DataFrame, Series
        - axis = 0 : 기본값, 로우 인덱스 기준으로 정렬
        - axis = 1 : 컬럼 인덱스 기준으로 정렬
- obj.sort_values() : 값을 기준으로 정렬
    - DataFrame, Series
        - by : 정렬의 기준이 되는 인덱스 값 전달
        - axis = 0 : 기본값, 컬럼을 기준으로 로우 인덱스를 정렬하며 기준값으로 by에 인덱스 컬럼 레벨 또는 컬럼명 전달
        - axis = 1 : 로우 인덱스를 기준으로 컬럼 라벨을 정렬하며 기준값으로 by에 레벨 또는 라벨명 전달

In [36]:
# Series생성
# 값과 인덱스라벵리 순서대로 들어가지 않은 Series
s1 = pd.Series([2,3,1,7,0], index=list('gacfd'))
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [37]:
# 인덱스 기준 오름차순으로 정렬
# 기본동장 : 오름차순 & 로우 인덱스
s1.sort_index()

a    3
c    1
d    0
f    7
g    2
dtype: int64

In [38]:
#인덱스 기준 내림차순으로 정렬
s1.sort_index(ascending=False)

g    2
f    7
d    0
c    1
a    3
dtype: int64

In [39]:
# 일시적 변경이므로 s1에는 영향을 주지 않음
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [40]:
# 값 기준 오름차순으로 정렬
s1.sort_values()

d    0
c    1
g    2
a    3
f    7
dtype: int64

In [41]:
#ascending을 사용하면 내림차순 가능하며 원본손상없음
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [42]:
# DataFrame생성
# 4* 5,  무작위 정수(np.random.randint())
# 로우/컬럼 인덱스도 순사가 없는값 지정
# 로우 'hcae', 컬림은 'EAFCD'
df1 = pd.DataFrame(np.random.randint(20, size=(4,5)), index=list('hcae'), columns=list('EAFCD'))
df1

Unnamed: 0,E,A,F,C,D
h,18,9,7,13,16
c,14,7,16,11,9
a,14,12,17,8,5
e,18,13,12,11,5


In [43]:
# 로우 인덱스 기준으로 오름차순 정렬(axis=0)
df1.sort_index()

Unnamed: 0,E,A,F,C,D
a,14,12,17,8,5
c,14,7,16,11,9
e,18,13,12,11,5
h,18,9,7,13,16


In [44]:
# 로우 인덱스 기준으로 내림차순 정렬(axis=0)
df1.sort_index(ascending=False)

Unnamed: 0,E,A,F,C,D
h,18,9,7,13,16
e,18,13,12,11,5
c,14,7,16,11,9
a,14,12,17,8,5


In [45]:
# 컬럼명 기준으로 오름차순 정렬(axis=1)
df1.sort_index(axis=1)

Unnamed: 0,A,C,D,E,F
h,9,13,16,18,7
c,7,11,9,14,16
a,12,8,5,14,17
e,13,11,5,18,12


In [46]:
# 컬럼명 기준으로 내림차순 정렬(axis=1)
df1.sort_index(axis=1, ascending=False)

Unnamed: 0,F,E,D,C,A
h,7,18,16,13,9
c,16,14,9,11,7
a,17,14,5,8,12
e,12,18,5,11,13


In [47]:
# 컬럼기준으로 내림차순 정렬후 , 로우기준으로 오름차순 정렬
df1.sort_index(axis=1, ascending=False).sort_index(axis=0)

Unnamed: 0,F,E,D,C,A
a,17,14,5,8,12
c,16,14,9,11,7
e,12,18,5,11,13
h,7,18,16,13,9


In [48]:
#원본은 변경없음
df1

Unnamed: 0,E,A,F,C,D
h,18,9,7,13,16
c,14,7,16,11,9
a,14,12,17,8,5
e,18,13,12,11,5


In [49]:
# 값기준으로 정렬
# 컬럼 D의 값을 기준으로 오름차순 정렬
df1.sort_values(axis=0, by='D')

Unnamed: 0,E,A,F,C,D
a,14,12,17,8,5
e,18,13,12,11,5
c,14,7,16,11,9
h,18,9,7,13,16


In [50]:
# 컬럼 A를 기준으로 내림차순 정렬
df1.sort_values(by='A', ascending=False)

Unnamed: 0,E,A,F,C,D
e,18,13,12,11,5
a,14,12,17,8,5
h,18,9,7,13,16
c,14,7,16,11,9


In [51]:
# 인덱스라벨(row) c의 값을 오름차순으로 정렬
# 결과적으로 정렬되는 대상 : 컬럼
# 정렬의 기준 : row 라벨
df1.sort_values(axis=1, by='c')

Unnamed: 0,A,D,C,E,F
h,9,16,13,18,7
c,7,9,11,14,16
a,12,5,8,14,17
e,13,5,11,18,12


In [52]:
# 로우 'e'를 기준으로 값을 내림차순으로 정렬
df1.sort_values(axis=1, by='e', ascending=False)

Unnamed: 0,E,A,F,C,D
h,18,9,7,13,16
c,14,7,16,11,9
a,14,12,17,8,5
e,18,13,12,11,5


In [53]:
# 두개의 컬럼에 대해서 정렬 : 리스트로 묶어서 by의 인자값으로 전달
# 정렬 우선순위 : 차례대로 1순위 > 이순위(1순위 동점시 2순위로 넘어감)
# 1순위 정렬후 1순위 컬럼의 동점값에 대해 2순위컬럼의 값이 재정렬
# 동일한 값이 아니라면 무조건 1순위 컬럼이 우선
df1.sort_values(by=['D','A'])

Unnamed: 0,E,A,F,C,D
a,14,12,17,8,5
e,18,13,12,11,5
c,14,7,16,11,9
h,18,9,7,13,16


In [54]:
# D는 오름차순 A는 내림차순으로 하고싶다면
# ascending=[True,False]와 같이 각각의 컬럼에 대해서 ascending을 따로 매겨준다
df1.sort_values(by=['D','A'], ascending=[True,False])

Unnamed: 0,E,A,F,C,D
e,18,13,12,11,5
a,14,12,17,8,5
c,14,7,16,11,9
h,18,9,7,13,16


### 연습문제

#### 1. 아래의 데이터프레임을 생성하세요

- 학생들의 점수는 50이상 100미만의 무작위 정수값을 생성하여 사용

<img src="img/df_sort_practice1.png" width=250 align='left'>

In [55]:
df = pd.DataFrame(np.random.randint(50,100, size=(5,4)), index=['Kim','Park','Lee','Jung','Moon'], 
                  columns=[[2016,2016,2017,2017],['수학','영어','수학','영어']])
df.columns.names='년도','과목'
df.index.name='학생명'
df

년도,2016,2016,2017,2017
과목,수학,영어,수학,영어
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,57,96,56,66
Park,57,97,81,83
Lee,81,84,71,71
Jung,60,89,74,98
Moon,75,76,58,81


In [56]:
df2016 = df[2016].copy()
df2016

과목,수학,영어
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,57,96
Park,57,97
Lee,81,84
Jung,60,89
Moon,75,76


In [57]:
df2016.sort_index()

과목,수학,영어
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Jung,60,89
Kim,57,96
Lee,81,84
Moon,75,76
Park,57,97


In [58]:
df2016

과목,수학,영어
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,57,96
Park,57,97
Lee,81,84
Jung,60,89
Moon,75,76


In [59]:
df2016.sort_values(by=['영어','수학'], ascending=[False,True])

과목,수학,영어
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Park,57,97
Kim,57,96
Jung,60,89
Lee,81,84
Moon,75,76


### 데이터 합치기

- merge

    - pandas 객체의 메서드로 pandas.merge(df1,df2....)로 사용
    - 두 개의 데이터 프레임에 대해 특정 컬럼을 기준으로 합치기
    - 주요 파라미터
        - how : 합치는 방식으로 inner(기본값), left, right, outer 방식 존재
        - on : 합치는 기준으로 두개의 데이터 프레임에 공통으로 존재하는 컬럼명을 사용해야함 (기본값=None)

In [60]:
# 고객번호와 고객명을 저장하고 있는 데이터프레임 생성
# 딕셔너리 타입으로 데이터프레임 데이터 생성 : key:col, value -> list() : row
df1 = pd.DataFrame({'no':[30,31,32,33,34],
                   'name':['김파이썬','이장고','박팬더스','강넘파이','최주피터']})
df1

Unnamed: 0,no,name
0,30,김파이썬
1,31,이장고
2,32,박팬더스
3,33,강넘파이
4,34,최주피터


In [61]:
# 고객 번호와 주문수량을 저장하고있는 데이터프레임 생성
# 다른 고객번호(no)를 일부 저장
df2 = pd.DataFrame({'no':[30,33,40,41],
                   'amount':[100,130,40,60]})
df2

Unnamed: 0,no,amount
0,30,100
1,33,130
2,40,40
3,41,60


In [62]:
# 가장 기본적인 merge방식 : 공톰 컬럼을 기준으로 두 df에 모두존재하는 교집합만 추출
# 기본 동작 : how = 'inner'
# df1 & df2의 공통컬럼 : no
# 공통 컬럼 내부의 공통 값 : 30, 33
# df1 : 30 ~ 34
# df2 : 30, 33, 40, 41
pd.merge(df1,df2)

Unnamed: 0,no,name,amount
0,30,김파이썬,100
1,33,강넘파이,130


In [63]:
# how='outer' : 결합 기준으로 공통 컬럼을 사용함
# 교집합이 아닌 부분을 도 잡아주기때문에
# 합집합 형태로 만들어줌
pd.merge(df1, df2, how='outer')

Unnamed: 0,no,name,amount
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,
3,33,강넘파이,130.0
4,34,최주피터,
5,40,,40.0
6,41,,60.0


In [64]:
# left :  첫번째로 전달한 df1의 데이터는 모두살리고 df2는 df1과 겹칠때만 남김
pd.merge(df1,df2, how='left')

Unnamed: 0,no,name,amount
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,
3,33,강넘파이,130.0
4,34,최주피터,


In [65]:
# right : 두번째 데이터프레임의 데이터를 보존
# df1에서는 df2와 겹치는 경우에 한해 데이터를 남김
pd.merge(df1, df2, how='right')

Unnamed: 0,no,name,amount
0,30,김파이썬,100
1,33,강넘파이,130
2,40,,40
3,41,,60


In [66]:
# 공통 컬럼이 두개 이상인 경우
# '고객명', 날짜 정보 컬럼 3개에 데이터를 저장하고있는 데이터프레임 생성
df3 =  pd.DataFrame({'고객명':['김파이썬', '이장고', '박팬더스'],
                    '날짜':['2020-06-01','2020-06-10','2020-06-14'],
                    '정보':['010','011','019']})
df3

Unnamed: 0,고객명,날짜,정보
0,김파이썬,2020-06-01,10
1,이장고,2020-06-10,11
2,박팬더스,2020-06-14,19


In [67]:
# 고객명, 정보를 저장하고있는 데이터프레임 생성
df4 = pd.DataFrame({'고객명': ['김파이썬', '박팬더스', '최넘파이'],
                    '정보':['F','M','M']})
df4

Unnamed: 0,고객명,정보
0,김파이썬,F
1,박팬더스,M
2,최넘파이,M


In [68]:
#공통된 이름을 가진 컬럼이 2개 이상인 경우, 파라미터가 없으면 결과도 없다
pd.merge(df3,df4)

Unnamed: 0,고객명,날짜,정보


In [69]:
# on 파라미터 :공통된 컬럼이 여럿인 경우 결합 기준 컬럼을 지정
# 합칠때 key로 사용할 컬럼 : '고객명'
# 공통 컬럼 결과 : 고객명, 정보 -> 정보 컬럼 결과를 확인
# 기본 동작으로 merge : inner
pd.merge(df3, df4, on='고객명')

Unnamed: 0,고객명,날짜,정보_x,정보_y
0,김파이썬,2020-06-01,10,F
1,박팬더스,2020-06-14,19,M


In [70]:
# left_on, right_on : 두개의 데이터 프레임에 대해서 서로 다른 기준컬럼을 지정
# 예) 동일한 속성의 자료를 저장하는 컬럼인데 이름이 다른 경우
# 고객이름 , 날짜, 구매금액을 저장하고 있는 데이터 프레임 생성
df5 = pd.DataFrame({
    '고객이름':['김파이썬','박팬더스','강주피터'],
    '날짜':['2020_01_01','2020_02_01','2020_02_15'],
    '구매금액':[1,2,3]
})
df5

Unnamed: 0,고객이름,날짜,구매금액
0,김파이썬,2020_01_01,1
1,박팬더스,2020_02_01,2
2,강주피터,2020_02_15,3


In [71]:
# 고객명, 성별을 지정하고 있는 데이터 프레임을 생성
df6 = pd.DataFrame({
    '고객명':['김파이썬','박팬더스'],
    '성별':['F','M']
})
df6

Unnamed: 0,고객명,성별
0,김파이썬,F
1,박팬더스,M


In [72]:
# 겹치는 컬럼명이 없어서 에러 발생
pd.merge(df5,df6)

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [73]:
# left(df5), right(df6)에서 공통 컬럼명을 각각 지정
tmp = pd.merge(df5, df6, left_on='고객이름', right_on='고객명')
tmp

Unnamed: 0,고객이름,날짜,구매금액,고객명,성별
0,김파이썬,2020_01_01,1,김파이썬,F
1,박팬더스,2020_02_01,2,박팬더스,M


In [74]:
# drop메서드를 이용해 고객명 컬럼을 삭제해주세요
tmp.drop(columns='고객명', inplace=True)
tmp

Unnamed: 0,고객이름,날짜,구매금액,성별
0,김파이썬,2020_01_01,1,F
1,박팬더스,2020_02_01,2,M


#### concat

- 특정 key를 기준으로 데이터를 합치는것이 아니라 행, 열 기준으로 데이터를 연결
- 주요 파라미터
    - axis : 0/행 방향(기본값)이며 컬럼을 key로 합치고, 1/ 열 방향으로 로우를 key로 합침
    - join : 데이터프레임끼리 연결할때 합치는 방법으로 outer(기본값), inner 방식 존재
    - ignore_index : 합친 후 기존 인덱스를 유지 또는 새로운 인덱스를 지정

In [75]:
# 공통 인덱스 라벨을 가지는 Series 2개 생성
s1 = pd.Series([1,2,3], index=list('abc'))
s2 = pd.Series([5,6,7,8], index=list('abfh'))
print(s1)
print(s2)

a    1
b    2
c    3
dtype: int64
a    5
b    6
f    7
h    8
dtype: int64


In [76]:
# 두 Series간 연결
# 기본 : axis=0(행 방향으로 연결)
# 첫 번째로 전달된 객체가 위에, 두 번째로 전달된 객체가 아래로 추가(연결)
# 인덱스 라벨은 기존값 유지
pd.concat([s1, s2])

a    1
b    2
c    3
a    5
b    6
f    7
h    8
dtype: int64

In [77]:
# 새로운 인덱스로 초기화
pd.concat([s1, s2], ignore_index=True)

0    1
1    2
2    3
3    5
4    6
5    7
6    8
dtype: int64

In [78]:
# 두개의 데이터프레임 연결
# 고객명, 날짜 , 금액
df1 = pd.DataFrame({
    '고객명':['김파이썬','이장고','박팬더스'],
    '날짜':['2020_06_01','2020_06_02','2020_06_14'],
    '구매금액':[1,2,3]
})
df2 = pd.DataFrame({
    '고객명':['김파이썬','최넘파이'],
    '성별':['F','M']
})
df2

Unnamed: 0,고객명,성별
0,김파이썬,F
1,최넘파이,M


In [79]:
# 행방향으로 데이터프레임 연결
pd.concat([df1,df2])

Unnamed: 0,고객명,날짜,구매금액,성별
0,김파이썬,2020_06_01,1.0,
1,이장고,2020_06_02,2.0,
2,박팬더스,2020_06_14,3.0,
0,김파이썬,,,F
1,최넘파이,,,M


In [80]:
# 열방향으로 데이터프레임 연결
pd.concat([df1, df2], axis=1)

Unnamed: 0,고객명,날짜,구매금액,고객명.1,성별
0,김파이썬,2020_06_01,1,김파이썬,F
1,이장고,2020_06_02,2,최넘파이,M
2,박팬더스,2020_06_14,3,,


In [81]:
df3 = pd.DataFrame({'지역':['서울','부산','제주'],
                    '직업':['웹개발자', '회계사','회사원']})
df3

Unnamed: 0,지역,직업
0,서울,웹개발자
1,부산,회계사
2,제주,회사원


In [82]:
# 전제조건 : df1과 df3의 데이터가 순서, 맥락상 맞는것이 확정적일때 concat 으로 합치면 좋습니다
pd.concat([df1,df3], axis=1)

Unnamed: 0,고객명,날짜,구매금액,지역,직업
0,김파이썬,2020_06_01,1,서울,웹개발자
1,이장고,2020_06_02,2,부산,회계사
2,박팬더스,2020_06_14,3,제주,회사원


### append

- 행 방향으로 데이터를 연결
- 주요 파라미터
    - ignore_index : 합친후 기존인덱스를 유지 또는 새로운 인덱스를 지정

In [83]:
# 두개의 시리즈 생성
s1 = pd.Series([1,2,3])
s2 = pd.Series([4,5,6,7])

In [84]:
# 행 방향으로 연결하고 기존인덱스 유지
s1.append(s2)

0    1
1    2
2    3
0    4
1    5
2    6
3    7
dtype: int64

In [85]:
# 행 방향으로 데이터를 연결하고 기존 인덱스 누락시키기
s1.append(s2, ignore_index=True)

0    1
1    2
2    3
3    4
4    5
5    6
6    7
dtype: int64

In [86]:
# 두개의 데이터프레임
# 서로 다른 컬럼명
df1 = pd.DataFrame([[1,2],[3,4]],columns=list('ab'))
df2 = pd.DataFrame([[5,6],[7,8],[9,10]],columns=list('AB'))

In [87]:
df1.append(df2)

Unnamed: 0,a,b,A,B
0,1.0,2.0,,
1,3.0,4.0,,
0,,,5.0,6.0
1,,,7.0,8.0
2,,,9.0,10.0


In [88]:
# 두개의 데이터 프레임
# 동일한 컬럼명
df3 = pd.DataFrame([[10,20],[30,40],[50,60]], columns=list('ab'))
df3

Unnamed: 0,a,b
0,10,20
1,30,40
2,50,60


In [89]:
# ingore_index를 걸면 인덱스번호도 0부터 다시 초기화
df1.append(df3, ignore_index=True)

Unnamed: 0,a,b
0,1,2
1,3,4
2,10,20
3,30,40
4,50,60


In [90]:
# 시리즈와 데이터프레임
# 데이터프레임에 한줄 추가할때 보통 시리즈를 많이 사용함
# 시리즈 라벨 & 데이터프레임 컬럼명이 서로 일치할때 매칭되ㅏㅁ
# 시리즈 라벨, 데이터프레임 컬럼명을 모두 a,b,c,d로 매칭시킴
s1 = pd.Series([10,20,30,40], index=list('abcd'))
df1 = pd.DataFrame([[1,1,1,1],[2,2,2,2]], columns=list('abcd'))

In [91]:
s1

a    10
b    20
c    30
d    40
dtype: int64

In [92]:
df1

Unnamed: 0,a,b,c,d
0,1,1,1,1
1,2,2,2,2


In [93]:
# Series의 라벨이 df의 컬럼과 매핑이됨
# 이 때 Series는 df의 새로운 row로 들어갑니다
df1.append(s1, ignore_index=True)

Unnamed: 0,a,b,c,d
0,1,1,1,1
1,2,2,2,2
2,10,20,30,40


### 집계

- groupby(컬럼명)
    - 특정 속성을 기준으로 묶어서 다양한 집계 함수 적용
    - 대표적인 집계 함수
        - sum : 총합
        - mean : 평균값
        - min : 최소값
        - max : 최대값
        - count : 개수
        - std : 표준편차
- pivot table
    - df.pivot(로우로 사용될 컬럼명, 컬럼으로 사용될 컬럼명, 튜플을 구성하는 값으로 사용될 컬럼명, 집계함수)
    - 일차원으로 컬럼 및 로우가 단순 나열된 형식은 데이터를 파악하는데 적합하지 않기 때문에 pivot을 통해 계층 색인 및 형태 변경을 수행

In [94]:
# 엑셀 데이터 적재
# Os error -> engine='python'
# Unicode, Encoding -> encoding='utf-8' or 'cp949' or 'utf-16'
data = pd.read_excel('data/인구수예제.xlsx')
data

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [95]:
# 데이터 구조 확인
data.shape

(50, 6)

In [96]:
# 상위 5개만 조회하기
data.head()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190


In [97]:
data.tail()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
45,부산,동래구,2013,83,65,148
46,부산,동래구,2014,139,87,226
47,부산,동래구,2015,147,115,262
48,부산,동래구,2016,61,102,163
49,부산,동래구,2017,132,105,237


In [98]:
# 자치구별 남,여 인구 각각의 총합
# 조사년도는 총 5개년
data.groupby('자치구')['남자인구'].sum()

자치구
강남구     539
도봉구     485
동래구     562
동작구     454
서대문구    488
송파구     415
수영구     502
영등포구    629
종로구     483
해운대구    620
Name: 남자인구, dtype: int64

In [99]:
# 도시별 남여 인구의 총합을 구해주세요
data.groupby('도시')['남자인구','여자인구'].sum()

  data.groupby('도시')['남자인구','여자인구'].sum()


Unnamed: 0_level_0,남자인구,여자인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,1684,1548
서울,3493,3682


In [100]:
# 연도별, 도시별과 같이 2개이상의 조건을 묶고싶을때는 .groupby([1번그롭, 2번그룹...])
# 형식으로 묶을수도 있습니다.
# 연도별, 도시별 남녀인구 총합을 출력하시오
data.groupby(['도시','연도'])['여자인구','남자인구'].sum()

  data.groupby(['도시','연도'])['여자인구','남자인구'].sum()


Unnamed: 0_level_0,Unnamed: 1_level_0,여자인구,남자인구
도시,연도,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,2013,262,341
부산,2014,369,314
부산,2015,266,331
부산,2016,376,276
부산,2017,275,422
서울,2013,769,758
서울,2014,691,882
서울,2015,710,541
서울,2016,722,671
서울,2017,790,641


In [101]:
# 도시별 연도별 총인구 평균을 구해주세요.
data.groupby(['도시','연도'])['총인구'].mean()

도시  연도  
부산  2013    201.000000
    2014    227.666667
    2015    199.000000
    2016    217.333333
    2017    232.333333
서울  2013    218.142857
    2014    224.714286
    2015    178.714286
    2016    199.000000
    2017    204.428571
Name: 총인구, dtype: float64

In [102]:
data.groupby(['도시','연도'])['총인구'].mean().unstack()

연도,2013,2014,2015,2016,2017
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
부산,201.0,227.666667,199.0,217.333333,232.333333
서울,218.142857,224.714286,178.714286,199.0,204.428571


In [103]:
# 마지감ㄱ으로 여러분이 집계아무거나 여태까지 안쓴것중 궁금한거 한번 써서 구문 보내기
data.groupby('도시')['남자인구','여자인구'].std()

  data.groupby('도시')['남자인구','여자인구'].std()


Unnamed: 0_level_0,남자인구,여자인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,31.019502,26.657082
서울,31.354519,29.975284


In [106]:
# 위의 가독성을 높이기에서 좀더 가독성을 높인 구조
# nustack() 은 하위 멀티 인덱스를 컬럼으로 올리는 역활을 기본적으로 수행합니다.
# 하지만 unstack(0)과 같이 인덱스번호를 넣어주면 상위 인덱스를 컬럼으로 보낼수있습니다. 
data.groupby(['도시','연도'])[['총인구']].mean().unstack()


Unnamed: 0_level_0,총인구,총인구,총인구,총인구,총인구
연도,2013,2014,2015,2016,2017
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
부산,201.0,227.666667,199.0,217.333333,232.333333
서울,218.142857,224.714286,178.714286,199.0,204.428571


groupby결과를 pivot_table로 실행할수 있다

In [107]:
# 연도별 & 도시별 & 남여인구 각각 최대값 
# pivot_table(index=로우로 사용할 컬럼명,columns=컬럼으로 사용할 컬럼명
#                  value=집계함수를 적용할 값으로 사용할 컬럼, aggfunc=사용할 집계함수명
# 로우: 연도, 도시
data.pivot_table(index=['연도','도시'])


Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구,여자인구,총인구
연도,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,부산,113.666667,87.333333,201.0
2013,서울,108.285714,109.857143,218.142857
2014,부산,104.666667,123.0,227.666667
2014,서울,126.0,98.714286,224.714286
2015,부산,110.333333,88.666667,199.0
2015,서울,77.285714,101.428571,178.714286
2016,부산,92.0,125.333333,217.333333
2016,서울,95.857143,103.142857,199.0
2017,부산,140.666667,91.666667,232.333333
2017,서울,91.571429,112.857143,204.428571


In [108]:
# .uniqu()는 추렭한 요소를 한번씩만 출력한다
data.도시.unique()

array(['서울', '부산'], dtype=object)

In [112]:
# 도시별 연도별 총 인구 평균
# 로우 : 연도
# 값 : 총인구
# 집계 : 평균
data.pivot_table(index=['연도'], values=['총인구'], aggfunc='mean', columns=['도시'])

Unnamed: 0_level_0,총인구,총인구
도시,부산,서울
연도,Unnamed: 1_level_2,Unnamed: 2_level_2
2013,201.0,218.142857
2014,227.666667,224.714286
2015,199.0,178.714286
2016,217.333333,199.0
2017,232.333333,204.428571


In [117]:
# 여러개의 집계함수를 서로 다른값에 사용하기
# 도시별, 자치구별 남자인구의 평균, 여자인구의 합계
# 로우 : 도시, 자치구
# 값 : 남자인구 , 여자인구
# 집계함수는 딕셔너리형식으로 {'컬럼명':'함수1'}
data.pivot_table(index=['도시', '자치구'], values=['남자인구','여자인구'], aggfunc={'남자인구':'mean','여자인구':'sum'})

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구,여자인구
도시,자치구,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,동래구,112.4,474
부산,수영구,100.4,559
부산,해운대구,124.0,515
서울,강남구,107.8,513
서울,도봉구,97.0,550
서울,동작구,90.8,582
서울,서대문구,97.6,543
서울,송파구,83.0,559
서울,영등포구,125.8,562
서울,종로구,96.6,373


### pivot_table 실습


In [132]:
# 1. 도시별 자치구별 남자인구평균

man_mean = data.pivot_table(index=['도시','자치구'], values=['남자인구'], aggfunc='mean')

In [138]:
# 남자인구 컬럼을 남자인구_평균 컬럼으로변경
man_mean.rename({'남자인구':'남자인구_평균'}, axis=1, inplace=True)
man_mean

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구_평균
도시,자치구,Unnamed: 2_level_1
부산,동래구,112.4
부산,수영구,100.4
부산,해운대구,124.0
서울,강남구,107.8
서울,도봉구,97.0
서울,동작구,90.8
서울,서대문구,97.6
서울,송파구,83.0
서울,영등포구,125.8
서울,종로구,96.6


In [139]:
# 바뀌었는지 상위3개아 행만 출력해 확인(head활용)
man_mean.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구_평균
도시,자치구,Unnamed: 2_level_1
부산,동래구,112.4
부산,수영구,100.4
부산,해운대구,124.0


In [146]:
# 자치구별 평균 남자인구를 인구수 순서대로 5개 출력해주세요
man_mean.sort_values(by='남자인구_평균', ascending=False).head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구_평균
도시,자치구,Unnamed: 2_level_1
서울,영등포구,125.8
부산,해운대구,124.0
부산,동래구,112.4
서울,강남구,107.8
부산,수영구,100.4


### 통계

- 주요 통계 함수
    - value_count() : 각 고유값의 중복개수
    - count : NaN 값을 제외한 값의 개수
    - describe : 각 컬럼에 대한 요약통계 계산(count, mean, std, min, 1사분위수, 중위값, 3사분위수, max)
    - min, max : 최소, 최대 값
    - sum : 총 합
    - cumsum : 누적합
    - mean : 평균
    - median : 중위값(전체 데이터를 나열 했을 때 중간에 위치한 값)
    - var : 분산(데이터가 전체적으로 흩어진 정도, 편차제곱의 평균)
    - std : 표준편차 = 분산의 양의 제곱근
- 주요 파라미터
    - axis : 연산의 기준이 되는 축, axis=0(기본값)이면 행 방향으로 axis=1이면 열 방향으로 적용
    - skipna : NaN 값을 제외할지 여부를 설정, 기본값 = True

In [157]:
#샘플 데이터 생성, 50이상 100미만의 데이터 20개를 5*4형태로
# 로우명 : ['kim','park','Lee','Jung','Moon']
# 컬럼명: 2016,2017년에 대해 각각 영어, 수학
df = pd.DataFrame(np.random.randint(50,100, size=(5,4)), index=['kim','park','Lee','Jung','Moon'], columns=[[2016,2016,2017,2017], ['영어','수학','영어','수학']])
df.index.name='학생명'
df.columns.set_names(['연도','과목'],inplace=True)
df

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
kim,57,68,62,74
park,96,79,61,84
Lee,58,89,76,60
Jung,69,58,58,93
Moon,59,84,76,73


In [160]:
# 기술통계, 요약통계
df.describe()

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
count,5.0,5.0,5.0,5.0
mean,67.8,75.6,66.6,76.8
std,16.483325,12.54193,8.70632,12.437845
min,57.0,58.0,58.0,60.0
25%,58.0,68.0,61.0,73.0
50%,59.0,79.0,62.0,74.0
75%,69.0,84.0,76.0,84.0
max,96.0,89.0,76.0,93.0


In [167]:
# 2017년도 성정만 분리해서 df2017로 저장(깊은복사)
df2017 = df[2017].copy()
df2017

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
kim,62,74
park,61,84
Lee,76,60
Jung,58,93
Moon,76,73


In [168]:
df2017.shape

(5, 2)

In [170]:
# 1) count = NaN을 제외한 데이터의 개수(행 개수)
# 축 기준 설정 :axis를 통해 행/열 개수인지 지정 가능
# 행 개수 : axis = 0
df2017.count(axis=0)

과목
영어    5
수학    5
dtype: int64

In [171]:
# 열 개수 -> axis = 1
df2017.count(axis=1)

학생명
kim     2
park    2
Lee     2
Jung    2
Moon    2
dtype: int64

In [181]:
# value_counts() : 변수형 데이터(문자열 등) 에 대한 각 분류 값을 개수
# 도시, 자치구 데이터 사용 (data)
data['도시'].value_counts()

서울    35
부산    15
Name: 도시, dtype: int64

In [184]:
# 2) sum() : 값의 총합을 계산
# 기본 축 방향 : 열별 총합
# == 과목별 총합
# axis = 0
df.sum()

연도    과목
2016  영어    339
      수학    378
2017  영어    333
      수학    384
dtype: int64

In [185]:
# 학생별 점수 총합
df.sum(axis=1)

학생명
kim     261
park    320
Lee     283
Jung    278
Moon    292
dtype: int64

In [187]:
# 3) mean()
# 과목별 평균
# axis = 0(디폴트)
df.mean()

연도    과목
2016  영어    67.8
      수학    75.6
2017  영어    66.6
      수학    76.8
dtype: float64

In [188]:
# 학생별 평균점수를 구해주세요
df.mean(axis=1)

학생명
kim     65.25
park    80.00
Lee     70.75
Jung    69.50
Moon    73.00
dtype: float64

In [219]:
#문제1 : df변수를 이용해서 2016,2017 년도별, 과목별 평균성적 출력
df.mean()

연도    과목
2016  영어    67.8
      수학    75.6
2017  영어    66.6
      수학    76.8
dtype: float64

In [221]:
# 위의 년도별, 과목별 평균의 로우가 연도로, 컬럼이 과목이 되도록수정해주세요.
df.mean().unstack()

과목,수학,영어
연도,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,75.6,67.8
2017,76.8,66.6


In [222]:
# 문제 2 :  df변수를 이용해서 학생별로 전체 평균을 출력
df.mean(axis=1)

학생명
kim     65.25
park    80.00
Lee     70.75
Jung    69.50
Moon    73.00
dtype: float64