# pandas 개요
- 판다스는 뎅터 조작 및 분석을 위해 파이썬 프로그래밍 언어로 작성된 소프트웨어 라이브러리이다.
- 일명 파이썬의 엑셀이라 부른다
- URL: https://pandas.pydata.org

## pandas 불러오기
- pandas는 일반적으로 pd라는 별칭으로 불러온다

In [2]:
import pandas as pd 
import numpy as np

# pandas에서 활용하는 자료 구조
<pre>
    **판다스의 구성요소
    (1) Series
        - DataFrame 중에서 하나의 column에 해당하는 데이터
        - 1차원 데이터 (index, values 2가지 요소로 구성)
    (2) DataFrame
        - Data Table 전체를 의미하는 데이터
        - 2차원 데이터 (index, values, columns 3가지 요소로 구성)
    (3) Index
        - Series, DataFrame의 인덱스를 구성하는 데이터
</pre>

## 1) Series
- 인덱스값을 명시적으로 지정하지 않으면 0부터 시작하는 일련번호로 자동지정된다.

In [3]:
nums = [2,3,5,7,9]
sr = pd.Series(nums)

print(sr)
print(type(sr))  # 판다스의 시리즈 객체

0    2
1    3
2    5
3    7
4    9
dtype: int64
<class 'pandas.core.series.Series'>


- 인덱스를 직접 전달 가능

In [5]:
sr = pd.Series(nums, index=list('abcde'))  # index=: index값 전달하기
print(sr)
print('-' * 20)

menu_list = ['토스트', '제육볶음', '치킨']
index_list = ['아침','점심', '저녁']
sr = pd.Series(menu_list, index=index_list)
print(sr)

a    2
b    3
c    5
d    7
e    9
dtype: int64
--------------------
아침     토스트
점심    제육볶음
저녁      치킨
dtype: object


In [7]:
print(sr.index)  # index 정보 가져오기
print(sr.index.values)  # numpy의 다차원 배열
print(sr.values)

Index(['아침', '점심', '저녁'], dtype='object')
['아침' '점심' '저녁']
['토스트' '제육볶음' '치킨']


- 딕셔너리를 이용해서 Series 생성하기

In [10]:
dic_data = {'a':21, 'b':22, 'c':23, 'd':24, 'e':25}
sr = pd.Series(dic_data, dtype=np.float32)
print(sr)

a    21.0
b    22.0
c    23.0
d    24.0
e    25.0
dtype: float32


## 원소 선택

In [13]:
print(sr[0])
print(sr['a'])
print(sr['a':'c'])   # 시리즈 객체로 반환, 마지막 요소도 포함
print(sr[0:3])  # 위치값 이용시 마지막 요소 포함 x

21.0
21.0
a    21.0
b    22.0
c    23.0
dtype: float32
a    21.0
b    22.0
c    23.0
dtype: float32


## unique(), value_counts()
- unique(): 결측치를 포함하며 중복된 데이터를 제외한 데이터의 종류를 ndarray로 반환한다
- value_counts(): 결측치를 포함하지 않으며 데이터 종류별 개수를 Series로 반환한다

In [15]:
sr = pd.Series(['A', 'B', 'A', np.NaN, 'C','D','D','A'])
print(sr.unique())  # 결측치 포함
print(sr.value_counts())  # 결측치 포함안함

['A' 'B' nan 'C' 'D']
A    3
D    2
B    1
C    1
Name: count, dtype: int64


## 2) DataFrame

In [18]:
nums = np.arange(1,10).reshape(3,3)
print(nums)
df = pd.DataFrame(nums)
# print(df)   # 인덱스와 컬럼 값이 자동으로 생성됨
display(df)  # 서식 적용된 테이블 모양으로

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


- 인덱스나 컬럼을 직접 전달할 수도 있다.

In [19]:
menu = [['토스트', '시리얼', '스크램블'],
        ['제육볶음', '칼국수', '육개장'],
        ['치킨', '삼겹살', '라면']]
index = ['아침','점심','저녁']
column = ['월', '화', '수']

df = pd.DataFrame(menu, index=index, columns=column)
display(df)

Unnamed: 0,월,화,수
아침,토스트,시리얼,스크램블
점심,제육볶음,칼국수,육개장
저녁,치킨,삼겹살,라면


In [22]:
print(df.index)
print(df.columns)
print(df.values)   # 다차원 배열로 반환

Index(['아침', '점심', '저녁'], dtype='object')
Index(['월', '화', '수'], dtype='object')
[['토스트' '시리얼' '스크램블']
 ['제육볶음' '칼국수' '육개장']
 ['치킨' '삼겹살' '라면']]


- 딕셔너리를 이용한 데이터프레임 생성
- 키: 컬럼, 값: 데이터(리스트로 전달)

In [25]:
data = {
    '이름':['홍길동','전우치','손오공','사오정','저팔계'],
    '나이':[32, 27, 30, 31, 33],
    '전화번호':['010-111-1111', '010-222-2222', '010-333-3333', '010-444-4444', '010-555-5555']}
df = pd.DataFrame(data, index=np.arange(1, 6))
display(df)

Unnamed: 0,이름,나이,전화번호
1,홍길동,32,010-111-1111
2,전우치,27,010-222-2222
3,손오공,30,010-333-3333
4,사오정,31,010-444-4444
5,저팔계,33,010-555-5555


# 데이터 조회 및 처리

In [1]:
import numpy as np
import pandas as pd

data = np.random.randint(100, size=(10,10))
df = pd.DataFrame(data, index=list('abcdefghij'), columns=list('ABCDEFGHIJ'))
display(df)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,82,68,79,98,16,78,57,93,29,71
b,46,57,36,35,47,89,85,52,43,87
c,82,71,47,87,61,96,11,25,33,39
d,30,19,86,64,9,73,81,79,34,89
e,38,4,39,73,35,29,80,92,82,45
f,12,78,4,8,5,30,29,43,41,14
g,84,57,46,34,10,53,91,32,67,39
h,85,83,31,76,86,42,78,61,18,17
i,20,27,0,70,47,18,74,40,41,14
j,88,32,3,22,97,8,29,31,46,69


## 데이터 조회

### 열 값 읽기
- df[열명] / df.열명

In [29]:
print(df.A)  # 결과는 Series 객체로 반환
print(df['A'])

a    84
b    81
c    17
d    91
e    61
f    24
g    86
h    44
i    30
j    46
Name: A, dtype: int32
a    84
b    81
c    17
d    91
e    61
f    24
g    86
h    44
i    30
j    46
Name: A, dtype: int32


In [32]:
print(df[['A','B']])  # 컬럼 이름을 리스트로 전달하면 Dataframe 객체로 반환
print(type(df[['A']]))

    A   B
a  84  72
b  81  55
c  17  45
d  91  43
e  61  47
f  24  30
g  86  36
h  44   7
i  30  92
j  46  23
<class 'pandas.core.frame.DataFrame'>


### 행 값 읽기
- df.loc[행명] 

In [34]:
display(df)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,42,26,40,93,62,83
b,81,55,68,14,73,88,68,65,93,17
c,17,45,77,86,6,46,10,68,36,81
d,91,43,11,27,43,64,75,34,67,98
e,61,47,70,36,91,15,33,88,5,68
f,24,30,78,82,27,12,80,26,90,83
g,86,36,64,92,60,77,82,4,32,22
h,44,7,69,12,68,15,34,64,14,74
i,30,92,0,7,78,9,28,7,12,8
j,46,23,21,80,16,93,23,74,99,66


In [33]:
df.loc['a']  # Series 객체로 반환, 컬럼명, values

A    84
B    72
C    42
D    51
E    42
F    26
G    40
H    93
I    62
J    83
Name: a, dtype: int32

- 여러개의 행 값 읽기: 행 이름을 리스트로 전달

In [35]:
df.loc[['a', 'c', 'e']]  # dataframe으로 반환

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,42,26,40,93,62,83
c,17,45,77,86,6,46,10,68,36,81
e,61,47,70,36,91,15,33,88,5,68


### df.head(), df.tail()
- 상위(하위) n개의 행을 선택한다.
- 숫자를 전달하지 않으면 5개의 행을 선택한다

In [36]:
df.head(2)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,42,26,40,93,62,83
b,81,55,68,14,73,88,68,65,93,17


In [37]:
df.head()

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,42,26,40,93,62,83
b,81,55,68,14,73,88,68,65,93,17
c,17,45,77,86,6,46,10,68,36,81
d,91,43,11,27,43,64,75,34,67,98
e,61,47,70,36,91,15,33,88,5,68


### df.sample()
- n개의 랜덤 데이터 추출

In [38]:
df.sample(2)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
h,44,7,69,12,68,15,34,64,14,74
c,17,45,77,86,6,46,10,68,36,81


## 데이터 프레임 정보 조회

### df.dtypes
- 컬럼별 데이터 타입 조회

In [39]:
print(df.dtypes)

A    int32
B    int32
C    int32
D    int32
E    int32
F    int32
G    int32
H    int32
I    int32
J    int32
dtype: object


### df.shape()
- 데이터프레임의 모양 확인

In [40]:
print(df.shape)

(10, 10)


### df.count()
- 데이터의 열마다 non_NA 레코드의 개수를 시리즈 형태로 반환

In [41]:
df.count()  # 결측치 제외하여 카운트

A    10
B    10
C    10
D    10
E    10
F    10
G    10
H    10
I    10
J    10
dtype: int64

### df.describe()
- 데이터 프레임의 기술통계 정보 요약

In [43]:
print(df.describe())
# 머신러닝은 큰 값에 가중치를 많이 부여하기 때문에 과적합 문제 발생가능 따라서 이를 방지하기 위해 데이터의 분산이 차이가 많이 날 경우 스케일링작업 진행

               A          B          C         D          E          F  \
count  10.000000  10.000000  10.000000  10.00000  10.000000  10.000000   
mean   56.400000  45.000000  50.000000  48.70000  50.400000  44.500000   
std    27.933254  24.221203  29.287844  33.80023  28.186679  33.470551   
min    17.000000   7.000000   0.000000   7.00000   6.000000   9.000000   
25%    33.500000  31.500000  26.250000  17.25000  30.750000  15.000000   
50%    53.500000  44.000000  66.000000  43.50000  51.500000  36.000000   
75%    83.250000  53.000000  69.750000  81.50000  71.750000  73.750000   
max    91.000000  92.000000  78.000000  92.00000  91.000000  93.000000   

               G          H          I          J  
count  10.000000  10.000000  10.000000  10.000000  
mean   47.300000  52.300000  51.000000  60.000000  
std    26.369385  32.245758  35.836046  32.034703  
min    10.000000   4.000000   5.000000   8.000000  
25%    29.250000  28.000000  18.500000  33.000000  
50%    37.000000  64.

### df.info()
- 데이터 프레임의 각 컬럼의 타입 및 non-null count 개수 확인

In [44]:
print(df.info())  # 컬럼명, non-null개수, 데이터 타입

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, a to j
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       10 non-null     int32
 1   B       10 non-null     int32
 2   C       10 non-null     int32
 3   D       10 non-null     int32
 4   E       10 non-null     int32
 5   F       10 non-null     int32
 6   G       10 non-null     int32
 7   H       10 non-null     int32
 8   I       10 non-null     int32
 9   J       10 non-null     int32
dtypes: int32(10)
memory usage: 780.0+ bytes
None


## 인덱싱, 슬라이싱

In [45]:
display(df)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,42,26,40,93,62,83
b,81,55,68,14,73,88,68,65,93,17
c,17,45,77,86,6,46,10,68,36,81
d,91,43,11,27,43,64,75,34,67,98
e,61,47,70,36,91,15,33,88,5,68
f,24,30,78,82,27,12,80,26,90,83
g,86,36,64,92,60,77,82,4,32,22
h,44,7,69,12,68,15,34,64,14,74
i,30,92,0,7,78,9,28,7,12,8
j,46,23,21,80,16,93,23,74,99,66


In [47]:
df[['A', 'C']]

Unnamed: 0,A,C
a,84,42
b,81,68
c,17,77
d,91,11
e,61,70
f,24,78
g,86,64
h,44,69
i,30,0
j,46,21


- <font color='red'><b>열의 순서를 이용해서 인덱싱을 할 수가 없다</b></font>

In [None]:
# df[0]  --> error

- 열 위치 값을 이용해서 인덱싱이나 슬라이싱을 이용하려면 columns 속성을 이용한다.

In [6]:
df.columns  # df.columns(): 컬럼의 값을 ndarray로 반환

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')

In [5]:
df.columns[0]  # 다차원 배열은 인덱싱 가능, 위치값을 이용해서 컬럼 이름을 가져올 수 있다

'A'

In [57]:
df[df.columns[2:4]]

Unnamed: 0,C,D
a,42,51
b,68,14
c,77,86
d,11,27
e,70,36
f,78,82
g,64,92
h,69,12
i,0,7
j,21,80


- 행의 이름을 이용해서 슬라이싱을 할 수 있다
- 마지막 요소까지 범위에 포함된다

In [62]:
df.loc['a':'c']   # df['a':'c'], 행단위 추출은 loc 속성을 이용한다

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,42,26,40,93,62,83
b,81,55,68,14,73,88,68,65,93,17
c,17,45,77,86,6,46,10,68,36,81


- 행의 순서를 이용해서 슬라이싱을 할 수 있다.
- 마지막 요소는 범위에 포함되지 않는다.

In [63]:
df.iloc[2:5]

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
c,17,45,77,86,6,46,10,68,36,81
d,91,43,11,27,43,64,75,34,67,98
e,61,47,70,36,91,15,33,88,5,68


## 특정 위치의 데이터 추출

### df.at, df.iat
- 라벨 또는 인덱스를 이용해서 특정 위치의 데이터를 가져온다(단일값 추출만)

In [65]:
display(df)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,42,26,40,93,62,83
b,81,55,68,14,73,88,68,65,93,17
c,17,45,77,86,6,46,10,68,36,81
d,91,43,11,27,43,64,75,34,67,98
e,61,47,70,36,91,15,33,88,5,68
f,24,30,78,82,27,12,80,26,90,83
g,86,36,64,92,60,77,82,4,32,22
h,44,7,69,12,68,15,34,64,14,74
i,30,92,0,7,78,9,28,7,12,8
j,46,23,21,80,16,93,23,74,99,66


In [66]:
df.at['c', 'E']

6

In [67]:
df.iat[4,4]

91

### df.loc, df.iloc
- 행과 열의 라벨 또는 인덱스를 이용해서 특정 위치의 데이터를 조회(복수의 데이터 추출)

In [68]:
df.loc[['e','a','c'],['C','C','A']]

Unnamed: 0,C,C.1,A
e,70,70,61
a,42,42,84
c,77,77,17


In [72]:
df.iloc[0:5, 5:10]

Unnamed: 0,F,G,H,I,J
a,26,40,93,62,83
b,88,68,65,93,17
c,46,10,68,36,81
d,64,75,34,67,98
e,15,33,88,5,68


In [73]:
df.iloc[0:5:2, 5:10:2]

Unnamed: 0,F,H,J
a,26,93,83
c,46,68,81
e,15,88,68


## 조건 인덱싱

In [75]:
display(df)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,42,26,40,93,62,83
b,81,55,68,14,73,88,68,65,93,17
c,17,45,77,86,6,46,10,68,36,81
d,91,43,11,27,43,64,75,34,67,98
e,61,47,70,36,91,15,33,88,5,68
f,24,30,78,82,27,12,80,26,90,83
g,86,36,64,92,60,77,82,4,32,22
h,44,7,69,12,68,15,34,64,14,74
i,30,92,0,7,78,9,28,7,12,8
j,46,23,21,80,16,93,23,74,99,66


In [74]:
# 컬럼이나 행에 조건을 지정해서 조건 인덱싱 가능
# df의 A열의 요소 중 50을 초과하는 값이 있을 때 해당 값의 행을 선택
df[df['A'] > 50]

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,42,26,40,93,62,83
b,81,55,68,14,73,88,68,65,93,17
d,91,43,11,27,43,64,75,34,67,98
e,61,47,70,36,91,15,33,88,5,68
g,86,36,64,92,60,77,82,4,32,22


In [76]:
# b행의 값이 50을 초과하는 열을 선택
df.loc[:,df.loc['b'] > 50]

Unnamed: 0,A,B,C,E,F,G,H,I
a,84,72,42,42,26,40,93,62
b,81,55,68,73,88,68,65,93
c,17,45,77,6,46,10,68,36
d,91,43,11,43,64,75,34,67
e,61,47,70,91,15,33,88,5
f,24,30,78,27,12,80,26,90
g,86,36,64,60,77,82,4,32
h,44,7,69,68,15,34,64,14
i,30,92,0,78,9,28,7,12
j,46,23,21,16,93,23,74,99


In [77]:
# 전체 데이터에 대해 boolean idexing 
df[df % 2 == 0] # 전체 데이터에서 조건에 해당하는 값은 표시되고 해당하지 않으면 NaN 표시

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84.0,72.0,42.0,,42.0,26.0,40.0,,62.0,
b,,,68.0,14.0,,88.0,68.0,,,
c,,,,86.0,6.0,46.0,10.0,68.0,36.0,
d,,,,,,64.0,,34.0,,98.0
e,,,70.0,36.0,,,,88.0,,68.0
f,24.0,30.0,78.0,82.0,,12.0,80.0,26.0,90.0,
g,86.0,36.0,64.0,92.0,60.0,,82.0,4.0,32.0,22.0
h,44.0,,,12.0,68.0,,34.0,64.0,14.0,74.0
i,30.0,92.0,0.0,,78.0,,28.0,,12.0,8.0
j,46.0,,,80.0,16.0,,,74.0,,66.0


In [2]:
df2 = df.copy()   # 새로운 데이터 프레임 객체 생성
df2['K'] = ['one', 'two','one', 'two','one', 'two','one', 'two','one', 'two']   # 데이터 프레임에 새로운 컬럼 추가하기
df2

Unnamed: 0,A,B,C,D,E,F,G,H,I,J,K
a,82,68,79,98,16,78,57,93,29,71,one
b,46,57,36,35,47,89,85,52,43,87,two
c,82,71,47,87,61,96,11,25,33,39,one
d,30,19,86,64,9,73,81,79,34,89,two
e,38,4,39,73,35,29,80,92,82,45,one
f,12,78,4,8,5,30,29,43,41,14,two
g,84,57,46,34,10,53,91,32,67,39,one
h,85,83,31,76,86,42,78,61,18,17,two
i,20,27,0,70,47,18,74,40,41,14,one
j,88,32,3,22,97,8,29,31,46,69,two


In [79]:
df2['K'].isin(['one'])  # K컬럼에 one을 포함하고 있는지(T/F)

a     True
b    False
c     True
d    False
e     True
f    False
g     True
h    False
i     True
j    False
Name: K, dtype: bool

In [80]:
df2[df2['K'].isin(['one'])] # K컬럼에 one값이 레코드만 추출

Unnamed: 0,A,B,C,D,E,F,G,H,I,J,K
a,84,72,42,51,42,26,40,93,62,83,one
c,17,45,77,86,6,46,10,68,36,81,one
e,61,47,70,36,91,15,33,88,5,68,one
g,86,36,64,92,60,77,82,4,32,22,one
i,30,92,0,7,78,9,28,7,12,8,one


In [3]:
# 특정 값을 포함하지 않는 레코드 검색: ~ 연산자 사용
df2[~df2['K'].isin(['one'])]

Unnamed: 0,A,B,C,D,E,F,G,H,I,J,K
b,46,57,36,35,47,89,85,52,43,87,two
d,30,19,86,64,9,73,81,79,34,89,two
f,12,78,4,8,5,30,29,43,41,14,two
h,85,83,31,76,86,42,78,61,18,17,two
j,88,32,3,22,97,8,29,31,46,69,two


## 데이터 수정

In [81]:
df['E'] = 0
df

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,84,72,42,51,0,26,40,93,62,83
b,81,55,68,14,0,88,68,65,93,17
c,17,45,77,86,0,46,10,68,36,81
d,91,43,11,27,0,64,75,34,67,98
e,61,47,70,36,0,15,33,88,5,68
f,24,30,78,82,0,12,80,26,90,83
g,86,36,64,92,0,77,82,4,32,22
h,44,7,69,12,0,15,34,64,14,74
i,30,92,0,7,0,9,28,7,12,8
j,46,23,21,80,0,93,23,74,99,66


In [92]:
df.at['e','E'] = 1  # 단일값 바꾸기
df.drop('E', axis=0, inplace=True)  #행과 열을 삭제
df.drop('e', inplace=True) 

In [93]:
df.loc['d':'f'] = 0 # 복수값 바꾸기
df

Unnamed: 0,A,B,C,D,E,F,G,H,I,J,e
a,84.0,72.0,42.0,51.0,0.0,26.0,40.0,93.0,62.0,83.0,
b,81.0,55.0,68.0,14.0,0.0,88.0,68.0,65.0,93.0,17.0,
c,17.0,45.0,77.0,86.0,0.0,46.0,10.0,68.0,36.0,81.0,
d,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
f,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
g,86.0,36.0,64.0,92.0,0.0,77.0,82.0,4.0,32.0,22.0,
h,44.0,7.0,69.0,12.0,0.0,15.0,34.0,64.0,14.0,74.0,
i,30.0,92.0,0.0,7.0,0.0,9.0,28.0,7.0,12.0,8.0,
j,46.0,23.0,21.0,80.0,0.0,93.0,23.0,74.0,99.0,66.0,


In [94]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(100, size=(10,10)), index=list('abcdefghij'), columns=list('ABCDEFGHIJ'))
df

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
a,44,47,64,67,67,9,83,21,36,87
b,70,88,88,12,58,65,39,87,46,88
c,81,37,25,77,72,9,20,80,69,79
d,47,64,82,99,88,49,29,19,19,14
e,39,32,65,9,57,32,31,74,23,35
f,75,55,28,34,0,0,36,53,5,38
g,17,79,4,42,58,31,1,65,41,57
h,35,11,46,82,91,0,14,99,53,12
i,42,84,75,68,6,68,47,3,76,52
j,78,15,20,99,58,23,79,13,85,48


## 데이터 정렬

## df.sort_values()
- 행 또는 열을 지정해서 값에 따라 정렬한다.
- 기본값은 "열"을 지정해서 값에 따라 오름차순으로 정렬하는 것이다.
- 내림차순으로 정렬하려면 ascending인수에 False를 전달한다.
- 행을 지정해서 정렬하려면 axis인수에 1또는 'columns'를 전달한다.

In [95]:
df.sort_values('A')  # A열 오름차순 정렬

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
g,17,79,4,42,58,31,1,65,41,57
h,35,11,46,82,91,0,14,99,53,12
e,39,32,65,9,57,32,31,74,23,35
i,42,84,75,68,6,68,47,3,76,52
a,44,47,64,67,67,9,83,21,36,87
d,47,64,82,99,88,49,29,19,19,14
b,70,88,88,12,58,65,39,87,46,88
f,75,55,28,34,0,0,36,53,5,38
j,78,15,20,99,58,23,79,13,85,48
c,81,37,25,77,72,9,20,80,69,79


In [96]:
df.sort_values('a', axis=1)  # 행 기준으로 정렬

Unnamed: 0,F,H,I,A,B,C,D,E,G,J
a,9,21,36,44,47,64,67,67,83,87
b,65,87,46,70,88,88,12,58,39,88
c,9,80,69,81,37,25,77,72,20,79
d,49,19,19,47,64,82,99,88,29,14
e,32,74,23,39,32,65,9,57,31,35
f,0,53,5,75,55,28,34,0,36,38
g,31,65,41,17,79,4,42,58,1,57
h,0,99,53,35,11,46,82,91,14,12
i,68,3,76,42,84,75,68,6,47,52
j,23,13,85,78,15,20,99,58,79,48


### df.sort_index()
- 행 또는 열 값을 기준으로 정렬한다.
- 기본 값은 인덱스(행번호, 행이름)를 오름차순으로 정렬하는 것이다.
- 컬럼명에 따라 정렬하려면 axis=1로 지정한다.

In [97]:
df.sort_index(ascending=False) # 인덱스를 기준으로 내림차순 정렬

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
j,78,15,20,99,58,23,79,13,85,48
i,42,84,75,68,6,68,47,3,76,52
h,35,11,46,82,91,0,14,99,53,12
g,17,79,4,42,58,31,1,65,41,57
f,75,55,28,34,0,0,36,53,5,38
e,39,32,65,9,57,32,31,74,23,35
d,47,64,82,99,88,49,29,19,19,14
c,81,37,25,77,72,9,20,80,69,79
b,70,88,88,12,58,65,39,87,46,88
a,44,47,64,67,67,9,83,21,36,87


In [98]:
df.sort_index(axis=1, ascending=False)  # 컬럼명을 기준으로 내림차순 정렬

Unnamed: 0,J,I,H,G,F,E,D,C,B,A
a,87,36,21,83,9,67,67,64,47,44
b,88,46,87,39,65,58,12,88,88,70
c,79,69,80,20,9,72,77,25,37,81
d,14,19,19,29,49,88,99,82,64,47
e,35,23,74,31,32,57,9,65,32,39
f,38,5,53,36,0,0,34,28,55,75
g,57,41,65,1,31,58,42,4,79,17
h,12,53,99,14,0,91,82,46,11,35
i,52,76,3,47,68,6,68,75,84,42
j,48,85,13,79,23,58,99,20,15,78


- 데이터 수정하는 함수들은 원본의 데이터 프레임을 바꾸지는 않음
- 바꾸려면 새로 할당해야함
- inplace속성을 True로 바꿀 수있는 함수 제외

# 데이터 프레임 조작

## 새로운 행 또는 열 추가
- DataFrame에 새로운 열 추가
  - df[새로운 컬럼명] = 데이터 목록
  - 데이터의 목록은 DataFrame 내 다른 컬럼들의 원소와 같은 개수여야 함
  - 데이터 목록 타입: list, Series, ndarray

- DataFrame에 새로운 행 추가
  - df.loc[새로운 행이름] = 데이터 목록
  - 데이터 목록은 DataFrame의 컬럼의 개수와 `타입`이 같아야 함

In [4]:
import numpy as np
import pandas as pd 

df = pd.DataFrame([[1,2,3], [7,8,9], [13,14,15]],
                 index=list('ABC'), columns=list('abc'))

df

Unnamed: 0,a,b,c
A,1,2,3
B,7,8,9
C,13,14,15


In [8]:
df.loc['D'] = [19,20,21]  # 새로운 행 추가
df

Unnamed: 0,a,b,c
A,1,2,3
B,7,8,9
C,13,14,15
D,19,20,21


In [9]:
df['d'] = [4,10,16,22]  # 새로운 열 추가
df

Unnamed: 0,a,b,c,d
A,1,2,3,4
B,7,8,9,10
C,13,14,15,16
D,19,20,21,22


### Series를 이용해서 새로운 행 또는 열을 추가
- 시리즈 객체를 이용해서 새로운 행 또는 열을 추가할 때는 **기존 데이터 프레임과 같은 인덱스**를 갖도록 작성한다.
- 인덱스를 정확하게 명시하지 않으면 추가되는 요소는 NaN으로 초기화 된다.

In [10]:
df2 = df.copy()
df2.loc['F'] = pd.Series([31,32,33,34])  # 인덱스를 명시하지 않으면 NaN으로 표시됨 
df2

Unnamed: 0,a,b,c,d
A,1.0,2.0,3.0,4.0
B,7.0,8.0,9.0,10.0
C,13.0,14.0,15.0,16.0
D,19.0,20.0,21.0,22.0
F,,,,


In [11]:
df.loc['F'] = pd.Series([31,32,33,34], index=df.columns)  # index 파라미터에 df의 컬럼정보 넣기
df

Unnamed: 0,a,b,c,d
A,1,2,3,4
B,7,8,9,10
C,13,14,15,16
D,19,20,21,22
F,31,32,33,34


### 임의의 위치에 열 삽입
- df.insert(위치, 컬럼명, 값)

In [13]:
df.insert(1, 'K', [1,1,1,1,1])
df

Unnamed: 0,a,K,b,c,d
A,1,1,2,3,4
B,7,1,8,9,10
C,13,1,14,15,16
D,19,1,20,21,22
F,31,1,32,33,34


## 행/열의 변경

In [5]:
df = pd.DataFrame(np.arange(1,10).reshape(3,3), columns=list('abc'))
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


### df.reindex()
- 새로운 행 또는 열을 추가한다
- 추가되는 행 또는 열의 요소는 NaN으로 초기화된다. (fill_value 매개변수를 통해 특정값으로 초기화가능)
- 실행 결과는 원본에 영향을 주지 않음 즉, **새로운 데이터프레임 객체를 반환**한다.
- 데이터프레임의 인덱스 구조를 재정의

In [16]:
df.reindex(index=[0,1,2,3], columns=list('abcd'), fill_value=0)

Unnamed: 0,a,b,c,d
0,1,2,3,0
1,4,5,6,0
2,7,8,9,0
3,0,0,0,0


In [17]:
df # 실행결과는 원본에 영향을 주지 않음

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


- 행 또는 열의 순서를 임의로 섞을 수도 있다
- 기존에 존재하던 라벨을 생략해서 행 또는 열을 삭제할 수도 있다.

In [7]:
df.reindex(index=[0,1], columns=['b','a', 'b'])

Unnamed: 0,b,a,b.1
0,2,1,2
1,5,4,5


### df.set_index()
- 열을 인덱스로 만든다.
- df.set_index(열이름, inplace=True), inplace=True: 원본을 변경

In [8]:
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [9]:
df.set_index('a', inplace=True)

In [10]:
df

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,3
4,5,6
7,8,9


### df.reset_index()
- 인덱스를 열 데이터로 추가
- 인덱스 초기화: drop=True 인수를 전달하면 기존 인덱스를 삭제하고 기본값으로 다시 초기화 한다

In [11]:
df.reset_index()  # 인덱스로 바뀐 a컬럼을 다시 컬럼으로 바꿈

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [12]:
df.reset_index(drop=True)

Unnamed: 0,b,c
0,2,3
1,5,6
2,8,9


## 행/열의 삭제
- 실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임을 반환(inplace=False가 기본값)
- 열 제거
  - del df[삭제하고자 하는 컬럼명]
  - df.drop(컬럼명 목록, axis=1): 삭제하고자하는 컬럼을 리스트로 전달하여 여러 개 삭제 가능, axis의 디폴트값은 0
  - df.drop(columns=컬럼명 목록): axis 옵션x

- 행 제거
  - df.drop(행명 목록), axis=0 이 기본값이므로 생략해도 됨
  - df.drop(rows=행명 목록)

In [13]:
df = pd.DataFrame([[1,2],[3,4]], index=['A', 'B'], columns=['a','b'])
df

Unnamed: 0,a,b
A,1,2
B,3,4


In [14]:
df.drop('A')  # 행 삭제

Unnamed: 0,a,b
B,3,4


In [15]:
df.drop('a', axis=1)  # 열 삭제

Unnamed: 0,b
A,2
B,4


## 행/열 이름 바꾸기

In [16]:
df = pd.DataFrame(np.random.randint(1, 100, (4,4)))
df

Unnamed: 0,0,1,2,3
0,41,42,84,95
1,91,31,96,70
2,42,56,63,10
3,28,15,76,30


In [17]:
df.columns = ['C1','C2','C3','C4']   # 컬럼명 바꾸기
df.index = list('abcd')
df

Unnamed: 0,C1,C2,C3,C4
a,41,42,84,95
b,91,31,96,70
c,42,56,63,10
d,28,15,76,30


### 특정 행/열의 이름만 바꾸기
- df.rename(index=dictionary객체): 딕셔너리의 키: 기존의 인덱스, 값: 바꾸고자하는 인덱스
- df.rename(columns=dictionary객체)
- 실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임을 반환(inplace=False가 기본값)

In [18]:
df.rename(index={'a':'A'}, inplace=True) # 특정 행 이름 바꾸기
df.rename(columns={'C1':'국어'}, inplace=True) # 특정 열 이름 바꾸기
df

Unnamed: 0,국어,C2,C3,C4
A,41,42,84,95
b,91,31,96,70
c,42,56,63,10
d,28,15,76,30


### 컬럼 이름의 특정 문자 바꾸기

In [21]:
df.index = list('ABCD')
df.columns = ['1기 A반', '1기 B반', '2기 A반', '2기 B반']
df

Unnamed: 0,1기 A반,1기 B반,2기 A반,2기 B반
A,41,42,84,95
B,91,31,96,70
C,42,56,63,10
D,28,15,76,30


- str 모듈은 문자열을 다루는 함수

In [22]:
df.columns = df.columns.str.replace(' ', '_')  # 문자열을 다루는 함수를 사용하기 위해서는 str모듈을 불러오고 사용해야함
df

Unnamed: 0,1기_A반,1기_B반,2기_A반,2기_B반
A,41,42,84,95
B,91,31,96,70
C,42,56,63,10
D,28,15,76,30


### 컬럼명에 접두사 및 접미사 붙이기
- df.add_prefix()
- df.add_suffix()

In [23]:
df = df.add_prefix('KDM') # 접두사 붙이기
df

Unnamed: 0,KDM1기_A반,KDM1기_B반,KDM2기_A반,KDM2기_B반
A,41,42,84,95
B,91,31,96,70
C,42,56,63,10
D,28,15,76,30


## 데이터프레임 간의 조합

In [25]:
df = pd.DataFrame([[1,2],[3,4]], index=['A', 'B'], columns=['a','b'])
df

Unnamed: 0,a,b
A,1,2
B,3,4


pd.concat()
- 두 개 이상의 데이터프레임을 행 또는 열 방향으로 연결한다.
- 열 방향으로 연결하고자 할 경우 axis=1 인자를 전달한다. (default: axis=0)
- 행 방향으로 연결하고자 할 경우 열 이름이 같아야하고
- 열 방향으로 연결하고자 할 경우 행 이름이 같아야 한다.

In [26]:
df2 = pd.concat([df, df])  # 연결하고자 하는 df를 리스트로 전달, 행방향으로 연결
df2

Unnamed: 0,a,b
A,1,2
B,3,4
A,1,2
B,3,4


In [27]:
df3 = pd.concat([df,df], axis=1)  # 열 방향으로 연결
df3

Unnamed: 0,a,b,a.1,b.1
A,1,2,1,2
B,3,4,3,4


# 집계함수
- 모든 집계함수는 axis=0을 기본 값으로 한다. (열방향의 집계)
- df.mean: 각 행/열에 대한 평균을 산출한다.
- df.std: 각 행/열에 대한 표준편차를 산출한다.
- df.min()/df.max(): 각 행/열에 대한 최소, 최대값을 산출한다

[문제] Series, DataFrame 생성 및 연산
- (1) 각 컬럼값은 시리즈 객체로 생성
- (2) 앞서 만든 Series 객체를 이용해 DataFrame 생성
- (3) 데이터 프레임 정보 확인 후 각 과목의 합계를 계산한 컬럼 추가
- (4) 각 과목의 합계를 계산한 컬럼 추가
- (5) 각 과목의 평균을 계산한 컬럼 추가

In [55]:
index_name = ['홍길동', '임꺽정', '전우치', '손오공', '저팔계', '사오정']
major = pd.Series(['컴퓨터공학과','수학과','정보통신학과','수학과','컴퓨터공학과','컴퓨터공학과'], index=name)
math = pd.Series([97,88,91,76,88,87], index=name)
korean = pd.Series([88,89,85,90,88,77], index=name)
english = pd.Series([90,100,96,91,80,90], index=name)

df = pd.DataFrame({'전공':major, '수학':math, '국어':korean, '영어':english})
df

Unnamed: 0,전공,수학,국어,영어
홍길동,컴퓨터공학과,97,88,90
임꺽정,수학과,88,89,100
전우치,정보통신학과,91,85,96
손오공,수학과,76,90,91
저팔계,컴퓨터공학과,88,88,80
사오정,컴퓨터공학과,87,77,90


In [59]:
df.shape
df.head()
df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, 홍길동 to 사오정
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   전공      6 non-null      object
 1   수학      6 non-null      int64 
 2   국어      6 non-null      int64 
 3   영어      6 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 240.0+ bytes


Unnamed: 0,수학,국어,영어
count,6.0,6.0,6.0
mean,87.833333,86.166667,91.166667
std,6.853223,4.792355,6.765107
min,76.0,77.0,80.0
25%,87.25,85.75,90.0
50%,88.0,88.0,90.5
75%,90.25,88.75,94.75
max,97.0,90.0,100.0


In [62]:
df['합계'] = df.loc[:,'수학':'영어'].sum(axis=1)
# df.[['수학','국어','영어']].sum(axis=1)
df
df['평균'] = df.loc[:,'수학':'영어'].mean(axis=1)
df

Unnamed: 0,전공,수학,국어,영어,합계,평균
홍길동,컴퓨터공학과,97,88,90,275,91.666667
임꺽정,수학과,88,89,100,277,92.333333
전우치,정보통신학과,91,85,96,272,90.666667
손오공,수학과,76,90,91,257,85.666667
저팔계,컴퓨터공학과,88,88,80,256,85.333333
사오정,컴퓨터공학과,87,77,90,254,84.666667


In [66]:
# 평균값 포맷 적용하기
df['평균'] = df['평균'].apply(float)
df['평균'] = df['평균'].apply(lambda x: f'{x:.2f}')

In [67]:
df['평균'] = df['평균'].apply(float)
df

Unnamed: 0,전공,수학,국어,영어,합계,평균
홍길동,컴퓨터공학과,97,88,90,275,91.67
임꺽정,수학과,88,89,100,277,92.33
전우치,정보통신학과,91,85,96,272,90.67
손오공,수학과,76,90,91,257,85.67
저팔계,컴퓨터공학과,88,88,80,256,85.33
사오정,컴퓨터공학과,87,77,90,254,84.67


# 결측값 처리

In [68]:
import numpy as np
import pandas as pd

data = np.random.randint(0,10,(5,5))
df = pd.DataFrame(data, index=list('ABCDE'), columns=list('abcde'))

df

Unnamed: 0,a,b,c,d,e
A,2,6,0,2,0
B,3,6,9,2,5
C,2,2,8,6,5
D,6,7,6,7,3
E,8,4,6,3,8


In [69]:
# 결측값 설정
df.at['B','c'] = np.nan
df.at['D','e'] = np.nan
df

Unnamed: 0,a,b,c,d,e
A,2,6,0.0,2,0.0
B,3,6,,2,5.0
C,2,2,8.0,6,5.0
D,6,7,6.0,7,
E,8,4,6.0,3,8.0


## df.isna(), df.notna()
- 데이터가 NaN인지 아닌지 검사

In [70]:
checked_nan = df.isna()
print(checked_nan)

       a      b      c      d      e
A  False  False  False  False  False
B  False  False   True  False  False
C  False  False  False  False  False
D  False  False  False  False   True
E  False  False  False  False  False


In [71]:
print(checked_nan.sum())  # True의 값의 개수를 컬럼별 집계

a    0
b    0
c    1
d    0
e    1
dtype: int64


## df.dropna()
- 결측값을 포함한 행 또는 열을 삭제한다.
- 기본값은 결측값이 존재하는 행을 모두 제거하는 방식이다.
- axis=1 인수를 설정하면 결측값이 있는 열을 제거할 수 있다.

In [72]:
df.dropna()

Unnamed: 0,a,b,c,d,e
A,2,6,0.0,2,0.0
C,2,2,8.0,6,5.0
E,8,4,6.0,3,8.0


In [73]:
df.dropna(axis=1)

Unnamed: 0,a,b,d
A,2,6,2
B,3,6,2
C,2,2,6
D,6,7,7
E,8,4,3


- sunbset 인수를 설정하면 모든 컬럼이 아닌 특정 컬럼의 결측값 데이터만 삭제한다.

In [74]:
df.dropna(subset=['c'])   # c컬럼에 결측값이 있는 행 삭제

Unnamed: 0,a,b,c,d,e
A,2,6,0.0,2,0.0
C,2,2,8.0,6,5.0
D,6,7,6.0,7,
E,8,4,6.0,3,8.0


## df.fillna()
- 결측값을 다른 값으로 채운다

In [75]:
df.fillna(-999)

Unnamed: 0,a,b,c,d,e
A,2,6,0.0,2,0.0
B,3,6,-999.0,2,5.0
C,2,2,8.0,6,5.0
D,6,7,6.0,7,-999.0
E,8,4,6.0,3,8.0


In [76]:
df['c'] = df['c'].fillna(df['c'].mean())   # c 컬럼에 있는 결측치에 평균값 넣기
df

Unnamed: 0,a,b,c,d,e
A,2,6,0.0,2,0.0
B,3,6,5.0,2,5.0
C,2,2,8.0,6,5.0
D,6,7,6.0,7,
E,8,4,6.0,3,8.0


- method 인자를 사용하면 열 기준 바로 앞/뒤에 있는 값으로 채운다.
- method='pad' or method='fill' : 앞의 값으로 채운다
- method='backfill' or method='bfill' : 뒤의 값으로 채운다

In [79]:
df.fillna(method='pad')

Unnamed: 0,a,b,c,d,e
A,2,6,0.0,2,0.0
B,3,6,5.0,2,5.0
C,2,2,8.0,6,5.0
D,6,7,6.0,7,5.0
E,8,4,6.0,3,8.0


In [80]:
df.fillna(method='bfill')

Unnamed: 0,a,b,c,d,e
A,2,6,0.0,2,0.0
B,3,6,5.0,2,5.0
C,2,2,8.0,6,5.0
D,6,7,6.0,7,8.0
E,8,4,6.0,3,8.0


# 데이터 중복 제거

In [81]:
df = pd.DataFrame({'k1':['one','two']*3+['two'], 'k2':[1,1,2,3,3,4,4]})
df

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


## 중복 데이터 검사: df.duplicated()
- 각 행의 중복여부를 검사해서 True/False로 알려준다

In [82]:
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

## df.drop_duplicates()
- 모든 컬럼에 대해 중복값을 갖는 행을 제거한다

In [83]:
df.drop_duplicates()  # 중복되는 마지막행 삭제됨

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


## df.drop_duplicates(컬럼명 목록)
- 매개변수로 주어진 컬럼명 목록에 대해 같은 값을 갖는 행을 제거한다

In [84]:
df['k3'] = np.arange(7)
df

Unnamed: 0,k1,k2,k3
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [85]:
df.drop_duplicates(['k1','k2'])

Unnamed: 0,k1,k2,k3
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5


### Keep='last' 파라미터
- drop, duplicates : 기본적으로 처음 발견될 값을 유지한다 
- keep='last 옵션을 지정하면 마지막으로 발견될 값을 유지한다

In [87]:
df.drop_duplicates(['k1', 'k2'], keep='last')

Unnamed: 0,k1,k2,k3
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


# 데이터프레임 재구조화

## pd.pivot_table(), df.pivot_table()
- 피벗테이블: 기존 데이터를 기반으로 합계, 평균 등의 통계를 산출할 목적으로 새로운 표를 만드는 기능
- df.pivot_table(index=행방향 컬럼, columns=열방향 컬럼, values=집계대상 컬럼, aggfunc=구할 통계값)

In [91]:
df = pd.DataFrame(np.arange(16).reshape(4,4),
                 index=list('ABCD'), columns=list('abcd'))

year_df = pd.DataFrame([2019, 2020, 2019, 2020],
                 index=list('ABCD'), columns=['year']) 

class_df = pd.DataFrame(list('AABB'),
                 index=list('ABCD'), columns=['class'])

df = pd.concat([year_df, class_df, df], axis=1)
df

Unnamed: 0,year,class,a,b,c,d
A,2019,A,0,1,2,3
B,2020,A,4,5,6,7
C,2019,B,8,9,10,11
D,2020,B,12,13,14,15


In [92]:
pd.pivot_table(df, index='year', columns='class')

Unnamed: 0_level_0,a,a,b,b,c,c,d,d
class,A,B,A,B,A,B,A,B
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2019,0,8,1,9,2,10,3,11
2020,4,12,5,13,6,14,7,15


In [94]:
pd.pivot_table(df, index=['year', 'class'])

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
year,class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019,A,0,1,2,3
2019,B,8,9,10,11
2020,A,4,5,6,7
2020,B,12,13,14,15


- 중복된 컬럼의 항목은 하나로 합쳐지고 그 값의 평균을 기본 집계함수로 이용한다

In [99]:
pd.pivot_table(df, index='year', values=['a','b','c','d'], aggfunc=[np.sum, np.mean]) # 집계함수를 합계, 평균으로 지정

Unnamed: 0_level_0,sum,sum,sum,sum,mean,mean,mean,mean
Unnamed: 0_level_1,a,b,c,d,a,b,c,d
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2019,8,10,12,14,4,5,6,7
2020,16,18,20,22,8,9,10,11


[실습] 피벗 테이블 실습

In [100]:
sr_year = pd.Series([2020]*4+[2021]*4+[2022]*4)  # 연도
sr_quarter = pd.Series(['1Q','2Q','3Q','4Q']*3)  # 분기
np.random.seed(0)
sr_sales = pd.Series(np.random.randint(500, 6000, 12))  # 판매량
sr_cost = pd.Series(np.random.randint(100, 1200, 12)) # 비용

df = pd.DataFrame({'year':sr_year, 'quarter':sr_quarter, 'sales':sr_sales, 'cost':sr_cost})
df

Unnamed: 0,year,quarter,sales,cost
0,2020,1Q,3232,274
1,2020,2Q,3107,949
2,2020,3Q,2153,637
3,2020,4Q,3764,945
4,2021,1Q,5431,172
5,2021,2Q,5359,877
6,2021,3Q,1533,215
7,2021,4Q,4873,1076
8,2022,1Q,3968,855
9,2022,2Q,1205,548


- 'benefit' 컬럼 추가

In [101]:
df['benefit'] = df['sales'] - df['cost']
df

Unnamed: 0,year,quarter,sales,cost,benefit
0,2020,1Q,3232,274,2958
1,2020,2Q,3107,949,2158
2,2020,3Q,2153,637,1516
3,2020,4Q,3764,945,2819
4,2021,1Q,5431,172,5259
5,2021,2Q,5359,877,4482
6,2021,3Q,1533,215,1318
7,2021,4Q,4873,1076,3797
8,2022,1Q,3968,855,3113
9,2022,2Q,1205,548,657


- 피봇 테이블을 이용하여 연도별 분기 이익 데이터 확인

In [102]:
pd.pivot_table(df, index='year', columns='quarter', values='benefit')

quarter,1Q,2Q,3Q,4Q
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020,2958,2158,1516,2819
2021,5259,4482,1318,3797
2022,3113,657,2149,2436


In [104]:
df_pivot = pd.pivot_table(df, index=['year', 'quarter'], values='benefit')
df_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,benefit
year,quarter,Unnamed: 2_level_1
2020,1Q,2958
2020,2Q,2158
2020,3Q,1516
2020,4Q,2819
2021,1Q,5259
2021,2Q,4482
2021,3Q,1318
2021,4Q,3797
2022,1Q,3113
2022,2Q,657


In [105]:
df_pivot.index    # 튜플값

MultiIndex([(2020, '1Q'),
            (2020, '2Q'),
            (2020, '3Q'),
            (2020, '4Q'),
            (2021, '1Q'),
            (2021, '2Q'),
            (2021, '3Q'),
            (2021, '4Q'),
            (2022, '1Q'),
            (2022, '2Q'),
            (2022, '3Q'),
            (2022, '4Q')],
           names=['year', 'quarter'])

In [107]:
pd.pivot_table(df, index='year', values='benefit', aggfunc=['mean', 'sum'])   # 각연도별 이익에 대한 평균과 합계

Unnamed: 0_level_0,mean,sum
Unnamed: 0_level_1,benefit,benefit
year,Unnamed: 1_level_2,Unnamed: 2_level_2
2020,2362.75,9451
2021,3714.0,14856
2022,2088.75,8355


## 다중인덱스
- index, columns에 중첩 배열을 전달하여 다중 인덱스를 설정할 수 있다.

In [108]:
df = pd.DataFrame(np.arange(16).reshape(4,4),
                 index=[[1,2,3,4], ['Java','Python','Java','Python']],
                 columns=[['1기','1기','2기','2기'],['오전','오후','오전','오후']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,1기,1기,2기,2기
Unnamed: 0_level_1,Unnamed: 1_level_1,오전,오후,오전,오후
1,Java,0,1,2,3
2,Python,4,5,6,7
3,Java,8,9,10,11
4,Python,12,13,14,15


In [111]:
df['1기']

Unnamed: 0,Unnamed: 1,오전,오후
1,Java,0,1
2,Python,4,5
3,Java,8,9
4,Python,12,13


In [112]:
df['1기', '오후']

1  Java       1
2  Python     5
3  Java       9
4  Python    13
Name: (1기, 오후), dtype: int32

In [113]:
df.loc[1, '1기']  # 1행에서 1기에 해당하는 값

Unnamed: 0,오전,오후
Java,0,1


# 그룹핑
- 특정 값을 기준으로 몇 개의 그룹으로 분할하여 처리하는 방식

In [116]:
df = pd.DataFrame({'A':['chol', 'young']*3+['chol'],
                   'B':['one', 'one', 'two', 'one', 'two', 'two', 'one'],
                   'C': np.random.randn(7),
                   'D': np.random.randn(7)})
df

Unnamed: 0,A,B,C,D
0,chol,one,-0.181583,0.680567
1,young,one,1.410205,-1.563497
2,chol,two,-0.374472,-0.566698
3,young,one,0.275198,-0.24215
4,chol,two,-0.960755,1.514391
5,young,two,0.376927,-0.333057
6,chol,one,0.033439,0.047365


## 그룹 객체 만들기

In [119]:
grouped = df.groupby('B')  
print(grouped)

for key, group in grouped:   # key: B컬럼의 유니크 값, group: 키 별 그룹 객체
    print('key:', key)
    print(group.head)
    print('-'*30)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000014FD22F0190>
key: one
<bound method NDFrame.head of        A    B         C         D
0   chol  one -0.181583  0.680567
1  young  one  1.410205 -1.563497
3  young  one  0.275198 -0.242150
6   chol  one  0.033439  0.047365>
------------------------------
key: two
<bound method NDFrame.head of        A    B         C         D
2   chol  two -0.374472 -0.566698
4   chol  two -0.960755  1.514391
5  young  two  0.376927 -0.333057>
------------------------------


In [120]:
# 특정 그룹만 선택할 수도 있다
one_group = grouped.get_group('one')
one_group.head()

Unnamed: 0,A,B,C,D
0,chol,one,-0.181583,0.680567
1,young,one,1.410205,-1.563497
3,young,one,0.275198,-0.24215
6,chol,one,0.033439,0.047365


## 그룹 연산
- 그룹별 통계치 구하기
  - df.groupby(컬럼명)[컬럼명 목록].통계함수(): DataFrame중 지정한 컬럼들에 대해 그룹별 통계치를 구함
      - 통계함수: sum, mean, std, var, min, max, count, quantile ...

In [122]:
df.groupby('B')[['C','D']].sum()  # 리스트 형태로 컬럼들 지정

Unnamed: 0_level_0,C,D
B,Unnamed: 1_level_1,Unnamed: 2_level_1
one,1.537259,-1.077714
two,-0.958299,0.614636


In [123]:
data = pd.read_csv('./sales.csv')   # 외부 파일 읽기
data

Unnamed: 0,부서,순위,연도,매출액
0,영업1팀,1,2014,876
1,해외영업팀,2,2014,789
2,영업2팀,3,2014,788
3,영업1팀,3,2015,788
4,영업2팀,1,2015,980
5,해외영업팀,2,2015,877
6,해외영업팀,3,2017,657
7,영업1팀,1,2017,910
8,영업2팀,2,2017,755
9,해외영업팀,1,2018,987


In [124]:
data.groupby('부서')['매출액'].sum()   # 부서별 매출액의 합계, Series로 반환

부서
영업1팀     3334
영업2팀     3193
해외영업팀    3310
Name: 매출액, dtype: int64

In [125]:
data.groupby('부서')[['매출액']].sum()   # 리스트 형태로 컬럼 지정시 df으로 반환

Unnamed: 0_level_0,매출액
부서,Unnamed: 1_level_1
영업1팀,3334
영업2팀,3193
해외영업팀,3310


In [126]:
# groupby 조건에 여러 개 설정
data.groupby(['부서','연도'])[['매출액']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,매출액
부서,연도,Unnamed: 2_level_1
영업1팀,2014,876
영업1팀,2015,788
영업1팀,2017,910
영업1팀,2018,760
영업2팀,2014,788
영업2팀,2015,980
영업2팀,2017,755
영업2팀,2018,670
해외영업팀,2014,789
해외영업팀,2015,877


In [127]:
# pivot table로 만들기
data.pivot_table(index=['부서','연도'], values='매출액', aggfunc='sum')

Unnamed: 0_level_0,Unnamed: 1_level_0,매출액
부서,연도,Unnamed: 2_level_1
영업1팀,2014,876
영업1팀,2015,788
영업1팀,2017,910
영업1팀,2018,760
영업2팀,2014,788
영업2팀,2015,980
영업2팀,2017,755
영업2팀,2018,670
해외영업팀,2014,789
해외영업팀,2015,877


## Aggregation
- df.groupby(컬럼명)[컬럼명].agg([통계함수1, 통계함수2])
- agg에 사용자 정의 함수도 넣을 수 있음

In [129]:
grouped = data.groupby('부서')

In [130]:
# 부서별 최대 매출액과 최소 매출액의 차이 계산 함수
def min_max(x):
    return x.max() - x.min()

grouped['매출액'].agg(min_max)   # agg(lambda(x:x.max() - x.min()))

부서
영업1팀     150
영업2팀     310
해외영업팀    330
Name: 매출액, dtype: int64

In [131]:
grouped['매출액'].agg(['sum','mean','max','min'])

Unnamed: 0_level_0,sum,mean,max,min
부서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
영업1팀,3334,833.5,910,760
영업2팀,3193,798.25,980,670
해외영업팀,3310,827.5,987,657


# 시계열 데이터

## pd.data_range()
- start: 시작 날짜
- periods: 생성할 timestamp 개수
- freq: 시간 간격  (D: 1일(기본값), nD: n일 간격, W: 1주, M: 월말, MS: 월초, Q: 분기말, QS: 분기초, A: 연말, AS:연초)

In [133]:
dates = pd.date_range('20231110', periods=6)
print(type(dates)) # datetime 
print(dates) # 시작날짜 기준으로 6개의 타임스탬프 생성

<class 'pandas.core.indexes.datetimes.DatetimeIndex'>
DatetimeIndex(['2023-11-10', '2023-11-11', '2023-11-12', '2023-11-13',
               '2023-11-14', '2023-11-15'],
              dtype='datetime64[ns]', freq='D')


In [134]:
dates = pd.date_range('20230508', periods=6, freq='MS')
print(dates)  # 시작값은 이미 월초가 지났기 때문에 다음 월초인 6/1부터 시작

DatetimeIndex(['2023-06-01', '2023-07-01', '2023-08-01', '2023-09-01',
               '2023-10-01', '2023-11-01'],
              dtype='datetime64[ns]', freq='MS')


## pd.to_datetime()
- 문자열 등 다른 자료형을 판다스 timestamp를 나타내는 datetime64 자료형으로 변환 한다
- to_datetime을 사용하기 위해 날짜 포맷을 명시적으로 지정할 필요 

In [1]:
import pandas as pd

date_list = ['2023-01-01', '2023-02-01', '2023-03-01']
ts_date = pd.to_datetime(date_list)
print(ts_date)

DatetimeIndex(['2023-01-01', '2023-02-01', '2023-03-01'], dtype='datetime64[ns]', freq=None)


- 필요한 날짜와 시간 찾기
  ![image.png](attachment:3eec38ba-5afa-41ec-936e-15dd85ceee8c.png)

In [4]:
print(ts_date.year)  # 연도 정보만 출력
print(ts_date.month)  # 월 정보만 출력
print(ts_date.dayofweek)  # 요일 정보 출력 (월요일=0부터)

Index([2023, 2023, 2023], dtype='int32')
Index([1, 2, 3], dtype='int32')
Index([6, 2, 2], dtype='int32')


## dt 속성
- datetime 타입으로 변환된 column(datetime 타입의 Series 객체)에서 날짜 및 시간 정보를 추출하고 싶은 경우에는 dt 속성을 이용해야 합니다.

In [7]:
df = pd.DataFrame(
    {'날짜':['2023-01-01', '2023-02-01', '2023-03-01'],
     '매출':[1000,2000,3000]}
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   날짜      3 non-null      object
 1   매출      3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 180.0+ bytes


In [8]:
df['날짜'] = pd.to_datetime(df['날짜'])   # (날짜 타입으로 변환하고자하는 컬럼명)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   날짜      3 non-null      datetime64[ns]
 1   매출      3 non-null      int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 180.0 bytes


In [10]:
# df['날짜'].year  # error, 컬럼 타입은 시리즈 객체
df['날짜'].dt.year  # dt속성을 이용해서 컬럼의 날짜 속성 가져오기

0    2023
1    2023
2    2023
Name: 날짜, dtype: int32

In [11]:
df[df['날짜'].dt.month == 1]  # 1월에 대한 정보 가져오기 

Unnamed: 0,날짜,매출
0,2023-01-01,1000


## to_datetime()의 format
- format 속성은 지정한 포맷으로 변경하라는 의미가 아닌 원본 데이터를 주어진 포맷에 맞춰 해석하여 변경하라는 의미
- format 형식 참고:
- https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

In [15]:
values = {'dates':['05032023','16032023','28032023'],
         'status':['Opened','Opened','Closed']}
df = pd.DataFrame(values)
df['dates'] = pd.to_datetime(df['dates'], format='%d%m%Y')  # format: day/month/year, 포맷 지정해주지 않으면 에러 발생
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   dates   3 non-null      datetime64[ns]
 1   status  3 non-null      object        
dtypes: datetime64[ns](1), object(1)
memory usage: 180.0+ bytes


Unnamed: 0,dates,status
0,2023-03-05,Opened
1,2023-03-16,Opened
2,2023-03-28,Closed


In [16]:
values = {'dates':['05Mar2023','16Mar2023','28Mar2023'],
         'status':['Opened','Opened','Closed']}
df = pd.DataFrame(values)
df['dates'] = pd.to_datetime(df['dates'], format='%d%b%Y')
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   dates   3 non-null      datetime64[ns]
 1   status  3 non-null      object        
dtypes: datetime64[ns](1), object(1)
memory usage: 180.0+ bytes


Unnamed: 0,dates,status
0,2023-03-05,Opened
1,2023-03-16,Opened
2,2023-03-28,Closed


In [17]:
values = {'dates':['20230305093000','20230316102520','20230328012015'],
         'status':['Opened','Opened','Closed']}
df = pd.DataFrame(values)
df['dates'] = pd.to_datetime(df['dates'], format='%Y%m%d%H%M%S')
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   dates   3 non-null      datetime64[ns]
 1   status  3 non-null      object        
dtypes: datetime64[ns](1), object(1)
memory usage: 180.0+ bytes


Unnamed: 0,dates,status
0,2023-03-05 09:30:00,Opened
1,2023-03-16 10:25:20,Opened
2,2023-03-28 01:20:15,Closed


## pd.to_period()
- DatetimeIndex 객체를 PeriodIndex 객체로 변환
- freq: 변경하고자 하는 시간 간격

In [2]:
import pandas as pd

date_list = ['2023-01-01', '2023-02-01', '2023-03-01']
ts_date = pd.to_datetime(date_list)
print(ts_date)

DatetimeIndex(['2023-01-01', '2023-02-01', '2023-03-01'], dtype='datetime64[ns]', freq=None)


In [3]:
# 주 간격으로 변환
# 원본 날짜를 포함하는 월~일까지의 주 간격 날짜 데이터 생성
ps = ts_date.to_period(freq='W') 
print(ps)

PeriodIndex(['2022-12-26/2023-01-01', '2023-01-30/2023-02-05',
             '2023-02-27/2023-03-05'],
            dtype='period[W-SUN]')


In [4]:
ps = ts_date.to_period(freq='M')
print(ps)

PeriodIndex(['2023-01', '2023-02', '2023-03'], dtype='period[M]')


# 함수 매핑

## map()함수의 이용

In [5]:
import numpy as np

s = pd.Series(np.arange(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

In [6]:
s.map(lambda x:x**2)   # 이미 집합형 데이터(s)를 앞에 넣었기 때문에 람디식 뒤에 집합형 데이터 입력할 필요x 

0     0
1     1
2     4
3     9
4    16
5    25
6    36
7    49
8    64
9    81
dtype: int64

## map 함수를 이용한 데이터 수정 
- 데이터 전처리 중 하나인 labeling이나 one-hot encoding 처리 시 사용(명목형 데이터를 숫자 데이터로 변환하는 것)
- labeling: 명목형 데이터 정렬 후 각각 일련번호 붙여줌 

In [7]:
s = pd.Series(['A','B','B','A','C','B'])
print(s)

0    A
1    B
2    B
3    A
4    C
5    B
dtype: object


In [8]:
# labeliing
map_data = {'A':0, 'B':1, 'C':2}  # 각 명목형 데이터에 번호를 부여
s.map(map_data) # 시리즈 객체에 매핑시켜 명목형 데이터를 숫자 데이터로 변환

0    0
1    1
2    1
3    0
4    2
5    1
dtype: int64

## map을 DataFrame에 적용

In [20]:
df = pd.read_csv('wages.csv')   # 성별과 인종 컬럼에 명목형 데이터
print(df.shape)
df.head()

(1379, 6)


Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,male,white,16,49
1,96396.988643,66.23,female,white,16,62
2,48710.666947,63.77,female,white,16,33
3,80478.096153,63.22,female,other,16,95
4,82089.345498,63.08,female,white,17,43


In [12]:
df['sex'].unique()
df['sex'].value_counts()   # 유니크값에 대한 각각의 레코드 개수

sex
female    859
male      520
Name: count, dtype: int64

In [13]:
# 성별을 0,1로 수정
df['sex'] = df['sex'].map({'male':0, 'female':1}) # 딕셔너리를 이용 

In [16]:
df['sex'] = df['sex'].map(lambda x: 0 if x == 'male' else 1)  # 람다식을 이용

In [17]:
df

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,0,white,16,49
1,96396.988643,66.23,1,white,16,62
2,48710.666947,63.77,1,white,16,33
3,80478.096153,63.22,1,other,16,95
4,82089.345498,63.08,1,white,17,43
...,...,...,...,...,...,...
1374,30173.380363,71.68,0,white,12,33
1375,24853.519514,61.31,1,white,18,86
1376,13710.671312,63.64,1,white,12,37
1377,95426.014410,71.65,0,white,12,54


In [18]:
df['race'].unique()

array(['white', 'other', 'hispanic', 'black'], dtype=object)

In [19]:
# 명목형 데이터의 unique 값이 많을 때(하나하나 딕셔너리 입력하거나 삼항 연산자 사용 못할 때)
dic_race = {v:i for i,v in enumerate(df['race'].unique())}  # dictionary comprehension 사용 
df['race'] = df['race'].map(dic_race)
df

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,0,0,16,49
1,96396.988643,66.23,1,0,16,62
2,48710.666947,63.77,1,0,16,33
3,80478.096153,63.22,1,1,16,95
4,82089.345498,63.08,1,0,17,43
...,...,...,...,...,...,...
1374,30173.380363,71.68,0,0,12,33
1375,24853.519514,61.31,1,0,18,86
1376,13710.671312,63.64,1,0,12,37
1377,95426.014410,71.65,0,0,12,54


## replace()를 이용한 데이터 수정
- sr.replace()/시리즈의 replace(): 정확하게 일치하는 단어를 찾아 바꾼다. 일부만 매칭되지 않고 전체가 모두 매칭될 때 바꿈
  - 정규표현식에 의해 매칭되는 문자를 찾아 바꾸기 위해서는 regex=True 속성을 지정한다.(일부만 매칭돼도 바꾸도록)
- sr.str.replace(): 일부 단어라도 일치하는 단어를 찾는다. (파이썬 문자열의 replace함수와 동일) 

In [21]:
df['sex'].replace(['male','female'], [0, 1], inplace=True)  # ([orginal data], [new data])
df

Unnamed: 0,earn,height,sex,race,ed,age
0,79571.299011,73.89,0,white,16,49
1,96396.988643,66.23,1,white,16,62
2,48710.666947,63.77,1,white,16,33
3,80478.096153,63.22,1,other,16,95
4,82089.345498,63.08,1,white,17,43
...,...,...,...,...,...,...
1374,30173.380363,71.68,0,white,12,33
1375,24853.519514,61.31,1,white,18,86
1376,13710.671312,63.64,1,white,12,37
1377,95426.014410,71.65,0,white,12,54


In [30]:
df = pd.DataFrame({'Code':np.arange(3),
                  'Name':['(S)Note Book','(S)Note Book', '(S)PC']})
df

Unnamed: 0,Code,Name
0,0,(S)Note Book
1,1,(S)Note Book
2,2,(S)PC


In [24]:
# 전체가 정확히 일치하는 것만 바꾸기 때문에 변경되지 않는다
df['Name'] = df['Name'].replace('(S)', '(M)')
df

Unnamed: 0,Code,Name
0,0,(S)Note Book
1,1,(S)Note Book
2,2,(S)PC


In [29]:
# 정규표현식을 이용하여 일부만 매칭되는 값 바꾸기
df['Name'] = df['Name'].replace('\([A-Z]\)','(M)', regex=True)
df

Unnamed: 0,Code,Name
0,0,(M)Note Book
1,1,(M)Note Book
2,2,(M)PC


In [31]:
# str 모듈 사용 - 파이썬의 문자열 함수 사용 가능
df['Name'] = df['Name'].str.replace('(S)', '(M)')
df

Unnamed: 0,Code,Name
0,0,(M)Note Book
1,1,(M)Note Book
2,2,(M)PC


## apply()함수의 사용
- DataFrame에 사용자 정의 함수 적용하기

In [33]:
df = pd.read_csv('wages.csv')
df_sample = df[['earn', 'height', 'age']]
df_sample.head()

Unnamed: 0,earn,height,age
0,79571.299011,73.89,49
1,96396.988643,66.23,62
2,48710.666947,63.77,33
3,80478.096153,63.22,95
4,82089.345498,63.08,43


In [34]:
# 각 컬럼의 최대값과 최소값 차이 계산
df_sample.apply(lambda x: x.max() - x.min())  # apply(람다식, 사용자정의 함수명)

earn      318047.708444
height        19.870000
age           73.000000
dtype: float64

In [35]:
# 각 컬럼의 최대값과 최소값을 시리즈 객체로 반환
def f(x):
    return pd.Series([x.max(), x.min()], index=['max','min'])

df_sample.apply(f)

Unnamed: 0,earn,height,age
max,317949.127955,77.21,95
min,-98.580489,57.34,22


# DataFrame 합치기

## merge()
- 두 DataFrame에서 공통 컬럼(Primary Key, Foreign Key)이 필요

In [36]:
df1 = pd.DataFrame(
    {'번호': [10,20,30,40,50,60,70],
    '이름':['홍길동', '임꺽정', '전우치', '손오공', '저팔계', '사오정','삼장법사']}
)
df1

Unnamed: 0,번호,이름
0,10,홍길동
1,20,임꺽정
2,30,전우치
3,40,손오공
4,50,저팔계
5,60,사오정
6,70,삼장법사


In [37]:
df2 = pd.DataFrame(
    {'번호': [10,10,20,40,50,40,40,70,80],
    '금액':[1000,2000,4500,2500,60000,6600,9300,3500,10000]}
)
df2

Unnamed: 0,번호,금액
0,10,1000
1,10,2000
2,20,4500
3,40,2500
4,50,60000
5,40,6600
6,40,9300
7,70,3500
8,80,10000


In [38]:
# '번호'라는 공통 키를 기준으로 두 데이터를 병합
# inner join: 양쪽 데이터에 공통으로 있는 데이터에 대해 병합(교집합)
pd.merge(df1, df2)

Unnamed: 0,번호,이름,금액
0,10,홍길동,1000
1,10,홍길동,2000
2,20,임꺽정,4500
3,40,손오공,2500
4,40,손오공,6600
5,40,손오공,9300
6,50,저팔계,60000
7,70,삼장법사,3500


In [39]:
# outer join (합집합)
pd.merge(df1, df2, how='outer')

Unnamed: 0,번호,이름,금액
0,10,홍길동,1000.0
1,10,홍길동,2000.0
2,20,임꺽정,4500.0
3,30,전우치,
4,40,손오공,2500.0
5,40,손오공,6600.0
6,40,손오공,9300.0
7,50,저팔계,60000.0
8,60,사오정,
9,70,삼장법사,3500.0


In [40]:
# 왼쪽 데이터 프레임에 있는 컬럼값 기준으로 병합
# left inner
pd.merge(df1, df2, how='left')

Unnamed: 0,번호,이름,금액
0,10,홍길동,1000.0
1,10,홍길동,2000.0
2,20,임꺽정,4500.0
3,30,전우치,
4,40,손오공,2500.0
5,40,손오공,6600.0
6,40,손오공,9300.0
7,50,저팔계,60000.0
8,60,사오정,
9,70,삼장법사,3500.0


## join on
- 공통된 이름의 컬럼(key)이 없는 경우

In [42]:
df1 = pd.DataFrame(
    {'번호': [10,20,30,40,50,60,70],
    '이름':['홍길동', '임꺽정', '전우치', '손오공', '저팔계', '사오정','삼장법사']}
)

df2 = pd.DataFrame(
    {'고객번호': [10,10,20,40,50,40,40,70,80],
    '금액':[1000,2000,4500,2500,60000,6600,9300,3500,10000]}
)

In [43]:
pd.merge(df1, df2, left_on='번호', right_on='고객번호')
# drop을 이용해서 중복된 컬럼 삭제

Unnamed: 0,번호,이름,고객번호,금액
0,10,홍길동,10,1000
1,10,홍길동,10,2000
2,20,임꺽정,20,4500
3,40,손오공,40,2500
4,40,손오공,40,6600
5,40,손오공,40,9300
6,50,저팔계,50,60000
7,70,삼장법사,70,3500
