### Pandas

- 데이터 처리 및 분석을 위한 라이브러리
- 대용량 데이터를 안정적이면서도 간편하게 처리
- 서로 다른 데이터타입으로 열을 구성할 수 있음 <br>
(참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한
- 주요 기능
    - 데이터 입출력 : csv, excel, RDB 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용
    - 데이터 가공 : 분리, 결합, 계층, 피봇 등
    - 통계 분석 처리

#### 자료형
- Series <br>

    - 1차원 배열과 유사한 자료형
    - 색인(index) : 행 번호
        - 각각의 데이터에 부여하는 속성으로 기본값은 0부터 1씩 증가하는 숫자 지정
        - index 파라미터를 통해 새로운 값으로 변경 가능
        - 리스트, 튜플 타입으로 새로운 값을 전달해야하며 다차원 자료형은 사용할 수 없음
        - 전달하는 색인의 개수와 데이터의 개수가 일치해야 함
    - 각각의 색인과 데이터가 매핑되어 있으므로 dictionary 자료형과 유사
    - 여러 가지 데이터 타입 사용 가능

<img src="img/series_example.png" width="250" align="center">

In [None]:
# pandas 라이브러리 및 Series, DataFrame 클래스 불러오기
# 1번 방법
import pandas as pd

In [None]:
# 2번 방법
from pandas import Series, DataFrame

In [None]:
# Series 객체 생성
# 1번 방법
pd.Series()

In [None]:
# 2번 방법
Series()

### Series 생성

- 하나의 값(숫자, 문자) 또는 자료형(리스트, 튜플, np 배열)으로 데이터 전달

### Series 속성

- 속성은 소괄호를 붙이지 않음
- index : series 객체의 인덱스 배열
- values :  데이터(값) 배열
- name :  series 객체의 이름
- dtype :  데이터 타입
- size :  데이터 개수(길이)
- shape :  구조(행, 열)

In [None]:
# 숫자 10을 데이터로 가지고 있는 series
# 결과 해석 : 왼쪽 숫자 = 인덱스 번호(자동생성), 오른쪽 숫자 = 값
s1 = pd.Series(10)
s1

In [None]:
# 값 확인
s1.values

In [None]:
# 인덱스 번호
s1.index

In [None]:
# 문자 abc를 데이터로 전달한 series
s2 = pd.Series('abc')
s2

In [None]:
# 데이터 확인
s2.values

In [None]:
# 인덱스 확인
s2.index

In [None]:
# 리스트 자료형을 데이터로 전달한 series
s3 = pd.Series([10,20,30])
s3

In [None]:
# 데이터 확인
s3.values

In [None]:
# 인덱스 확인
s3.index

In [None]:
# 데이터타입이 서로 다른 리스트 자료형
s4 = pd.Series([10, 13.5, 'test', [1,2,3]])
s4

In [None]:
# 데이터 확인
s4.values

In [None]:
# 인덱스 확인
s4.index

In [None]:
# 튜플 자료형
s5 = pd.Series((10,20))
s5

In [None]:
# 데이터 확인
s5.values

In [None]:
# 인덱스 확인
s5.index

In [None]:
# 딕셔너리 자료형
s6 = pd.Series({'a':100, 'b':200, 'c':300})
s6

In [None]:
# 데이터 확인
s6.values

In [None]:
# 인덱스 확인
s6.index

In [None]:
# 인덱스 새롭게 지정하기
# 시리즈객체.index => 인덱스객체를 조회 => 할당기호(=)로 새로운 값 전달
# 데이터 타입 : 리스트 
# 조건 : 기존 인덱스 개수와 일치하게 전달
s5.index = ['x','y']

In [None]:
s5

In [None]:
s5.index = [0,1]
s5

In [None]:
s5.index

In [None]:
# 인덱스 객체에 대해서 일부 아이템 참조(인덱싱) : 가능
s6.index[0]

In [None]:
# 인덱스 객체의 아이템 수정 : 일부 아이템에 대해서 수정은 불가능
s6.index[0] = 'A'

In [None]:
s6.index = ['A', 'b','c']
s6

In [None]:
# 인덱스를 지정하여 객체 생성
# pd.Series(data, index=list())
s7 = pd.Series([10,20,30], index=[1,2,3])

In [None]:
# 데이터 확인
s7

### dictionary 자료형과 Series 자료형

In [None]:
# dictionary 자료형으로 series 생성
data = {'서울':100, '경기':200, '부산':300}
sample = pd.Series(data)

In [None]:
sample

In [None]:
# Series 객체와 in 연산자
# dictionary와 유사 : key에만 접근
100 in data
'서울' in data

In [None]:
100 in sample
'서울' in sample

In [None]:
# for문에서 in 연산자로 접근 : series의 value에 접근
for x in sample:
    print(x)

In [None]:
# dictionary 자료형으로 series 생성 시 key와 일치하지 않는 index
data

In [None]:
# series로 생성하려는 데이터
# 서울 경기 부산 + 강원
idx = ['서울', '경기', '부산', '강원']
s8 = pd.Series(data, index=idx)
s8

### 인덱싱(Indexing) 

- 하나의 특정 값을 선택하거나 변경
- 참조하는 인덱스 : 기본 숫자 인덱스(RangeIndex), 라벨 인덱스(Index)
- 새로운 인덱스를 설정해도 기본 숫자 인덱스 사용 가능

In [None]:
s8

In [None]:
# seires 인덱싱 문법 : series객체[인덱스번호] 또는 series객체[인덱스라벨]
# 참조할 수 있는 인덱스 : 서울 , 0
s8[0]
s8['서울']

In [None]:
# 값 수정
# 인덱스 : 일부 인덱스에 대해 인덱싱으로 수정 X
# s8.index[0] ='t'   => Error
# 데이터 : 일부 값에 대해 인덱싱으로 수정 O
s8[3] = 0

In [None]:
s8

In [None]:
# 여러 개의 인덱스에 대한 값 조회 : 멀티인덱싱 => 리스트로 전달
s8[['서울', '강원']]

In [None]:
# 여러 개의 인덱스를 조회 시 사용할 수 없는 데이터 타입 : 튜플타입은 안된다.
# 튜플 타입은 추후에 나올 계층인덱싱에서만 사용한다.
s8[('서울', '강원')]

### 슬라이싱(Slicing) 

- Series객체[시작인덱스 : 끝인덱스 : 간격]
- 특정 범위의 값을 선택하거나 변경
- 기본 숫자 인덱스 또는 새로운 인덱스 모두 사용 가능
- 기본 숫자 인덱스를 사용해서 슬라이싱 할 때는 끝 인덱스 미포함
- 라벨 인덱스를 사용해서 슬라이싱 할 때 끝 인덱스까지 모두 포함

In [None]:
# 데이터 : 10,20,30,40,50
# 인덱스 라벨 : a b c d e

s1 = pd.Series([10,20,30,40,50], index=list('abcde'))
s1

In [None]:
# 0,1번 인덱스 조회
s1[:2]

In [None]:
# 인덱스 라벨 'a'에서 'c'까지 조회
s1['a':'c']

In [None]:
# 간격 지정
s1[::2]

In [None]:
# 인덱스 'a'에서 인덱스 'd'(포함)까지 2개 간격으로 조회
s1['a':'d':2]

### 조건 색인(Boolean Indexing)

- 객체에 벡터와 스칼라 연산을 적용하여 True인 데이터만 반환

<img src="img/conditional_index.png" width="700" align="center">

In [None]:
# 양수와 음수의 데이터를 저장하고 있는 Series 생성
# 양수는 10을 기준으로 이상 미만의 범위로 생성
s2 = pd.Series([3,-2, 6,10,-11, 14,-5, 20])
s2

In [None]:
# 음수인 데이터만 조회
# step1. 조건식 작성
# step2. 전체 데이터에서 True인 값만 추출
tmp = s2[s2 < 0]

In [None]:
tmp.index

In [None]:
s2[tmp.index]

In [None]:
# 두 개 이상의 조건 처리 : 논리연산자(and, or)를 사용할 수 없다. => &, |로 사용
# 일반적인 조건문에서 논리연산자 : 조건식1 and 조건식2 / 조건식1 & 조건식2
# 양수이면서 10보다 작은 값
s2 > 0

In [None]:
s2 < 10

In [None]:
s2[(s2>0) & (s2<10)]

In [None]:
# and 키워드는 사용할 수 없다.
s2[(s2>0) and (s2<10)]

### 산술연산

- series 객체와 스칼라 값의 산술연산 => BroadCasting
- series 객체 간의 산술연산
    - 인덱스의 라벨이 동일한 것끼리 연산 수행, 공통으로 존재하지 않는 경우 NaN 반환
    - 라벨이 없는 경우 차례대로 연산 수행, 개수가 동일하지 않는 경우 NaN 반환
    - fill_value 인자를 통해 NaN이 아닌 특정 값으로 대체 가능
    
    <img src="img/series_math.png" width="500" align="center">
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [3]:
import pandas as pd

In [4]:
# 데이터 : 1,2,3,4
# 라벨 : abcd
s1 = pd.Series([1,2,3,4], index=list('abcd'))
s1

a    1
b    2
c    3
d    4
dtype: int64

In [6]:
# 데이터 : 10,20,30,40,50,60
# 라벨 : acdefg
s2 = pd.Series([10,20,30,40,50,60], index=list('acdefg'))
s2

a    10
c    20
d    30
e    40
f    50
g    60
dtype: int64

In [8]:
# series 객체와 스칼라 값의 산술연산
s1 * 3

a     3
b     6
c     9
d    12
dtype: int64

In [9]:
s1 + 10

a    11
b    12
c    13
d    14
dtype: int64

In [11]:
# series 객체 간의 더하기 연산
s1 + s2

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [15]:
# fill_value 파라미터 : 공통이 아닌 인덱스의 값에 NaN 대신 지정한 값을 사용
s1.add(s2, fill_value=0)

a    11.0
b     2.0
c    23.0
d    34.0
e    40.0
f    50.0
g    60.0
dtype: float64

In [16]:
# series 객체 간의 빼기 연산
s1 - s2

a    -9.0
b     NaN
c   -17.0
d   -26.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [18]:
s1.sub(s2)

a    -9.0
b     NaN
c   -17.0
d   -26.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [17]:
# series 객체 간의 곱하기 연산
s1 * s2

a     10.0
b      NaN
c     60.0
d    120.0
e      NaN
f      NaN
g      NaN
dtype: float64

In [19]:
s1.mul(s2)

a     10.0
b      NaN
c     60.0
d    120.0
e      NaN
f      NaN
g      NaN
dtype: float64

In [20]:
# series 객체 간의 나누기 연산
s1 / s2

a    0.100000
b         NaN
c    0.150000
d    0.133333
e         NaN
f         NaN
g         NaN
dtype: float64

In [21]:
s1.divide(s2)

a    0.100000
b         NaN
c    0.150000
d    0.133333
e         NaN
f         NaN
g         NaN
dtype: float64

In [22]:
# series 객체 간의 나머지 반환 연산
s1 % s2

a    1.0
b    NaN
c    3.0
d    4.0
e    NaN
f    NaN
g    NaN
dtype: float64

In [23]:
# series 객체 간의  몫 반환 연산
s1 // s2

a    0.0
b    NaN
c    0.0
d    0.0
e    NaN
f    NaN
g    NaN
dtype: float64

### 연습 문제 

#### 1. 실습 데이터 생성 : 1 ~ 100(미만) 사이의 랜덤 정수 값을 26개 저장한 Series를 생성하고 A~Z까지의 알파벳으로 라벨링 설정

In [24]:
import numpy as np

In [25]:
data = np.random.randint(1, 100, 26)
data

array([28, 63, 77, 48, 61, 25, 40, 31, 10, 26, 85, 99, 24, 56, 26, 13, 24,
       34, 52, 60, 26, 29, 47, 42, 20, 79])

In [28]:
sr1 = pd.Series(data, index=alphabet)
sr1

A    28
B    63
C    77
D    48
E    61
F    25
G    40
H    31
I    10
J    26
K    85
L    99
M    24
N    56
O    26
P    13
Q    24
R    34
S    52
T    60
U    26
V    29
W    47
X    42
Y    20
Z    79
dtype: int32

In [None]:
# idx = list('ABCD.....')

In [26]:
# 아스키코드를 이용해서 문자열 생성
# A : 65 ~ Z : 90 => chr()
# 아스키코드표 : https://ascii.cl/
alphabet = []
for code in range(65, 91):
    alphabet.append(chr(code))

In [27]:
alphabet

['A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z']

#### 2. 인덱스 라벨이 'K' 항목의 값 출력

In [29]:
sr1['K']

85

#### 3. 인덱스 라벨이 'A','F','C' 항목의 값 출력

In [32]:
sr1[['F','C','A']]

F    25
C    77
A    28
dtype: int32

#### 4. 5번 인덱스부터 15번 인덱스까지의 항목 출력

In [34]:
sr1[5:16]

F    25
G    40
H    31
I    10
J    26
K    85
L    99
M    24
N    56
O    26
P    13
dtype: int32

In [35]:
sr1['F':'P']

F    25
G    40
H    31
I    10
J    26
K    85
L    99
M    24
N    56
O    26
P    13
dtype: int32

#### 5. 뒤에서 5개 항목 출력

In [36]:
sr1[-5:]

V    29
W    47
X    42
Y    20
Z    79
dtype: int32

#### 6. 생성한 시리즈 항목의 개수를 출력

In [37]:
len(sr1)

26

In [38]:
sr1.size

26

#### 7. data 항목 값들의 평균보다 큰 항목만 출력 

In [43]:
# 1. 시리즈 값의 전체 평균 구하기
# 2. 평균 보다 큰 항목만 추출하기
s_mean = sr1.values.mean()

In [49]:
sr1[sr1 > s_mean]

B    63
C    77
D    48
E    61
K    85
L    99
N    56
S    52
T    60
W    47
Z    79
dtype: int32

#### 8. data의 항목 값 중에 50이 있는지 확인하여, 있으면 True, 없으면 False를 출력

In [50]:
50 in sr1

False

In [51]:
50 in sr1.values

False

#### 9. data의 인덱스 라벨과 각 항목 값을 아래와 같이 출력

- 출력 화면<br>
    index: A, value: XX <br>
    index: B, value: XX <br>
    index: C, value: XX 

In [55]:
range(5)

range(0, 5)

In [58]:
for idx, val in sr1.items():
    print('index : {}, value : {}'.format(idx, val))

index : A, value : 28
index : B, value : 63
index : C, value : 77
index : D, value : 48
index : E, value : 61
index : F, value : 25
index : G, value : 40
index : H, value : 31
index : I, value : 10
index : J, value : 26
index : K, value : 85
index : L, value : 99
index : M, value : 24
index : N, value : 56
index : O, value : 26
index : P, value : 13
index : Q, value : 24
index : R, value : 34
index : S, value : 52
index : T, value : 60
index : U, value : 26
index : V, value : 29
index : W, value : 47
index : X, value : 42
index : Y, value : 20
index : Z, value : 79


### DataFrame 생성 

- 2차원 배열과 유사한 자료형
- 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능
- 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사
- 하나의 컬럼은 하나의 Series로서 하나의 Dataframe은 여러 개의 Series 묶음으로 구성됨
- index 특징
    - row index(행 인덱스) : 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명(라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음
    - column index(열 인덱스) : 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음
    
<img src="img/df_example.png" width="500" align="center">

In [59]:
# 다차원 자료형, 딕셔너리 자료형을 사용
data1 = [ [1,2,3,4],
         [0.1,0.2,0.3,0.4],
         ['a','b','c','d'] ]

In [60]:
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,0.1,0.2,0.3,0.4
2,a,b,c,d


In [61]:
# 아이템 길이가 다른 다차원 리스트
data2 = [ [1,2,3,4,5,6],
          [0.1,0.2,0.3],
          ['a','b','c','d'] ]

In [62]:
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,0,1,2,3,4,5
0,1,2,3,4,5.0,6.0
1,0.1,0.2,0.3,,,
2,a,b,c,d,,


In [63]:
# value 길이가 동일한 딕셔너리 타입
dict1 = {'a':[1,2,3],
        'b':[10,20,30],
        'c':[100,200,300]}

In [64]:
df3 = pd.DataFrame(dict1)
df3

Unnamed: 0,a,b,c
0,1,10,100
1,2,20,200
2,3,30,300


In [65]:
# value 길이가 서로 다른 딕셔너리 타입
dict2 = {'a':[1,2],
        'b':[10,20,30],
        'c':[100,200,300]}

In [66]:
df4 = pd.DataFrame(dict2)
df4

ValueError: arrays must all be same length

In [69]:
# 인덱스를 지정하여 객체 생성 
# 행인덱스 : index 파라미터 => r1 r2 r3
# 열인덱스 : columns 파라미터 => c1 c2 c3 c4
df5 = pd.DataFrame(data1, index=['r1', 'r2', 'r3'], columns=['c1', 'c2', 'c3', 'c4'])
df5

Unnamed: 0,c1,c2,c3,c4
r1,1,2,3,4
r2,0.1,0.2,0.3,0.4
r3,a,b,c,d


In [72]:
# 딕셔너리 자료형을 사용할 때 컬럼 순서를 변경하여 df 생성 가능
pd.DataFrame(dict1, columns=list('bca'))

Unnamed: 0,b,c,a
0,10,100,1
1,20,200,2
2,30,300,3


In [73]:
# data에 없는 인덱스를 전달하는 경우 : 
pd.DataFrame(dict1, columns=list('bcd'))

Unnamed: 0,b,c,d
0,10,100,
1,20,200,
2,30,300,


DataFrame 속성

- 속성은 소괄호를 붙이지 않음
- index : df 객체의 행 인덱스 배열을 반환
- columns : df 객체의 열 인덱스 배열을 반환
- values : df 객체의 데이터(값)를 아이템으로 가지는 2차원 배열을 반환
- dtypes : df 객체의 데이터 타입을 열 기준으로 반환
- size : df 객체의 데이터 개수(길이)를 반환
- shape : df 객체의 구조(행, 열)를 반환
- T : 행과 열을 전환시킴

In [75]:
# 딕셔너리 타입 데이터로 데이터프레임 생성
# 지역(서울, 경기, 충청, 경상)별 2016, 2017, 2018년 유입인구
data = {'서울':[100,110,120],
       '경기':[130,150,170],
       '충청':[80,40,10],
       '경상':[10,20,10]}

In [78]:
sample = pd.DataFrame(data)

In [80]:
sample

Unnamed: 0,서울,경기,충청,경상
0,100,130,80,10
1,110,150,40,20
2,120,170,10,10


In [82]:
# 행 인덱스 : 행 개수와 동일하게 리스트 전달
sample.index = [2016, 2017, 2018]
sample

Unnamed: 0,서울,경기,충청,경상
2016,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [85]:
# 참고 : 행 인덱스 이름 지정
sample.index.name = 'year'
sample

Unnamed: 0_level_0,서울,경기,충청,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [88]:
# 열 인덱스
sample.columns.name ='city'
sample

city,서울,경기,충청,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [91]:
# 행 인덱스 수정
sample.index[0] = 2015

TypeError: Index does not support mutable operations

In [None]:
# 인덱스 수정
# df.rename(data, axis)
# 기본동작 : 행인덱스(axis=0)
# 열인덱스 : axis=1
# data : dictionary 타입 => {old1:new1, old2:new2 ...}
# inplace : 기본값(False), 원본에 덮어쓰기 적용 => inplace=True

In [93]:
sample

city,서울,경기,충청,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [96]:
# 행 인덱스 수정
sample.rename({2016:2015}, inplace=True)

In [97]:
sample

city,서울,경기,충청,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [100]:
# 열 인덱스 변경 
sample.columns[-2] ='강원'

TypeError: Index does not support mutable operations

In [103]:
sample.rename({'충청':'강원'}, axis=1, inplace=True)

In [104]:
sample

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [None]:
# 기존 인덱스 삭제하기/리셋
# df.reset_index() : 기존 인덱스가 없어지고 RangeIndex가 생성
# 기본동작 : 기존 인덱스가 컬럼으로 추가(drop=False)
# drop=True

In [106]:
sample.reset_index()

city,year,서울,경기,강원,경상
0,2015,100,130,80,10
1,2017,110,150,40,20
2,2018,120,170,10,10


In [107]:
sample.reset_index(drop=True)

city,서울,경기,강원,경상
0,100,130,80,10
1,110,150,40,20
2,120,170,10,10


In [108]:
# 값
sample.values

array([[100, 130,  80,  10],
       [110, 150,  40,  20],
       [120, 170,  10,  10]], dtype=int64)

In [109]:
# 각 열의 데이터 타입
sample.dtypes

city
서울    int64
경기    int64
강원    int64
경상    int64
dtype: object

In [110]:
# 전체 튜플(셀) 개수 : 행 x 열
sample.size

12

In [112]:
# 전체 행의 개수
len(sample)

3

In [111]:
# 데이터 구조(행, 열)
sample.shape

(3, 4)

In [114]:
# 행과 열을 전환
sample.T

year,2015,2017,2018
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,100,110,120
경기,130,150,170
강원,80,40,10
경상,10,20,10


In [115]:
sample

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


### 인덱싱

- 컬럼 조회
    - df[col]
    - df.col
    - df.get(col)
- iloc, loc 메서드로 로우 조회
    - df.iloc[idx] : 기본 숫자형 인덱스
    - df.loc[label] : 새롭게 지정한 인덱스(숫자형이어도 기본 인덱스가 아니면 모두 loc 메서드로 조회)

In [116]:
sample

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [120]:
# 기본적인 인덱싱 기법은 데이터프레임의 컬럼에서 값을 조회
# sample[2015]
sample['경기']
sample.경기
sample.get('경기')

year
2015    130
2017    150
2018    170
Name: 경기, dtype: int64

In [123]:
sample

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2017,110,150,40,20
2018,120,170,10,10


In [122]:
# 첫번째 행 조회 : 0번 인덱스 참조
sample.iloc[0]

city
서울    100
경기    130
강원     80
경상     10
Name: 2015, dtype: int64

In [125]:
# 행 라벨로 조회 : df.loc[label]
sample.loc[2015]

city
서울    100
경기    130
강원     80
경상     10
Name: 2015, dtype: int64

In [126]:
# 여러 개의 열 조회 : 멀티인덱싱
sample[['서울', '강원']]

city,서울,강원
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2015,100,80
2017,110,40
2018,120,10


In [127]:
# 여러 개의 행 조회
sample.iloc[[0,2]]

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,100,130,80,10
2018,120,170,10,10


In [132]:
# 인덱싱 결과에 다시 인덱싱
sample['서울'][[2015,2018]]

year
2015    100
2018    120
Name: 서울, dtype: int64

In [134]:
sample.iloc[1][['서울', '경기']]

city
서울    110
경기    150
Name: 2017, dtype: int64

In [138]:
sample

city,서울,경기,강원,경상
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,0,130,80,10
2017,0,150,40,20
2018,0,170,10,10


In [139]:
# sample['서울'] = 0
sample.get('서울') = 10

SyntaxError: can't assign to function call (<ipython-input-139-5beff4fa863b>, line 2)

### 슬라이싱

- 로우(행) 슬라이싱 
    - 순서가 있으며 로우 단독으로 슬라이싱 가능
    - 기본 슬라이싱 문법은 기본 숫자형 인덱스를 기준으로 적용
    - 기본 숫자형 인덱스로 슬라이싱할 때는 마지막 인덱스는 포함하지 않고 라벨 인덱스로 슬라이싱할 때는 마지막 인덱스를 포함
- 컬럼(열) 슬라이싱 
    - 순서가 없기 때문에 컬럼 단독으로 슬라이싱할 수 없음
    - 라벨 기준으로 로우 기준 슬라이싱 결과에 대해 컬럼 슬라이싱 가능(기본 숫자형 인덱스는 적용 불가)
    - 마지막 인덱스를 포함

In [1]:
import pandas as pd
# from pandas import Series, DataFrame

In [2]:
data = {'서울':[150, 180, 300],
        '경기':[200, 240, 450],
        '충청':[-10, 3, -13],
        '경상':[10,20,30],
        '전라':[5,6,7]}

In [3]:
sample = pd.DataFrame(data)
sample

Unnamed: 0,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [5]:
# 기본 로우 슬라이싱 : df[start(0):end(-1):step(1)]
# 행 기준 0번 인덱스부터 2번 인덱스까지 슬라이싱
sample[:3]

Unnamed: 0,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [10]:
# sample.shape => (3,5)
# 0번 인덱스부터 3번 인덱스까지 2 행 간격으로 슬라이싱
sample[0:4:2]
sample[::2]

Unnamed: 0,서울,경기,충청,경상,전라
0,150,200,-10,10,5
2,300,450,-13,30,7


In [11]:
# 전체 로우에 대해 간격을 -1로 지정 : 행을 거꾸로 나열
# array 타입에서 내림차순 정렬 또는 거꾸로 나열 : arr[::-1]
sample[::-1]

Unnamed: 0,서울,경기,충청,경상,전라
2,300,450,-13,30,7
1,180,240,3,20,6
0,150,200,-10,10,5


In [18]:
# 컬럼 슬라이싱 : 반드시 행에 대해 슬라이싱 한 후 열 슬라이싱을 적용할 수 있다.
# df[:, start:end:step]
# 인덱스 번호 : 1번 컬럼부터 4번컬럼까지 슬라이싱 
# 기본 숫자형 인덱스 기준으로 슬라이싱 => 현재 df가 컬럼명(라벨)을 사용하고 있기 때문에 X
sample[:, 1:4]

TypeError: '(slice(None, None, None), slice(1, 4, None))' is an invalid key

In [19]:
# loc 메서드를 써도, 로우 인덱스는 Range Index와 Label Index를 함께 쓸 수 있다.
sample.loc[0:2, :'경상']

Unnamed: 0,서울,경기,충청,경상
0,150,200,-10,10
1,180,240,3,20
2,300,450,-13,30


In [23]:
# 컬럼, 로우 인덱스 모두 기본 숫자형 인덱스인 경우
# 4x4
# 모든 값이 0인 데이터 프레임 생성
import numpy as np

data = np.zeros((5,5))
data

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [24]:
df1 = pd.DataFrame(data)
df1

Unnamed: 0,0,1,2,3,4
0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0


In [26]:
# 숫자형 슬라이싱
df1[1:4]

Unnamed: 0,0,1,2,3,4
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [27]:
# 숫자형 인덱스로 컬럼을 슬라이싱 할 경우 아래 문법 X
df1[1:4, 1:3]

TypeError: '(slice(1, 4, None), slice(1, 3, None))' is an invalid key

In [None]:
# 행에 대해서 2번 슬라이싱한 결과
df1[1:4][1:3]

In [30]:
# 1.컬럼 슬라이싱에서 사용하는 인덱스 : 기본 번호 인덱스
df1.iloc[1:4, 1:3]

Unnamed: 0,1,2
1,0.0,0.0
2,0.0,0.0
3,0.0,0.0


In [32]:
# 2.컬럼 슬라이싱에서 사용하는 인덱스 : 컬럼명(라벨)
sample.loc[:, '경기':'경상']

Unnamed: 0,경기,충청,경상
0,200,-10,10
1,240,3,20
2,450,-13,30


In [34]:
# sample index를 label index로 변경
# 1990, 1991, 1992
sample.index = [1990, 1991, 1992]
sample

Unnamed: 0,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1991,180,240,3,20,6
1992,300,450,-13,30,7


In [36]:
# 1990,1992 행에 대해서 경기, 경상 컬럼만 가져오기
# 컬럼을 먼저 조회
sample[['경기', '경상']].loc[[1990, 1992]]

Unnamed: 0,경기,경상
1990,200,10
1992,450,30


In [38]:
# 로우를 먼저 조회
sample.loc[[1990, 1992]][['경기', '경상']]

Unnamed: 0,경기,경상
1990,200,10
1992,450,30


In [41]:
# 1990 부터 1992
# 경기 부터 경상
sample.loc[1990:1992, '경기':'경상']

Unnamed: 0,경기,충청,경상
1990,200,-10,10
1991,240,3,20
1992,450,-13,30


### 연습문제

#### 아래와 같은 데이터프레임을 생성하고 출력화면과 동일한 결과를 생성하세요.

<img src="img/df_practice1.png" width="250" align="left">

In [49]:
data = {'col1' : [0,3,'ks01',2,5],
        'col2' : ['big', 'data', 'is', 'very', 'good'],
        'col3' : [2.7, -3, 4.2, -5.1, 6.7],
       'col4' : [True, True, False, False, True]
        }

df2 = pd.DataFrame(data)
df2

Unnamed: 0,col1,col2,col3,col4
0,0,big,2.7,True
1,3,data,-3.0,True
2,ks01,is,4.2,False
3,2,very,-5.1,False
4,5,good,6.7,True


In [51]:
df2.index = list('ABCDE')
df2

Unnamed: 0,col1,col2,col3,col4
A,0,big,2.7,True
B,3,data,-3.0,True
C,ks01,is,4.2,False
D,2,very,-5.1,False
E,5,good,6.7,True


In [52]:
# 1번
df2['col1']

A       0
B       3
C    ks01
D       2
E       5
Name: col1, dtype: object

In [53]:
df2[['col1']]

Unnamed: 0,col1
A,0
B,3
C,ks01
D,2
E,5


In [54]:
# 2번
df2[['col1', 'col3']]

Unnamed: 0,col1,col3
A,0,2.7
B,3,-3.0
C,ks01,4.2
D,2,-5.1
E,5,6.7


In [56]:
# 3번
df2.loc[['A','C']]

Unnamed: 0,col1,col2,col3,col4
A,0,big,2.7,True
C,ks01,is,4.2,False


In [57]:
df2.loc['A':'C':2]

Unnamed: 0,col1,col2,col3,col4
A,0,big,2.7,True
C,ks01,is,4.2,False


In [59]:
# 4번
# 1) 컬럼에 대해 멀티인덱싱 : 인덱싱 => 컬럼 먼저
# 2) 로우에 대해 슬라이싱 : 슬라이싱 => 인덱스 먼저
df2[['col1', 'col2']]['B':'D']

Unnamed: 0,col1,col2
B,3,data
C,ks01,is
D,2,very


In [61]:
# 1) 컬럼에 대해 멀티인덱싱 : 인덱싱 => 컬럼 먼저
# 2) 로우에 대해 멀티인덱싱 : 인덱싱 => 컬럼 먼저
df2[['col1', 'col2']].loc[['B','C','D']]

Unnamed: 0,col1,col2
B,3,data
C,ks01,is
D,2,very


In [64]:
# 1) 로우 먼저 슬라이싱
# 2) 컬럼 나중에 슬라이싱 : 컬럼 라벨 => loc
df2.loc['B':'D', 'col1':'col2']

Unnamed: 0,col1,col2
B,3,data
C,ks01,is
D,2,very


In [66]:
# 1) 로우 먼저 슬라이싱
# 2) 컬럼 나중에 멀티 인덱싱
df2.loc['B':'D'][['col1', 'col2']]

Unnamed: 0,col1,col2
B,3,data
C,ks01,is
D,2,very


In [68]:
df2.loc['B':'D', ['col1', 'col2']]

Unnamed: 0,col1,col2
B,3,data
C,ks01,is
D,2,very


### 컬럼, 로우 추가

- 컬럼 추가 / 변경
    - 컬럼 인덱싱 = 스칼라 값
    - 컬럼 인덱싱 = 배열, 리스트(로우 개수와 아이템 개수 일치)
    - 컬럼 인덱싱 = 컬럼 간의 연산
    - 컬럼 인덱싱 = series
- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
- 데이터 분석에서 컬럼과 로우의 의미
    - 컬럼 : 변수(특성)
    - 로우 : 개별 데이터(레코드)
    - 전체 데이터를 구성하는 변수를 추가/삭제하는 일은 빈번하게 발생하지만 특정 인덱스를 기준으로 전체 로우 데이터를 추가/삭제하는 일은 자주 발생하지 않으며 데이터 처리를 하는 과정에서 권장하지 않는 작업

In [69]:
sample

Unnamed: 0,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1991,180,240,3,20,6
1992,300,450,-13,30,7


In [71]:
# 컬럼 추가 1: 모든 로우에 대해서 동일한 값을 가지는 컬럼
# 전달하는 값 : 단일값(스칼라 / scalar)
# 추가하는 컬럼 : 제주
sample['제주'] = 1
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주
1990,150,200,-10,10,5,1
1991,180,240,3,20,6,1
1992,300,450,-13,30,7,1


In [72]:
# 컬럼 추가 2: 행 값이 서로 다른 데이터를 가지는 컬럼 추가
# 사용할 수 있는 데이터 타입 : 배열, 리스트*
# 조건 : 추가하려는 데이터프레임의 행 길이와 일치
# 값 : 1,2,3
# 컬럼 : 부산
sample['부산'] = [1,2,3]
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산
1990,150,200,-10,10,5,1,1
1991,180,240,3,20,6,1,2
1992,300,450,-13,30,7,1,3


In [75]:
# 컬럼 추가 3: 컬럼 간의 연산
# 파생변수(유도변수) 
# 수도권 컬럼 : 서울 컬럼 + 경기 컬럼
sample['수도권'] = sample['서울'] + sample['경기']
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권
1990,150,200,-10,10,5,1,1,350
1991,180,240,3,20,6,1,2,420
1992,300,450,-13,30,7,1,3,750


In [None]:
# 컬럼 추가 4: series 객체를 컬럼으로 전달
# 조건 : 원본 데이터프레임의 구조와 추가 되는 시리즈 구조 파악 필요
# 라벨 인덱스를 기준으로 df & sr 가 맵핑
# 결과 : 공통이 아닌 라벨인덱스 => NaN
# 아이템 개수가 일치하지 않아도 된다.

In [77]:
# 라벨 인덱스 : 1990, 1992
# 값 : -9, -99
s1 = pd.Series([-9, -99], index=[1990, 1992])
s1

1990    -9
1992   -99
dtype: int64

In [79]:
sample['s1'] = s1
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1
1990,150,200,-10,10,5,1,1,350,-9.0
1991,180,240,3,20,6,1,2,420,
1992,300,450,-13,30,7,1,3,750,-99.0


In [80]:
# 기본 인덱스만 있는 series
s2 = pd.Series([100,100,100])
s2

0    100
1    100
2    100
dtype: int64

In [81]:
# 데이터 개수가 동일해도 라벨 기준으로 매핑하기 때문에 값이 전달되지 않는다.
sample['s2'] = s2
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1,s2
1990,150,200,-10,10,5,1,1,350,-9.0,
1991,180,240,3,20,6,1,2,420,,
1992,300,450,-13,30,7,1,3,750,-99.0,


- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
    - 로우 인덱싱 = 자료형(배열, 리스트 / 컬럼 개수와 아이템 개수 일치)

In [85]:
# 로우 추가 : 모든 컬럼에 대해서 동일한 값을 가지는 로우 추가
# 로우 인덱싱 = 스칼라값
sample.loc[1993] = 0
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1,s2
1990,150,200,-10,10,5,1,1,350,-9.0,
1991,180,240,3,20,6,1,2,420,,
1992,300,450,-13,30,7,1,3,750,-99.0,
1993,0,0,0,0,0,0,0,0,0.0,0.0


In [86]:
# 배열, 리스트
# 컬럼 개수와 배열, 리스트의 아이템 개수 일치
sample.loc[1995] = np.arange(10)
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1,s2
1990,150,200,-10,10,5,1,1,350,-9.0,
1991,180,240,3,20,6,1,2,420,,
1992,300,450,-13,30,7,1,3,750,-99.0,
1993,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0


In [88]:
# 컬럼 개수를 줄여서 새로운 데이터프레임 생성
sample2 = sample.loc[:, '서울':'충청'].copy()
sample2

Unnamed: 0,서울,경기,충청
1990,150,200,-10
1991,180,240,3
1992,300,450,-13
1993,0,0,0
1995,0,1,2


In [90]:
# 딕셔너리 : 컬럼마다 값을 지정해서 전달하는 경우
# 컬럼 개수 일치
sample2.loc[1994] = {'서울' : 10, '경기' : 20, '충청' : 30}
sample2

Unnamed: 0,서울,경기,충청
1990,150,200,-10
1991,180,240,3
1992,300,450,-13
1993,0,0,0
1995,0,1,2
1994,10,20,30


In [94]:
# 로우 간의 연산
# 라벨 'test'
# 더하려는 로우 : 1990 + 1991
sample2.loc['test'] = sample2.loc[1990] + sample2.loc[1991]

In [96]:
sample2.loc[1990] + sample2.loc[1991]

서울    330
경기    440
충청     -7
dtype: int64

In [95]:
sample2

Unnamed: 0,서울,경기,충청
1990,150,200,-10
1991,180,240,3
1992,300,450,-13
1993,0,0,0
1995,0,1,2
1994,10,20,30
test,330,440,-7


### 로우, 컬럼 삭제

- 컬럼 삭제
    - del 키워드 + 컬럼 인덱싱
    - df.drop(col, axis=1)
    - df.drop(columns=col)
- 로우 삭제
    - df.drop(idx) : axis = 0 (기본값)

In [97]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1,s2
1990,150,200,-10,10,5,1,1,350,-9.0,
1991,180,240,3,20,6,1,2,420,,
1992,300,450,-13,30,7,1,3,750,-99.0,
1993,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0


In [99]:
# 컬럼 삭제 1: del + 컬럼인덱싱
# 결과 : 원본에 그대로 반영
del sample['s2']

In [100]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1
1990,150,200,-10,10,5,1,1,350,-9.0
1991,180,240,3,20,6,1,2,420,
1992,300,450,-13,30,7,1,3,750,-99.0
1993,0,0,0,0,0,0,0,0,0.0
1995,0,1,2,3,4,5,6,7,8.0


In [105]:
# 컬럼 삭제 2: df.drop(label, axis=1)
# 결과 : 원본 반영 X
# inplace=True : 원본 반영 O
sample.drop('s1', axis=1)

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권
1990,150,200,-10,10,5,1,1,350
1991,180,240,3,20,6,1,2,420
1992,300,450,-13,30,7,1,3,750
1993,0,0,0,0,0,0,0,0
1995,0,1,2,3,4,5,6,7


In [104]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권,s1
1990,150,200,-10,10,5,1,1,350,-9.0
1991,180,240,3,20,6,1,2,420,
1992,300,450,-13,30,7,1,3,750,-99.0
1993,0,0,0,0,0,0,0,0,0.0
1995,0,1,2,3,4,5,6,7,8.0


In [107]:
# 컬럼 삭제 3: df.drop(columns=label)
sample.drop(columns='s1', inplace=True)

In [108]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권
1990,150,200,-10,10,5,1,1,350
1991,180,240,3,20,6,1,2,420
1992,300,450,-13,30,7,1,3,750
1993,0,0,0,0,0,0,0,0
1995,0,1,2,3,4,5,6,7


In [110]:
# 로우 삭제
# df.drop(idx) : 기본 axis=0 => 행 인덱스를 참조
sample.drop(1995, inplace=True)

In [111]:
sample

Unnamed: 0,서울,경기,충청,경상,전라,제주,부산,수도권
1990,150,200,-10,10,5,1,1,350
1991,180,240,3,20,6,1,2,420
1992,300,450,-13,30,7,1,3,750
1993,0,0,0,0,0,0,0,0


In [113]:
# 두 개 이상의 로우/컬럼 삭제 : 라벨인덱스를 리스트로 묶어서 전달
sample.drop(['수도권', '부산'], axis=1)

Unnamed: 0,서울,경기,충청,경상,전라,제주
1990,150,200,-10,10,5,1
1991,180,240,3,20,6,1
1992,300,450,-13,30,7,1
1993,0,0,0,0,0,0


### 산술연산

- dataframe 과 스칼라 값 산술연산
- dataframe 과 series 간의 산술연산
- dataframe 간의 산술연산
    - 컬럼, 로우 인덱스를 기준으로 연산 수행
    - 공통으로 존재하지 않는 경우 NaN 반환
    - fill_value 인자 값을 통해 NaN이 아닌 값으로 대체 가능
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [114]:
# 컬럼 : 서울 경기 인천
# 로우 : a b c
# 값 : 0부터 1씩 증가하는 정수값
data = np.arange(9)

df1 = pd.DataFrame(data.reshape(3,3), index=list('abc'), columns=['서울', '경기', '인천'])
df1

Unnamed: 0,서울,경기,인천
a,0,1,2
b,3,4,5
c,6,7,8


In [115]:
# 컬럼 : 서울 경기 인천 세종 강원
# 인덱스 : abcd
# 값 : np.arange(20)
data2 = np.arange(20)

df2 = pd.DataFrame(data2.reshape(4,5), index=list('abcd'),
                   columns=['서울', '경기', '인천', '세종', '강원'])
df2

Unnamed: 0,서울,경기,인천,세종,강원
a,0,1,2,3,4
b,5,6,7,8,9
c,10,11,12,13,14
d,15,16,17,18,19


In [116]:
# 공통이 아닌 컬럼 : 세종, 강원
# 공통이 아닌 로우 : d
# 데이터프레임 간의 더하기 연산
df1 + df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,2.0,0.0,,4.0
b,,10.0,8.0,,12.0
c,,18.0,16.0,,20.0
d,,,,,


In [117]:
# fill_value 설정 : df1.add(df2, fill_value=0)
df1.add(df2, fill_value=0)

Unnamed: 0,강원,경기,서울,세종,인천
a,4.0,2.0,0.0,3.0,4.0
b,9.0,10.0,8.0,8.0,12.0
c,14.0,18.0,16.0,13.0,20.0
d,19.0,16.0,15.0,18.0,17.0


In [118]:
# 데이터프레임 간의 빼기 연산
df1 - df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,0.0,0.0,,0.0
b,,-2.0,-2.0,,-2.0
c,,-4.0,-4.0,,-4.0
d,,,,,


In [119]:
df1.sub(df2, fill_value=0)

Unnamed: 0,강원,경기,서울,세종,인천
a,-4.0,0.0,0.0,-3.0,0.0
b,-9.0,-2.0,-2.0,-8.0,-2.0
c,-14.0,-4.0,-4.0,-13.0,-4.0
d,-19.0,-16.0,-15.0,-18.0,-17.0


In [120]:
# 데이터프레임 간의 곱하기 연산
df1 * df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,1.0,0.0,,4.0
b,,24.0,15.0,,35.0
c,,77.0,60.0,,96.0
d,,,,,


In [123]:
df1.mul(df2, fill_value=1)

Unnamed: 0,강원,경기,서울,세종,인천
a,4.0,1.0,0.0,3.0,4.0
b,9.0,24.0,15.0,8.0,35.0
c,14.0,77.0,60.0,13.0,96.0
d,19.0,16.0,15.0,18.0,17.0


In [124]:
# 데이터프레임 간의 나누기 연산
df1 / df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,1.0,,,1.0
b,,0.666667,0.6,,0.714286
c,,0.636364,0.6,,0.666667
d,,,,,


In [129]:
df2.divide(df1, fill_value=0)

Unnamed: 0,강원,경기,서울,세종,인천
a,inf,1.0,,inf,1.0
b,inf,1.5,1.666667,inf,1.4
c,inf,1.571429,1.666667,inf,1.5
d,inf,inf,inf,inf,inf


In [126]:
df1.divide(df2, fill_value=0)

Unnamed: 0,강원,경기,서울,세종,인천
a,0.0,1.0,,0.0,1.0
b,0.0,0.666667,0.6,0.0,0.714286
c,0.0,0.636364,0.6,0.0,0.666667
d,0.0,0.0,0.0,0.0,0.0


In [130]:
# 데이터프레임 간의 나머지 반환 연산
df1 % df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,0.0,,,0.0
b,,4.0,3.0,,5.0
c,,7.0,6.0,,8.0
d,,,,,


In [131]:
# 데이터프레임 간의 몫 반환 연산
df1 // df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,1.0,,,1.0
b,,0.0,0.0,,0.0
c,,0.0,0.0,,0.0
d,,,,,


### DataFrame과 Series 간의 연산

- 기본적인 동작은 series 객체의 인덱스를 dataframe 객체의 컬럼 인덱스와 매핑하여 브로드캐스팅과 유사하게 연산 수행
- 두 객체 간의 공통된 인덱스가 아닌 대상은 NaN 값으로 대입
- 메서드를 사용하여 연산을 수행할 때는 axis 파라미터를 통해 연산을 적용할 축 지정(0:행, 1:열)
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -,  sub() 메서드
    - 곱하기 : *, mul() 메서드

In [133]:
# 컬럼명 : abcd
# 로우명 :  2010, 2011, 2012
# 데이터 :  np.arange(0 ->)
df = pd.DataFrame(np.arange(12).reshape(3,4), index=[2010,2011,2012],
                 columns=list('abcd'))
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [136]:
# 첫번째 행을 추출
# 라벨 인덱스 -> 원본 데이터프레임의 컬럼
s1 = df.loc[2010]
s1

a    0
b    1
c    2
d    3
Name: 2010, dtype: int32

In [137]:
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [139]:
# series(라벨인덱스)와 df 결합 기준 : 기본동작(df 컬럼명 * sr 로우명), 아래로 전파
# 더하기
df + s1

Unnamed: 0,a,b,c,d
2010,0,2,4,6
2011,4,6,8,10
2012,8,10,12,14


In [140]:
df.add(s1)

Unnamed: 0,a,b,c,d
2010,0,2,4,6
2011,4,6,8,10
2012,8,10,12,14


In [141]:
# 빼기
df - s1

Unnamed: 0,a,b,c,d
2010,0,0,0,0
2011,4,4,4,4
2012,8,8,8,8


In [142]:
# 데이터프레임
# 컬럼명 : abcde
# 데이터 : 0
# 구조 : 4x5
df2 = pd.DataFrame(np.zeros((4,5)), columns=list('abcde'))
df2

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [143]:
# 기본 인덱스를 가진 시리즈
# 데이터 : 0,1,2,3,4
s2 = pd.Series([0,1,2,3,4])
s2

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [144]:
# 열 단위 산술 연산 : 빼기(sub)
# 기본 동작 : 시리즈의 로우인덱스 & 데이터프레임 컬럼
df2.sub(s2)

Unnamed: 0,a,b,c,d,e,0,1,2,3,4
0,,,,,,,,,,
1,,,,,,,,,,
2,,,,,,,,,,
3,,,,,,,,,,


In [148]:
# axis=0 : 시리즈의 값이 데이터프레임의 열 마다 행 단위로 적용
# fill_value :
# 4번 인덱스 행의 NaN : df과 sr의 행 개수가 달라서
df2.sub(s2, axis=0)

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,-1.0,-1.0,-1.0,-1.0,-1.0
2,-2.0,-2.0,-2.0,-2.0,-2.0
3,-3.0,-3.0,-3.0,-3.0,-3.0
4,,,,,


In [151]:
# df 컬럼에 없는 인덱스를 가진 series
# 인덱스 : acf / 공통 ac, 공통아님 f
# 데이터 : 3,3,3
sr3 = pd.Series([3,3,3], index=list('acf'))
sr3

a    3
c    3
f    3
dtype: int64

In [155]:
# 빼기
# 공통되지 않은 인덱스값 : 
df2.sub(sr3)

Unnamed: 0,a,b,c,d,e,f
0,-3.0,,-3.0,,,
1,-3.0,,-3.0,,,
2,-3.0,,-3.0,,,
3,-3.0,,-3.0,,,
