<a href="https://colab.research.google.com/github/bonasoobin/basic_python/blob/main/chap05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 챕터5 pandas 시작하기

In [None]:
import pandas as pd

In [None]:
from pandas import Series, DataFrame

## 5.1 pandas 자료구조 소개

### 5.1.1 Series

Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조

In [None]:
# 간단한 Series 객체는 배열 데이터로부터 생성 가능
obj = pd.Series([4,7,-5,3])
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


In [None]:
# 왼쪽에 색인, 오른쪽에 해당 색인의 값 보여줌
# values와 index 속성을 통해 얻을 수 있음
print(obj.values)
print(obj.index)

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [None]:
# 데이터를 지칭하는 색인을 지정하여 Series 객체를 생성해야 할 때
obj2 = pd.Series([4,7,-5,3], index = ['d','b','a','c'])
print(obj2)
print(obj2.index)

d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')


In [None]:
# 단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨 사용 가능
print(obj2['a'])
print(obj2['d'] == 6)
print(obj2[['c','a','d']])
# ['c','a','d']는 색인의 배열로 해석됨

-5
False
c    3
a   -5
d    4
dtype: int64


In [None]:
# 불리언배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 NumPy 배열연산을 수행해도 색인-값 연결 유지됨
print(obj2[obj2>0])
print(obj2*2)

import numpy as np
print(np.exp(obj2))

d    4
b    7
c    3
dtype: int64
d     8
b    14
a   -10
c     6
dtype: int64
d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


In [None]:
# Series : 고정 길이의 정렬된 사전형이라고 이해
# Series는 색인값에 데이터값을 매핑하고 있으므로 파이썬의 사전형과 비슷함
# Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용 가능
print('b' in obj2)
print('e' in obj2)

True
False


In [None]:
# 파이썬의 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수 있음
sdata = {'Ohio':35000, 'Texas':71000,'Oregon':16000,'Utah':5000}
obj3 = pd.Series(sdata)
print(obj3)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


In [None]:
# 사전 객체만 가지고 Series 객체를 생성하면 Series 객체의 색인에는 사전의 키값이 순서대로 들어감
# 색인을 직접 지정하고 싶다면 원하는 순서대로 색인 직접 넘기기 가능
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
print(obj4)

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [None]:
# isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용
print(pd.isnull(obj4))
print(pd.notnull(obj4))

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


In [None]:
# isnull과 notnull 함수는 Series의 인스턴스 메서드로도 존재
print(obj4.isnull())

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool


In [None]:
# Series의 유용한 기능 : 산술 연산에서 색인과 라벨로 자동 정렬하는 것
print(obj3)
print(obj4)
print(obj3+obj4)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


In [None]:
# name 속성 있음
obj4.name = 'population'
obj4.index.name = 'state'
print(obj4)

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64


In [None]:
# Series의 색인은 대입하여 변경 가능
print(obj)
obj.index = ['Bob','Steve','Jeff','Ryan']
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


### 5.1.2 DataFrame

**DataFrame**

표 같은 스프레드 형식의 자료구조

여러 개의 컬럼이 있는데 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있음

로우와 컬럼에 대한 색인을 가지고 있음


In [None]:
# 같은길이의 리스트에 담긴 사전을 이용하거나 NumPy 배열을 사용해서 DataFrame 생성
data = {'state' : ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year' : [2000,2001,2002,2001,2002,2003],
        'pop' : [1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)

In [None]:
# DataFrame의 색인은 Series와 같은 방식으로 자동으로 대입되며 컬럼은 정렬되어 저장됨
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [None]:
# 큰 DataFrame을 다룰때는 head 메서드를 사용해 처음 5개 로우만 출력 가능
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [None]:
# 원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성됨
pd.DataFrame(data, columns = ['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [None]:
# Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장됨
frame2 = pd.DataFrame(data, columns=['year','state','pop','debt'],
                      index=['one','two','three','four','five','six'])
print(frame2)
print(frame2.columns)

       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN
Index(['year', 'state', 'pop', 'debt'], dtype='object')


In [None]:
# DataFrame의 컬럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근 가능
print(frame2['state'])
print(frame2.year)

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object
one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64


In [None]:
# Series 객체가 DataFrame과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워짐
# 로우는 위치나 loc 속성을 이용해 이름을 통해 접근 가능
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [None]:
# 컬럼 : 대입 가능 (비어있는 debt 컬럼에 스칼라값이나 배열의 값을 대입 가능)
frame2['debt'] = 16.5
print(frame2)

frame2['debt'] = np.arange(6.)
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5
six    2003  Nevada  3.2  16.5
       year   state  pop  debt
one    2000    Ohio  1.5   0.0
two    2001    Ohio  1.7   1.0
three  2002    Ohio  3.6   2.0
four   2001  Nevada  2.4   3.0
five   2002  Nevada  2.9   4.0
six    2003  Nevada  3.2   5.0


In [None]:
# 리스트나 배열을 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야함
# Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며, 존재하지 않는 색인에는 결측치가 대입됨
val = pd.Series([-1.2,-1.5,-1.7], index=['two','four','five'])
frame2['debt'] = val
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN


In [None]:
# 존재하지 않는 컬럼을 대입하면 새로운 컬럼 생성
frame2['eastern'] = frame2.state =='Ohio'
frame2


Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [None]:
# del 예약어를 이용해서 컬럼 삭제
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [None]:
# 중첩된 사전 이용해서 데이터 생성하기
pop = {'Nevada' : {2001:2.4, 2002:2.9},
       'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}

In [None]:
# 중첩된 사전을 데이터 프레임에 넘기면 바깥 사전 키→컬럼, 안의 키→ 로우
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
# NumPy 배열과 유사한 문법으로 데이터 전치 가능
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [None]:
#색인을 직접 지정하면 지정된 색인으로 DataFrame 생성됨
pd.DataFrame(pop, index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [None]:
# Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급됨
pdata = {'Ohio' : frame3['Ohio'][:1],
         'Nevada' : frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,,2.9


In [None]:
# 데이터프레임의 색인과 컬럼에 name 속성을 지정했다면 함께 출력됨
frame3.index.name = 'year';frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
# Series와 유사하게 values 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [None]:
# DataFrame의 컬럼이 서로 다른 dtype을 가지고 있다면 모든 컬럼을 수용하기 위해 그 컬럼의 배열의 dtype이 선택됨
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### 5.1.3 색인 객체

In [None]:
# pandas의 색인 객체 : 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터를 저장하는 객체
# Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 다른 순차적인 이름은 내부적으로 색인으로 변환됨
obj = pd.Series(range(3), index=['a','b','c'])
index = obj.index
print(index)
print(index[1:])

Index(['a', 'b', 'c'], dtype='object')
Index(['b', 'c'], dtype='object')


In [None]:
#index[1] = 'd'

In [None]:
# 자료구조 사이에서 안전하게 공유 가능
labels = pd.Index(np.arange(3))
print(labels)

obj2 = pd.Series([1.5, -2.5, 0], index=labels)
print(obj2)

obj2.index is labels

Int64Index([0, 1, 2], dtype='int64')
0    1.5
1   -2.5
2    0.0
dtype: float64


True

In [None]:
# 배열과 유사하게 Index 객체도 고정 크기로 동작함
print(frame3)
print(frame3.columns)
print('Ohio' in frame3.columns)
print(2003 in frame3.index)

state  Nevada  Ohio
year               
2001      2.4   1.7
2002      2.9   3.6
2000      NaN   1.5
Index(['Nevada', 'Ohio'], dtype='object', name='state')
True
False


In [None]:
# 파이썬의 집합과는 달리 pandas의 인덱스는 중복되는 값을 허용
dup_labels = pd.Index(['foo','foo','bar','bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

**색인 메서드와 속성**

- append : 추가적인 색인 객체를 덧붙임
- difference : 색인의 차집합 반환
- intersection : 색인의 교집합 반환
- union : 색인의 합집합 반환
- isin : 존재여부인 불리언 배열 반환
- delete : 삭제된 새로운 색인 반환
- drop : 넘겨받은 값이 삭제된 새로운 색인 반환
- insert : 추가된 새로운 색인 반환
- is_monotonic : 단조성을 가진다면 True 반환
- is_unique : 중복되는 색인이 없다면 True 반환
- unique : 중복되는 요소 제거 후 유일값만 반환

## 5.2 핵심 기능

### 5.2.1 재색인

In [None]:
# reindex : 새로운 색인에 맞도록 객체를 새로 생성
obj = pd.Series([4.5,7.2,-5.3,3.6], index=['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [None]:
# reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 NaN 추가
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [None]:
# 시계열같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우 있음
# ffill 메서드를 이용해 누락된 값을 직전의 값으로 채워넣을 수 있음
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0,2,4])
print(obj3)
print(obj3.reindex(range(6), method='ffill'))

0      blue
2    purple
4    yellow
dtype: object
0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object


In [None]:
# DataFrame에 대한 reindex는 로우, 컬럼 또는 둘 다 변경 가능
# 순서만 전달하면 로우가 재색인됨
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                     index = ['a','c','d'],
                     columns = ['Ohio','Texas','California'])
print(frame)

frame2 = frame.reindex(['a','b','c','d'])
print(frame2)

   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0


In [None]:
# columns 예약어를 사용해서 재색인 가능
import numpy as np

states = ['Texas', 'Uah', 'California']
frame = frame.reindex(columns=states, fill_value=np.nan)
frame

Unnamed: 0,Texas,Uah,California
a,1,,2
c,4,,5
d,7,,8


In [None]:
# 재색인은 loc를 이용해 라벨로 색인하면 조금 더 간결하게 할 수 있음
frame.loc['b'] = np.nan
frame.loc[['a','b','c','d'], states]

Unnamed: 0,Texas,Uah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


**재색인 함수 인자**

- index : 색인으로 사용할 순서(복사가 이루어지지 않고 그대로 사용됨)
- method : `ffill`(직전값 채워넣기), `bfill`(다음값 채워넣기)
- fill_value : 재색인 과정 중에 새롭게 나타나는 비어 있는 데이터를 채우기 위한 값
- limit : 전/후 보간 시에 사용할 최대 갭 크기(채워넣을 원소의 수)
- tolerance : 전/후 보간 시에 사용할 최대 갭 크기(값의 차이)
- level : `MultiIndex`의 단계에 단순 색인을 맞춤. 그렇지 않으면 `MultiIndex`의 하위집합에 맞춤
- copy : True인 경우 새로운 색인이 이전 색인과 동일하더라도 데이터를 복사 / False인 경우 새로운 색인이 이전 색인과 동일할 경우 복사하지 않음

### 5.2.2 하나의 로우나 컬럼 삭제하기

In [None]:
# 삭제하려는 로우나 컬럼이 제외된 리스트를 이미 가지고 있다면 로우나 컬럼을 쉽게 삭제할 수 있음
# 데이터의 모양을 변경하는 작업이 필요함 -> drop 메서드 사용
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
print(obj)

new_obj = obj.drop('c')
print(new_obj)

obj.drop(['d','c'])

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64


a    0.0
b    1.0
e    4.0
dtype: float64

In [None]:
# DataFrame에서는 로우와 컬럼 모두에서 값을 삭제할 수 있음
data =  pd.DataFrame(np.arange(16).reshape((4,4)),
                     index=['Ohio', 'Colorado', 'Utah', 'New York'],
                     columns = ['one', 'two', 'three', 'four'])
data


Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# drop 함수에 인자로 로우 이름을 넘기면 해당 로우(axis 0)의 값을 모두 삭제함
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# 컬럼의 값을 삭제할 때는 axis=1 또는 axis=’columns’를 인자로 넘겨주면 됨
data.drop('two', axis=1)
data.drop(['two','four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [None]:
# drop 함수처럼 Series나 DataFrame의 크기 또는 형태를 변경하는 함수는 새로운 객체를 반환하는 대신 원본 객체를 변경함
obj.drop('c',inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### 5.2.3 색인하기, 선택하기, 거르기

In [None]:
# Series의 색인(obj[…])은 NumPy 배열의 색인과 유사하게 동작하지만 정수가 아니어도 된다는 점이 다름
obj = pd.Series(np.arange(4.), index=['a','b','c','d'])
print(obj)
print(obj['b'])
print(obj[1])
print(obj[2:4])
print(obj[['b','a','d']])
print(obj[[1,3]])
print(obj[obj<2])

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64
1.0
1.0
c    2.0
d    3.0
dtype: float64
b    1.0
a    0.0
d    3.0
dtype: float64
b    1.0
d    3.0
dtype: float64
a    0.0
b    1.0
dtype: float64


In [None]:
# 라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함함(일반 파이썬과 다름)
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [None]:
# 슬라이싱 문법으로 선택된 영역에 값을 대입하는 것은 생각하는 대로 동작함
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [None]:
# 색인으로 DataFrame에서 하나 이상의 컬럼을 가져올 수 있음
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index=['Ohio','Colorado','Utah','New York'],
                    columns = ['one','two','three','four'])
data
data['two']
data[['three','one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [None]:
# 슬라이싱으로 로우를 선택하거나 불리언 배열로 로우 선택 가능
data[:2]
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# 스칼라 비교를 이용해 생성된 불리언 DataFrame을 사용해서 값 선택하기
data<5
data[data<5]=0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


**loc와 iloc으로 선택하기**

In [None]:
# 축의 이름을 선택할 때는 loc를, 정수 색인으로 선택할 때는 iloc 사용
data.loc['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int64

In [None]:
# iloc를 이용하면 정수 색인으로도 위와 비슷하게 선택 가능
print(data.iloc[2,[3,0,1]])
print(data.iloc[2])
print(data.iloc[[1,2],[3,0,1]])

four    11
one      8
two      9
Name: Utah, dtype: int64
one       8
two       9
three    10
four     11
Name: Utah, dtype: int64
          four  one  two
Colorado     7    0    5
Utah        11    8    9


In [None]:
# 슬라이스도 지원할 뿐더러 단일 라벨이나 라벨 리스트도 지원
print(data.loc[:'Utah', 'two'])
print(data.iloc[:,:3][data.three>5])

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64
          one  two  three
Colorado    0    5      6
Utah        8    9     10
New York   12   13     14


### 5.2.4 정수 색인

In [None]:
ser = pd.Series(np.arange(3.))
print(ser)
# print(ser[-1]) -> 오류 발생

0    0.0
1    1.0
2    2.0
dtype: float64


In [None]:
# 정수 기반의 색인을 사용하지 않는 경우 모호함이 사라짐
ser2 = pd.Series(np.arange(3.), index = ['a','b','c'])
print(ser2[-1])

2.0


In [None]:
# 일관성을 유지하기 위해 정숫값을 담고 있는 축 색인이 있다면 우선적으로 라벨을 먼저 찾아보도록 구현되어있음
# 라벨에 대해서는 loc를 사용하고 정수 색인에 대해서는 iloc를 사용
print(ser[:1])
print(ser.loc[:1])
print(ser.iloc[:1])

0    0.0
dtype: float64
0    0.0
1    1.0
dtype: float64
0    0.0
dtype: float64


### 5.2.5 산술 연산과 데이터 정렬

In [None]:
# 객체를 더할 때 짝이 맞지 않는 색인이 있다면 결과에 두 색인 통합됨
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a','c','d','e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index = ['a', 'c', 'e', 'f','g'])

print(s1)
print(s2)

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [None]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [None]:
# 서로 겹치는 색인이 없는 경우, 데이터는 NA 값이 됨
# DataFrame의 경우 정렬은 로우와 컬럼 모두에 적용됨
df1 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns = list('bcd'), index = ['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4,3)), columns = list('bde'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
display(df1)
display(df2)

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
# 두개의 DataFrame을 더하면 각 DateFrame에 있는 색인과 컬럼이 하나로 합쳐짐
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [None]:
# 공통되는 컬럼 라벨이나 로우 라벨이 없는 DataFrame을 더하면 결과에 아무것도 나타나지 않을 것
df1 = pd.DataFrame({'A' : [1,2]})
df2 = pd.DataFrame({'B' : [3,4]})


from IPython.display import display
display(df1)
display(df2)
display(df1 - df2)

Unnamed: 0,A
0,1
1,2


Unnamed: 0,B
0,3
1,4


Unnamed: 0,A,B
0,,
1,,


**산술 연산 메서드에 채워 넣을 값 지정하기**

In [None]:
# 서로 다른 색인을 가지는 객체 간의 산술 연산에서 존재하지 않는 축의 값을 0같은 특수한 값으로 지정하고 싶을 때
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)), columns=list('abcde'))

df2.loc[1,'b'] = np.nan

display(df1)
display(df2)
display(df1 + df2)

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [None]:
# df1에 add 메서드를 사용하고 df2와 fill_value 값을 인자로 전달
df1.add(df2, fill_value = 0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
# 각각의 산술 연산 메서드는 r로 시작하는 계산 인자를 뒤집어 계산하는 짝꿍 메서드를 가짐
display(1 / df1)
display(df1.rdiv(1))

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [None]:
# Series나 DataFrame을 재색인할 때도 fill_value 지정 가능
df1.reindex(columns=df2.columns, fill_value = 0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


**DataFrame과 Series 간의 연산**

In [None]:
# 2차원 배열과 그 배열의 한 로우의 차이에 대해 생각해보기
arr = np.arange(12.).reshape((3,4))
print(arr)
print(arr[0])
print(arr - arr[0])

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]
[0. 1. 2. 3.]
[[0. 0. 0. 0.]
 [4. 4. 4. 4.]
 [8. 8. 8. 8.]]


In [None]:
# DataFrame과 Series 간의 연산도 이와 유사함
frame = pd.DataFrame(np.arange(12.).reshape((4,3)),
                     columns = list('bde'),
                     index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]

display(frame)
print(series)

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64


In [None]:
# DataFrame과  Series 간의 산술 연산은 Series의 색인을 DataFrame의 컬럼에 맞추고 아래 로우로 전파
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [None]:
# 만약 색인 값을 DataFrame의 컬럼이나 Series의 색인에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 재색인됨
series2 = pd.Series(range(3), index=['b','e','f'])
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [None]:
# 만약 각 로우에 대해 연산을 수행하고 싶다면 산술 연산 메서드를 사용
series3 = frame['d']

display(frame)
display(series3)
display(frame.sub(series3, axis='index'))

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### 5.2.6 함수 적용과 매핑

In [None]:
# pandas 객체에도 NumPy의 유니버설함수를 적용할 수 있음
frame = pd.DataFrame(np.random.randn(4,3), columns = list('bde'),
                     index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
display(frame)
display(np.abs(frame))

Unnamed: 0,b,d,e
Utah,1.668477,-0.669118,-0.206265
Ohio,0.166697,0.113284,-0.28446
Texas,1.491708,0.048937,-0.385936
Oregon,0.042461,-0.960212,-0.071192


Unnamed: 0,b,d,e
Utah,1.668477,0.669118,0.206265
Ohio,0.166697,0.113284,0.28446
Texas,1.491708,0.048937,0.385936
Oregon,0.042461,0.960212,0.071192


In [None]:
# apply : 각 컬럼이나 로우의 1차원 배열에 함수를 적용
f = lambda x : x.max() - x.min()
frame.apply(f)

b    1.626017
d    1.073496
e    0.314744
dtype: float64

In [None]:
# apply 함수에 axis='columns’ 인자를 넘기면 각 로우에 대해 한번씩만 수행됨
frame.apply(f, axis='columns')

Utah      2.337595
Ohio      0.451157
Texas     1.877644
Oregon    1.002673
dtype: float64

In [None]:
# apply 메서드에 전달된 함수는 스칼라값을 반환할 필요가 없으며 여러 값을 가진 Series를 반환해도 됨
def f(x):
  return pd.Series([x.min(), x.max()], index=['min','max'])

frame.apply(f)

Unnamed: 0,b,d,e
min,0.042461,-0.960212,-0.385936
max,1.668477,0.113284,-0.071192


In [None]:
# applymap : frame 객체에서 실숫값을 문자열 포맷으로 변환하기
format = lambda x : '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,1.67,-0.67,-0.21
Ohio,0.17,0.11,-0.28
Texas,1.49,0.05,-0.39
Oregon,0.04,-0.96,-0.07


In [None]:
# Series는 각 원소에 적용할 함수를 지정하기 위한 map 메서드를 가지고 있기 때문에 이름이 applymap임
frame['e'].map(format)

Utah      -0.21
Ohio      -0.28
Texas     -0.39
Oregon    -0.07
Name: e, dtype: object

### 5.2.7 정렬과 순위

In [None]:
# 로우나 컬럼의 색인을 알파벳순으로 정렬하려면 sort_index 메서드를 사용하기
obj = pd.Series(range(4), index=['d','a','b','c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [None]:
# DataFrame은 로우나 컬럼 중 하나의 축을 기준으로 정렬할 수 있음
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                     index = ['three', 'one'],
                     columns=['d','a','b','c'])
display(frame.sort_index())
display(frame.sort_index(axis=1))

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [None]:
# 데이터는 기본적으로 오름차순으로 정렬되고 내림차순으로 정렬할 수도 있음
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [None]:
# sort_values : Series 객체를 값에 따라 정렬하고 싶을 때 사용
obj = pd.Series([4,7,-3,2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [None]:
# 정렬할 때 비어 있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [None]:
# DataFrame에서 하나 이상의 커럼에 있는 값으로 정렬을 하는 경우
# sort_values 함수의 by 옵션에 하나 이상의 컬럼 이름을 넘기기
frame = pd.DataFrame({'b' : [4,7,-3,2], 'a' : [0,1,0,1]})
display(frame)
display(frame.sort_values(by='b'))


Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [None]:
# 여러 개의 컬럼을 정렬하려면 컬럼 이름이 담긴 리스트를 전달하기
frame.sort_values(by = ['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [None]:
# 순위 : 정렬과 흡사하지만 1부터 배열의 유효한 데이터 개수까지 순서를 매김
# 기본적으로 Series와 DataFrame의 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매김
obj = pd.Series([7,-5,7,4,2,0,4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [None]:
# 데이터 상에서 나타나는 순서에 따라 순위를 매길 수도 있음
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [None]:
# 내림차순으로 순위 매기기
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [None]:
# 로우나 컬럼에 대해 순위를 정할 수도 있음
frame = pd.DataFrame({'b' : [4.3,7,-3,2], 'a' : [0,1,0,1],
                      'c' : [-2,5,8,-2.5]})
display(frame)
display(frame.rank(axis='columns'))

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### 5.2.8 중복 색인

In [None]:
# pandas의 많은 함수에서 색인값은 유일해야하지만 의무적이지는 않음
# 중복된 색인값을 가지는 Series를 공부할 것
obj = pd.Series(range(5), index=['a','a','b','b','c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [None]:
# is_unique 속성은 해당 값이 유일한지 아닌지 알려줌
obj.index.is_unique

False

In [None]:
# 중복되는 색인값이 없다면 색인을 이용해서 데이터에 접근하면 스칼라값 반환
# 중복되는 색인값이 있다면 하나의 Series 객체 반환
print(obj['a'])
print(obj['c'])

a    0
a    1
dtype: int64
4


In [None]:
# DataFrame에서 로우를 선택하는 것도 동일
df = pd.DataFrame(np.random.randn(4,3), index=['a','a','b','b'])
display(df)
display(df.loc['b'])

Unnamed: 0,0,1,2
a,-1.32833,-0.001838,-0.056127
a,-1.321827,-0.751022,-0.637067
b,-0.179872,0.169543,-0.331175
b,1.176566,-0.048112,0.494776


Unnamed: 0,0,1,2
b,-0.179872,0.169543,-0.331175
b,1.176566,-0.048112,0.494776


## 5.3 기술 통계 계산과 요약

In [None]:
# pandas의 메서드는 처음부터 누락된 데이터를 제외하도록 설계됨
df = pd.DataFrame([[1.4, np.nan], [7.1,-4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index = ['a','b','c','d'],
                  columns = ['one','two'])
display(df)

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [None]:
# DataFrame의 sum 메서드를 호출하면 각 컬럼의 합을 담은 Series를 반환
display(df.sum())

one    9.25
two   -5.80
dtype: float64

In [None]:
# axis='columns' 또는 axis=1 옵션을 넘기면 각 컬럼의 합을 반환
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [None]:
# 전체 로우나 컬럼의 값이 NA가 아니라면 NA 값은 제외되고 계산됨
# skipna 옵션으로 조정 가능
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [None]:
# idxmin이나 idxmax 같은 메서드는 최솟값 혹은 최댓값은 가지고 있는 색인값과 같은 간접 통계 반환
df.idxmax()

one    b
two    d
dtype: object

In [None]:
# 누산 (accumulation)도 있음
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [None]:
# describe 메서드는 한 번에 여러 개의 통계 결과를 만들어냄
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [None]:
# 수치 데이터가 아닐 경우 다른 요약 통계를 생성
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)

display(obj.describe())

count     16
unique     3
top        a
freq       8
dtype: object

### 5.3.1 상관관계와 공분산

In [None]:
# 상관관계와 공분산 같은 요약 통계 계산은 두 쌍의 인자를 필요로 함
# pandas-datareader 패키지를 사용해보기
! conda install yfinace

import yfinance as yf

tickers = ['AAPL', 'IBM', 'MSFT', 'GOOG']

# 데이터를 저장할 딕셔너리 생성
all_data = {}

# 각 주식 종목에 대한 데이터 가져오기
for ticker in tickers:
    stock_data = yf.download(ticker, start='2020-01-01', end='2023-09-13')
    all_data[ticker] = stock_data

price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume'] for ticker, data in all_data.items()})

/bin/bash: line 1: conda: command not found
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed


In [None]:
# 주식의 퍼센트 변화율 계산해보기
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-09-06,-0.035793,-0.000473,-0.002009,-0.009802
2023-09-07,-0.029249,-0.003647,-0.008922,0.006131
2023-09-08,0.003492,0.001085,0.013216,0.007342
2023-09-11,0.006623,0.00474,0.010979,0.003936
2023-09-12,-0.017061,-0.014018,-0.018258,-0.012124


In [None]:
# corr 메서드는 NA가 아니며 정렬된 색인에서 연속하는 두 Series에 대해 상관관계를 계산
# cov 메서드는 공분산을 계산
print(returns['MSFT'].corr(returns['IBM']))
print(returns['MSFT'].cov(returns['IBM']))

0.44357023917588867
0.0001657494034692167


In [None]:
# 조금 더 편리한 문법으로 해당 컬럼 선택하기
returns.MSFT.corr(returns.IBM)

0.44357023917588867

In [None]:
# DataFrame에서 corr과 cov 메서드는 DataFrame 행렬에서 상관관계와 공분산 계산
display(returns.corr())
display(returns.cov())

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.444311,0.782061,0.697924
IBM,0.444311,1.0,0.44357,0.41255
MSFT,0.782061,0.44357,1.0,0.787708
GOOG,0.697924,0.41255,0.787708,1.0


Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000475,0.000172,0.000359,0.000324
IBM,0.000172,0.000315,0.000166,0.000156
MSFT,0.000359,0.000166,0.000443,0.000354
GOOG,0.000324,0.000156,0.000354,0.000455


In [None]:
# DataFrame의 corrwith 메서드를 사용하면 다를 Series나 DataFrame과의 상관관계 계산
# Series를 넘기면 각 컬럼에 대해 계산한 상관관계를 담고 있는 Series 반환
returns.corrwith(returns.IBM)

AAPL    0.444311
IBM     1.000000
MSFT    0.443570
GOOG    0.412550
dtype: float64

In [None]:
# DataFrame을 넘기면 맞아 떨어지는 컬럼 이름에 대한 상관관계 계산
returns.corrwith(volume)

AAPL   -0.019585
IBM    -0.138570
MSFT   -0.031853
GOOG   -0.039132
dtype: float64

### 5.3.2 유일값, 값 세기, 멤버십

In [None]:
obj = pd.Series(['c','a','d','a','a','b','b','c','c'])

In [135]:
# unique 메서드는 중복되는 값을 제거하고 유일값만 담고 있는 Series를 반환
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [136]:
# value_counts 메서드는 Series에서 도수(frequency)를 계산하여 반환
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [137]:
# value_counts 에서 반환하는 Series는 담고 있는 값을 내림차순으로 정렬함
pd.value_counts(obj.values, sort=False)

c    3
a    3
d    1
b    2
dtype: int64

In [139]:
# isin 메서드는 어떤 값이 Series에 존재하는지 나타내는 불리언 벡터를 반환
print(obj)

mask = obj.isin(['b','c'])

print(mask)
print(obj[mask])

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

0    c
5    b
6    b
7    c
8    c
dtype: object

In [140]:
# isin과 관련이 있는 Index.get_indexer 메서드는 여러 값이 들어 있는 배열에서 유일한 값의 색인 배열을 구할 수 있음
to_match = pd.Series(['c','a','b','b','c','a'])
unique_vals = pd.Series(['c','b','a'])

pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2])

In [141]:
# DataFrame의 여러 컬럼에 대해 히스토그램 구하기
data = pd.DataFrame({'Qu1' : [1,3,4,3,4],
                     'Qu2' : [2,3,1,2,3],
                     'Qu3' : [1,5,2,4,4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [142]:
# DataFrame의 apply함수에 pandas.value_counts를 넘기면
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
