# **CHAPTER_5**

## **5.1 pandas 자료구조 소개**

### **5.1.1 Series**

In [None]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
np.random.seed(12345)
import matplotlib.pyplot as plt

series는 객체를 담을 수 있는 1차원 자료구조다. 색인(index)을 함께 지정함으로써 매칭되는 value를 빠르게 찾을 수 있다. 사전형과 유사하며 사전형을 대체하여 사용할 수 있다. 또한 산술 연산에서 색인과 라벨을 자동으로 정렬하여 제공한다. 

객체와 색인 모두 name 속성이 존재하여 이름을 부여할 수 있다. 

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [None]:
# 단일 값 및 여러 값을 선택할 때 색인으로 라벨을 사용할 수 있다.
obj2['a']

-5

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [None]:
# 색인을 별도로 지정할 수 있으며, 값이 없는 경우 결측치가 들어간다. 
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [None]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

## **5.1.2 DataFrame**

데이터 프레임은 리스트에 담긴 사전을 이용하거나 NumPy 배열을 이용하는 것이다. 다양한 데이터 타입으로부터 만들 수 있으며 shape함수를 통해 행, 열 개수를 파악할 수 있다. 또한 index 메소드를 통해 인덱스를 확인할 수 있다. 

열은 loc 속성을 이용해서 접근할 수 있다. 또한 컬럼에 리스트나 배열을 대입할 때 데이터프레임 크기와 동일해야한다. 

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [None]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [None]:
# 열 순서 지정
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [None]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
frame2
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [None]:
# 예약어를 이용해 칼럼을 삭제할 수 있다. 

del frame2['debt']

frame2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9
six,2003,Nevada,3.2


### **5.1.3 색인 객체** 

표 형식의 데이터에서 각 행, 열에 대한 이름과 메타데이터를 저장하는 객체다. 값을 변경할 수 없기에 안전하게 공유할 수 있다. 판다스에서는 내장 색인 클래스가 정리되어 있어 Index 클래스의 Sub 클래스를 생성할 수 있다. 

(참고) https://sacko.tistory.com/18

* Index.append:
추가적인 Index 객체를 덧붙여 새로운 색인 반환

* Index.diff:
색인의 차집합을 반환

* Index.intersection:
색인의 교집합을 반환

* Index.union:
색인의 합집합을 반환

* Index.isin:
넘겨 받은 값이 해당 색인 위치에 존재하는지 알려주는 불리언 배열을 반환

* Index.delete:
i 위치의 색인이 삭제된 새로운 색인을 반환

* Index.drop:
넘겨받은 값이 삭제된 새로운 색인을 반환

* Index.insert:
i 위치에 값이 추가된 새로운 색인을 반환

* Index.is_monotonic:
색인이 단조성을 가진다면 True를 반환

* Index.is_unique:
중복되는 색인이 없다면 True를 반환

* Index.unique:
색인에서 유일한 값만을 반환

In [None]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [None]:
labels = pd.Index(np.arange(3))
labels
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
# 중복된 index 허용, column 정보를 출력할 경우 index 표시로 출력되어 나온다 
frame3
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object')

## **5.2 핵심 기능**

### **5.2.1 재색인**

새로운 색인에 맞게 맞추어 객체를 새롭게 생성한다. reindex 메소드를 사용한다. ffill 메서드를 통해 누락된 값을 직전의 값으로 채울 수 있다. tolerance의 경우 전, 후 보간 시에 사용할 최대 값의 차이를 지정할 수 있다. 

In [None]:
# series 객체를 생성한다. 
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

### **5.2.2 하나의 로우나 컬럼 삭제하기**

행, 열 이름을 지정하여 데이터프레임을 수정할 수 있으며 drop 메서드에 제거하고자 하는 행, 열 이름을 인자로 넘긴다. 인덱스 인자를 추가하여 제거할 수도 있다. 

(참고) inplace를 사용하는 경우 버려지는 값을 모두 삭제한다. 



In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [None]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'],columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# 행 기준 삭제
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


### **5.2.3 색인하기, 선택하기, 거르기**

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [None]:
obj[3:4]

d    3.0
dtype: float64

In [None]:
# Series의 경우 라벨 이름으로 슬라이싱하면 시작점과 끝점을 포함하는 것이 위의 방법과 차이를 보인다. 
obj['b':'c']

b    1.0
c    2.0
dtype: float64

[] 연산자에 단일 값을 넘기거나 리스트를 넘겨서 여러 컬럼을 선택할 수 있으며 변수 목록 또한 넘길 수 있다. 스칼라 비교를 통해서 생성된 불리언 데이터프레임을 이용해서 값을 변경할 수 있다.

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [None]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


**loc과 iloc로 선택하기**

축의 이름을 선택할 때는 loc(라벨)를 이용하며 정수 색인으로 선택할 경우 iloc(location)를 이용하여 특수한 색인 필드를 사용할 수 있다. at을 이용할 경우 단일 값으로 선택할 수 있으며 iat는 정수 색인으로 단일 값을 이용한다. 

In [None]:
# loc 사용 예시 
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

In [None]:
# iloc 사용 예시
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

### **5.2.4 정수 색인**

정수 색인을 사용할 경우 라벨 색인을 찾는 경우와 혼란이 오는 경우가 발생하여 에러가 발생하는 경우가 존재한다. 이는 색인을 다루는 방법과의 차이점 때문이다.  이에 일관성 유지를 위해 정숫값을 담고 있는 축이 있을 경우 우선적으로 라벨을 먼저 찾고있다. 만일 혼란을 방지하고 싶다면 라벨에 대해서는 loc를, 정수 색인에 대해서는 iloc를 사용하는 것이 좋다. 



In [None]:
ser = pd.Series(np.arange(3.))

In [None]:
# 정수 색인
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [None]:
# 라벨 색인
ser.iloc[:1]

0    0.0
dtype: float64

### **5.2.5 산술 연산과 데이터 정렬**

객체 간의 산술 연산 시 짝을 이루고 있지 않은 색인이 있다면 결과에 두 색인이 통합된다. 겹치는 색인이 없는 경우 결과값은 NA가 된다.  

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))

In [None]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


### **DataFrame과 Series 간의 연산**

Series의 색인을 DataFrame 칼럼에 맞춰서 연산이 진행된다. 색인 값을 찾을 수 없다면 형식을 맞추기 위해 재색인된다. 만약 row에 대한 연산을 실행하고 싶다면 axis 옵션을 추가하면 된다. 

In [None]:
# 연산 과정에서 브로드캐스팅 발생 

arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [None]:
arr[0]

array([0., 1., 2., 3.])

In [None]:
# 각 row에 대해서 연산이 이뤄진다. 
arr-arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [None]:
series3 = frame['d']
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### **5.2.6 함수 적용과 매핑**

In [None]:
# apply 메서드를 이용해 1차원 배열에 함수를 적용할 수 있다. 

frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    1.802165
d    1.684034
e    2.689627
dtype: float64

In [None]:
# row에 대해 연산을 수행하는 경우 
frame.apply(f, axis='columns')

Utah      0.998382
Ohio      2.521511
Texas     0.676115
Oregon    2.542656
dtype: float64

In [None]:
# apply를 사용하지 않고 함수 사용 및 적용이 가능하다. 

def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

frame.apply(f)

Unnamed: 0,b,d,e
min,-0.55573,0.281746,-1.296221
max,1.246435,1.965781,1.393406


In [None]:
# applymap을 이용해 특정 포맷으로 출력할 수 있다. 

format = lambda x: '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.2,0.48,-0.52
Ohio,-0.56,1.97,1.39
Texas,0.09,0.28,0.77
Oregon,1.25,1.01,-1.3


### **5.2.7 정렬과 순위**

알파벳순으로 정렬하기 위해서 새로운 객체를 반환하는 sort_index 메서드를 이용할 수 있다. DataFrame은 하나의 축을 기준으로 정렬할 수 있드며, Series의 경우 값에 따라 정렬하고 싶다면 sort_value 메서드를 사용할 수 있다. 

In [None]:
# b 열을 기준으로 정렬 
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [None]:
# rank 함수를 이용해 값의 순위를 매길 수 있다
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [None]:
# 값의 등장 순서에 따라 순위를 매길 수 있다
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

### **5.2.8 중복 색인**

Series 객체에서 색인의 값이 유일하지 않은 경우도 존재한다.

In [None]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj['a']

a    0
a    1
dtype: int64

## **5.3 기술 통계 계산과 요약**

skipna 옵션을 통해 결측값을 제외하고 계산을 할 수 있으며, 행 및 열 지정 옵션을 통해서 계산하고자하는 방향을 결정할 수 있다. 

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [None]:
df.idxmax()

one    b
two    d
dtype: object

In [None]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


### **5.3.1 상관관계와 공분산**

야후에서 제공하는 주가 데이터를 바탕으로 상관관계 분석 및 공분산을 구한다. 

In [None]:
pip install pandas-datareader



In [None]:
# 4개의 회사에 대한 주가 정보 다운로드 
import pandas_datareader.data as web 
all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

In [None]:
price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()}) 
volume = pd.DataFrame({ticker: data['Volume'] for ticker, data in all_data.items()})

In [None]:
price = pd.read_pickle('/content/yahoo_price.pkl')
volume = pd.read_pickle('/content/yahoo_volume.pkl')
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,-0.00068,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.00769
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867
2016-10-21,-0.00393,0.003011,-0.012474,0.042096


In [None]:
# 공분산 계산 

returns.MSFT.corr(returns.IBM)

0.49976361144151144

In [None]:
returns.MSFT.cov(returns.IBM)

8.870655479703546e-05

In [None]:
# 각 칼럼에 대한 계산 결과 반환한다
returns.corrwith(returns.IBM)

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

### **5.3.2 유일값, 값 세기, 멤버십**

In [None]:
# frequency를 계산하여 반환하는 value_counts
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

## **5.4 결론**

색인을 이용하여 데이터프레임과 series 데이터에서 데이터를 처리하기 위한 방법론들을 알 수 있었다. pandas에서 제공하는 유용한 메서드를 배울 수 있었으며 그 외에도 데이터프레임에서 사용하기 유용한 퍼센트의 변화량을 계산하는 pct_change 함수, corrwith와 같은 함수를 알 수 있었다.  