# Pandas

### Pandas는 시계열 데이터(금융데이터)에 특화된 패키지, Numpy 패키지로만 처리하기에 부족하여 개발

In [1]:
# 사용준비 Case1
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [3]:
# Case2
import pandas as pd
import numpy as np

In [6]:
stock_price_list = [10000, 10300, 9900, 10500, 110000]
stock_price_Series = pd.Series([10000, 10300, 9900, 10500, 110000])
print(stock_price_list)
print(stock_price_Series) # index를 부여함

[10000, 10300, 9900, 10500, 110000]
0     10000
1     10300
2      9900
3     10500
4    110000
dtype: int64


### 개별 원소에 접근해보기!!
- 리스트에서 개별 원소에 접근하는 방식: index 사용. 여러개는 slicing 사용
- 개별 원소에 리스트에서 접근 & Series 에서 접근해보기 

In [7]:
# 리스트로 첫번째 원소 값 접근
stock_price_list[0]

10000

In [8]:
# 시리즈로 첫번째 원소 값 접근
stock_price_Series[0]

10000

### index 만들기
임의의 index를 부여할 수 있다.

In [10]:
stock_price_Series_withIndex = pd.Series([10000, 10300, 9900, 10500, 110000],
                                        index = ["2016-03-01","2016-06-01","2016-09-01","2016-12-01","2017-03-01"])
stock_price_Series_withIndex

2016-03-01     10000
2016-06-01     10300
2016-09-01      9900
2016-12-01     10500
2017-03-01    110000
dtype: int64

In [12]:
# 이렇게 되면 index 접근 방식이 두 개가 발생
print(stock_price_Series_withIndex[1])
print(stock_price_Series_withIndex["2016-06-01"])

10300
10300


In [16]:
print(stock_price_Series_withIndex.index)
stock_price_Series_withIndex.values # array

Index(['2016-03-01', '2016-06-01', '2016-09-01', '2016-12-01', '2017-03-01'], dtype='object')


array([ 10000,  10300,   9900,  10500, 110000], dtype=int64)

In [20]:
for idx in stock_price_Series_withIndex.index:
    print("Index :", i)
    print("Value :", stock_price_Series_withIndex[i])

# enumerate를 이용하면 정수 index만 반환
for idx, value in enumerate(stock_price_Series_withIndex):
    print(idx, value)

Index : 2016-03-01
Value : 10000
Index : 2016-06-01
Value : 10300
Index : 2016-09-01
Value : 9900
Index : 2016-12-01
Value : 10500
Index : 2017-03-01
Value : 110000
0 10000
1 10300
2 9900
3 10500
4 110000


### 원하는 것들만 가져올 수 있나?

In [25]:
# 정수 인덱스에 내가 원하는 특정한 것을 가져올 수 없을까 -> 여러개는 list를 활용
print(stock_price_Series_withIndex[[0,3]])
print(stock_price_Series_withIndex[0:3])

2016-03-01    10000
2016-12-01    10500
dtype: int64
2016-03-01    10000
2016-06-01    10300
2016-09-01     9900
dtype: int64


In [26]:
# list의 slicing
stock_price_list[0:3]

[10000, 10300, 9900]

#### list는 pandas나 array와 다르게 [[0,3]] 이런식으로 원하는 여러개의 값들을 불러올 수 없다.
#### 그러면 다른 Solution이 있을까?

In [28]:
# stock_price_list[[0,3]] -> 에러, 리스트는 원하는 개별 원소들을 따로따로 불러올 수는 없나?
# list에서는 [[0,3]] 이런식으로 접근 불가능하나, numpy를 이용해 array로 만든후에 가능
stock_price_list_array = np.array(stock_price_list)
stock_price_list_array[[0,3]] 

array([10000, 10500])

In [29]:
search_index = [0,3]
[stock_price_list[i] for i in search_index]

[10000, 10500]

### 간단히 표현

In [30]:
# 모든 원소에 일괄 적용
# Series : 다양한 기능 - value 관련
stock_price_Series_withIndex*2

2016-03-01     20000
2016-06-01     20600
2016-09-01     19800
2016-12-01     21000
2017-03-01    220000
dtype: int64

### 정식으로 numpy 활용해서 표현

In [31]:
# 이런식으로는 잘 사용하지는 않는다.
np.add(stock_price_Series_withIndex, 100)

2016-03-01     10100
2016-06-01     10400
2016-09-01     10000
2016-12-01     10600
2017-03-01    110100
dtype: int64

### Boolean indexing을 활용한 조건검색

In [33]:
stock_price_Series_withIndex[stock_price_Series_withIndex > 10500]

2017-03-01    110000
dtype: int64

In [37]:
# Series : 다양한기능 - index 관련
print(stock_price_Series_withIndex)
print("-------------------------")
# 찾으려는 index가 있는지 없는지 알아내기 위해서
print("2016-03-01" in stock_price_Series_withIndex)
# in 이라는 것에 비교 대상이 index가 아니라 value인 경우에는? No, 오로지 index만을 대상으로 한다.
print(10000 in stock_price_Series_withIndex)

2016-03-01     10000
2016-06-01     10300
2016-09-01      9900
2016-12-01     10500
2017-03-01    110000
dtype: int64
-------------------------
True
False


#### pandas에서 python의 dictionary구조와 유사하게 사용가능

In [40]:
# Series - index
sdata = {"APPL": 1000, "MS":2000, "AMAZON":3000}
obj3 = pd.Series(sdata)
obj3

APPL      1000
MS        2000
AMAZON    3000
dtype: int64

In [42]:
states = ["GOOGLE","APPL","AMAZON"]
obj4 = pd.Series(sdata, states)
obj4 
# sdata의 모든 값들이 흡수되는 것이 아니라
# states의 index를 기준으로 sdata에 index에 따른 해당 데이터가 존재할 때만 흡수

GOOGLE       NaN
APPL      1000.0
AMAZON    3000.0
dtype: float64

In [45]:
# index가 겹치는 것이 있고 아닌 것도 있다.
print(obj3)
print(obj4)
print("-----------------")
# 이렇게 하면 일단 겹치든 아니든 싹다 긁어온다.
print(obj3 + obj4)
print(obj3 - obj4)

APPL      1000
MS        2000
AMAZON    3000
dtype: int64
GOOGLE       NaN
APPL      1000.0
AMAZON    3000.0
dtype: float64
-----------------
AMAZON    6000.0
APPL      2000.0
GOOGLE       NaN
MS           NaN
dtype: float64
AMAZON    0.0
APPL      0.0
GOOGLE    NaN
MS        NaN
dtype: float64


In [47]:
# Series - NaN 관련
vals1 = np.array([1,None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [50]:
print(pd.isnull(vals1))
print(pd.notnull(vals1))

[False  True False False]
[ True False  True  True]


In [52]:
print(obj4)
print("-----------------")
print(pd.isnull(obj4)) # value에 대해서 NaN을 조회

GOOGLE       NaN
APPL      1000.0
AMAZON    3000.0
dtype: float64
-----------------
GOOGLE     True
APPL      False
AMAZON    False
dtype: bool


### 참고) index에 이름부여 

In [58]:
# Pandas : Series - 기타 - index 이름 부여
stock_price_Series_withIndex.index.name = "Stock Price Date"
print(stock_price_Series_withIndex.index)
# 전체 확인
print()
print(stock_price_Series_withIndex)

Index(['2016-03-01', '2016-06-01', '2016-09-01', '2016-12-01', '2017-03-01'], dtype='object', name='Stock Price Date')

Stock Price Date
2016-03-01     10000
2016-06-01     10300
2016-09-01      9900
2016-12-01     10500
2017-03-01    110000
dtype: int64


### 크기, 모양, 차원 등 확인

In [59]:
# Series 관련 기타 - 크기
print(stock_price_Series_withIndex.shape)b
print(stock_price_Series_withIndex.size)
print(stock_price_Series_withIndex.ndim)

(5,)
5
1


- index를 가지고 value 찾기 : at / iat
- index를 가지고 search : loc / iloc

In [60]:
### at, iat
print(stock_price_Series_withIndex.at["2016-03-01"])
print(stock_price_Series_withIndex[0])

10000
10000


In [71]:
# loc (index가지고 전체행 찾기)
# 범위 지정
print(stock_price_Series_withIndex.loc["2016-03-01":"2016-11"])
print()
# 특정한 것만 고르기
print(stock_price_Series_withIndex.loc[["2016-03-01", "2016-06-01"]])

Stock Price Date
2016-03-01    10000
2016-06-01    10300
2016-09-01     9900
dtype: int64

Stock Price Date
2016-03-01    10000
2016-06-01    10300
dtype: int64


In [75]:
# iloc
# index를 number로 부여해서 찾고자 할때는 iloc (loc하면 error 발생)
print(stock_price_Series_withIndex.iloc[0:3])
print(stock_price_Series_withIndex.iloc[[0,3]])

Stock Price Date
2016-03-01    10000
2016-06-01    10300
2016-09-01     9900
dtype: int64
Stock Price Date
2016-03-01    10000
2016-12-01    10500
dtype: int64


In [78]:
# append
add_data = pd.Series([12345], index = ["2016-04-01"])
print(stock_price_Series_withIndex.append(add_data)) # 임시적으로 적용되는 것(변수에 할당해야함)
print()
print(stock_price_Series_withIndex)

2016-03-01     10000
2016-06-01     10300
2016-09-01      9900
2016-12-01     10500
2017-03-01    110000
2016-04-01     12345
dtype: int64

Stock Price Date
2016-03-01     10000
2016-06-01     10300
2016-09-01      9900
2016-12-01     10500
2017-03-01    110000
dtype: int64


In [80]:
# 기존의 index명과 같은 이름으로 해서 append해도 붙여진다.
add_data = pd.Series([12345], index = ["2017-03-01"]) # 기존의 동일한 이름의 index를 더 붙이겠다.
print(stock_price_Series_withIndex.append(add_data)) # 임시적으로 적용되는 것(변수에 할당해야함)

2016-03-01     10000
2016-06-01     10300
2016-09-01      9900
2016-12-01     10500
2017-03-01    110000
2017-03-01     12345
dtype: int64


In [82]:
# append할 때 index 중복을 허용하지 않게 할 때
add_data = pd.Series([12345], index = ["2017-03-01"]) # 기존의 동일한 이름의 index를 더 붙이겠다.
# 중복 허용 X
print(stock_price_Series_withIndex.append(add_data, verify_integrity=True)) # error 발생한다.

ValueError: Indexes have overlapping values: Index(['2017-03-01'], dtype='object')