## 2.3 Pandas 라이브러리

- 결측치 처리
- 열 삽입 및 제거
- 데이터 정렬
- 데이터 병합
- 타 자료 구조를 pandas 데이터 프레임 형태로 변환
- 색인, 인덱싱, 부분집합
- 데이터 세트 조인
- 데이터 세트 차원 변환
- 축의 계층적 레이블링
- 다양한 포맷으로의 입출력
- 다양한 시계열 함수

## 2.3.1 pandas 자료 구조 소개
### 2.3.1.1 Series

In [16]:
import pandas as pd

obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [17]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [18]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [19]:
obj2 = pd.Series([1,3,-4,0], index=['a','b','k','z'])
obj2

a    1
b    3
k   -4
z    0
dtype: int64

In [20]:
obj2['a']

1

In [21]:
obj2['a']=11

In [22]:
obj2[['k','a','b']]

k    -4
a    11
b     3
dtype: int64

In [23]:
obj2.isnull()

a    False
b    False
k    False
z    False
dtype: bool

#### 2.3.1.2 DataFrame

In [24]:
pd.DataFrame()

In [25]:
data = {'city': ['Seoul', 'Busan', 'Daegu', 'Ulsan'],
       'year': [2010,2011,2012,2013]}

frame = pd.DataFrame(data)

In [26]:
frame2 = pd.DataFrame(data, columns=['year','city'])
frame2

Unnamed: 0,year,city
0,2010,Seoul
1,2011,Busan
2,2012,Daegu
3,2013,Ulsan


In [27]:
frame3 = pd.DataFrame(data, index=['one','two','three','four'])
frame3

Unnamed: 0,city,year
one,Seoul,2010
two,Busan,2011
three,Daegu,2012
four,Ulsan,2013


In [28]:
# ix 기능이 만료되어 loc로 사용
frame3.loc['two']

city    Busan
year     2011
Name: two, dtype: object

In [29]:
frame3.T

Unnamed: 0,one,two,three,four
city,Seoul,Busan,Daegu,Ulsan
year,2010,2011,2012,2013


In [37]:
frame3.drop[[2]] #, 'three']]

TypeError: 'method' object is not subscriptable

In [31]:
frame4 = pd.DataFrame([[1,3,2,5],[4,2,6,1]], index=['three', 'one'], columns=['d','a','b','c'])

In [32]:
frame4.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,1,5,2,3
one,4,1,6,2


In [33]:
frame4.sort_values(by=['c'])

Unnamed: 0,d,a,b,c
one,4,2,6,1
three,1,3,2,5


## 2.4 numpy 라이브러리
Numerical Python

- 다차원배열 ndarray
- 선형대수, 난수 발생기, 푸리에 변환
- 반복문 필요 없이 전체 데이터 배열을 빠르게 연상하는 표준 수학 함수
- C, C++, 포트린으로 쓰인 코드를 통합하는 도구

### 2.4.1 numpy 다차원 배열 객체

In [39]:
import numpy as np

data = np.random.randn(2,3)
data

array([[ 0.09763651,  1.5289258 , -1.3085757 ],
       [ 0.27533434, -1.42634861,  0.39373402]])

In [40]:
data*2

array([[ 0.19527303,  3.0578516 , -2.61715139],
       [ 0.55066869, -2.85269721,  0.78746804]])

In [41]:
data+data+data

array([[ 0.29290954,  4.58677741, -3.92572709],
       [ 0.82600303, -4.27904582,  1.18120207]])

In [42]:
data.shape

(2, 3)

In [43]:
data.dtype

dtype('float64')

In [44]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [45]:
np.ones((3,6))

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [47]:
np.empty((4,6)) #난수 발생인데 0으로만 뜨네,,

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [48]:
# 색인을 통합 데이터값 접근
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [49]:
arr[5]

5

In [50]:
arr[5:8]

array([5, 6, 7])

In [61]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [53]:
arr2d[1]

array([4, 5, 6])

In [54]:
arr2d[1][0]

4

In [55]:
arr2d[1,0]

4

In [56]:
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [57]:
arr2d[0] #교재에는 1,2,3,4,5,6까지 나오는데,,

array([1, 2, 3])

In [62]:
arr2d = arr2d[:2,1:]
arr2d

array([[2, 3],
       [5, 6]])