# Numpy
- 데이터세트는 광범위한 원천으로부터 문서나 이미지, 사운드 클립, 수치 측정값 등 모든 것을 아우르는 매우 다양한 형식으로 들어올 수 있다. 이러한 다양성에도 불구하고 모든 데이터를 근본적으로 숫자 배열로 간주하는 것이 도움이 될 것이다.
- 데이터가 무엇이든 상관없이 그 데이터를 분석할 수 있게 만드는 첫 번째 단계는 데이터를 숫자 배열로 변환하는 것이다.
- 이러한 숫자 배열을 다루기 위해 파이선에서 사용할 수 있는 전문 도구에는 Numpy 패키지와 Pandas 패키지가 있다.
- Numpy(Numerical Python)은 조밀한 데이터 버퍼에서 저장하고 처리하는 효과적인 인터페이스를 제공한다. 파이선에서 제공하는 list와 비슷하지만 배열의 규모가 커질수록 데이터 저장 및 처리에 훨씬 더 효율적이다.

In [1]:
# 사용방법 : 관례상 np를 사용한다.
import numpy as np

## Python 정수
### 파이선 객체는 그 값뿐만 아니라 다른 정보까지 포함하는 C 구조체이다.
 - ob_refcnt : 파이썬이 조용히 메모리 할당과 해체를 처리할 수 있게 돕는 참조 횟수
 - ob_type : 변수 타입을 인코딩
 - ob_size : 다음 데이터 멤버의 크기를 지정
 - ob_digit : 파이선 변수가 나타내는 실제 정숫값을 포함
- 파이선 객체의 변수는 정숫값을 담고 있는 바이트를 포함한 모든 파이선 객체 정보를 포함하는 메모리의 위치를 가르키는 포인터이다.

## Python 리스트 vs Numpy 배열
### Python 리스트
파이썬 정수와 같이 완전한 파이썬 객체를 차례로 가리키는 포인터의 블록을 가리키는 포인터를 담고 있다. 각 리스트 요소가 데이터와 타입 정보를 포함하는 완전한 구조이기 때문에 리스트를 원하는 어떤 타입으로도 채울 수 있다. 유연성이 높다.
### Numpy 배열
고정 타입 배열이다. 근본적으로 인접한 데이터 블록을 가르키는 단일 포인터를 담고 있다. 유연성이 떨어진다. 고정 타입의 NumPy 스타일의 배열은 이러한 유연성은 부족하지만 데이터를 저장하고 가공하기에는 훨씬 더 효율적이다.

In [1]:
# Python List : 정수
l = list(range(10))
l

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [2]:
type(l[0])

int

In [4]:
# Python List : 문자열
l_str = [str(c) for c in l]
l_str

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [6]:
type(l_str[0])

str

In [7]:
# 파이썬의 동적 타이핑(dynamic typing)
l_dy = [True, "2", 3.0, 4]
[type(item) for item in l_dy]

[bool, str, float, int]

In [8]:
# Numpy 패키지의 ndarray
import numpy as np
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

### 파이썬 리스트와 달리, NumPy는 배열의 모든 요소가 같은 타입이어야 한다. 타입이 일치하지 않으면 NumPy는 가능한 상위 타입을 취하게 된다.

In [15]:
# float를 취하게 될 것이다.
fl_arr = np.array([3.14, 4, 2, 3])
fl_arr

array([ 3.14,  4.  ,  2.  ,  3.  ])

In [16]:
[type(elem) for elem in fl_arr]

[numpy.float64, numpy.float64, numpy.float64, numpy.float64]

In [18]:
# string을 취하게 될 것이다.
str_arr = np.array(["wow", 3.14, 2, 3])
str_arr

array(['wow', '3.14', '2', '3'], 
      dtype='|S4')

In [19]:
[type(elem) for elem in str_arr]

[numpy.string_, numpy.string_, numpy.string_, numpy.string_]

### 명시적으로 결과 배열의 데이터 타입을 설정하려면 `dtype` 키워드를 사용하면 된다.

In [20]:
fl32_arr = np.array([1, 2, 3, 4], dtype='float32')
fl32_arr

array([ 1.,  2.,  3.,  4.], dtype=float32)

In [21]:
[type(elem) for elem in fl32_arr]

[numpy.float32, numpy.float32, numpy.float32, numpy.float32]

In [22]:
# 배열을 중첩하면, 다차원 배열이 된다.
np.array([[2, 3, 4], [4, 5, 6], [6, 7, 8]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [23]:
# 0으로 채운 길이 10의 정수 배열 만들기
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [24]:
# 1로 채운 3 by 5 부동 소수점 배열 만들기
np.ones((3, 5), dtype=float)

array([[ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.]])

In [25]:
# 3.14fh codns 3 by 5 배열 만들기
np.full((3, 5), 3.14)

array([[ 3.14,  3.14,  3.14,  3.14,  3.14],
       [ 3.14,  3.14,  3.14,  3.14,  3.14],
       [ 3.14,  3.14,  3.14,  3.14,  3.14]])

In [26]:
# 0에서 시작해 2씩 더해 20까지 채움
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [27]:
# 0과 1 사이에 일정한 간격을 가진 다섯 개의 값으로 채운 배열 만들기
np.linspace(0, 1, 5)

array([ 0.  ,  0.25,  0.5 ,  0.75,  1.  ])

In [31]:
# 균등하게 분포된 3 by 3 배열 만들기. 0과 1사이의 난수로 채움. uniform 분포를 생성할 때 사용하는 함수이다.
np.random.random((3, 3))

array([[ 0.16241899,  0.38825457,  0.53636967],
       [ 0.98540771,  0.44598557,  0.10511914],
       [ 0.16509248,  0.3321939 ,  0.35169842]])

In [32]:
# 표준정규분포 (평균 = 0, 분산 = 1)의 난수로 채운 3 by 3 배열 만들기
np.random.normal(0, 1, (3, 3))

array([[ 1.16877351,  0.97102424, -0.45978617],
       [-0.73096214, -0.154691  , -0.35719461],
       [-0.66825414,  0.38212373,  0.62795567]])

In [33]:
# [0, 10] 구간의 임의의 정수로 채운 3 by 3 배열 만들기
np.random.randint(0, 10, (3, 3))

array([[5, 9, 7],
       [2, 3, 7],
       [3, 3, 7]])

In [34]:
# 3 by 3 단위 행렬 만들기
np.eye(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

## 표준 NumPy 데이터 타입
- bool_ : 1바이트로 저장된 부울 값(참 또는 거짓)
- int32 : 정수(-2,147,483,648 ~ 2,147,483,647)
- int64 : 정수(-9,223,372,036,854,775,808 ~ -9,223,372,036,854,775,807)
- float32 : 단정밀 부동 소수점(부호 비트, 8비트 지수, 23비트 가수)
- float64 : 배정밀 부동 소수점(부호 비트, 11비트 지수, 52비트 가수)
(더 많은 type을 알아보고 싶으면 http://www.numpy.org 를 검색해보자.

## NumPy 배열의 기초
### NumPy 배열의 속성 지정

In [3]:
import numpy as np

np.random.seed(10) # 재현 가능성을 위한 시드 값

x1 = np.random.randint(10, size=4) # 1차원 배열
x1

array([9, 4, 0, 1])

In [4]:
x2 = np.random.randint(10, size=(4,5)) # 2차원 배열
x2

array([[9, 0, 1, 8, 9],
       [0, 8, 6, 4, 3],
       [0, 4, 6, 8, 1],
       [8, 4, 1, 3, 6]])

In [5]:
x3 = np.random.randint(10, size=(2,3,4)) # 3차원 배열
x3

array([[[5, 3, 9, 6],
        [9, 1, 9, 4],
        [2, 6, 7, 8]],

       [[8, 9, 2, 0],
        [6, 7, 8, 1],
        [7, 1, 4, 0]]])

In [9]:
print "x3 차원 :", x3.ndim
print "x3 차원의 크기 :", x3.shape
print "x3 전체 배열의 크기: ", x3.size
print "x3 원소의 데이터 타입:", x3.dtype
print "x3 각 원소의 bytes 수:", x3.itemsize, "bytes"
print "x3 전체 배열의 bytes 수:", x3.nbytes, "bytes"

x3 차원 : 3
x3 차원의 크기 : (2, 3, 4)
x3 전체 배열의 크기:  24
x3 원소의 데이터 타입: int64
x3 각 원소의 bytes 수: 8 bytes
x3 전체 배열의 bytes 수: 192 bytes


### 배열 인덱싱 : 단일 요소에 접근하기

In [16]:
# 1차원 배열
print x1
print x1[3]
print x1[-1]

[9 4 0 1]
1
1


In [14]:
# 다차원 배열
print x2
print x2[0, 0]
print x2[2, -1]

[[9 0 1 8 9]
 [0 8 6 4 3]
 [0 4 6 8 1]
 [8 4 1 3 6]]
9
1


In [17]:
# 배열의 내용을 변경하기
x2[0, 0] = 100
x2

array([[100,   0,   1,   8,   9],
       [  0,   8,   6,   4,   3],
       [  0,   4,   6,   8,   1],
       [  8,   4,   1,   3,   6]])

In [18]:
# NumPy 배열은 단일 타입이기 때문에 만약 정수 배열에 실수를 넣으려고 하면 소수점 이하는 잘린다.
x2[0, 1] = 1.2345
x2

array([[100,   1,   1,   8,   9],
       [  0,   8,   6,   4,   3],
       [  0,   4,   6,   8,   1],
       [  8,   4,   1,   3,   6]])

### 배열 슬라이싱 : 하위 배열에 접근하기

In [19]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
# 첫 5개 개 요소
x[:5]

array([0, 1, 2, 3, 4])

In [21]:
# 인덱스 5 다음 요소들
x[5:]

array([5, 6, 7, 8, 9])

In [22]:
# 중간 배열
x[4:7]

array([4, 5, 6])

In [23]:
# 스텝 값이 2인 경우
x[::2]

array([0, 2, 4, 6, 8])

In [24]:
# 홀수만 출력
x[1::2]

array([1, 3, 5, 7, 9])

In [25]:
# 스텝 값이 음수인 경우
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [27]:
# 홀수를 내림차순으로 가지고 있는 배열
x[-1::-2]
# x[9::-2]

array([9, 7, 5, 3, 1])

In [29]:
# 다차원의 하위 배열
x2

array([[100,   1,   1,   8,   9],
       [  0,   8,   6,   4,   3],
       [  0,   4,   6,   8,   1],
       [  8,   4,   1,   3,   6]])

In [30]:
# 두 개의 행, 세 개의 열
x2[:2, :3]

array([[100,   1,   1],
       [  0,   8,   6]])

In [33]:
# 행 : 모든 행, 열 : 한 열씩을 걸러서
x2[:4, ::2]

array([[100,   1,   9],
       [  0,   6,   3],
       [  0,   6,   1],
       [  8,   1,   6]])

In [35]:
# 다차원배열을 역으로 변환
x2[::-1, ::-1]

array([[  6,   3,   1,   4,   8],
       [  1,   8,   6,   4,   0],
       [  3,   4,   6,   8,   0],
       [  9,   8,   1,   1, 100]])

In [36]:
# x2의 첫 번째 열
x2[:, 0]

array([100,   0,   0,   8])

In [39]:
# x2의 두 번째 행
x2[1, :] # 또는 x2[1]

array([0, 8, 6, 4, 3])

#### NumPy의 배열 슬라이싱은 파이썬 리스트의 슬라이싱과는 달리 사본(copy)가 아닌 뷰(view)를 반환한다.

In [40]:
# 1. x2를 출력해보자
x2

array([[100,   1,   1,   8,   9],
       [  0,   8,   6,   4,   3],
       [  0,   4,   6,   8,   1],
       [  8,   4,   1,   3,   6]])

In [42]:
# 2. 2 by 2 배열을 추출해 보자
x2_sub = x2[:2, :2]
x2_sub

array([[100,   1],
       [  0,   8]])

In [43]:
# 3. x2_sub의 내용을 변경해보자
x2_sub[0, 0] = 0
x2_sub

array([[0, 1],
       [0, 8]])

In [44]:
# 4. x2를 출력해보자
x2

array([[0, 1, 1, 8, 9],
       [0, 8, 6, 4, 3],
       [0, 4, 6, 8, 1],
       [8, 4, 1, 3, 6]])

#### 배열이나 하위 배열 내의 데이터를 명시적으로 복사하는 것이 더 유용할 때가 있다. `copy()` 메서드를 이용하면 된다.

In [45]:
# 1. x2의 하위 배열을 copy 해보자.
x2_sub_copy = x2[:2, :2].copy()
x2_sub_copy

array([[0, 1],
       [0, 8]])

In [46]:
# 2. 하위 배열을 변경해보자
x2_sub_copy[0, 0] = 1000
x2_sub_copy

array([[1000,    1],
       [   0,    8]])

In [47]:
# 3. x2를 확인해보자
x2

array([[0, 1, 1, 8, 9],
       [0, 8, 6, 4, 3],
       [0, 4, 6, 8, 1],
       [8, 4, 1, 3, 6]])

### 배열 재구조화
 - 배열을 재구조하기 전과 재구조한 후의 데이터의 총 크기가 일치해야만 가능하다.

In [48]:
# 배열의 형상을 변경해보자.
# 1. 1차원 배열을 생성
grid_before = np.arange(1, 10)
grid_before

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [55]:
# 2. 2차원 배열로 변경해보자
grid_before.reshape(3, 3)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

- 1차원 배열을 2차원 행 매트릭스 또는 열 매트릭스로 재구조화 

In [56]:
# 1. 1차원 배열을 선언한다.
x = np.array([1, 2, 3, 4, 5])
x

array([1, 2, 3, 4, 5])

In [57]:
# 2. newaxis를 이용하여 행 매트릭스를 생성
x[np.newaxis, :]

array([[1, 2, 3, 4, 5]])

In [58]:
# 3. newaxis를 이용하여 열 매트릭스를 생성
x[:, np.newaxis]

array([[1],
       [2],
       [3],
       [4],
       [5]])

### 배열 연결하기

In [59]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [60]:
# 다차원 배열의 경우도 사용가능하다.
grid = np.array([
        [1, 2, 3],
        [4, 5, 6]
    ])
grid

array([[1, 2, 3],
       [4, 5, 6]])

In [65]:
# 첫 번째 축을 따라 연결
np.concatenate([grid, grid], axis = 0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [62]:
# 두 번째 축을 따라 연결
np.concatenate([grid, grid], axis = 1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [67]:
# 다차원 배열의 경우, 수직으로 잇는 경우 (더 좋은 사용법)
x = np.array([1, 2, 3])
y = np.array([
        [9, 8, 7],
        [6, 5, 4]
    ])
np.vstack([x, grid])

array([[1, 2, 3],
       [1, 2, 3],
       [4, 5, 6]])

In [68]:
# 다차원 배열의 경우, 수평으로 잇는 경우 (더 좋은 사용법)
z = np.array([
        [99],
        [99]
    ])
np.hstack([z, grid])

array([[99,  1,  2,  3],
       [99,  4,  5,  6]])

### 배열 분할하기

In [69]:
# 1차원 배열 분할하기
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print x1, x2, x3

[1 2 3] [99 99] [3 2 1]


In [72]:
# 다차원 배열 분할하기
grid = np.arange(16).reshape((4, 4))

upper, lower = np.vsplit(grid, [2])

print grid
print upper
print lower

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


## NumPy 배열 연산 : 유니버설 함수
NumPy 배열의 연산은 아주 느리거나 아주 느릴 수 있다. 이 연산을 빠르게 만드는 핵심은 벡터화(vectorized) 연산을 사용하는 것인데, 그것은 일번적으로 NumPy의 유니버설 함수(universal functions, ufuncs)를 통해 구현된다.

### 벡터화 연산
> - 여러 종류의 연산에 대해 정적 타입 체계를 가진 컴파일된 루틴에 편리한 인터페이스를 제공. 벡터 연산을 제공해준다.
> - NumPy에서 벡터화 연산은 NumPy 배열의 값에 반복된 연산을 빠르게 수행하는 것을 주목적으로 하는 ufunc를 통해 구현된다. 

In [74]:
# 파이썬 리스트에 대한 반복문 연산과 NumPy의 차이
x = [1, 2, 3, 4, 5]
for i in range(len(x)):
    print 1.0 / x[i]

1.0
0.5
0.333333333333
0.25
0.2


#### 스칼라와 벡터의 연산

In [79]:
1.0 / np.array(x)

array([ 1.        ,  0.5       ,  0.33333333,  0.25      ,  0.2       ])

#### 벡터와 벡터의 연산

In [78]:
np.arange(5) / np.arange(1.0, 6.0)

array([ 0.        ,  0.5       ,  0.66666667,  0.75      ,  0.8       ])

#### 다차원 배열

In [80]:
x = np.arange(9).reshape((3, 3))
2**x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]])

### 배열 산술 연산

In [85]:
x = np.arange(4)

print x
print x + 1 # np.add(x, 1)와 같다. 즉 add 함수의 wrapper 함수다.
print x * 2 # np.multiply(x, 2)
print x % 2 # np.mod(x, 2)

[0 1 2 3]
[1 2 3 4]
[0 2 4 6]
[0 1 0 1]


### 절대값 함수

In [87]:
x = np.array([-2, -1, 0, 1, 2])

# 파이썬 내장함수
abs(x)

array([2, 1, 0, 1, 2])

In [88]:
# NumPy 벡터화 연산

In [89]:
np.absolute(x)

array([2, 1, 0, 1, 2])

In [90]:
np.abs(x)

array([2, 1, 0, 1, 2])

###  삼각 함수

In [93]:
# 각도 배열
theta = np.linspace(0, np.pi, 3) # 0, 90도, 180도

print "theta =", theta
print "sin(theta) =", np.sin(theta)
print "cos(theta) =", np.cos(theta)
print "tan(theta) =", np.tan(theta)

theta = [ 0.          1.57079633  3.14159265]
sin(theta) = [  0.00000000e+00   1.00000000e+00   1.22464680e-16]
cos(theta) = [  1.00000000e+00   6.12323400e-17  -1.00000000e+00]
tan(theta) = [  0.00000000e+00   1.63312394e+16  -1.22464680e-16]


### 역삼각 함수

In [94]:
x = [-1, 0, 1]
print "x =", x
print "arcsin(x) =", np.arcsin(x)
print "arccos(x) =", np.arccos(x)
print "arctan(x) =", np.arctan(x)

x = [-1, 0, 1]
arcsin(x) = [-1.57079633  0.          1.57079633]
arccos(x) = [ 3.14159265  1.57079633  0.        ]
arctan(x) = [-0.78539816  0.          0.78539816]
