In [1]:
import numpy as np

### Why Numpy?
1. 데이터 저장 방식!
2. 데이터 접근 방식!
3. 벡터화된 연산의 결과물!

#### 자료구조
- vectorization
    - R, Matlab, Numpy 등
    - 벡터화하여 계산
    - 배열(행렬)을 활용한 효율적인 계산, 반복문을 명시적으로 제거해 속도빠름
    - 실제코딩의 양을 줄이고, 병렬계산이 가능하기에 multi core 활용가능(그러나 numpy는 싱글코어에만 최적화, gpu 지원x)
    
- 메모리 접근
    - 파이썬의 리스트는 연결리스트로 구현(포인터의 배열, 객체가 메모리에 흩어져있음-> 속도느림)
    - 넘파이의 ND어레이는 메모리에 연속적으로 구현

<img width="619" alt="1" src="https://user-images.githubusercontent.com/38183218/44324235-015e4000-a490-11e8-9b47-868fa68999fc.png">
<img width="600" alt="2" src="https://user-images.githubusercontent.com/38183218/44324236-015e4000-a490-11e8-9287-b441b44179b7.png">

![1](https://user-images.githubusercontent.com/38183218/44341256-4f8c3700-a4c2-11e8-8cd1-6583bdf34f0c.PNG)

#### 인터페이스
- scipy, matplotlib, pandas, scikit-learn, statsmodels 같은 라이브러리 간의 공통 인터페이스
- Tensorflow 는 numpy의 ndarray 기능에 약간의 추가적인 기능 + 자동미분 + GPU지원 추가

#### 편함
- broadcasting
- univertial function

#### 유니버설 함수
unfunc라고 불리는 유니버설 함수는 ndarray 안에 있는 데이터 원소 별로 연산을 수행하는 함수

일종의 래퍼 함수(wrapper function)로 간단하게 다른 함수에 약간의 기능을 덧씌워 사용하는 함수

여기에서는 ndarray를 감싸 특정 연산을 고속으로 수행하주는 함수라고 보면 된다

=> 즉, ndarry에 안에 있는 데이터의 각 원소별로 연산을 수행하는 함수

 ## 1. 1 NUMPY ndarray : 다차원 배열 객체
![2](https://user-images.githubusercontent.com/38183218/44341392-bc9fcc80-a4c2-11e8-9fbb-019c324bdb4b.PNG)
 ### 1.1.1 ndarray 생성
 
 #### 배열 생성 함수
 
- __np.arrary__ : 입력된 데이터를 ndarray로 변환. dtype을 명시하면 자료형을 설정할 수 있다.
- __np.asarray__ : 입력 데이터를 ndarray로 변환하나 이미 ndarray일 경우에는 새로 메모리에 ndarray가 생성되지는 않는다.
- __np.arange__ : range 함수와 유사하나 ndarray를 반환한다. 자료형 Default는 float64이다.
- __np.ones__ : 전달인자로 전달한 dtype과 모양(행,렬)으로 배열을 생성하고 모든 내용을 1로 초기화하여 ndarray로 반환한다.
- __np.zeroes__ : ones와 같으나 초기값이 0이다.
- __np.empty__ : ones와 zeros와 비슷하나 값을 초기화하지 않는다.


 ### 1.1.2 ndarray의 자료형

In [2]:
data = np.array([
        [1,2,3],
        [4,5,6],
        [7,8,9]
                ])

In [3]:
data.shape

(3, 3)

In [4]:
data.dtype # array는 생성될 때 적절한 자료형을 선택,

dtype('int32')

In [5]:
data.astype(np.int64)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]], dtype=int64)

In [6]:
numeric_strings = np.array(['1.25','-9.6','42'], dtype = np.string_) # array를 설정할 때부터 dtype을 통해 형태를 지정할 수 있다.

In [7]:
numeric_strings

array([b'1.25', b'-9.6', b'42'], dtype='|S4')

### 1.1.3 배열과 스칼라 간의 연산
#### Broadcasting

In [8]:
data*data # 배열의 연산은 사칙연산의 기호를 그대로 사용하면 된다.

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

### 1.1.4 색인과 슬라이싱 기초

In [9]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
arr[5:8] # 1차원 배열의 인덱싱은 파이썬의 리스트와 유사하게 동작

array([5, 6, 7])

In [12]:
arr[5:8] = 100
# 배열의 인덱싱 값을 수정하면 원본 배열에 바로 반영
arr

array([  0,   1,   2,   3,   4, 100, 100, 100,   8,   9])

In [13]:
data[0] # 2차원 배열에서 배열의 색인은 값이 아닌, 1차원 배열이다.

array([1, 2, 3])

In [14]:
data[0][2] == data[0,2] # 2차원 배열의 인덱싱

True

### 1.1.7 배열 전치와 축 바꾸기

In [15]:
data.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [17]:
data.transpose(1,0) #data.T와 결과는 같다.(axis0=행 axis1=열이라고 할 때, axis0, axis1이 서로 바뀌게 된다.)

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [18]:
np.dot(data.T,data) # np.dot()은 행렬의 곱을 계산해준다.

array([[ 66,  78,  90],
       [ 78,  93, 108],
       [ 90, 108, 126]])

### 1.2 유니버설 함수

In [19]:
np.sqrt(data)

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974],
       [2.64575131, 2.82842712, 3.        ]])

In [20]:
np.exp(data)

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01],
       [5.45981500e+01, 1.48413159e+02, 4.03428793e+02],
       [1.09663316e+03, 2.98095799e+03, 8.10308393e+03]])

In [21]:
x = np.random.randn(8)
y = np.random.randn(8)

In [22]:
np.maximum(x, y)

array([ 0.20146238,  1.14360214,  1.26548017, -0.99735921,  0.52144585,
        0.11591747,  0.10779347,  2.49857522])

### 1.3 배열을 사용한 데이터 처리
#### NumPy 배열을 사용하면 반복문을 작성하지 않고 간결한 배열연산을 통해 데이터 처리 작업이 가능
#### <벡터화> : 배열연산을 사용해 반복문을 명시적으로 제거하는 방법
#### 일반적으로 벡터화 된 배열에 대해 산술연산을 순수 파이썬 연산에 비해 빠름

#### 1.3.1 배열 연산으로 조건절 표현하기

In [24]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

result = np.where(cond, xarr, yarr) # Cond가 True이면 xarr에서, False이면 yarr에서 값을 취함
print (result)

[1.1 2.2 1.3 1.4 2.5]


In [25]:
arr = np.random.randn(4, 4)
np.where(arr > 0, 2, -2)

array([[ 2,  2, -2, -2],
       [ 2,  2, -2,  2],
       [-2, -2, -2, -2],
       [-2,  2,  2, -2]])

In [26]:
np.where(arr > 0, 2, arr)

array([[ 2.        ,  2.        , -0.99915027, -1.35628458],
       [ 2.        ,  2.        , -0.97804843,  2.        ],
       [-0.52595398, -0.85020274, -1.21556016, -0.35706252],
       [-1.16846719,  2.        ,  2.        , -0.0619127 ]])

### 1.3.3 불리언 배열을 위한 메서드 

In [33]:
arr

array([[ 1.40065029,  1.46287576, -0.99915027, -1.35628458],
       [ 0.21494003,  0.36707092, -0.97804843,  0.76327613],
       [-0.52595398, -0.85020274, -1.21556016, -0.35706252],
       [-1.16846719,  0.73298724,  0.09569474, -0.0619127 ]])

In [32]:
(arr>0).sum()

7

In [34]:
bools = np.array([False, False, True, False])

In [35]:
bools.any()

True

In [36]:
bools.all()

False

### 1.3.4 정렬

In [37]:
arr = np.random.randn(8)
arr

array([ 0.49794229,  0.11292962, -1.08532888, -1.37618108,  0.83503095,
       -0.07719525,  0.98162579,  0.46099161])

In [38]:
arr.sort() #다차원 배열의 정렬은 sort 메서드에 넘긴 축의 값에 따라 1차원 부분 정렬(오름차순)

In [39]:
arr

array([-1.37618108, -1.08532888, -0.07719525,  0.11292962,  0.46099161,
        0.49794229,  0.83503095,  0.98162579])

In [40]:
arr = np.random.randn(5, 3) #5행 3열의 배열(5x3행렬) arr 생성
arr

array([[-0.33112212,  0.9038282 ,  0.10736887],
       [-0.06150863, -1.71030769,  1.93999104],
       [-0.28309398,  0.37935712,  0.05463613],
       [ 0.94058494,  0.88486031,  2.06496353],
       [-0.89406546,  0.10609183,  0.63509583]])

In [41]:
arr.sort(1) #row.sort 각 행의 원소들을 오름차순으로 정렬
arr

array([[-0.33112212,  0.10736887,  0.9038282 ],
       [-1.71030769, -0.06150863,  1.93999104],
       [-0.28309398,  0.05463613,  0.37935712],
       [ 0.88486031,  0.94058494,  2.06496353],
       [-0.89406546,  0.10609183,  0.63509583]])

In [42]:
arr.sort(0) #column.sort 각 열의 원소들을 오름차순으로 정렬
arr

array([[-1.71030769, -0.06150863,  0.37935712],
       [-0.89406546,  0.05463613,  0.63509583],
       [-0.33112212,  0.10609183,  0.9038282 ],
       [-0.28309398,  0.10736887,  1.93999104],
       [ 0.88486031,  0.94058494,  2.06496353]])

### 1.3.5 집합 함수

In [43]:
names = np.array(['소현', '지연', '용협', '연식'])
names

array(['소현', '지연', '용협', '연식'], dtype='<U2')

In [44]:
np.unique(names) #배열 내에 같은 이름이 중복되어 있다면 중복을 제거한 다음 불러온다.(가장 자주 사용될 수 있다.)

array(['소현', '연식', '용협', '지연'], dtype='<U2')

### Numpy에서 사용되는 배열 집합 함수 정리
#### Method	                       Comment
- unique(x)	        배열 x에서 중복된 원소를 제거한 후 정렬하여 반환한다.
- intersect1d(x, y)	배열 x와 y에 공통적으로 존재하는 원소를 정렬하여 반환한다.
- union1d(x, y)	    두 배열의 합집합을 반환한다.
- in1d(x, y)	    x의 원소 중 y의 원소를 포함하는지를 나타내는 불리언 배열을 반환한다.
- setdiff1d(x, y)	x와 y의 차집합을 반환한다.
- setxor1d(x, y)	한 배열에는 포함되지만 두 배열 모두에는 포함되지 않는 원소들의 집합인 대칭차집합을 반환한다.

In [45]:
# 배열은 기본적으로 압축되지 않은 raw 바이너리 형식의 '.npy'파일로 저장됨.
np.save('some_array', arr)

In [46]:
np.load('some_array.npy') #'.npy'파일로 저장된 배열은 np.load로 불러올 수 있다.

array([[-1.71030769, -0.06150863,  0.37935712],
       [-0.89406546,  0.05463613,  0.63509583],
       [-0.33112212,  0.10609183,  0.9038282 ],
       [-0.28309398,  0.10736887,  1.93999104],
       [ 0.88486031,  0.94058494,  2.06496353]])

### 1.5 선형대수

#### 자주 사용되는 numpy.linalg functions
- diag : 정사각 행렬의 대각/비대각 원소를 1차원 배열로 반환하거나 1차원 배열을 대각선 원소로 하고, 나머지는 0으로 채운 단위 행렬을 반환한다.
- dot : 행렬곱셈
- trace : 행렬의 대각선 원소의 합 계산
- det : 행렬식 계산
- eig : 정사각 행렬의 고유값과 고유벡터를 계산
- inv : 정사각 행렬의 역행렬 계산
- pinv : 행렬의 무어-벨로즈 유사역원 역행렬을 구한다
- qr : QR 분해 계산
- svd : 특이값 분해(SVD)를 계산
- solve : A가 정사각 행렬일 때, Ax= b를 만족하는 x 구하기
- lstsq : y=xb를 만족하는 최소제곱해를 구함