## 1.NumPy 배열
***

 ### NumPy 배열이란?
>  * 쉽게 수학분야에서 배웠던 배열을 생각하면 쉽다.
 * 접근성이 좋고 데이터 활용을 효율적으로 하기위한 고성능 다차원 배열이다.
 * 다양한 내장 함수들을 포함한다.
 * 그냥 사용자를 위해 데이터 저장과 접근을 효율적으로 해주는 기능이라고 생각하자.
***

 ### 왜빠른가?
![numpyandlistmemory.png](attachment:numpyandlistmemory.png)
>  * 리스트는 데이터가 흩어져서 메모리 주소값으로 접근함
 * NumPy는 같은 메모리 주소값을 사용하면서 데이터를 연속적으로 가지고 있음
 * hex(id(numpy[i]))로 같은 주소값을 사용한다는 것을 확인 가능함

In [1]:
import numpy as np #선언하기 numpy 를 np 로 부르겠다는 의미

### 오류가 날시
> * conda install numpy
* pip3 install numpy

### 사용자 편의를 위한 함수 생성

In [2]:
def npprint(arr): # numpy 정보를 확인하기 위해 정의된 함수
    print("type:{}".format(type(arr)))
    print("shape: {}, dimension: {}, dtype:{}".format(arr.shape, arr.ndim, arr.dtype))
    print("Array's Data:\n", arr)

## 2.배열생성
***


 ### 2.1 파이썬 배열로 NumPy 배열 생성

In [3]:
temp_arr = [1, 2, 3]
np_arr1 = np.array([1, 2, 3])

In [4]:
temp_arr = [(1,2,3), (4,5,6)]
np_arr2= np.array(temp_arr, dtype = float)

In [5]:
temp_arr = np.array([[[1,2,3], [4,5,6]], [[3,2,1], [4,5,6]]], dtype = float)
np_arr3= np.array(temp_arr, dtype = str)

In [6]:
npprint(np_arr1)
npprint(np_arr2)
npprint(np_arr3)

type:<class 'numpy.ndarray'>
shape: (3,), dimension: 1, dtype:int64
Array's Data:
 [1 2 3]
type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:float64
Array's Data:
 [[1. 2. 3.]
 [4. 5. 6.]]
type:<class 'numpy.ndarray'>
shape: (2, 2, 3), dimension: 3, dtype:<U32
Array's Data:
 [[['1.0' '2.0' '3.0']
  ['4.0' '5.0' '6.0']]

 [['3.0' '2.0' '1.0']
  ['4.0' '5.0' '6.0']]]


 ### 2.2 배열 생성 및 초기화

#### np.zeros 함수
* zeros(shape, dtype=float, order='C')
* 지정된 shape의 배열을 생성하고, 모든 요소를 0으로 초기화

In [7]:
temp_np=np.zeros((3, 4))
npprint(temp_np)

type:<class 'numpy.ndarray'>
shape: (3, 4), dimension: 2, dtype:float64
Array's Data:
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


#### np.ones 함수
* np.ones(shape, dtype=None, order='C')
* 지정된 shape의 배열을 생성하고, 모든 요소를 1로 초기화

In [8]:
temp_np=np.ones((3, 4))
npprint(temp_np)

type:<class 'numpy.ndarray'>
shape: (3, 4), dimension: 2, dtype:float64
Array's Data:
 [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


#### np.full 함수
* np.full(shape, fill_value, dtype=None, order='C')
* 지정된 shape의 배열을 생성하고, 모든 요소를 지정한 "fill_value"로 초기화

In [9]:
temp_np = np.full((2,2),7)
npprint(temp_np)

type:<class 'numpy.ndarray'>
shape: (2, 2), dimension: 2, dtype:int64
Array's Data:
 [[7 7]
 [7 7]]


#### np.eye 함수
* np.eye(N, M=None, k=0, dtype=<class 'float'>)
* (N, N) shape의 단위 행렬(Unit Matrix)을 생성

In [10]:
temp_np=np.eye(4)
npprint(temp_np)

type:<class 'numpy.ndarray'>
shape: (4, 4), dimension: 2, dtype:float64
Array's Data:
 [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


#### np.empty 함수

* empty(shape, dtype=float, order='C')
* 지정된 shape의 배열 생성
* 요소의 초기화 과정에 없고, 기존 메모리값을 그대로 사용
* 배열 생성비용이 가장 저렴하고 빠름
* 배열 사용 시 주의가 필요(초기화를 고려)

In [11]:
temp_np = np.empty((4,2))
npprint(temp_np)

type:<class 'numpy.ndarray'>
shape: (4, 2), dimension: 2, dtype:float64
Array's Data:
 [[6.94310708e-310 2.28389394e-316]
 [0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000]]


#### like 함수
* numpy는 지정된 배열과 shape이 같은 행렬을 만드는 like 함수를 제공합니다.
* np.zeros_like
* np.ones_like
* np.full_like
* np.enpty_like

In [12]:
temp_np = np.array([[1,2,3], [4,5,6]])
temp_np2 = np.ones_like(temp_np)
npprint(temp_np2)

type:<class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype:int64
Array's Data:
 [[1 1 1]
 [1 1 1]]


### 2.3 배열 연결

#### np.hstack 함수
 * 행의 수가 같은 두개 이상의 배열을 연결하여 열의 수가 더 많은 배열을 만든다.

In [74]:
a1 = np.ones((2, 3))
a2 = np.zeros((2, 2))
np.hstack([a1, a2])

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

#### np.vstack 함수
 * 열의 수가 같은 두 개 이상의 배열을 위아래로 연결하여 행의 수가 더 많은 배열을 만든다.

In [75]:
b1 = np.ones((2,3))
b2 = np.zeros((3,3))
np.vstack([b1,b2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

#### np.dstack 함수
 * 제3의 축 즉, 행이나 열이 아닌 깊이(depth) 방향으로 배열을 합친다.
 * 장 안쪽의 원소의 차원이 증가한다.

In [76]:
c1 = np.ones((3, 4))
c2 = np.zeros((3, 4))
np.dstack([c1, c2])

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [77]:
np.dstack([c1,c2]).shape

(3, 4, 2)

#### np.stack 함수
 * dstack의 기능을 확장한 것이다.
 * dstack처럼 마지막 차원으로 연결하는 것이 아니라 사용자가 지정한 차원(축으로) 배열을 연결한다.
 * axis 인수(디폴트 0)를 사용하여 연결후의 회전 방향을 정한다.

In [78]:
c_0=np.stack([c1,c2])
c_0

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [81]:
c_0.shape

(2, 3, 4)

In [80]:
c_1=np.stack([c1,c2],axis=1)
c_1

array([[[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]]])

In [82]:
c_1.shape

(3, 2, 4)

#### np.tile 함수
 * 명령은 동일한 배열을 반복하여 연결한다.

In [85]:
tile_ = np.array([[0, 1, 2], [3, 4, 5]])
np.tile(tile_, 3)

array([[0, 1, 2, 0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5, 3, 4, 5]])

In [87]:
np.tile(tile_,(4,2))

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

### 2.4 데이터 생성 함수
주어진 조건으로 데이터를 생성한 후, 배열을 만드는 데이터 생성 함수를 제공합니다.

#### np.linspace 함수
* numpylinspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
* start부터 stop의 범위에서 num개를 균일한 간격으로 데이터를 생성하고 배열을 만드는 함수
* 요소 개수를 기준으로 균등 간격의 배열을 생성

#### np.arange 함수
* numpy.arange([start,] stop[, step,], dtype=None)
* start부터 stop 미만까지 step 간격으로 데이터 생성한 후 배열을 만듦
* 범위내에서 간격을 기준 균등 간격의 배열
* 요소의 객수가 아닌 데이터의 간격을 기준으로 배열 생성

#### np.logspace 함수

* numpy.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)
* 로그 스케일의 linspace 함수
* 로그 스케일로 지정된 범위에서 num 개수만큼 균등 간격으로 데이터 생성한 후 배열 만듦

### 2.5 난수 기반 배열 생성
난수 발생 및 배열 생성을 생성하는 numpy.random 모듈을 제공한다.

#### np.random.normal
* normal(loc=0.0, scale=1.0, size=None)
* 정규 분포 확률 밀도에서 표본 추출
* loc: 정규 분포의 평균
* scale: 표준편차
* np.random.normal이 생성한 난수는 정규 분포의 형상을 갖습니다.

#### np.random.rand
* numpy.random.rand(d0, d1, ..., dn)
* Shape이 (d0, d1, ..., dn) 인 배열 생성 후 난수로 초기화
* 난수: [0. 1)의 균등 분포(Uniform Distribution) 형상으로 표본 추출
* Gaussina normal
* np.random.rand는 균등한 비율로 표본 추출

#### np.random.randn
* numpy.random.randn(d0, d1, ..., dn)
* (d0, d1, ..., dn) shape 배열 생성 후 난수로 초기화
* 난수: 표준 정규 분포(standard normal distribution)에서 표본 추출
* np.random.randn은 정규 분포로 표본 추출

#### np.random.randint

* numpy.random.randint(low, high=None, size=None, dtype='l')
* 지정된 shape으로 배열을 만들고 low 부터 high 미만의 범위에서 정수 표본 추출

#### np.ramdom.random

* numpy.random.random(size=None)¶
* 난수: [0., 1.)의 균등 분포(Uniform Distribution)에서 표본 추출

#### np.random.seed
* numpy.random.seed(number)
* number 기준으로 난수 발생
* 이전의 난수 재연 가능 난수 발생의 기준값을 정해준다고 생각하면 된다.


## 3. NumPy 연산
***

### 백터화 연산
   * 벡터화 연산을 쓰면 명시적으로 반복문을 작성 하지 않고 연산이 가능함

In [11]:
x=np.arange(1,101)
y=np.arange(101,201)

In [12]:
z=np.zeros_like(x)
for i in range(100):
    z[i]=x[i]+y[i]
z

array([102, 104, 106, 108, 110, 112, 114, 116, 118, 120, 122, 124, 126,
       128, 130, 132, 134, 136, 138, 140, 142, 144, 146, 148, 150, 152,
       154, 156, 158, 160, 162, 164, 166, 168, 170, 172, 174, 176, 178,
       180, 182, 184, 186, 188, 190, 192, 194, 196, 198, 200, 202, 204,
       206, 208, 210, 212, 214, 216, 218, 220, 222, 224, 226, 228, 230,
       232, 234, 236, 238, 240, 242, 244, 246, 248, 250, 252, 254, 256,
       258, 260, 262, 264, 266, 268, 270, 272, 274, 276, 278, 280, 282,
       284, 286, 288, 290, 292, 294, 296, 298, 300])

In [14]:
z2=x+y
z2

array([102, 104, 106, 108, 110, 112, 114, 116, 118, 120, 122, 124, 126,
       128, 130, 132, 134, 136, 138, 140, 142, 144, 146, 148, 150, 152,
       154, 156, 158, 160, 162, 164, 166, 168, 170, 172, 174, 176, 178,
       180, 182, 184, 186, 188, 190, 192, 194, 196, 198, 200, 202, 204,
       206, 208, 210, 212, 214, 216, 218, 220, 222, 224, 226, 228, 230,
       232, 234, 236, 238, 240, 242, 244, 246, 248, 250, 252, 254, 256,
       258, 260, 262, 264, 266, 268, 270, 272, 274, 276, 278, 280, 282,
       284, 286, 288, 290, 292, 294, 296, 298, 300])

In [25]:
np.exp(z2)[:10]

array([1.98626484e+44, 1.46766223e+45, 1.08446386e+46, 8.01316426e+46,
       5.92097203e+47, 4.37503945e+48, 3.23274119e+49, 2.38869060e+50,
       1.76501689e+51, 1.30418088e+52])

In [33]:
2**(z2//100)

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4,
       4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4,
       4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 8])

In [34]:
np.log(z2)

array([4.62497281, 4.6443909 , 4.66343909, 4.68213123, 4.70048037,
       4.71849887, 4.73619845, 4.75359019, 4.77068462, 4.78749174,
       4.80402104, 4.82028157, 4.83628191, 4.85203026, 4.86753445,
       4.88280192, 4.8978398 , 4.91265489, 4.92725369, 4.94164242,
       4.95582706, 4.9698133 , 4.98360662, 4.99721227, 5.01063529,
       5.02388052, 5.0369526 , 5.04985601, 5.06259503, 5.07517382,
       5.08759634, 5.09986643, 5.11198779, 5.12396398, 5.13579844,
       5.14749448, 5.1590553 , 5.170484  , 5.18178355, 5.19295685,
       5.20400669, 5.21493576, 5.22574667, 5.23644196, 5.24702407,
       5.25749537, 5.26785816, 5.27811466, 5.28826703, 5.29831737,
       5.3082677 , 5.31811999, 5.32787617, 5.33753808, 5.34710753,
       5.35658627, 5.36597602, 5.37527841, 5.38449506, 5.39362755,
       5.40267738, 5.41164605, 5.420535  , 5.42934563, 5.43807931,
       5.44673737, 5.45532112, 5.46383181, 5.47227067, 5.48063892,
       5.48893773, 5.49716823, 5.50533154, 5.51342875, 5.52146

In [39]:
x2=x.reshape(10,10)
x2

array([[  1,   2,   3,   4,   5,   6,   7,   8,   9,  10],
       [ 11,  12,  13,  14,  15,  16,  17,  18,  19,  20],
       [ 21,  22,  23,  24,  25,  26,  27,  28,  29,  30],
       [ 31,  32,  33,  34,  35,  36,  37,  38,  39,  40],
       [ 41,  42,  43,  44,  45,  46,  47,  48,  49,  50],
       [ 51,  52,  53,  54,  55,  56,  57,  58,  59,  60],
       [ 61,  62,  63,  64,  65,  66,  67,  68,  69,  70],
       [ 71,  72,  73,  74,  75,  76,  77,  78,  79,  80],
       [ 81,  82,  83,  84,  85,  86,  87,  88,  89,  90],
       [ 91,  92,  93,  94,  95,  96,  97,  98,  99, 100]])

In [40]:
x2-10

array([[-9, -8, -7, -6, -5, -4, -3, -2, -1,  0],
       [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50],
       [51, 52, 53, 54, 55, 56, 57, 58, 59, 60],
       [61, 62, 63, 64, 65, 66, 67, 68, 69, 70],
       [71, 72, 73, 74, 75, 76, 77, 78, 79, 80],
       [81, 82, 83, 84, 85, 86, 87, 88, 89, 90]])

### 논리 연산자 비교 가능

In [15]:
a=np.array([1,2,3,4])
b=np.array([4,2,4,5])

In [16]:
a==b

array([False,  True, False, False])

In [17]:
a>=b

array([False,  True, False, False])

In [20]:
c=np.full_like(a,a)
c

array([1, 2, 3, 4])

In [22]:
np.all(a!=c)

False

### 브로드 캐스팅
벡터 또는 행렬은 원래 연산시 크기에 대한 조건이 까다롭다. NumPy 에서는 자동으로 배열의 크기를 확장해서 계산이 가능하게 해준다

* 예를 들어 다음과 같이 벡터와 스칼라를 더하는 경우를 생각하자.
![vector1.PNG](attachment:vector1.PNG)
* 브로드캐스팅은 다음과 같이 스칼라를 벡터와 같은 크기로 확장시켜서 덧셈 계산을 하는 것이다.
![vector2.PNG](attachment:vector2.PNG)
* 브로드캐스팅은 다음처럼 더 차원이 높은 경우에도 적용된다.
![vector3.PNG](attachment:vector3.PNG)

In [61]:
temp=np.vstack([range(7)[i:i+3] for i in range(5)])
temp

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [70]:
temp2=np.arange(5)[:,np.newaxis]
temp2

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [72]:
temp+temp2

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

## 4. NumPy 입출력
***
바이너리 파일 혹은 텍스트 파일에 저장하고 로딩하는 기능을 제공한다.

| 함수명 | 기능 | 파일포멧 |
| --------- | --- | --- |
| np.save()	   | NumPy 배열 객체 1개를 파일에 저장	| 바이너리
| np.savez()   | NumPy 배열 객체 복수개를 파일에 저장	| 바이너리
| np.load()    | NumPy 배열 저장 파일로 부터 객체 로딩	| 바이너리
| np.loadtxt() | 텍스트 파일로 부터 배열 로딩	| 텍스트
| np.savetxt() | 텍스트 파일에 NumPy 배열 객체 저장	| 텍스트

## 5. 데이터 타입
***
NumPy는 다음과 같은 데이터 타입을 지원합니다. 배열을 생성할 때 dtype속성으로 다음과 같은 데이터 타입을 지정할 수 있다.

* np.int64 : 64 비트 정수 타입
* np.float32 : 32 비트 부동 소수 타입
* np.complex : 복소수 (128 float)
* np.bool : 불린 타입 (Trur, False)
* np.object : 파이썬 객체 타입
* np.string_ : 고정자리 스트링 타입
* np.unicode_ : 고정자리 유니코드 타입

## 6. 배열 상태 검사(Inspecting)
***
NumPy는 배열의 상태를 검사하는 다음과 같은 방법을 제공한다.

|배열 속성 검사 항목 | 배열 속성 확인 방법 | 예시 |결과 |
|-------|------|---|--|
|배열 shape	|np.ndarray.shape 속성	|arr.shape	|(5, 2, 3)
|배열 길이	|일차원의 배열 길이 확인	|len(arr)	|5
|배열 차원	|np.ndarray.ndim 속성	|arr.ndim	|3
|배열 요소 수|	np.ndarray.size 속성	|arr.size	|30
|배열 타입	|np.ndarray.dtype 속성	|arr.dtype	|dtype(‘float64’)
|배열 타입 명|	np.ndarray.dtype.name 속성	|arr.dtype.name	|float64
|배열 타입 변환|	np.ndarray.astype 함수	|arr.astype(np.int)	|배열 타입 변환

## ○ 참고문서
***

 * [NumPy 기초1](http://taewan.kim/post/numpy_cheat_sheet/)
 * [NumPy 기초2](http://pinkwink.kr/715?category=522424|)
 * [NumPy 선형학적 이해](http://taewan.kim/post/numpy_sum_axis/)
 * [Jupyter notebook 확장프로그램 ](https://www.rlee.ai/jupyter/jupyter-notebook-exntesions)
 * [Anaconda pakages 검색](https://anaconda.org/anaconda/)
 * [NumPy 연산](https://datascienceschool.net/view-notebook/464860bf5a5f4e139b05ccc473f1f15c/#%EC%8A%A4%EC%B9%BC%EB%9D%BC%EC%99%80-%EB%B2%A1%ED%84%B0/%ED%96%89%EB%A0%AC%EC%9D%98-%EA%B3%B1%EC%85%88)