## 넘파이에서 데이터 구조
- Tensor(텐서)
    - 데이터(값)들을 모아 놓는 틀(컨테이너)
- 스칼라 (Scalar) – 0D tensor
    - 하나의 값만 담고 있는 tensor
- 벡터 (Vector) – 1D tensor
    - 하나의 축(방향)으로 값들을 모아 놓은 tensor
    - 1차원 배열
- 행렬 (Matrix) – 2D tensor
    - 두 개의 축(axis)으로 값들을 모아 놓은 tensor
    - 행과 열로 구성된 2차원 배열
- 텐서 (Tensor) – ND tensor
    - 세 개 이상의 축(axis)으로 값을 모아 놓은 tensor
    - 다차원 배열

![array_shape](img/array_shape.png)

[출처: https://www.oreilly.com/library/view/elegant-scipy/9781491922927/ch01.html ]

### 용어
- 축 (axis) 
    - 값들의 방향. 
- 랭크(rank) 
    - 축의 개수. 
- 형태/형상(shape)
    - 각 축(axis) 별 데이터의 개수
- 크기(size) 
    - 배열내 원소의 총 개수

# 넘파이 배열(ndarray)

- Numpy에서 제공하는 N 차원 배열 객체
- 같은 타입의 값들만 가질 수 있다.
- 빠르고 메모리를 효율 적으로 사용하며 벡터 연산과 브로드캐스팅 기능을 제공한다. 

## 배열 생성 함수
### array(배열형태 객체 [, dtype])
- 배열형태 객체가 가진 원소들로 구성된 numpy 배열 생성
> - 배열형태 객체  (array-like)  
>     - 리스트, 튜플, 넘파이배열(ndarray), Series

In [1]:
# pip install numpy

In [3]:
import numpy as np

In [14]:
arr1 = np.array([1,2,3,4,5])
arr1.shape

(5,)

In [15]:
print(arr1)

[1 2 3 4 5]


In [16]:
arr1

array([1, 2, 3, 4, 5])

In [17]:
type(arr1)

numpy.ndarray

In [8]:
type([1,2])

list

In [18]:
l1 = [1,1,1,1]
l2 = [2,2,2,2]
l = [l1, l2]
arr2 = np.array(l)
arr2.shape

(2, 4)

In [19]:
arr2

array([[1, 1, 1, 1],
       [2, 2, 2, 2]])

In [20]:
l3 = [3,3,3,3]
l4 = [4,4,4,4]
ll = [l3, l4]
ll

[[3, 3, 3, 3], [4, 4, 4, 4]]

In [21]:
arr3 = np.array([l, ll])
arr3.shape

(2, 2, 4)

In [22]:
arr3

array([[[1, 1, 1, 1],
        [2, 2, 2, 2]],

       [[3, 3, 3, 3],
        [4, 4, 4, 4]]])

In [23]:
# 문자열 <- 실수 <- 정수 <- 논리(T:1, F:0)
np.array([1, 2.5, 3, 'A'])

array(['1', '2.5', '3', 'A'], dtype='<U32')

## 데이터 타입
- 원소들의 데이터 타입
- ndarray 는 같은 타입의 데이터만 모아서 관리한다.
- 배열 생성시 dtype 속성을 이용해 데이터 타입 설정 가능
- ndarray.dtype 속성을 이용해 조회
- ndarray.astype(데이터타입)
    - 데이터타입 변환하는 메소드
    - 변환한 새로운 ndarray객체를 반환

![image.png](img/numpy_datatype.png)

In [24]:
arr = np.array([1,2,3])
# 데이터 타입 확인
arr.dtype

dtype('int32')

In [25]:
arr2 = np.array([1.5, 2.5, 3.5])
arr2.dtype

dtype('float64')

In [28]:
# 배열의 type을 변환. astype() : 원본을 바꾸지 않는다. 
# int32 -> int8
arr1 = arr.astype('int8')

In [30]:
arr.dtype, arr1.dtype

(dtype('int32'), dtype('int8'))

In [31]:
arr3 = np.array([10,20,30],  dtype='float64')
arr3.dtype

dtype('float64')

In [32]:
arr3

array([10., 20., 30.])

In [34]:
print(0.5, .5)
print(10.0, 10.)

0.5 0.5
10.0 10.0


In [35]:
np.array([2.5, 3.3], dtype="int")

array([2, 3])

In [37]:
arr.astype(np.int32).dtype

dtype('int32')

### zeros(shape, dtype)
원소들을 0으로 채운 배열 생성
- shape : 형태(크기, 개수) 지정
- dtype : 요소의 개수 지정

In [40]:
z1 = np.zeros((5))
z1

array([0., 0., 0., 0., 0.])

In [41]:
z1.shape

(5,)

In [42]:
z2 = np.zeros(shape=(3,2,5))
z2.shape

(3, 2, 5)

In [43]:
z2.dtype

dtype('float64')

In [44]:
z2

array([[[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]]])

### ones(shape, dtype)
원소들을 1로 채운 배열 생성
- shape : 형태(크기, 개수) 지정
- dtype : 요소의 개수 지정

In [45]:
o1 = np.ones((4))
o1.shape

(4,)

In [46]:
o1

array([1., 1., 1., 1.])

In [47]:
o2 = np.ones((2,5))
o2

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

### full(shape, fill_value, dtype))
원소들을 원하는 값으로 채운 배열 생성
- shape : 형태(크기, 개수) 지정
- fill_vlaue : 채울 값
- dtype : 요소의 개수 지정

In [48]:
f1 = np.full(5, 10)
f1.shape

(5,)

In [49]:
f1

array([10, 10, 10, 10, 10])

In [50]:
f2 = np.full(shape=(2,3), fill_value='가자')
f2.shape

(2, 3)

In [51]:
f2

array([['가자', '가자', '가자'],
       ['가자', '가자', '가자']], dtype='<U2')

### arange(start, stop, step, dtype)
start에서 stop 범위에서 step의 일정한 간격의 값들로 구성된 배열 리턴 [API](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.arange.html)
- start : 범위의 시작값으로 포함된다.(생략가능 - 기본값:0)
- stop : 범위의 끝값으로 **포함되지 않는다.** (필수)
- step : 간격 (기본값 1)
- dtype : 요소의 타입

In [52]:
arr = np.arange(1, 10, 2)
print(arr.shape)
arr

(5,)


array([1, 3, 5, 7, 9])

In [53]:
np.arange(10, 100, 5)

array([10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90,
       95])

In [54]:
np.arange(10) # stop=10, start=0, step=1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [55]:
np.arange(-1, 1, 0.5)

array([-1. , -0.5,  0. ,  0.5])

In [57]:
np.arange(0, 1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

In [58]:
np.arange(10, -10, -1)

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0, -1, -2, -3, -4, -5, -6,
       -7, -8, -9])

### linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

시작과 끝을 균등하게 나눈 값들을 가지는 배열을 생성 [API](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.linspace.html#numpy.linspace)

- start : 시작값
- stop : 종료값
- num : 나눌 개수. 기본-50, 양수 여야한다.
- endpoint : stop을 포함시킬 것인지 여부. 기본 True
- retstep : 생성된 배열 샘플과 함께 간격(step)도 리턴할지 여부. True일경우 간격도 리턴(sample, step) => 튜플로 받는다.
- dtype : 데이터 타입

In [59]:
np.linspace(1, 100, 5)

array([  1.  ,  25.75,  50.5 ,  75.25, 100.  ])

In [60]:
np.linspace(1, 100, 5, endpoint=False)

array([ 1. , 20.8, 40.6, 60.4, 80.2])

In [61]:
np.linspace(1,100,5,endpoint=False, retstep=True)

(array([ 1. , 20.8, 40.6, 60.4, 80.2]), 19.8)

### eye(N, M=None, k=0, dtype=<class 'float'>, order='C')

단위 행렬 생성 [API](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.eye.html) 
- N : 행수
- M : 컬럼수
- k : 대각선이 시작할 index (첫행의 index를 지정한다. ) 기본값 : 0
- order : C - 행기반(C스타일), F - 컬럼기반(포트란스타일)
> **단위행렬**   
> 단위행렬은 좌상단에서 우하단으로 이어지는 대각선이 1이고 나머지는 0으로 채워진 정방 행렬    
> [위키 설명](https://ko.wikipedia.org/wiki/%EB%8B%A8%EC%9C%84%ED%96%89%EB%A0%AC)

In [62]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [63]:
np.eye(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

## 난수를 원소로 하는 ndarray 생성

- numpy의 서브패키지인 random 패키지에서 제공하는 함수들
- np.random.seed(정수) : 시드값 설정

### np.random.seed(시드값)
- 난수 발생 알고리즘이 사용할 시작값(시드값)을 설정
- 시드값을 설정하면 항상 일정한 난수가 발생한다.

### np.random.rand(axis0[, axis1, axis2, ...])    
- 0~1사이의 실수를 리턴
- 축의 크기는 순서대로 나열한다.

In [1]:
import numpy as np

In [20]:
np.random.seed(12)

In [16]:
np.random.rand()

0.15416284237967237

In [17]:
np.random.rand()

0.7400496965154048

In [18]:
np.random.rand()

0.26331501518513467

In [21]:
np.random.rand(5)

array([0.15416284, 0.7400497 , 0.26331502, 0.53373939, 0.01457496])

In [22]:
np.random.rand(5,4)

array([[0.91874701, 0.90071485, 0.03342143, 0.95694934],
       [0.13720932, 0.28382835, 0.60608318, 0.94422514],
       [0.85273554, 0.00225923, 0.52122603, 0.55203763],
       [0.48537741, 0.76813415, 0.16071675, 0.76456045],
       [0.0208098 , 0.13521018, 0.11627302, 0.30989758]])

In [23]:
np.random.rand(5,4,3,2,1)

array([[[[[0.67145265],
          [0.47122978]],

         [[0.8161683 ],
          [0.28958678]],

         [[0.73312598],
          [0.70262236]]],


        [[[0.32756948],
          [0.33464753]],

         [[0.97805808],
          [0.62458211]],

         [[0.95031352],
          [0.76747565]]],


        [[[0.82500925],
          [0.4066403 ]],

         [[0.45130841],
          [0.40063163]],

         [[0.99513816],
          [0.17756418]]],


        [[[0.9625969 ],
          [0.41925027]],

         [[0.42405245],
          [0.46314887]],

         [[0.37372315],
          [0.4655081 ]]]],



       [[[[0.03516826],
          [0.08427267]],

         [[0.7325207 ],
          [0.63619999]],

         [[0.02790779],
          [0.30017006]]],


        [[[0.22085252],
          [0.05501999]],

         [[0.52324607],
          [0.41636966]],

         [[0.04821875],
          [0.57240452]]],


        [[[0.80351665],
          [0.11360172]],

         [[0.27711721],
          [0

### np.random.normal(loc=0, scale=1, size=None)
정규 분포를 따르는 난수를 반환
- loc: 평균
- scale: 표준편차
- size: shape지정

In [26]:
a = np.random.normal(size=(20,))
a

array([-1.13267352, -0.21983834, -0.81074396, -1.2592642 ,  0.06639095,
       -0.32688574,  0.228046  ,  0.18313239,  0.84473869, -0.03365701,
        0.23027691,  1.27142206,  0.59755802,  0.76842735, -1.32862093,
        0.08463606,  1.2982271 ,  1.02259447, -2.49075849,  1.08484657])

In [27]:
np.mean(a) #평균

0.0038927195624275713

In [28]:
np.std(a) # 표준편차

0.974343508120588

In [29]:
b = np.random.normal(loc=5, scale=3, size=(5,10))
b

array([[ 6.92100638,  2.5520443 ,  5.71209029,  8.37996305, 14.96103579,
         2.0609239 ,  2.49618094,  5.97940895,  1.26512266,  6.43137387],
       [ 2.66033388,  6.27525201,  7.45385304,  3.03151742,  0.50985308,
        -1.44693189,  5.53861169, 10.70715036,  6.39836612,  2.04676776],
       [ 2.92176477,  6.97017365,  7.05916459,  5.35912701,  3.86876192,
         5.40939592,  1.80570339,  7.56029286,  3.36191796,  2.40173008],
       [ 3.88410315,  2.46902681,  4.7416598 ,  2.71933909,  9.02074439,
         2.80984853,  4.07380816,  5.25013692,  0.92148357,  4.87454385],
       [ 1.97662827,  4.52442012,  7.02884558,  6.45406908,  3.47874226,
         8.3412626 ,  9.73450738,  3.98497543,  2.42844651, -1.90661827]])

In [30]:
np.mean(b), np.std(b)

(4.669238579137151, 3.05937584290846)

### np.random.randint(low, high=None, size=None, dtype='l')
임의의 정수를 가지는 1차원 배열[API](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.random.randint.html#numpy.random.randint)

- low ~ high 사이의 정수 리턴. high는 포함안됨
- high 생략시 0 ~ low 사이 정수 리턴. low는 포함안됨
- size : 배열의 크기. 다차원은 튜플로 지정 기본 1개
- dtype : 원소의 타입

In [32]:
np.random.randint(10, 20, size=(10,))

array([19, 10, 16, 17, 14, 10, 19, 11, 19, 16])

In [33]:
np.random.randint(10, size=(2,10))

array([[4, 9, 2, 9, 0, 2, 8, 2, 0, 5],
       [9, 9, 0, 3, 0, 8, 1, 0, 6, 0]])

### np.random.choice(a, size=None, replace=True, p=None)
- 샘플링 메소드
- a : 샘플링대상. 1차원 배열 또는 정수 (정수일 경우 0 ~ 정수, 정수 불포함)
- size : 샘플 개수
- replace : True-복원추출(기본), False-비복원추출
- p: 샘플링할 대상 값들이 추출될 확률 지정한 배열

In [34]:
a = np.array([0,1])
np.random.choice(a, size=10)

array([1, 0, 0, 0, 0, 0, 1, 1, 1, 1])

In [36]:
np.random.choice(a, size=100, p=[0.1, 0.9]) #0: 0.1, 1:0.9 의 확률로 추출

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [39]:
b = np.arange(10)
np.random.choice(b, size=5, replace=False)

array([4, 3, 9, 2, 7])