## 넘파이에서 데이터 구조
- Tensor(텐서)
    - 데이터(값)들을 모아 놓는 틀(컨테이너)
- 스칼라 (Scalar) – 0D tensor
    - 하나의 값만 담고 있는 tensor
- 벡터 (Vector) – 1D tensor
    - 하나의 축(방향)으로 값들을 모아 놓은 tensor
    - 1차원 배열
- 행렬 (Matrix) – 2D tensor
    - 두 개의 축(axis)으로 값들을 모아 놓은 tensor
    - 행과 열로 구성된 2차원 배열
- 텐서 (Tensor) – ND tensor
    - 세 개 이상의 축(axis)으로 값을 모아 놓은 tensor
    - 다차원 배열

![array_shape](img/array_shape.png)

[출처: https://www.oreilly.com/library/view/elegant-scipy/9781491922927/ch01.html ]

### 용어
- 축 (axis) 
    - 값들의 방향. 
- 랭크(rank) 
    - 축의 개수. 
- 형태/형상(shape)
    - 각 축(axis) 별 데이터의 개수
- 크기(size) 
    - 배열내 원소의 총 개수

# 넘파이 배열(ndarray)

- Numpy에서 제공하는 N 차원 배열 객체
- 같은 타입의 값들만 가질 수 있다.
- 빠르고 메모리를 효율 적으로 사용하며 벡터 연산과 브로드캐스팅 기능을 제공한다. 

## 배열 생성 함수
### array(배열형태 객체 [, dtype])
- 배열형태 객체가 가진 원소들로 구성된 numpy 배열 생성
> - 배열형태 객체  (array-like)  
>     - 리스트, 튜플, 넘파이배열(ndarray), Series

In [1]:
pip install numpy

Note: you may need to restart the kernel to use updated packages.


In [2]:
import numpy as np

In [6]:
arr1=np.array([1,2,3,4,5])
arr1.shape

(5,)

In [5]:
print(arr1) # 리스트 형태로 반환되지만 리스트는 아님
arr1

[1 2 3 4 5]


array([1, 2, 3, 4, 5])

In [6]:
type(arr1)

numpy.ndarray

In [7]:
l1=[1,1,1,1]
l2=[2,2,2,2]
l=[l1,l2]
arr2=np.array(l)
arr2.shape

(2, 4)

In [8]:
arr2

array([[1, 1, 1, 1],
       [2, 2, 2, 2]])

In [8]:
l3=[3,3,3,3]
l4=[4,4,4,4]
ll=[l3,l4]
ll

[[3, 3, 3, 3], [4, 4, 4, 4]]

In [9]:
arr3=np.array([l,ll])
arr3.shape

(2, 2, 4)

In [10]:
arr3

array([[[1, 1, 1, 1],
        [2, 2, 2, 2]],

       [[3, 3, 3, 3],
        [4, 4, 4, 4]]])

In [12]:
# 문자열 <- 실수 <- 정수 <- 논리(T:1, F:0)
np.array([1, 2.5, 3, 'A'])

array(['1', '2.5', '3', 'A'], dtype='<U32')

In [54]:
arr=np.array([[1,2,3,4],[2,3,4,5],[3,4,5,6]])
arr.shape

(3, 4)

## 데이터 타입
- 원소들의 데이터 타입
- ndarray 는 같은 타입의 데이터만 모아서 관리한다.
- 배열 생성시 dtype 속성을 이용해 데이터 타입 설정 가능
- ndarray.dtype 속성을 이용해 조회
- ndarray.astype(데이터타입)
    - 데이터타입 변환하는 메소드
    - 변환한 새로운 ndarray객체를 반환

![image.png](img/numpy_datatype.png)

In [13]:
import numpy as np
arr=np.array([1,2,3])
# 데이터 타입 확인
arr.dtype

dtype('int32')

In [20]:
arr2=np.array([1.5,2.5,3.5])
arr2.dtype

dtype('float64')

In [24]:
# 배열의 type을 변환. astype(): 원본을 바꾸지 않는다.
# int32 -> int8
arr1=arr.astype('int8')

In [25]:
arr.dtype, arr1.dtype

(dtype('int32'), dtype('int8'))

In [26]:
arr3=np.array([10,20,30], dtype='float64') # 타입 설정
arr3.dtype

dtype('float64')

In [27]:
arr3

array([10., 20., 30.])

In [29]:
print(0.5, .5)
print(10.0, 10.)

0.5 0.5
10.0 10.0


In [28]:
np.array([2.5, 3.3], dtype='int')

array([2, 3])

In [31]:
arr.astype(np.int32).dtype

dtype('int32')

### zeros(shape, dtype)
원소들을 0으로 채운 배열 생성
- shape : 형태(크기, 개수) 지정
- dtype : 요소의 개수 지정

In [20]:
z1=np.zeros((4))
z2=np.zeros((1,4))
z3=np.zeros((2,4))
z1,z2,z3

(array([0., 0., 0., 0.]), array([[0., 0., 0., 0.]]), array([[0., 0., 0., 0.],
        [0., 0., 0., 0.]]))

In [23]:
z3=np.zeros((2,4,5))
print(z3.shape)
z3

(2, 4, 5)


array([[[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]]])

### ones(shape, dtype)
원소들을 1로 채운 배열 생성
- shape : 형태(크기, 개수) 지정
- dtype : 요소의 개수 지정

In [42]:
o1=np.ones((4))
o1.shape

(4,)

In [43]:
o1

array([1., 1., 1., 1.])

In [44]:
o2=np.ones((2,5))
o2

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

### full(shape, fill_value, dtype))
원소들을 원하는 값으로 채운 배열 생성
- shape : 형태(크기, 개수) 지정
- fill_vlaue : 채울 값
- dtype : 요소의 개수 지정

In [26]:
f1=np.full((2,3),10)  # shape: (2,3), fill_value: 10
f1

array([[10, 10, 10],
       [10, 10, 10]])

In [37]:
f2=np.full(shape=(3,2),fill_value='가자')
f2

array([['가자', '가자'],
       ['가자', '가자'],
       ['가자', '가자']], dtype='<U2')

In [39]:
f3=np.full((3,2,4),'오예!')
f3

array([[['오예!', '오예!', '오예!', '오예!'],
        ['오예!', '오예!', '오예!', '오예!']],

       [['오예!', '오예!', '오예!', '오예!'],
        ['오예!', '오예!', '오예!', '오예!']],

       [['오예!', '오예!', '오예!', '오예!'],
        ['오예!', '오예!', '오예!', '오예!']]], dtype='<U3')

### arange(start, stop, step, dtype)
start에서 stop 범위에서 step의 일정한 간격의 값들로 구성된 배열 리턴 [API](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.arange.html)
- start : 범위의 시작값으로 포함된다.(생략가능 - 기본값:0)
- stop : 범위의 끝값으로 **포함되지 않는다.** (필수)
- step : 간격 (생략가능 - 기본값 1)
- dtype : 요소의 타입

In [45]:
arr=np.arange(1,10,2) # 1부터 10까지 2씩 증가
print(arr.shape)
arr

(5,)


array([1, 3, 5, 7, 9])

In [49]:
np.arange(10,100,5)  # 끝값은 반환 안함

array([10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90,
       95])

In [48]:
np.arange(10)  # stop=10, start=0, step=1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [51]:
np.arange(-1,1,0.5)

array([-1. , -0.5,  0. ,  0.5])

In [57]:
arr1=np.arange(0,1,0.1)
arr1

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

In [59]:
arr2=np.arange(-20,20,5)
arr2

array([-20, -15, -10,  -5,   0,   5,  10,  15])

In [63]:
arr3=np.arange(-10,30,5)
arr3

array([-10,  -5,   0,   5,  10,  15,  20,  25])

In [64]:
arr3+arr2

array([-30, -20, -10,   0,  10,  20,  30,  40])

### linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

시작과 끝을 균등하게 나눈 값들을 가지는 배열을 생성 [API](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.linspace.html#numpy.linspace)

- start : 시작값
- stop : 종료값
- num : 나눌 개수. 기본-50, 양수 여야한다.
- endpoint : stop을 포함시킬 것인지 여부. 기본 True
- retstep : 생성된 배열 샘플과 함께 간격(step)도 리턴할지 여부. True일경우 간격도 리턴(sample, step) => 튜플로 받는다.
- dtype : 데이터 타입

In [54]:
np.linspace(1,100,5) # 1 ~ 100사이의 수를 다섯구간으로 나눔

array([  1.  ,  25.75,  50.5 ,  75.25, 100.  ])

In [65]:
np.linspace(1,100,5,endpoint=False)  # 끝값 포함안함

array([ 1. , 20.8, 40.6, 60.4, 80.2])

In [66]:
np.linspace(1,100,5,endpoint=False,retstep=True)  # retstep:간격 반환

(array([ 1. , 20.8, 40.6, 60.4, 80.2]), 19.8)

### eye(N, M=None, k=0, dtype=<class 'float'>, order='C')

단위 행렬 생성 [API](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.eye.html) 
- N : 행수
- M : 컬럼수
- k : 대각선이 시작할 index (첫행의 index를 지정한다. ) 기본값 : 0
- order : C - 행기반(C스타일), F - 컬럼기반(포트란스타일)
> **단위행렬**   
> 단위행렬은 좌상단에서 우하단으로 이어지는 대각선이 1이고 나머지는 0으로 채워진 정방 행렬    
> [위키 설명](https://ko.wikipedia.org/wiki/%EB%8B%A8%EC%9C%84%ED%96%89%EB%A0%AC)

In [55]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [58]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [72]:
np.eye(5,5,2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

## 난수(랜덤값)를 원소로 하는 ndarray 생성

- numpy의 서브패키지인 random 패키지에서 제공하는 함수들
- np.random.seed(정수) : 시드값 설정

### np.random.seed(시드값)
- 난수 발생 알고리즘이 사용할 시작값(시드값)을 설정
- 시드값을 설정하면 항상 일정한 난수가 발생한다. (알고리즘은 일정하기 때문에)

### np.random.rand(axis0[, axis1, axis2, ...])    (shape값, ...)
- 0~1사이의 실수를 리턴
- 축의 크기는 순서대로 나열한다.

In [74]:
import numpy as np

In [75]:
np.random.seed(10) # 시드값을 설정하면 항상 일정한 난수가 발생한다.

In [62]:
np.random.rand()

0.771320643266746

In [63]:
np.random.rand()

0.0207519493594015

In [64]:
np.random.rand()

0.6336482349262754

In [67]:
np.random.rand(5) # 시드값 설정하면 항상 동일한 순서의 값을 갖게 됨

array([0.77132064, 0.02075195, 0.63364823, 0.74880388, 0.49850701])

In [79]:
np.random.rand(5,4,3)

array([[[0.69177461, 0.18902945, 0.80300754],
        [0.51476375, 0.75728604, 0.17778875],
        [0.08262029, 0.48207197, 0.52885388],
        [0.69630827, 0.20476161, 0.67137233]],

       [[0.79326933, 0.04173781, 0.96335751],
        [0.97539272, 0.55066078, 0.06490698],
        [0.34523679, 0.02042997, 0.80085181],
        [0.2079271 , 0.14325251, 0.69989398]],

       [[0.05794981, 0.25660757, 0.51033178],
        [0.99525878, 0.14651568, 0.44951478],
        [0.60144038, 0.09727249, 0.28873488],
        [0.7207999 , 0.55080606, 0.83857702]],

       [[0.58033135, 0.18457174, 0.61550212],
        [0.88695509, 0.51678928, 0.62614367],
        [0.50505912, 0.90966258, 0.41330466],
        [0.53546872, 0.34264313, 0.12957678]],

       [[0.66282175, 0.93567   , 0.61272918],
        [0.8427385 , 0.21790844, 0.90317174],
        [0.00976998, 0.22581273, 0.13205513],
        [0.90754295, 0.91023064, 0.58105791]]])

In [78]:
np.random.rand(5,4,3,2,1)

array([[[[[0.48402089],
          [0.84438579]],

         [[0.17481389],
          [0.01463488]],

         [[0.84876407],
          [0.74267458]]],


        [[[0.45669754],
          [0.41689841]],

         [[0.11672951],
          [0.33867913]],

         [[0.09465904],
          [0.71583087]]],


        [[[0.0770854 ],
          [0.20595026]],

         [[0.57377623],
          [0.29383156]],

         [[0.65572674],
          [0.80356835]]],


        [[[0.3512135 ],
          [0.09344038]],

         [[0.81331608],
          [0.78486672]],

         [[0.39341911],
          [0.86447919]]]],



       [[[[0.38403077],
          [0.25730289]],

         [[0.82940192],
          [0.7363827 ]],

         [[0.50760091],
          [0.64432662]]],


        [[[0.21318657],
          [0.89570895]],

         [[0.96594625],
          [0.31700156]],

         [[0.86555262],
          [0.31028371]]],


        [[[0.02526395],
          [0.04919516]],

         [[0.18462684],
          [0

### np.random.normal(loc=0, scale=1, size=None)
정규 분포를 따르는 난수를 반환
 - loc: 평균
 - scale: 표준편차
 - size: shape지정

In [6]:
a=np.random.normal(size=(20,))
a

array([-0.23536936, -0.19947468, -0.4938678 , -0.45727511,  2.32113133,
       -1.70699997, -1.3627915 , -2.41226143,  1.07700691, -0.31666389,
        0.96186851, -0.1555589 ,  2.0355498 , -1.02954801, -0.3615263 ,
       -0.03164591, -0.42080774, -0.2130671 ,  0.20640191,  0.78789666])

In [7]:
np.mean(a)  # 평균

-0.10035012921791953

In [8]:
np.std(a) # 표준편차

1.1125444088758563

In [10]:
b=np.random.normal(loc=5, scale=3, size=(5,10))
b

array([[ 4.50823056,  6.23212161,  3.67306641,  7.90960149,  5.59818698,
         6.6532894 ,  3.4579259 ,  4.7873008 ,  5.66785531,  4.01963398],
       [ 7.1325091 ,  8.24896002,  9.64469709,  8.791566  ,  2.34917022,
         5.70450529, 10.08335003,  9.62222653,  5.61825348,  6.16429508],
       [ 2.83065907,  7.47005969, -0.75389232,  9.20341356,  1.21370366,
         5.65392522,  2.82685091,  6.78149179,  2.10451424,  9.35413116],
       [ 4.18299282,  9.53000664,  6.99063254,  2.49577129,  2.40186052,
         3.19299108,  6.73805633, 12.48590067,  8.78504943,  4.38589867],
       [ 3.11064693,  6.82618167,  7.8767289 ,  4.2528048 ,  8.19182961,
         6.44485476,  2.2773242 ,  4.3727391 ,  8.70194548,  8.28703985]])

In [13]:
np.mean(b), np.std(b)

(5.881657150879428, 2.737432929319716)

### np.random.randint(low, high=None, size=None, dtype='l')
임의의 정수를 가지는 1차원 배열[API](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.random.randint.html#numpy.random.randint)

- low ~ high 사이의 정수 리턴. high는 포함안됨
- high 생략시 0 ~ low 사이 정수 리턴. low는 포함안됨
- size : 배열의 크기. 다차원은 튜플로 지정 기본 1개
- dtype : 원소의 타입

In [84]:
np.random.randint(low=10,high=20,size=(10,))

array([13, 11, 19, 10, 10, 12, 14, 12, 19, 19])

In [15]:
np.random.randint(10,size=(2,10))

array([[1, 8, 5, 1, 2, 4, 8, 7, 8, 3],
       [2, 4, 2, 7, 9, 5, 6, 6, 6, 0]])

In [85]:
np.random.randint(10,20,size=(2,3,4))

array([[[17, 11, 13, 15],
        [14, 11, 17, 18],
        [16, 10, 14, 13]],

       [[10, 11, 12, 17],
        [18, 18, 16, 10],
        [13, 15, 16, 13]]])

### np.random.choice(a, size=None, replace=True, p=None)
- 샘플링 메소드
- a : 샘플링대상. 1차원 배열 또는 정수 (정수일 경우 0 ~ 정수, 정수 불포함)
- size : 샘플 개수
- replace : True-복원추출(기본), False-비복원추출
- p: 샘플링할 대상 값들이 추출될 확률 지정한 배열

In [18]:
a=np.array([0,1])
np.random.choice(a,size=10)

array([1, 0, 0, 0, 0, 1, 1, 0, 0, 1])

In [50]:
np.random.choice(a,size=100, p=[0.1,0.9]) # 0: 0.1, 1: 0.9의 확률로 추출

array([1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [55]:
b=np.arange(10)
np.random.choice(b, size=5, replace=False) # replace: 비복원추출(중복불가)

array([7, 0, 9, 4, 8])