# Numpy

### Numpy란?
Numpy는 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리 할 수 있도록 지원하는 파이썬의 라이브러리. 

### Numpy가 빠른 이유.
- Vectorization : Vector화 해서 여러 개의 array를 하나의 묶음으로 모아서 연산하는 것. Vector는 참고로 loop을 사용하지 않는다. 대신, iterator, generator, comprehension, 재귀함수, map filter reduce등을 사용하면 된다. 


- C로 만들었다. python에서는 데이터를 저장할 때 linked list를 사용하는 반면, numpy에서는 그냥 list를 사용한다. 


- homoegenoue하다. 그러므로, list에서 다음 데이터 타입이 뭐가 올지 체크할 필요가 없다. => 효율적인 자료구조 & strides 사용. 

그래서, 많은 라이브러리 (pytorch, tensorflow, scikit)은 다 numpy로 만들었다. 

참고 사이트.
https://www.jessicayung.com/numpy-arrays-memory-and-strides/

### Numpy의 특징
- homogeneous하다. : 데이터 타입이 다 동일하다. 


- n차원의 array : ndarray이다. 

In [2]:
import  numpy as np

In [3]:
a = np.array([1,2])

In [4]:
dir(np)

['ALLOW_THREADS',
 'AxisError',
 'BUFSIZE',
 'CLIP',
 'DataSource',
 'ERR_CALL',
 'ERR_DEFAULT',
 'ERR_IGNORE',
 'ERR_LOG',
 'ERR_PRINT',
 'ERR_RAISE',
 'ERR_WARN',
 'FLOATING_POINT_SUPPORT',
 'FPE_DIVIDEBYZERO',
 'FPE_INVALID',
 'FPE_OVERFLOW',
 'FPE_UNDERFLOW',
 'False_',
 'Inf',
 'Infinity',
 'MAXDIMS',
 'MAY_SHARE_BOUNDS',
 'MAY_SHARE_EXACT',
 'MachAr',
 'NAN',
 'NINF',
 'NZERO',
 'NaN',
 'PINF',
 'PZERO',
 'PackageLoader',
 'RAISE',
 'SHIFT_DIVIDEBYZERO',
 'SHIFT_INVALID',
 'SHIFT_OVERFLOW',
 'SHIFT_UNDERFLOW',
 'ScalarType',
 'Tester',
 'TooHardError',
 'True_',
 'UFUNC_BUFSIZE_DEFAULT',
 'UFUNC_PYVALS_NAME',
 'WRAP',
 '_NoValue',
 '__NUMPY_SETUP__',
 '__all__',
 '__builtins__',
 '__cached__',
 '__config__',
 '__doc__',
 '__file__',
 '__git_revision__',
 '__loader__',
 '__mkl_version__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_distributor_init',
 '_globals',
 '_import_tools',
 '_mat',
 '_mklinit',
 'abs',
 'absolute',
 'absolute_import',
 'add',


#### Numpy의 데이터를 만드는 방법 2가지.

##### 1. np.darray를 사용하여 instance를 만드는 방식.

##### 2. np.array를 사용하여 fancy method로 만드는 방식.


In [28]:
# fancy method 방식.

# list pass
# tuple pass

a = np.array([1,2])
print(a)
a = np.array((1,2))
print(a)

# numpy의 클래스는 ndarray이다. ()
print(type(a))

# 3차원 만들기
a = np.array([[[1,2],[3,4]],[[1,2],[3,4]]])
print(a)

# instance화 방식
a = np.ndarray(shape = [1,4])
print(a)
a = np.ndarray(shape=(3,1), buffer=np.array([1,2,3]))
print(a)

[1 2]
[1 2]
<class 'numpy.ndarray'>
[[[1 2]
  [3 4]]

 [[1 2]
  [3 4]]]
[[9.35226604e-312 4.00545549e-307 4.22788818e-307 1.61324475e-307]]


TypeError: buffer is too small for requested array

#### Numpy 차원을 알 수 있는 방법.

In [34]:
a = np.array([[1,2], [3,4]])
a

# 차원
print(a.ndim)

# 길이
print(len(a))

# 모양
print(a.shape)

# 저장방식
print(a.flags)

# 원소의 개수
print(a.size)

# 하나의 원소가 몇 바이트인지. (32이면 32bit이고 => 4 bytes이다)
print(a.itemsize)

# type이 뭔지
print(a.dtype)

# C방식과 Fortran 방식이 있다. 

# C방식은 만약 (1,2,3,4)가 있으면 (1,2,3,4) 방식으로 저장이 되고
# F방식은 (1,3,2,4)로 저장이 된다. 

2
2
(2, 2)
  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False
4
4
int32


### numpy 연산

In [35]:
# 일반적인 list라면 + 를 하면 뒤에 붙는다. 

a = [1,2,3,4]
b = [5,6,7,8]

print(a+b)

[1, 2, 3, 4, 5, 6, 7, 8]


In [64]:
# numpy로 되어있으면 vector 연산을 할 수 있다. 

a = np.array([1,2,3,4])
b = np.array([5,6,7,8])

print("\n 사칙연산")
print(a + b)
print(a - b)
print(a * b)
print(a / b)
print(a**2)
print(a.T)
print(a @ b) # dot과 같은 것. 특별히 numpy만의 사칙연산.
print(a.dot(b))

# strides : strides는 각 자리수?가 몇 바이트인지 알려준다. 
print("\nstrides")
a = numpy.array([1,2,3,4])
print(a.strides) # 각 자리수가 4 byte이다. 

a = numpy.array([[1,2],[3,4]])
print(a.strides)
# 각 자리수가 4 byte이고, 한 행은 8 byte이다. 그러므로, 한 행에는
# 2 개의 원소가 있다. 

a = numpy.array([[[1,2],[3,4]],[[1,2],[3,4]]])
print(a.strides)
# 각 자리수가 4 byte, 한 행은 8 byte이므로 2개가 있고, 한 matrix에는
# 16 byte가 있으므로 2열이다. 

# AXIS 연산
print("\n AXIS 연산")
a = np.arange(10).reshape(2,5)
print(a)
print(a.sum(axis=0)) # 2를 숨겨서 5개가 나온다. 
print(a.sum(axis=1)) # 5를 숨겨서 2개가 나온다.


 사칙연산
[ 6  8 10 12]
[-4 -4 -4 -4]
[ 5 12 21 32]
[0.2        0.33333333 0.42857143 0.5       ]
[ 1  4  9 16]
[1 2 3 4]
70
70

strides
(4,)
(8, 4)
(16, 8, 4)

 AXIS 연산
[[0 1 2 3 4]
 [5 6 7 8 9]]
[ 5  7  9 11 13]
[10 35]


In [62]:
# np를 사용한 사칙연산이 훨씬 더 빠르다. 
%time sum(range(100000000))

Wall time: 3.84 s


4999999950000000

In [63]:
%time np.sum(np.arange(100000000))

Wall time: 297 ms


887459712

### Data types

1.  Data types : int, float, complex, bool
2. numpy는 int를 더 쪼갠다. => long, unsigned int 등을 다 지원해준다.
3. 메모리 공간 효율적으로 사용할 수 있다. 
4. 저장방식을 little endian, big endian까지 지원한다. 

- 즉 crawling한 데이터를 numpy 구조로 바꾸면 효율적으로 계산이 가능하다. 

* 파이썬 int는 overflow가 없다. 

In [44]:
from tensorflow.keras.datasets import mnist

In [46]:
data = mnist.load_data()

# 마지막에 보면, dtype이 적혀있는 걸로 보아 numpy 형식이다. 
data

((array([[[0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          ...,
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0]],
  
         [[0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          ...,
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0]],
  
         [[0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          ...,
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0]],
  
         ...,
  
         [[0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          ...,
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0]],
  
         [[0, 0, 0, ..., 0, 0, 0],
          [0, 0, 0, ..., 0, 0, 0

In [52]:
# 다양한 type을 type code를 사용하여 지원한다. 
a = np.array([[1,2],[3,4]], dtype='u1')
a

array([[1, 2],
       [3, 4]], dtype=uint8)

In [56]:
# type code가 몇 개 있는 지 볼 수 있다.
len(np.sctypeDict)
print(np.sctypeDict)

# key방식으로도 볼 수 있다. 
print("\n\n Key 방식")
print(np.sctypeDict.keys())

{'?': <class 'numpy.bool_'>, 0: <class 'numpy.bool_'>, 'byte': <class 'numpy.int8'>, 'b': <class 'numpy.int8'>, 1: <class 'numpy.int8'>, 'ubyte': <class 'numpy.uint8'>, 'B': <class 'numpy.uint8'>, 2: <class 'numpy.uint8'>, 'short': <class 'numpy.int16'>, 'h': <class 'numpy.int16'>, 3: <class 'numpy.int16'>, 'ushort': <class 'numpy.uint16'>, 'H': <class 'numpy.uint16'>, 4: <class 'numpy.uint16'>, 'i': <class 'numpy.int32'>, 5: <class 'numpy.int32'>, 'uint': <class 'numpy.uint32'>, 'I': <class 'numpy.uint32'>, 6: <class 'numpy.uint32'>, 'intp': <class 'numpy.int64'>, 'p': <class 'numpy.int64'>, 9: <class 'numpy.int64'>, 'uintp': <class 'numpy.uint64'>, 'P': <class 'numpy.uint64'>, 10: <class 'numpy.uint64'>, 'long': <class 'numpy.int32'>, 'l': <class 'numpy.int32'>, 7: <class 'numpy.int32'>, 'L': <class 'numpy.uint32'>, 8: <class 'numpy.uint32'>, 'longlong': <class 'numpy.int64'>, 'q': <class 'numpy.int64'>, 'ulonglong': <class 'numpy.uint64'>, 'Q': <class 'numpy.uint64'>, 'half': <class

### 다른 functions

In [75]:
a = np.zeros((3,4))
print(a)

a = np.ones((3,4))
print(a)

a = np.full((3,4), 6)
print(a)

a = np.ones_like(a)
print(a)

# 단위행렬을 만드는 방법은 2가지.
print("\n\n 단위행렬")
a = np.identity(3)
print(a)
a = np.eye(3)
print(a)
a = np.tril((3,3))
print(a) #상삼각행렬, 하삼각행렬

# 소수점 잘라서 넣기.
print("\n\n linspace")
a = np.linspace(0, 100)
print(a)

# 로그로 변환시켜 보기.
print("\n\n logspace")
a = np.logspace(0, 100)
print(a)

# 쓰레기값 넣기
print("\n\n Empty")
a = np.empty((4,2))
print(a)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
[[6 6 6 6]
 [6 6 6 6]
 [6 6 6 6]]
[[1 1 1 1]
 [1 1 1 1]
 [1 1 1 1]]


 단위행렬
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[3 0]
 [3 3]]


 linspace
[  0.           2.04081633   4.08163265   6.12244898   8.16326531
  10.20408163  12.24489796  14.28571429  16.32653061  18.36734694
  20.40816327  22.44897959  24.48979592  26.53061224  28.57142857
  30.6122449   32.65306122  34.69387755  36.73469388  38.7755102
  40.81632653  42.85714286  44.89795918  46.93877551  48.97959184
  51.02040816  53.06122449  55.10204082  57.14285714  59.18367347
  61.2244898   63.26530612  65.30612245  67.34693878  69.3877551
  71.42857143  73.46938776  75.51020408  77.55102041  79.59183673
  81.63265306  83.67346939  85.71428571  87.75510204  89.79591837
  91.83673469  93.87755102  95.91836735  97.95918367 100.        ]


 logspace
[1.00000000e+000 1.09854114e+002 1.20679264e+004 1.32571137e

### Indexing

인덱싱 하는 방법 5가지

1. 조건문 사용
2. :: 사용
3. 코마 사용
4. fancy indexing 사용
5. masking 사용

In [109]:
# 조건문 사용
print("\n\n 조건문")
a = np.arange(27)
print(a)
print(a[a>10])

# where 조건을 사용할 수 있다. 
print("*** where ***")
a = np.arange(10)
a = np.where(a > 5 , 0, 1)
print(a)

# :: 사용
print("\n\n :: 사용")
a = np.arange(27).reshape(3,3,3)
print(a)
print(a[1, :, :]) 
print(a[1,...]) # 위와 아래는 똑같다. ...를 사용할 수도 있다. 
print(dir(...))

# 코마 사용
print("\n\n :: 코마")
print(a)
print(a[1,2])

# masking 사용
print("\n\n :: masking")
a =np.arange(10)
print(a)
print(a[[True,False, True, True, True, True, True, True,True,True]])

# fancy indexing 사용 : 다른 array를 사용해서 indexing 할 수 있다. 
print("\n\n :: fancy indexing")
a =np.arange(12)**2
print(a)
i = np.array([1,1,3,8,5])
print(a[i])
a = np.arange(12).reshape(3,4)
print(a)
i = np.array([[0,1],[1,2]])
print(a[i])



 조건문
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26]
[11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26]
*** where ***
[1 1 1 1 1 1 0 0 0 0]


 :: 사용
[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]
[[ 9 10 11]
 [12 13 14]
 [15 16 17]]
[[ 9 10 11]
 [12 13 14]
 [15 16 17]]
['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__']


 :: 코마
[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]
[15 16 17]


 :: masking
[0 1 2 3 4 5 6 7 8 9]
[0 2 3 4 5 6 7 8 9]


 :: fancy indexing
[  0   1   4   9  16  25  36  49  64  81 100 121]
[ 1  1  9 64 25]
[[ 0  1  2  3]
 [ 4  5  6 

### Ufunc

- 범욕적으로 사용할 수 있는 함수.


In [112]:
# python에서도 절대값 함수가 있는데
# numpy에서도 절대값 함수가 있다.

print(abs(2))

# numpy에서는 numpy도 abs가 가능하다. 
print(np.abs([-1,1,2]))
print(np.ceil([2.9,1,2,3,0.3]))

# 제일 큰 수 를 보여주는 함수.
print("\n\n 기타 함수")
a =np.arange(10)
print(a)
print(np.argmax(a))
print(np.max(a))
print(np.argmin(b)) # function 방식
print(b. argmin()) # method 방식.

# pi 
from numpy import pi
from math import pi as mpi
print("\n\n Pi")
print(pi)
print(mpi)
print(pi == mpi)
print(pi is mpi)

# nan
print("\n\n Nan")
print(np.nan == float('nan'))

# nexaxis
print("\n\n newaxis")
print(np.newaxis == None)
print(np.newaxis is None)

# numpy가 전체를 다 print하게 하기 위한 option
print("\n\n set_printoptions")
np.set_printoptions(threshod=np.nan)


# 설명을 볼 수 있는 방법. 특히, ufunc은 특별한 설명이 없기 때문에
# np.info()로 설명을 볼 수 있다. 
print("\n\n ")
np.info(np.ceil)

2
[1 1 2]
[3. 1. 2. 3. 1.]


 기타 함수
[0 1 2 3 4 5 6 7 8 9]
9
9
0
0


 Pi
3.141592653589793
3.141592653589793
True
False


 Nan
False


 newaxis
True
True


 set_printoptions


TypeError: set_printoptions() got unexpected keyword argument 'threshod'

### Broadcasting

- numpy에서는 모양이 다르면 저절로 모양을 맞춰준다. 

### Copy

In [124]:
# 할당은 copy를 만들지 않는다. 
a = np.arange(12)
print(a)
b = a
print(b)
print(a is b)

# Shallow Copy of View
# view method는 똑같이 생긴 것과 같은 것을 만들어진다.
print("\n\n shallow copy : view method")
c = a.view()
print(c is a)
print(c.base is a)
print(c.flags.owndata)
c.shape = (2,6)
print(a.shape)
print(c.shape)

# Deep copy
print("\n\n deep copy : copy method")
d = a.copy()
print(d)
print(a)
print(d is a)
print(d.base is a)
d[0] = 100
print(d)
print(a)


[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
True


 shallow copy : view method
False
True
False
(12,)
(2, 6)


 deep copy : copy method
[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
False
False
[100   1   2   3   4   5   6   7   8   9  10  11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
