## **numpy란**

- 파이썬 과학 처리 패키지
- 매트릭스와 벡터와 같은 array 연산의 사실상 표준
- 일반 리스트에 비해 빠르고, 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원함 
  - 넘파이에서 제공하는 선형대수와 관련 기능들을 활용하게 됨!

## **references**

[cs231 numpy](https://cs231n.github.io/python-numpy-tutorial/) 
[데이터 사이언스 스쿨](https://datascienceschool.net/01%20python/03.01%20%EB%84%98%ED%8C%8C%EC%9D%B4%20%EB%B0%B0%EC%97%B4.html)




## **ndarray**

### import
- np라는 alias를 이용하여 호출

In [None]:
import numpy as np

### array creation
- np.array 함수를 활용하여 배열을 생성
- 파이썬의 리스트와 달리 numpy는 하나의 데이터 타입만 배열에 넣을 수 있음
  - 리스트의 다이나믹 타이핑 : 코드를 작성하는데 있어 컴퓨터에게 데이터 타입이 뭔지 파악하는 것을 맡겨 실행속도가 느려진다는 단점이 존재
  - np.array는 이를 지원하지 않음!

In [None]:
nu = np.array([1,2,'3',4], float)
nu

array([1., 2., 3., 4.])

In [None]:
np.array([1,2,'3','4'], str)

array(['1', '2', '3', '4'], dtype='<U1')

In [None]:
type(nu[3]) # float 타입으로 자동 형변환 확인

numpy.float64

In [None]:
nu.dtype # array 전체의 데이터 타입을 반환

dtype('float64')

In [None]:
nu.shape # 차원 (dimension) 구성 반환

(4,)

### array shape
- array (vector, matrix, tensor)의 크기, 형태 등에 대한 정보


- shape : 배열의 매트릭스 크기 (? X ? matrix)
- ndim : 배열의 차원
- size : 배열 총 요소 개수

In [None]:
vector  = [1,2,3,4]
np.array(vector, int).shape

(4,)

In [None]:
matrix  = [[1,2,5,8],[1,2,5,8],[1,2,5,8]]
np.array(matrix, int).shape

(3, 4)

In [None]:
tensor  = [[[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]]]
np.array(tensor, int).shape

(4, 3, 4)

In [None]:
np.array(tensor, int).ndim # 차원 출력

3

In [None]:
np.array(tensor, int).size # 데이터의 개수 출력

48

### array dtype
- Ndarray의 single 요소가 가지는 데이터 타입
- 각 요소가 차지하는 메모리의 크기 결정


- dtype : array 생성시 요소의 타입 지정
- nbytes 메소드 : ndarray의 총 메모리 크기 반환

In [None]:
np.array([[1,2,3], [4.5, 5, 6]], dtype=int)

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
a = np.array([[1,2,3], [4.5, 5, 6]], dtype=float)
a

array([[1. , 2. , 3. ],
       [4.5, 5. , 6. ]])

In [None]:
a.nbytes # ndarray object의 메모리 크기 반환

48

### Handling Shape


- reshape : array 사이즈가 동일하다는 조건하에 shape 크기 변경 가능
    - -1 : size를 기반으로 row 개수 알아서 선정
- flatten : 다차원 배열을 1차원 배열로 변환

In [None]:
a = np.array([[1,2,3,4], [1,2,5,8]])
a.shape

(2, 4)

In [None]:
a.reshape(8,) # 요소의 개수는 동일하되 배열의 shape 크기 변경

array([1, 2, 3, 4, 1, 2, 5, 8])

In [None]:
a.reshape(-1, 2) # -1 : size를 기반으로 row 개수 알아서 선정

array([[1, 2],
       [3, 4],
       [1, 2],
       [5, 8]])

In [None]:
a.reshape(2,2,2)

array([[[1, 2],
        [3, 4]],

       [[1, 2],
        [5, 8]]])

In [None]:
a.flatten() # 1차원 배열로 평평하게 변환

array([1, 2, 3, 4, 1, 2, 5, 8])

### Indexing & Slicing

indexing
- list와 달리 이차원 배열에서 [0,0]과 같은 표기법 제공
    - 앞은 row 뒤는 col을 의미
    
slicing
- list와 달리 행과 열 부분을 나누어 slicing이 가능
    - 매트릭스의 부분 집합을 추출할 때 유용

indexing

In [None]:
b = np.array([[1,2,3],[4.5,6,7]], int)
b

array([[1, 2, 3],
       [4, 6, 7]])

In [None]:
b[0][0] # 1번째 열의 1번째 행의 값

1

In [None]:
b[0,2] # 1번째 열의 3번째 행의 값

3

In [None]:
b[0,0] = 23
b # 값 변경 가능!

array([[23,  2,  3],
       [ 4,  6,  7]])

In [None]:
b[0][0] = 9876
b

array([[9876,    2,    3],
       [   4,    6,    7]])

In [None]:
c = np.array([[1,2,3, 4, 5],[4.5,6,7, 8, 9]], int)
c

array([[1, 2, 3, 4, 5],
       [4, 6, 7, 8, 9]])

slicing

In [None]:
c[:2, :] # 2번째 row 이하 모든 col

array([[1, 2, 3, 4, 5],
       [4, 6, 7, 8, 9]])

In [None]:
c[1:, :] # 2번째 row 이상 모든 col

array([[4, 6, 7, 8, 9]])

In [None]:
c[:2, 2] # 2번째 row 이하 모든 2번째 col

array([3, 7])

In [None]:
c[1:3] # 2번째 row 이상 4번째 row 미만

array([[4, 6, 7, 8, 9]])

In [None]:
c[:,1:3] # 2번째 col 이상 4번째 col 미만

array([[2, 3],
       [6, 7]])

In [None]:
d = np.array([[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]], int)
d

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [None]:
d[:,::2] # 모든 row 2칸씩 뛰어써 출력
# ::2 = 시작점, 끝점, step = 2칸씩 뛴다 (사이에 1칸의 간격을 둠)

array([[ 1,  3,  5],
       [ 6,  8, 10],
       [11, 13, 15]])

In [None]:
d[:,::1]

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

### creation function
- 무언가를 만드는 함수

arange
- 배열의 범위를 지정하여 값의 리스트를 생성하는 명령어

ones, zeros and empty
- zeros : 0으로 가득찬 ndarray 생성
    - np.zeros(shape, dtype, order)
- ones: 1로 참
- empty : shape만 주어지고 비어있는 배열
    - 메모리를 초기화 시켜주지 않는다!
    - zeros와 ones는 메모리를 할당받아 각 숫자들로 초기화한 후 반환하지만, empty는 메모리 할당만 받고 초기화 없이 반환
    - 그래서 실행할 때마다 다른 값을 가지는 걸 확인! -> 해당 영역에 어떤 데이터가 있는지와는 관계 없이 주소만 지니기 때문임
    
something_like
- 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환한다

identity
- 단위 행렬 (i 행렬)을 생성

eye
- 대각선이 1인 행렬
- eye(N, M, k)
    - N & M : n*m 행렬 결정, k : 정방단위행렬을 기준으로 1의 시작 위치를 정할 수 있다
    
diag
- 대각 행렬의 값을 추출

random sampling
- 데이터 분포에 따른 샘플링으로 array를 생성할 수 있다

arange

In [None]:
np.arange(30) # list의 range와 동일한 효과, 0부터 29까지 배열을 출력
# 30-1까지 출력됨 유의!

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [None]:
np.arange(0,5,1) # 시작, 끝, step

array([0, 1, 2, 3, 4])

In [None]:
np.arange(0,5.5,0.5) # 시작, 끝, float도 표시 가능

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. ])

In [None]:
np.arange(30).reshape(5,6) # 0~29까지 가지고 있는 배열을 5 row 6 col로 표시하겠다

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

ones, zeros and empty

In [None]:
np.zeros((2,5)) # shape만 정해주는 것!

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [None]:
np.zeros(shape=(10,), dtype=int) # shape랑 dtype 명시해서 지정!

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [None]:
np.zeros(shape=(10,3), dtype=float) # shape랑 dtype 명시해서 지정!

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [None]:
np.ones(shape=(10,), dtype=int) # 앞의 방식과 동일!

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [None]:
np.empty(shape=(10,), dtype=int)

array([                  0,     105553123016729,     105553123017824,
                         1, 3275354340909339414,     139639678597460,
           140448602741256,   23157141905163276,     123145530506624,
                4544351083])

In [None]:
np.empty(shape=(10,), dtype=int)

array([              0,    416611827716,    416611827826,    442381631598,
          171798691941,    188978561072,    188978561077,    176093659185,
       123145530506624,      4544351083])

In [None]:
np.empty(shape=(10,), dtype=int) # 값이 모두 다른 것 확인 가능

array([                  0,                2043,     105553123065856,
                         0, 8388363798450555152,     139639678566521,
           140448602741256,                   0,                   0,
                         0])

something_like

In [None]:
what = np.arange(30).reshape(5,6)
what # 크기 5 row 6 col 배열

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [None]:
one = np.ones_like(what)
ze = np.zeros_like(what)

print(one)
print(ze)

[[1 1 1 1 1 1]
 [1 1 1 1 1 1]
 [1 1 1 1 1 1]
 [1 1 1 1 1 1]
 [1 1 1 1 1 1]]
[[0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]]


In [None]:
np.empty_like(what) # 랜덤으로 숫자 배정되는 것도 동일함

array([[   0, 2043,    0,    0,    0,    0],
       [   0,    0,    0,    0,    0,    0],
       [   0,    0,    0,    0,    0,    0],
       [   0,    0,    0,    0,    0,    0],
       [   0,    0,    0,    0,    0,    0]])

identity

In [None]:
np.identity(n=3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [None]:
np.identity(5) # n 생략 가능

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

eye

In [None]:
np.eye(3, 5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

In [None]:
np.eye(N=3, M=5) # 소문자 안됨!

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

In [None]:
np.eye(5) # identity 행렬로 나옴

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [None]:
np.eye(5, k=2) # 언제부터 시작할지 시작점의 위치 정해줄 수 있음

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [None]:
np.eye(5, k=-1) # 음수 가능

array([[0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.]])

diag

In [None]:
matrix = np.arange(9).reshape(3, 3)
matrix

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [None]:
np.diag(matrix) # 대각선에 있는 값만 추출

array([0, 4, 8])

In [None]:
np.diag(matrix, k = 1) # eye와 마찬가지로 대각선의 시작 위치 지정 가능

array([1, 5])

In [None]:
np.diag(matrix, k = -1) # 음수 또한 가능!

array([3, 7])

random sampling

In [None]:
np.random.uniform(0,1,10) # 0~1 범위에서 균등분포에 따라 10개 값 배열 추출

array([0.22844471, 0.92380546, 0.51641884, 0.17583233, 0.82650809,
       0.5788023 , 0.6246625 , 0.65892392, 0.14156236, 0.00642559])

In [None]:
np.random.uniform(0,10,10).reshape(2,5)

array([[5.92797927, 2.06126337, 3.30950936, 9.17371573, 1.11518033],
       [9.64794106, 2.06191074, 6.70574531, 8.04646555, 9.01907875]])

In [None]:
np.random.normal(0,1,10).reshape(2,5) # 정규분포 N(0,1^2)에서 10개 추출

array([[ 0.75063527, -0.136569  ,  1.27212271, -1.53338513, -0.88855271],
       [ 1.66967219,  0.57441255,  1.06998364,  0.7127417 , -0.12360419]])

### operation function

sum
- 배열 안 전체 요소 총합을 구함

axis
- 모든 operation function을 실행할 때, 기준이 되는 dimension 축

mean & std
- 배열의 요소 간의 평균 또는 표준편차 반환

Mathematical functions
- 이처럼 np.something 형식을 사용하여 수학 연산자를 사용할 수 있음!
    - exp, sqrt 등
    
concatenate
- 배열을 합치는 함수
    - vstack & hstack
    - concatenate

sum

In [None]:
su = np.arange(10).reshape(2,5)
su

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [None]:
np.sum(su) # np.sum 형식

45

In [None]:
su.sum() # .sum()

45

In [None]:
su.sum(dtype=float) # 형식 지정해서 총합 가능!

45.0

axis

In [None]:
xis = np.arange(10).reshape(2,5)
xis

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [None]:
xis.sum(axis=0) # row를 기준으로 총합

array([ 5,  7,  9, 11, 13])

In [None]:
xis.sum(axis=1) # col 기준으로 총합

array([10, 35])

In [None]:
x = np.array([xis, xis, xis])
x

array([[[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]],

       [[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]],

       [[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]]])

In [None]:
x.shape # shape의 각 위치 = axis의 0, 1, 2...

(3, 2, 5)

In [None]:
x.sum(axis=0) # 각 데이터의 위치에 따라서 합해짐

array([[ 0,  3,  6,  9, 12],
       [15, 18, 21, 24, 27]])

In [None]:
x.sum(axis=1) # 각 열의 합

array([[ 5,  7,  9, 11, 13],
       [ 5,  7,  9, 11, 13],
       [ 5,  7,  9, 11, 13]])

In [None]:
x.sum(axis=2) # 각 행의 총합

array([[10, 35],
       [10, 35],
       [10, 35]])

mean & std

In [None]:
test = np.arange(1,13).reshape(4,3)
test

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [None]:
test.mean()

6.5

In [None]:
test.std()

3.452052529534663

In [None]:
test.std(axis = 0) # 각 열에 대해서 표준편차 계산

array([3.35410197, 3.35410197, 3.35410197])

Mathematical functions

In [None]:
np.mean(test) # 앞서 말한 수학 연산자 또한 np.something의 형태로 출력 가능하다!

6.5

In [None]:
np.exp(test)

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01],
       [5.45981500e+01, 1.48413159e+02, 4.03428793e+02],
       [1.09663316e+03, 2.98095799e+03, 8.10308393e+03],
       [2.20264658e+04, 5.98741417e+04, 1.62754791e+05]])

In [None]:
np.sqrt(test)

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974],
       [2.64575131, 2.82842712, 3.        ],
       [3.16227766, 3.31662479, 3.46410162]])

concatenate

In [None]:
a= np.array([1,2,3])
b= np.array([4,5,6])
a, b

(array([1, 2, 3]), array([4, 5, 6]))

In [None]:
np.vstack((a, b)) # vertical 합침

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
a, b

(array([[1],
        [2],
        [3]]),
 array([[4],
        [5],
        [6]]))

In [None]:
np.hstack((a, b)) # horizon으로 합친다

array([[1, 4],
       [2, 5],
       [3, 6]])

In [None]:
a= np.array([[1,2,3]])
b= np.array([[4,5,6]])
np.concatenate((a, b), axis=0) # vertical 합침

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
np.concatenate((a, b), axis=1) # horizon 합침

array([[1, 4],
       [2, 5],
       [3, 6]])

### array operations

operations b/t arrays
- 기본적인 사칙 연산을 지원!
- 매트릭스내 요소들 간 같은 위치에 있는 값들끼리 연산

element-wise operations
- 배열간 shape이 같을 때 일어나는 연산

dot product
- 매트릭스의 기본 연산
    - 첫 번째의 행과 그 다음의 열을 곱하는 것
- dot 함수 사용

transpose
- transpose 또는 T 사용

broadcasting
- Shape이 다른 배열 간 연산을 지원하는 기능
- Scalar vector 외에도 vector matrix 간의 연산도 지원
    - 단, 행이나 열 중 하나는 shape이 맞아야 한다!


operations b/t arrays + element-wise operations

In [None]:
test_a = np.array([[1,2,3],[4,5,6]])
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
test_a + test_a # 더하기

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [None]:
test_a - test_a

array([[0, 0, 0],
       [0, 0, 0]])

In [None]:
test_a * test_a

array([[ 1,  4,  9],
       [16, 25, 36]])

dot product

In [None]:
test_a = np.arange(1,7).reshape(2,3)
test_b = np.arange(1,7).reshape(3,2)
test_a, test_b

(array([[1, 2, 3],
        [4, 5, 6]]),
 array([[1, 2],
        [3, 4],
        [5, 6]]))

In [None]:
test_a.dot(test_b)

array([[22, 28],
       [49, 64]])

transpose

In [None]:
test_a = np.arange(1,7).reshape(2,3)
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
test_a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [None]:
test_a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

broadcasting

In [None]:
test_ma = np.array([[1,2,3], [4,5,6]], float)
s = 3
test_ma, s

(array([[1., 2., 3.],
        [4., 5., 6.]]),
 3)

In [None]:
test_ma + s # 매트릭스 + 스칼라

array([[4., 5., 6.],
       [7., 8., 9.]])

In [None]:
test_ma - s # 매트릭스 - 스칼라

array([[-2., -1.,  0.],
       [ 1.,  2.,  3.]])

In [None]:
test_ma // s # 매트릭스 // 스칼라 = 몫

array([[0., 0., 1.],
       [1., 1., 2.]])

In [None]:
test_ma * s # 매트릭스 * 스칼라

array([[ 3.,  6.,  9.],
       [12., 15., 18.]])

In [None]:
test_ma / s # 매트릭스 / 스칼라 = 나눗셈

array([[0.33333333, 0.66666667, 1.        ],
       [1.33333333, 1.66666667, 2.        ]])

In [None]:
test_ma ** s # 매트릭스 ** 스칼라 = 제곱

array([[  1.,   8.,  27.],
       [ 64., 125., 216.]])

### Numpy performance #1

In [None]:
def scalar_vector(scalar, vector):
# 입력받은 스칼라와 벡터 안 요소 값들을 곱해서 result에 추가하는 함수
    result = []
    for value in vector:
        result.append(scalar * value)
    return result

In [None]:
iternation_max = 100000000

vector = list(range(iternation_max))
scalar = 2

scalar, vector

(2,
 [0,
  1,
  2,
  3,
  4,
  5,
  6,
  7,
  8,
  9,
  10,
  11,
  12,
  13,
  14,
  15,
  16,
  17,
  18,
  19,
  20,
  21,
  22,
  23,
  24,
  25,
  26,
  27,
  28,
  29,
  30,
  31,
  32,
  33,
  34,
  35,
  36,
  37,
  38,
  39,
  40,
  41,
  42,
  43,
  44,
  45,
  46,
  47,
  48,
  49,
  50,
  51,
  52,
  53,
  54,
  55,
  56,
  57,
  58,
  59,
  60,
  61,
  62,
  63,
  64,
  65,
  66,
  67,
  68,
  69,
  70,
  71,
  72,
  73,
  74,
  75,
  76,
  77,
  78,
  79,
  80,
  81,
  82,
  83,
  84,
  85,
  86,
  87,
  88,
  89,
  90,
  91,
  92,
  93,
  94,
  95,
  96,
  97,
  98,
  99,
  100,
  101,
  102,
  103,
  104,
  105,
  106,
  107,
  108,
  109,
  110,
  111,
  112,
  113,
  114,
  115,
  116,
  117,
  118,
  119,
  120,
  121,
  122,
  123,
  124,
  125,
  126,
  127,
  128,
  129,
  130,
  131,
  132,
  133,
  134,
  135,
  136,
  137,
  138,
  139,
  140,
  141,
  142,
  143,
  144,
  145,
  146,
  147,
  148,
  149,
  150,
  151,
  152,
  153,
  154,
  155,
  156,
  157,


In [None]:
%timeit scalar_vector(scalar, vector) # for loop을 이용한 성능
# %timeit : 시간이 얼마나 걸리는지 확인하는 용도

10.6 s ± 700 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
%timeit [scalar * value for value in range(iternation_max)] # list comprehersion

8.93 s ± 261 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
%timeit np.arange(iternation_max) * scalar # numpy

469 ms ± 10.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


- 일반적으로 속도는 아래 순 for loop < list comprehension < numpy
    - list comprehension : 반복되거나 특정 조건을 만족하는 리스트를 보다 쉽게 만들어 내기 위한 방법
    - 리스트 값들은 주소를 참조하기 때문에 각 주소를 찾아주면서 해서 시간이 오래 걸리지만, numpy는 서로 연결되어 있어서 비교적 시간이 적게 걸린다
- 100,000,000 번의 loop이 돌 때 약 약 4배 이상의 성능 차이를 보임
    - Numpy는 성능을 확보하는 대신 dynamic typing을 포기했다는 점을 볼 수 있음
- 대용량 계산에서는 가장 흔히 사용됨
- Concatenate처럼 계산이 아닌, 할당에서는 연산 속도의 이점이 없음

In [None]:
[i for i in range(10)] # list comprehersion!!

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### comparisons

All & Any
- Array의 데이터 전부(and = all) 또는 일부(or = any)가 조건에 만족 여부 반환

np.where
- np.where(condition, TRUE, FALSE)

argmax & argmin
- array내 최대값 또는 최소값의 index를 반환함
- axis 기반의 반환 가능

All & Any

In [None]:
a = np.arange(10)

In [None]:
a>5 # 각 요소에 대해서 true, false 반환

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [None]:
sum(a>5) # 메소드 안 비교 연산 가능

4

In [None]:
np.any(a>5), np.any(a<5) # a 안의 요소 하나라도 해당 조건을 만족할 경우, true 어떠한 것도 만족하지 않을 경우, false 반환

(True, True)

In [None]:
np.any(a>50)

False

In [None]:
np.all(a>5), np.all(a<5) # a 안의 모든 요소가 만족할 경우에만 true, 하나라도 만족하지 않는게 존재할 경우 false 반환

(False, False)

In [None]:
np.all(a>50), np.all(a<50)

(False, True)

comparison operation

In [None]:
a = np.arange(10)
b = np.arange(2,12)
a,b

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11]))

In [None]:
a > b # 배열의 크기가 동일할 때, 비교 가능!

array([False, False, False, False, False, False, False, False, False,
       False])

In [None]:
(a < b).any() # 하나라도 true면 true

True

In [None]:
np.logical_and(a > 0, a<3) # 해당 두 조건을 and로 묶었을 때의 bool값

array([False,  True,  True, False, False, False, False, False, False,
       False])

In [None]:
np.logical_not(a > 0)

array([ True, False, False, False, False, False, False, False, False,
       False])

In [None]:
b = np.array([ True, False, False, False, False, False, False, False, False,False])
b

array([ True, False, False, False, False, False, False, False, False,
       False])

In [None]:
np.logical_not(b)

array([False,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

In [None]:
np.logical_or(a > 0, a<3)

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

np.where

In [None]:
a = np.arange(10)

In [None]:
np.where(a>0,3,2) # condition (a>0)을 만족할 때, 3을 출력 아닐 경우, 2를 출력

array([2, 3, 3, 3, 3, 3, 3, 3, 3, 3])

In [None]:
np.where(a>0,30,5)

array([ 5, 30, 30, 30, 30, 30, 30, 30, 30, 30])

In [None]:
a>0

array([False,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

In [None]:
np.where(a>0) # true인 경우의 인덱스를 반환한다}

(array([1, 2, 3, 4, 5, 6, 7, 8, 9]),)

In [None]:
a = np.array([3.3, np.NaN, np.Inf]) # np.Inf : infinite 값
a

array([3.3, nan, inf])

In [None]:
np.isnan(a) # 결측치가 존재하는지 확인

array([False,  True, False])

In [None]:
np.isfinite(a) # 유한한 경우 출력

array([ True, False, False])

argmax & argmin

In [None]:
a = np.array([1,2,3,4,65,5,6,7,31])
a

array([ 1,  2,  3,  4, 65,  5,  6,  7, 31])

In [None]:
np.argmax(a), np.argmin(a) # a 배열의 최대값과 최소값의 인덱스를 반환!!

(4, 0)

In [None]:
b = np.array([[1,2,4,7],[3,4,5,62]])
b

array([[ 1,  2,  4,  7],
       [ 3,  4,  5, 62]])

In [None]:
np.argmax(b, axis = 1) # 각 행 내에서 최대값 출력

array([3, 3])

In [None]:
np.argmin(b, axis = 0) # 각 열 내에서 최소값 출력

array([0, 0])

### boolean & fancy index

boolean index
- 특정 조건에 따른 값을 배열 형태로 추출 할 수 있음
- Comparison operation 함수들도 모두 사용가능

fancy index
- int 배열을 index value로 사용해서 값을 추출하는 방법
- Matrix 형태의 데이터도 가능
- take!

In [None]:
a = np.array([1,4,0,2,8,9,7], float)
condition = a > 3 # comparison operation을 만족하는 컨디션
condition

array([False,  True, False, False,  True,  True,  True])

In [None]:
a[condition] # 기존 배열에 컨디션을 만족하는 기존의 값을 가져올 수 있음 -> condition에서 true인 경우만 가져오게 된다!

array([4., 8., 9., 7.])

In [None]:
condition.astype(int) # bool타입을 지니는 컨디션을 int로 변환시킬 경우, 0과 1로 변환시켜줌

array([0, 1, 0, 0, 1, 1, 1])

In [None]:
a = np.array([2,4,6,8], float)
b = np.array([0,0,1,3,2,1], int) # 반드시 int로 선언 필요!

a[b] # 각 인덱스에 해당하는 값들 반환

array([2., 2., 4., 8., 6., 4.])

In [None]:
a.take(b) # take : fancy index와 동일한 효과 -> 이 방법 권장!

array([2., 2., 4., 8., 6., 4.])

In [None]:
a =np.array([[1,4], [2,3]])
b = np.array([0,0,1,1],int) # row
c = np.array([0,1,0,1],int) # col

a[b,c] # (0,0), (0,1), (1,0), (1,1)의 값 출력

array([1, 4, 2, 3])

In [None]:
a[b] # row를 기준으로 출력

array([[1, 4],
       [1, 4],
       [2, 3],
       [2, 3]])

### numpy data i/o

loadtxt & savetxt
- Text type의 데이터를 읽고, 저장하는 기능

numpy object - npy
- Numpy object (pickle) 형태로 데이터를 저장하고 불러옴
- Binary 파일 형태로 저장함

In [None]:
a = np.loadtxt("./populations.txt") # ./populations.txt 경로의 txt 파일 불러옴
# dtype 등 지정 가능하다! = astype과 동일
a[:10]

In [None]:
a.astype(int) # astype 변경 가능

In [None]:
np.savetxt('data_csv', a_int, delimiter=",") # 구분자는 ,으로 해서 data_csv 파일명으로 a_int를 저장 (csv 파일 형식)
# 부동소수형 타입으로 저장됨! fmt='%d' 와 같이 포맷팅을 지정해서 부동소수형 외에 타입으로 저장 가능함!

In [None]:
a = np.array([1,2,3,4,5])
a

array([1, 2, 3, 4, 5])

In [None]:
np.save("npy_test", arr=a) # array가 npy_test.npy로 주피터 노트북에 저장되는 것 볼 수 있다

In [None]:
npy_array = np.load(file="npy_test.npy") # 저장된 파일 로드 가능
npy_array

array([1, 2, 3, 4, 5])