# Numpy 란 Numerical Python 의 약자
   대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공한다.   
   데이터 분석할 때 사용되는 다른 라이브러리 pandas 와 matplotlib 의 기반이 된다. 
   기본적으로 array 라는 단위로 데이터를 관리하는데, 행렬 개념으로 생각하면 된다.
   
   
# Numpy 특징
   일반 list 에 비해 빠르고 메모리에 효율적이다. 
   
   선형대수와 관련된 다양한 기능을 제공하고, for 문, while 문 같은 반복문 없이 데이터 배열에 대한 처리를 지원한다.
    
    
# Numpy 가 빠른 이유
numpy 는 메모리에 차례대로 생성/할당을 해준다. 
반면 기존의 List 는 이 값(value)가 어디에 있는지 주소만 저장을 해놓고 그 주소를 알려준다. 
그래서 List 를 for 문을 돌리면 그 주소마다 하나하나씩 다 찾아가면서 연산을 해줘야 하는데, 
numpy 는 같은 곳에 몰려있기 때문에 연산이 더 빠르게 이루어진다.

# Numpy 호출

In [2]:
import numpy as np

# Numpy로 array 생성하기

### 1차원 벡터 형식

In [3]:
test_array = np.array([1,3,5,'7'],float) # 마지막에 데이터 타입 설정가능
test_array

array([1., 3., 5., 7.])

In [4]:
test_array.shape # ndarray 의 shape (type : tuple)

(4,)

### 2차원 matrix

In [6]:
matrix = [[1,2,3,4],[5,6,7,8],[9,10,11,12]]
np.array(matrix,int).shape

(3, 4)

### 다차원 벡터 tensor

In [14]:
tensor = [[[1,2,3,4],[5,6,7,8],[9,10,11,12]],
         [[1,2,3,4],[5,6,7,8],[9,10,11,12]],
         [[1,2,3,4],[5,6,7,8],[9,10,11,12]]]
np.array(tensor,int).shape

(3, 3, 4)

In [17]:
np.array(tensor,int).ndim # number of dimension

3

In [16]:
np.array(tensor,int).size # data의 개수

36

# Numpy array의 데이터 타입
   - dtype 파라미터를 사용해서 데이터 타입을 변환할 수 있음
    
    
   - nbytes 는 데이터의 크기를 출력해준다.

In [7]:
np.array([[1,2.6,3.2],[4,5.1,6]],dtype = int)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  np.array([[1,2.6,3.2],[4,5.1,6]],dtype = np.int)


array([[1, 2, 3],
       [4, 5, 6]])

In [19]:
np.array([[1,2.6,3.2],[4,'5',6]],dtype = np.float32)

array([[1. , 2.6, 3.2],
       [4. , 5. , 6. ]], dtype=float32)

In [21]:
np.array([[1,2.6,3.2],[4,'5',6]],dtype = np.float32).nbytes 
# 자료형 뒤에 있는 숫자로 byte가 결정

24

# Numpy 의 reshape
** 주의: 기존 데이터의 요소 개수가 같아야 함 

In [22]:
t_matrix = [[1,2,3,4],[5,6,7,8]]
np.array(t_matrix).shape

(2, 4)

In [23]:
np.array(t_matrix).reshape(8,)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [24]:
np.array(t_matrix).reshape(8,).shape

(8,)

In [31]:
np.array(t_matrix).reshape(-1,2).shape # -1은 다른 값을 가지고 자동으로 결정

(4, 2)

In [32]:
np.array(t_matrix).reshape(2,2,2)

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [33]:
np.array(t_matrix).reshape(2,2,2).shape

(2, 2, 2)

### flatten() 함수
이 함수는 다차원 배열을 1차원 벡터 형태로 바꾸어 준다

In [35]:
t_matrix = [[[1,2],[3,4]],[[1,2],[3,4]],[[1,2],[3,4]]]
np.array(t_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4])

# Numpy의 indexing and slicing

### indexing

In [36]:
a = np.array([[1,2.2,3],[4,5,6.3]],int)
print(a)

[[1 2 3]
 [4 5 6]]


In [37]:
print(a[0,0]) # list와 달리 ","를 사용해서 인덱싱가능

1


In [38]:
print(a[0][0])

1


In [39]:
a[0,0] = 7
print(a)

[[7 2 3]
 [4 5 6]]


In [40]:
a[0][0] = 8
print(a)

[[8 2 3]
 [4 5 6]]


### slicing

In [51]:
a = np.array([[1,2,3,4,5],[6,7,8,9,10]],int)
print(a)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


In [57]:
a[:,1:] # ":"은 전체라는 의미

array([[ 2,  3,  4,  5],
       [ 7,  8,  9, 10]])

In [49]:
a[1,2:4]

array([8, 9])

In [56]:
a[1:2]

array([[ 6,  7,  8,  9, 10]])

In [62]:
a[1,3:-1] # 인덱스에서 -는 뒤에서 부터 셈

array([9])

In [63]:
a = np.array([[0,1,2,3,4],[5,6,7,8,9],[10,11,12,13,14]],int)
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [64]:
a[:,::2] # ::를 사용하면 원하는 만큼 step을 넘어가면서 슬라이싱이 가능하다.

array([[ 0,  2,  4],
       [ 5,  7,  9],
       [10, 12, 14]])

In [65]:
a[::2,::2]

array([[ 0,  2,  4],
       [10, 12, 14]])

# Numpy의 arange
list의 range함수와 같은 역할

In [161]:
list(range(1,10,2)) # list에서 range사용

[1, 3, 5, 7, 9]

In [67]:
np.arange(20) # list의 range와 같은 역할, integer로 0 ~ 19까지 배열추출

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [68]:
np.arange(0,1,0.2) # (start, end, step)

array([0. , 0.2, 0.4, 0.6, 0.8])

In [69]:
np.arange(20).reshape(4,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

# Numpy 의 행렬 관련 함수

### zoros, ones empty 함수 사용

In [3]:
np.zeros(shape = (5,2),dtype = np.int8) # 영 행렬을 생성

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int8)

In [71]:
np.ones(shape = (5,2),dtype = np.int8) # 일 행렬을 생성

array([[1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1]], dtype=int8)

In [81]:
np.empty(shape = (3,2),dtype = np.int8)
# 주어진 모양대로 비어있는 것을 생성
# empty()함수는 기존 메모리에 있던 찌꺼기 값을 보여주고 값은 계속 바뀐다.

array([[-80,   0],
       [  0,   0],
       [  0,   0]], dtype=int8)

### something_like() 사용
zoros, ones empty 만 썼을 때와는 달리 메모리 부분을 그대로 쓰기 때문에 속도가 빠르다.

In [85]:
t_matrix = np.arange(15).reshape(3,5)
np.ones_like(t_matrix)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [86]:
t_matrix = np.arange(15).reshape(3,5)
np.zeros_like(t_matrix)

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [87]:
t_matrix = np.arange(15).reshape(3,5)
np.empty_like(t_matrix)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

### 단위 행렬 identity(), eye()
   - identity() 는 단위행렬
   
   - eye()는 k파라미터를 사용해서 조절 가능

In [141]:
np.identity(n = 3, dtype = np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [89]:
np.identity(n = 5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [93]:
np.eye(N = 3,M = 4,dtype = np.int) # N: row, M: column N,M은 생략가능

array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0]])

In [91]:
np.eye(3) # eye()함수 안에 숫자 하나만 쓰면 identity함수와 같다.

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [92]:
np.eye(3,6,k = 3) # k는 인덱스의 시작점을 의미 

array([[0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

### 행렬의 대각선요소 추출하기

In [94]:
t_matrix = np.arange(16).reshape(4,4)
np.diag(t_matrix)

array([ 0,  5, 10, 15])

In [95]:
np.diag(t_matrix, k = 1) # k 값을 설정하면 k값부터 대각선을 추출

array([ 1,  6, 11])

# Numpy의 Random Sampling

표준 정규 분포란 평균이 0이고 표준편차가 1인 정규분포를 의미

In [103]:
np.random.uniform(0,1,12).reshape(4,3) # 균등분포
# np.random.uniform(최소값, 최댓값, data개수)

array([[0.40265019, 0.47622988, 0.89013326],
       [0.63451343, 0.13221666, 0.86672417],
       [0.6977591 , 0.84308428, 0.89973737],
       [0.19631586, 0.84460326, 0.00473515]])

In [170]:
np.random.normal(0,1,12).reshape(4,3) # 정규분포

array([[-0.51301186, -1.63766053, -2.9167686 ],
       [ 0.45366356,  0.12384242,  0.50082808],
       [-0.68374562, -0.38274888,  0.92738172],
       [-0.624943  ,  0.46351074, -0.66237836]])

# Numpy의 연산시 axis
   axis는 모든 operation function을 실행할 때, 기준이 되는 dimension 축
    
   axis는 .shape를 해서 앞에서 0부터 시작함

In [106]:
t_array = np.arange(1,13).reshape(3,4)
t_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [108]:
t_array.sum(axis = 0),t_array.sum(axis = 1)
# axis = 0은 row기준 1은 벡터 기준

(array([15, 18, 21, 24]), array([10, 26, 42]))

In [109]:
tensor = np.array([t_array,t_array,t_array])
tensor

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]])

In [172]:
t_array.mean(),t_array.mean(axis = 0) # mean()는 평균

(6.5, array([5., 6., 7., 8.]))

In [112]:
t_array.std(),t_array.std(axis = 0) # std()는 표준편차

(3.452052529534663, array([3.26598632, 3.26598632, 3.26598632, 3.26598632]))

# Numpy의 Mathmaticla functions 
   지수 함수(exponential)
   - exp,expm1,exp2,log,log2,log10,log1p,power,sqrt 
   
   
  삼각함수(trigonometric)
   - sin, cos,  acsin, arccos, atctan
    
    
   쌍곡선 함수(hyperbolic)
   - sinh,cosh,tanh,acsinh,arccosh,atctanh

In [114]:
np.exp(t_array) # 지수 함수

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01, 5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03],
       [8.10308393e+03, 2.20264658e+04, 5.98741417e+04, 1.62754791e+05]])

In [116]:
np.sqrt(t_array) # 루트

array([[1.        , 1.41421356, 1.73205081, 2.        ],
       [2.23606798, 2.44948974, 2.64575131, 2.82842712],
       [3.        , 3.16227766, 3.31662479, 3.46410162]])

In [117]:
np.sin(t_array)

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ],
       [-0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825],
       [ 0.41211849, -0.54402111, -0.99999021, -0.53657292]])

# Numpy의 concatenate
concatenate는 합치는 것을 의미한다.

### vstack()
row를 기준으로 붙인다.

In [134]:
a = np.array([1,2,3])
b = np.array([4,5,6])
np.vstack((a,b))

array([[1, 2, 3],
       [4, 5, 6]])

### hstack()
column을 기준으로 붙인다.

In [124]:
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
np.hstack((a,b))

array([[1, 4],
       [2, 5],
       [3, 6]])

### concatenate()

In [173]:
a = np.array([[1,2,3]])
b = np.array([[4,5,6]])
np.concatenate((a,b),axis = 0) # 행을 기준으로 합한다

array([[1, 2, 3],
       [4, 5, 6]])

In [175]:
a = np.array([[1,2],[3,4]])
b = np.array([[5,6]])
np.concatenate((a,b.T),axis = 1) # 열을 기준으로 합한다.

array([[1, 2, 5],
       [3, 4, 6]])

# Numpy의 array operation
Numpy는 array간 기본적인 사칙연산 지원(Element-wise Operation)

In [136]:
a = np.array([[1,2,3],[4,5,6]],float)
a + a

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [137]:
a - a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [138]:
a * a 

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

### 행렬 곱(Dot product)

In [142]:
dot_a = np.arange(1,7).reshape(2,3)
dot_b = np.arange(1,7).reshape(3,2)
dot_a.dot(dot_b)

array([[22, 28],
       [49, 64]])

### 행렬 연산(broadcasting)
shape이 다른 배열간의 연산을 지원하는 기능

In [146]:
t_matrix = np.array([[1,2],[3,4]],float)
scalar = 2

In [147]:
t_matrix + scalar

array([[3., 4.],
       [5., 6.]])

In [145]:
t_matrix - scalar

array([[-1.,  0.],
       [ 1.,  2.]])

In [148]:
t_matrix * 3

array([[ 3.,  6.],
       [ 9., 12.]])

In [149]:
t_matrix / 3

array([[0.33333333, 0.66666667],
       [1.        , 1.33333333]])

In [150]:
t_matrix // 3

array([[0., 0.],
       [1., 1.]])

In [151]:
t_matrix ** 3

array([[ 1.,  8.],
       [27., 64.]])

# Numpy 비교 연산자

### All(),  Any()
   - All: Array의 데이터가 전부 조건에 만족하면 True
   - Any: Array의 데이터 중 하나라도 조건에 만족하면 True

In [3]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [4]:
np.all(a > 3)

False

In [5]:
np.all(a < 5)

True

In [6]:
np.any(a > 3)

True

In [8]:
np.any(a > 5)

False

### 배열 비교
배열의 크기가 동일할 때 element간의 비교 결과를 Boolean type으로 리턴

In [9]:
a = np.array([1,5,3],float)
b = np.array([4,7,2],float)

In [10]:
a > b

array([False, False,  True])

In [11]:
a == b

array([False, False, False])

In [12]:
(a > b).any()

True

In [13]:
(a > b).all()

False

### 논리 연산자
   - logical_and 는 2가지 조건을 넣고 모두 만족하면 True, 아니면 False
   - logical_not 은 논리 값을 부정 시켜서 반대로 나타냄
   - logicla_or 은 2가지 배열(조건)을 넣고 둘중에 하나만 만족하면 True, 아니면              False

In [14]:
a = np.array([2,3,1],float)
np.logical_and(a > 0,a < 3)

array([ True, False,  True])

In [15]:
b = np.array([False,True,True],bool)
np.logical_not(b)

array([ True, False, False])

In [16]:
c = np.array([False,False,False],bool)
np.logical_or(b,c)

array([False,  True,  True])

### where()
   where(조건, True일때 출력할 값, False일때 출력할 값)

In [25]:
a = np.array([2,3,1],float)
np.where(a > 1,0,3) # 조건 , 참일 때 값, 거짓일 때 값

array([0, 0, 3])

In [24]:
a = np.arange(3,10)
np.where(a > 6) # True값의 index값 변환

(array([4, 5, 6], dtype=int64),)

In [20]:
a = np.array([2,np.NaN,np.inf],float) # NaN은 결측치, inf는 무한대
np.isnan(a) # nan인 경우 True

array([False,  True, False])

In [22]:
np.isfinite(a) # isfinite()는 한정된 수의 경우는 True, nan,inf인 경우 False

array([ True, False, False])

### argmax(), argmin()
   - argmax()는 array내 최댓값의 index를 반환
   - argmin()는 array내 최소값의 index를 반환

In [31]:
a = np.array([2,3,1,5,6,22,11])
np.argmax(a), np.argmin(a)

(5, 2)

In [32]:
a = np.array([[1,4,2,22],[45,32,4,7],[34,54,9,8]])
np.argmax(a,axis= 0), np.argmin(a, axis = 1)

(array([1, 2, 2, 0], dtype=int64), array([0, 2, 3], dtype=int64))

### Boolean index
   - numpy의 배열은 특정 조건에 따른 값을 배열 형태로 추출 가능
   - comparison operation 함수들도 모두 사용 가능

In [33]:
t_a = np.array([3,5,8,0,7,4],float)
t_a > 4

array([False,  True,  True, False,  True, False])

In [34]:
t_a[t_a > 4] # []안의 조건이 참인 값들을 인덱스로 사용해서 출력

array([5., 8., 7.])

In [35]:
t_c = t_a < 4
t_c

array([ True, False, False,  True, False, False])

In [36]:
t_a[t_c]

array([3., 0.])

### Fancy index
   - numpy의 array를 index value로 사용하여 값을 추출

In [37]:
f_a = np.array([1,2,3,4,5,6],float)
f_b = np.array([1,0,2,0,1,4],int) # int로 하는 이유는 index값이 integer이기때문에
f_a[f_b]

array([2., 1., 3., 1., 2., 5.])

In [39]:
f_a.take(f_b) # take: bracket index와 같은 효과

array([2., 1., 3., 1., 2., 5.])

In [40]:
f_a = np.array([[1,3,7],[3,4,5]],float)
f_b = np.array([1,0,1,0,1],int)
f_c = np.array([1,1,0,0,2],int)
f_a[f_b,f_c] # [axis = 0, axis = 1]

array([4., 3., 3., 1., 5.])

# Numpy 데이터를 읽고 저장하는 방법

### text 파일 읽고 저장하기
   - loadtxt()
   - savetxt()

In [41]:
a = np.loadtxt('./price.txt') # text파일을 불러오는 법
a[:5] # python 기본 타입 float형태로 보임

array([[1.00e+00, 2.30e+04, 3.40e+03, 1.96e+04],
       [2.00e+00, 4.20e+04, 6.90e+03, 3.51e+04],
       [3.00e+00, 6.10e+04, 2.70e+03, 5.83e+04],
       [4.00e+00, 1.90e+04, 8.60e+03, 1.04e+04],
       [5.00e+00, 6.90e+04, 3.70e+03, 6.53e+04]])

In [48]:
a_int = a.astype(int) # 파일의 자료형을 바꾸는 함수
a_int[:3]

array([[    1, 23000,  3400, 19600],
       [    2, 42000,  6900, 35100],
       [    3, 61000,  2700, 58300]])

   - csv로 저장하기
   
    형식: ("파일이름.확장자명", array, delimiter = 확장자명에 맞는구분자)

In [49]:
np.savetxt("int_price.csv",a_int,delimiter = ",")

In [51]:
np.savetxt("int_price2.csv",a_int,fmt = '%d',delimiter = ",") # 자료형을 int로 바꿈

### Numpy object(.npy)
   - Numpy object(pickle) 형태로 데이터를 저장하고 불러옴
   - Binary 형태로 파일 저장
   
    저장 형식: save("파일명.npy", arr = 배열)
    
    읽는 형식: load(file = "파일명.npy")

In [52]:
np.save("npy_test.npy",arr = a_int) # Binary형태로 저장

In [53]:
npy_array = np.load(file = "npy_test.npy")
npy_array[:5]

array([[    1, 23000,  3400, 19600],
       [    2, 42000,  6900, 35100],
       [    3, 61000,  2700, 58300],
       [    4, 19000,  8600, 10400],
       [    5, 69000,  3700, 65300]])