# Numpy - Numerical Python
파이썬 과학 처리 패키지
- numerical python
- 파이썬의 고성능 과학 계산용 패키지
- matrix 와 vector 와 같은 array연산의 사실상의 표준

특징
- 일반 리스트에 비해 빠르고 메모리를 효율적으로 사용
- 반복문 없이 데이터 배열에 대한 처리를 지원
- 선형대수와 관련된 다양한 기능을 제공
- c, c++ 등의 언어와 통합가능

In [2]:
# de facto standard
import numpy as np

## 1. ndarray (Numpy Dimensional Array)

In [None]:
# numpy는 하나의 데이터 타입만 array에 넣을 수 있음

In [2]:
a = np.array([1,4,5,8], float)
print(a)

[1. 4. 5. 8.]


In [5]:
# data type : .dtyoe
# 튜플형식으로 반환 : .shape
a[3], a.dtype, a.shape

(8.0, dtype('float64'), (4,))

## 2. Array shape

In [17]:
# 1차원 - vector 
a = np.array([1,4,5,8],float)
a

array([1., 4., 5., 8.])

In [13]:
# 2차원 - matrix
m = [ [1,4], [5,8] ]
b = np.array(m, float)
b

array([[1., 4.],
       [5., 8.]])

In [14]:
print(b)

[[1. 4.]
 [5. 8.]]


In [29]:
# 3차원 - tensor
t =[ [[1,4], [5,8]], [[11,14], [15,18]] ]
c = np.array(t, float)
c

array([[[ 1.,  4.],
        [ 5.,  8.]],

       [[11., 14.],
        [15., 18.]]])

In [30]:
a.shape, b.shape, c.shape

((4,), (2, 2), (2, 2, 2))

In [31]:
#ndim
a.ndim, b.ndim, c.ndim
# 1차원 , 2차원  , 3차원

(1, 2, 3)

In [32]:
# 총 원소개수
a.size, b.size, c.size

(4, 4, 8)

In [34]:
# data type (dtype)
c = np.array(t, dtype = np.float32)
c

array([[[ 1.,  4.],
        [ 5.,  8.]],

       [[11., 14.],
        [15., 18.]]], dtype=float32)

### - reshape : size는 동일

In [39]:
c.reshape(2, 4).shape

(2, 4)

In [44]:
# 2차원( 2 x 4 )으로 바꿈
c.reshape(2, 4)

array([[ 1.,  4.,  5.,  8.],
       [11., 14., 15., 18.]], dtype=float32)

In [42]:
# 1차원으로 바꿈
c.reshape(8, )

array([ 1.,  4.,  5.,  8., 11., 14., 15., 18.], dtype=float32)

In [45]:
# reshape에서 행에 -1을 썼을 경우, 행(-1)의 개수가 열에 정해진 숫자에 따라 모든 원소가 빠짐없이 배치될 수 있도록 가변적으로 정해진다는 것이다. 

# 열에 4를 썼으므로 행이 -1로 써졌을때 8개의 원소를 모두 채우기 위해 2로 자동 정해짐
c.reshape(-1, 4)

array([[ 1.,  4.,  5.,  8.],
       [11., 14., 15., 18.]], dtype=float32)

In [46]:
# flatten - 1차원으로 변환 
c. flatten() 

array([ 1.,  4.,  5.,  8., 11., 14., 15., 18.], dtype=float32)

## 3. Indexing and Slicing

In [48]:
a = np.arange(6) # np.array(range(6))
a

array([0, 1, 2, 3, 4, 5])

In [50]:
# 위와 같은 코드임
a = np.array(range(6))
a

array([0, 1, 2, 3, 4, 5])

In [54]:
a = np.arange(6).reshape(2,3)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [60]:
a[0][1] # 원래 list의 list 값을 불러올때
a[0,1]  # numpy에서는 이렇게 사용 가능

1

In [61]:
# numpy는 리스트와는 달리 행과 열 모두에 대해 슬라이싱이 가능하다.
a[ : , : 2]

array([[0, 1],
       [3, 4]])

In [62]:
#원소의 개수 16개 , 열의 개수 4 지정
b = np.arange(16).reshape(-1,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [67]:
# 5,6,9,10
b[1:3 , 1:3]

array([[ 5,  6],
       [ 9, 10]])

In [69]:
# 0, 1, 4, 5, 8, 9 
b[:3, :2] # 앞 0이면 생략가능이므로 b[0:3, 0:2] 와 동일

array([[0, 1],
       [4, 5],
       [8, 9]])

In [78]:
# 3번쨰 열까지는 x(즉,독립변수), 마지막 열은 y(즉,종속변수)
# 맨마지막 = -1이므로
X,Y = b[ : , : -1], b[ : , -1]
X.shape, Y.shape

((4, 3), (4,))

In [79]:
X, Y

(array([[ 0,  1,  2],
        [ 4,  5,  6],
        [ 8,  9, 10],
        [12, 13, 14]]),
 array([ 3,  7, 11, 15]))

In [88]:
X,Y = b[ : , : -2], b[ : , -1]
X, Y

(array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]),
 array([ 3,  7, 11, 15]))

## 4. Creation

In [81]:
np.arange(1,10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [83]:
# numpy에서 가능
np.arange(0, 1.1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [84]:
# 실수는 우리가 원하는 값을 정확하게 표현하지 못함
np.arange(0, 1.1, 0.1).tolist()

[0.0,
 0.1,
 0.2,
 0.30000000000000004,
 0.4,
 0.5,
 0.6000000000000001,
 0.7000000000000001,
 0.8,
 0.9,
 1.0]

In [85]:
np.arange(0, 1.1, 0.1).tolist()[3] == 0.3
# False ; 실수는 정확하게 떨어지지 않음
# 따라서 실수를 물어볼 때에는 다음과 같이 물어봐야함 !

False

In [86]:
# 두 실수를 비교하는 올바른 방법! 
# 실수값에서 해당 값을 뺸 값이 1e-8 보다 작은 지를 판단
np.arange(0, 1.1, 0.1).tolist()[3] - 0.3 < 1e-8
# True : 즉 0.3에 근사하므로 같다고 볼 수 있음

True

In [90]:
# ones, zeros, empty
# 0으로 이루어짐 : .zeros()
a = np.zeros((5,), dtype = np.int8)
a

array([0, 0, 0, 0, 0], dtype=int8)

In [91]:
# 1로 이루어짐 : .ones()
b = np.ones((2,4), dtype = np.int8)
b

array([[1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int8)

In [92]:
# zeros는 할당과 초기화가 같이 되어있는 반면, empty는 할당만 하기 때문에 computer마다 값이 다를 수 있다.
np.empty((2,5))

array([[0.1, 0.2, 0.3, 0.4, 0.5],
       [0.6, 0.7, 0.8, 0.9, 1. ]])

In [93]:
# reshape에서 -1은 원소가 빠짐없이 배치되도록 가변적으로 정해짐
# 따라서 원소가 총 24개인 행이 4로 주어진 다음과 같은 상황에서는 열이 6으로 자동정해짐
a = np.arange(24).reshape(4,-1)
np.ones_like(a)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

In [94]:
np.zeros_like(a)

array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]])

### 단위행렬 : identity
대각선이 1이고 나머지 원소가 0인 행렬

A * I = A 일 때 I 를 단위행렬이라 한다.

In [95]:
# 길이가 3인 단위행렬
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### -  행과 열의 개수가 같은 행렬 = 정방행렬

### 대각선이 1인 행렬 : eye 
대각선이 1인 행렬

In [98]:
np.eye(3,5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

In [99]:
np.eye( N=3, M=5, k=-1) ## 대각선 1이 시작하는 위치는 첫 행의 -1열위치, 

array([[0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.]])

In [100]:
np.eye( 3, 5, 2) # 대각선 1이 시작하는 위치는 첫 행의 2열위치

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### - Random sampling

In [101]:
np.random.seed(2021) #seed값고정
np.random.uniform(0,1,10).reshape(2,5) #2행5열로 생성

array([[0.60597828, 0.73336936, 0.13894716, 0.31267308, 0.99724328],
       [0.12816238, 0.17899311, 0.75292543, 0.66216051, 0.78431013]])

In [134]:
# 정규분포 ~N(0,1)
np.random.normal(0,1,10).reshape(2,5) #2행5열로 생성

array([[-0.06546613, -0.21519949, -0.08452669, -2.33712013, -1.38028993],
       [-0.64703717,  0.17090629, -0.50929329,  1.35604995, -1.06376326]])

In [3]:
# 이항분포 ~B(), 포아송분포(poisson), t-분포(standard_t), F-분포(f) 
# n=100이고 확률이 0.5인 경우에서 10개 추출
np.random.binomial(100, 0.5,10)

array([60, 53, 49, 45, 46, 47, 47, 55, 45, 52])