# Numpy
- 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
- 정교한 브로드캐스팅 기능
- 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
- 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편의
- 데이터 과학 도구에 대한 생태계의 핵심을 이루고 있음



In [3]:
import numpy as np

np.__version__

'2.0.2'

## 배열 생성

In [9]:
a1 = np.array([1,2,3,4,5])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0], a1[1], a1[2])
a1[0] = 6
a1[1] = 7
print(a1)

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3
[6 7 3 4 5]


In [14]:
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(a2)
print(a2.shape)
print(type(a2))
print(a2[0,0],a2[1,1],a2[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
<class 'numpy.ndarray'>
1 5 9


In [17]:
a3 = np.array([[[1,2,3],[4,5,6],[7,8,9,]],
               [[1,2,3],[4,5,6],[7,8,9]],
               [[1,2,3],[4,5,6],[7,8,9]]])

print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


## 배열 생성 및 초기화

In [18]:
# 모든 요소를 0으로 초기화

np.zeros(10) # 1차원

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [19]:
# 모든 요소를 1로 초기화

np.ones(10) # 1차원

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [21]:
np.ones((3,3)) # 2차원

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [23]:
# 모든 요소를 지정한 값으로 초기화

np.full((3,3),1.5)

array([[1.5, 1.5, 1.5],
       [1.5, 1.5, 1.5],
       [1.5, 1.5, 1.5]])

In [24]:
# 단위 행렬
# 주대각선의 원소가 모두 1이고, 나머지 원소는 모두 0인 정사각 행렬

np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [25]:
# 삼각행렬 생성

np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

In [26]:
# 초기화되지 않은 배열 생성
# 초기화가 없어서 배열 생성비용 저렴하고 빠름
# 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

np.empty(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

<b>_like()</b> : 지정된 배열과 shape가 같은 행렬 생성
- `np.zeros_like()`
- `np.ones_like()`
- `np.full_like()`
- `np.empty_liek()`

In [27]:
print(a1)
np.zeros_like(a1)

[6 7 3 4 5]


array([0, 0, 0, 0, 0])

In [28]:
print(a2)
np.ones_like(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [29]:
print(a3)
np.full_like(a3,10)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

In [31]:
# 정수 범위로 배열 생성

np.arange(0,30,2) # 0부터 30까지 2스탭으로

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [32]:
# 범위 내에서 균등 간격의 배열 생성

np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [33]:
# 범위 내에서 균등간격으로 로그 스케일로 배열 생성

np.logspace(0.1, 1, 20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

In [37]:
# 로그 스케일 복습

a = np.logspace(0, 5, num=6, base=2, dtype=int)
print(a)

[ 1  2  4  8 16 32]


## 랜덤값으로 배열 생성
| 함수 | 설명 |
|------|------|
|`seed`|난수 발생을 위한 시드(seed) 생성|
|`permutation`|순서를 임의로 바꾸거나 임의의 순열 반환|
|`shuffle`|리스트나 배열의 순서를 뒤섞음|
|`random`|랜덤한 수의 배열 생성|
|`rand`|균등분포에서 표본 추출|
|`randint`|주어진 최소/최대 범위의 난수 추출|
|`randn`|표준편차가 1, 평균값이 0인 정규분포의 표본 추출|
|`binomial`|이항분포에서 표본 추출|
|`normal`|정규분포(가우시안)에서 표본 추출|
|`beta`|베타분포에서 표본 추출|
|`chisquare`|카이제곱분포에서 표본 추출|
|`gamma`|감마분포에서 표본 추출|
|`uniform`|균등(0,1)분포에서 표본 추출|

In [34]:
# 랜덤한 수의 배열 생성
np.random.random((3,3))

array([[0.27995641, 0.33129213, 0.10184751],
       [0.36685621, 0.45987492, 0.76533401],
       [0.10661304, 0.27141088, 0.04599761]])

In [35]:
# 일정 구간의 랜덤 정수의 배열 생성

np.random.randint(0, 10, (3, 3))

array([[5, 2, 3],
       [8, 0, 2],
       [6, 1, 4]])

In [38]:
# 정규분포를 고려한 랜덤한 수의 배열 생성
# 평균 = 0, 표준편차 = 1, 3x3 배열

np.random.normal(0, 1, size=(3,3))

array([[ 1.37035916, -0.00713138, -0.53284088],
       [ 2.26005502,  0.34003513,  0.01734043],
       [ 0.90876358, -0.1947044 , -0.55212895]])

In [39]:
# 균등분포를 고려한 랜덤한 의 배열 생성

np.random.rand(3,3)

array([[0.07632018, 0.6563818 , 0.65978215],
       [0.76694307, 0.08448424, 0.6141083 ],
       [0.32089009, 0.45596869, 0.15478634]])

In [40]:
# 표준 정규 분포를 고려한 랜덤한 수의 배열 생성

np.random.randn(3,3)

array([[ 1.77439416, -0.17089048, -1.25507188],
       [-1.46150976, -2.25060186,  0.21337124],
       [ 1.66704082,  0.05371474, -1.66025874]])

## 표준 데이터 타입

In [41]:
np.zeros(20, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [42]:
np.ones((3,3), dtype=bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [43]:
np.full((3, 3), 1.0, dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## 날짜/시간 배열 생성

In [45]:
date = np.array('2020-01-01', dtype=np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [46]:
date + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [47]:
datetime = np.datetime64('2020-06-01 12:00')
datetime

np.datetime64('2020-06-01T12:00')

In [48]:
datetime = np.datetime64('2020-06-01 12:00:12.34','ns')
datetime

np.datetime64('2020-06-01T12:00:12.340000000')