NUMPY
======

--------------------

## numpy의 특징

* Numerical Python의 약자
* 고성능 과학 계산용 페키지로 강력한 N차원 배열 객체
* 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
* 정교한 브로드캐스팅 가능
* 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
* 반복문 없이 데이터 배열에 대한 처리를 지원하고 빠르고 편리
* 데이터 과학 도구에 대한 갱태계의 핵심을 이루고 있음

In [2]:
import numpy as np
print(np.__version__)

1.19.2


In [3]:

a1 = np.array([1, 2, 3, 4 ,5])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0], a1[1], a1[2], a1[3], a1[4])
a1[0] = 4
a1[1] = 5
a1[2] = 6
print(a1)

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3 4 5
[4 5 6 4 5]


> 1차원 배열을 만들었습니다.

In [4]:
a2 = np.array([ [1,2,3], [4,5,6], [7,8,9]])
print(a2)
print(a2.shape)
print(a2[0,0], a2[1,1], a2[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 5 9


> 2차원 배열을 만들었습니다.

In [5]:
a3 = np.array([ [ [1,2,3], [4,5,6], [7,8,9] ],
                   [ [1,2,3], [4,5,6], [7,8,9] ],
                   [ [1,2,3], [4,5,6], [7,8,9] ] ])
print(a3)
print(a3.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
(3, 3, 3)


> 3차원 배열을 만들었습니다.

## 배열 생성 및 초기화

* zeros() : 모든요소를 0 으로 초기화

In [6]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

> 10개의 요소를 0으로 초기화된 배열 만들기

* ones() : 모든 요소를 1로 초기화

In [7]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

> 10개의 요소를 1로 초기화된 배열 만들기

In [10]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

> 2차원 배열도 가능합니다.

* full() : 모든 요소를 지정한 값으로 초기화

In [11]:
np.full((3,3), 1.23)

array([[1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23]])

* eye() : 단위행렬(identity matrix)생성
    * 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [13]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

> 정사각 행렬이므로 길이만 적어주면 생성가능합니다.

* tri(): 삼각행렬 생성

In [14]:
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

* empty() : 초기화되지 않은 배열 생성
        *초기화가 없어서 배열 생성비용 저렴하고 빠름
        *초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [16]:
np.empty(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

* _like() : 지정된 배열과 shape가 같은 행렬 생성
    - np.zeros_like()
    - np.ones_like()
    - np.full_like()
    - np.empty_like()

In [18]:
print(a1)
np.zeros_like(a1)

[4 5 6 4 5]


array([0, 0, 0, 0, 0])

In [19]:
print(a2)
np.ones_like(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [20]:
print(a3)
np.full_like(a3, 10)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

> a1,a2,a3와 같은 shape의 형태의 행렬을 생성합니다

## 생성한 값으로 배열 생성

* arange(): 정수 범위로 배열 생성

In [23]:
np.arange(0, 30, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

> 0 부터 30까지 2씩 증가하는 배열을 생성합니다.

* linspace(): 범위 내에서 균등 간격의 배열 생성

In [26]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

> 0 부터 1까지 5개로 균등하게 나눈 배열을 생성합니다.

* logspace(): 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [27]:
np.logspace(0.1, 1, 20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

## 랜덤값으로 배열 생성

| 데이터 타입 | 설명 |
| ------ | -------- | 
| seed | 난수 발생을 위한 시드 지정 | 
| permutation | 숫자를 임의로 바꾸거나 임의의 순열 반환 | 
| shuffle | 리스트나 배열의 순서를 뒤썩음 |
| random | 랜덤한 수의 배열 생성 | 
| rand | 군등분포에서 표본 추출 | 
| randint | 주어진 최소/최대 범위의 난수 추출 |
| randn | 표준편차가 1, 평균갑 0인 정규분포의 표본 추출 | 
| binomial | 이항부포에서 표본 추출 | 
| normal | 정규분포(가우시안)에서 표본 추출 |
| beta | 베타분포에서 표본 추출 | 
| chisquare | 카이제곱분포에서 표본 추출 | 
| gamma | 감마분포에서 표본 추출 |
| uniform | 균둥(0,1)분포에서 표본 추출 | 

* random.random(): 랜덤한 수의 배열 생성

In [29]:
np.random.random((3,3))

array([[0.59711536, 0.37560558, 0.31908363],
       [0.11926805, 0.51551131, 0.19431341],
       [0.55037407, 0.78887872, 0.20672511]])

* random.randint(): 일정 구간의 랜덤 정수의 배열 생성

In [30]:
np.random.randint(0,10, (3,3))

array([[0, 1, 1],
       [8, 4, 5],
       [5, 1, 9]])

> 괄호완의 앞에 두숫자는 범위 뒤의 괄호안의 숫자들은 배열의 종류를 정합니다.

* random.normal(): 정규분포(normal distribution)를 고려한 랜덤한 수의 배열 생성
* 평균=0, 표준편차=1, 3 x 3 배열

In [31]:
np.random.normal(0,1, (3,3))

array([[ 0.42276082,  0.55090035, -1.4379608 ],
       [-0.29023089,  0.32055393,  0.13244007],
       [ 1.33280369, -0.64765865,  0.87296921]])

* random.rand(): 균등분포(uniform distribution)를 고려한 랜덤한 수의 배열 생성

In [33]:
np.random.rand(3,3)

array([[0.93330724, 0.14417284, 0.69685341],
       [0.6862918 , 0.77209944, 0.90579049],
       [0.25430387, 0.68258579, 0.0081363 ]])

* random.randn(): 표준 정규 분포(standard normal distribution)를 고려한 랜덤한 수의 배열 생성

In [37]:
np.random.randn(3,3)

array([[ 0.32559617,  0.00466366, -0.15815666],
       [-0.06306112, -1.81360985,  0.8234228 ],
       [ 0.73750109,  0.79784535,  0.97109567]])

## 표준데이터 타입

| 데이터 타입 | 설명 |
| ------ | -------- | 
| bool_ | 바이트로 저장된 불리언(Boolean)으로 True 또는 False 값을 가짐 | 
| int_ | 기본정수 타입 | 
| intc | C 언어세서 사용되는 int와 동일(일반적으로 int32 또는 int64) |
| intp | 인덱싱에 사용되는 정수(C언어에서 ssize_t와 동일; 일반적으로 int32 또는 int64) | 
| int8 | 바이트(-128 ~ 127) | 
| int16 | 정수(-32768 ~ 32767) |
| int32 | 정수(-2^31 ~ 2^31-1) | 
| int64 | 정수(-2^63 ~ 2^63-1) | 
| uint8 | 부호없는 정수(0 ~ 255) |
| uint16 | 부호없는 정수(0 ~ 65535) | 
| uint32 | 부호없는 정수(0 ~ 2^32-1) | 
| uint64 | 부호없는 정수(0 ~ 2^64-1) |
| float16 | 반정밀 부동 소수점 : 부호 비트, 5비트 지수, 10비트 가수 | 
| float32 | 단정밀 부동 소수점 : 부호 비트, 8비트 지수, 23비트 가수 | 
| float64 | 배정밀 부동 소수점 : 부호비트, 11비트 지수, 52비트 지수 | 
| float_ |  float64를 줄여서 표현 |
| complex64 | 복소수, 두개의 32비트 부동 소수점 표현 | 
| complex128 | 복소수, 두개의 64비트 부동 소수점 표현 | 
| complex_ | complex123을 줄여서 표현 |

In [38]:
np.zeros(20, dtype = int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [39]:
np.ones((3,3), dtype = bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [40]:
np.full((3,3), 1.0, dtype = float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## 날짜 / 시간 배열 생성

| 코드 | 의미 |
| ------ | -------- | 
| Y | 연 | 
| M | 월 | 
| W | 주 |
| D | 일 | 
| h | 시 | 
| m | 분 |
| s | 초 | 
| ms | 밀리초 | 
| us | 마이크로초 |
| ns | 나노초 | 
| ps | 피코초 | 
| fs | 펨토초 |
| as | 아토초 | 

In [48]:
date  = np.array('2020-01-01', dtype = np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [50]:
date + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [51]:
datetime = np.datetime64('2020-06-01 12:00')
datetime

numpy.datetime64('2020-06-01T12:00')

In [53]:
datetime = np.datetime64('2020-06-01 12:00:12.34', 'ns')
datetime

numpy.datetime64('2020-06-01T12:00:12.340000000')

[00:00 - 26:01](https://www.youtube.com/watch?v=mirZPrWwvao&ab_channel=%EC%9D%B4%EC%88%98%EC%95%88%EC%BB%B4%ED%93%A8%ED%84%B0%EC%97%B0%EA%B5%AC%EC%86%8C).