# Numpy

- Numerical Python
- 파이썬에서 산술 계산을 위한 필수 패키지 중 하나
- 다차원 배열인 ndarray는 빠른 배열 계산과 유연한 브로드캐스팅 기능 제공
- 반복문 없이 전체 배열을 한번에 계산 가능
- 배열 데이터를 I/O 작업하거나 메모리에 적재된 파일을 다루는 도구
- 선형대수, 난수 발생기, 푸리에 변환 기능
- C API지원

numpy 사용 이유
- 많은 데이터를 하나의 변수에 저장하여 사용할 때 리스트의 경우 속도가 느리고 메모리를 많이 차지함
- 배열을 사용하면 데이터를 빠르게 처리 가능

CPU bound로 속도를 비교해보자.

In [1]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [3]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 9.32 ms, sys: 12.3 ms, total: 21.6 ms
Wall time: 22.6 ms


In [4]:
%time for _ in range(10): my_list2 = [i * 2 for i in my_list]

CPU times: user 310 ms, sys: 61.6 ms, total: 371 ms
Wall time: 371 ms


속도차가 15배 정도 이상 차이난다.

## ndarray

- Numpy의 핵심은 ndarray라는 N차원 배열 객체
- **ndarray는 같은 종류의 데이터 타입만 담을 수 있음**

In [5]:
data = np.random.randn(2, 3)
data

array([[-0.22226581,  0.1138716 ,  0.52175636],
       [ 0.70498927,  0.7337503 ,  1.26025252]])

### shape, dtype

np객체는 각 차원의 크기를 알려주는 shape라는 속성과 자료형을 알려주는 dtype이라는 속성이 있음

In [10]:
data.shape

(2, 3)

In [11]:
data.dtype

dtype('float64')

3차원 배열

In [34]:
arr = np.array(([[1,2,3,4], [5,6,7,8]], [[9,8,7,6], [5,4,3,2]]))
np.shape(arr) # depth * row * column

(2, 2, 4)

### 배열 생성

리스트에서 생성

In [12]:
ls1 = [6, 3.2, 5, 0, 1]
arr1 = np.array(ls1)
arr1

array([6. , 3.2, 5. , 0. , 1. ])

In [14]:
ls2 = [[1,2,3,4], [5,6,7,8]]
arr2 = np.array(ls2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [15]:
arr2.ndim

2

In [16]:
arr2.shape

(2, 4)

In [17]:
print(arr1.dtype, arr2.dtype)

float64 int64


### 특수행렬

**영행렬**
- 1차원으로 만들 때는 크기만,
- 2차원 이상할 떈 차원을 튜플로 넣어줘야함

In [20]:
zeros = np.zeros((3,4))
zeros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

**일행렬**

In [21]:
ones = np.ones((3,4))
ones

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

**null 행렬**
- 공행렬
- 빈공간을 할당해 행렬을 생성하나 값을 초기화하지 않음

In [22]:
empty = np.empty((3,4))
empty

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

**단위행렬**

In [26]:
eyes = np.eye(3)
eyes

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## dtype
- ndarray를 만들 때 dtype을 명시해줘서 넣어줄 수 있다.
- 안넣어주면 자체적으로 type을 추론해 지정하는데 명시하면 명시한 타입을 지정한다.
- ndarray의 메타데이터

### 자료형

| 자료형 | 자료형 코드 | 설명 |
| :-- | :-- | :-- |
| int8, uint8 | i1, u1 | 부호가 있는 8비트(1아티ㅡ0 정수형과 부호가 없는 8비트 정수형 |
| int16, uint16 | i2, u2 | 부호가 있는 16비트 정수형과 부호가 없는 16비트 정수형 |
| int32, uint32 | i4, u4 | 부호가 있는 32비트 정수형과 부호가 없는 32비트 정수형 | 
| int64, uint64 | i8, u8 | 부호가 있는 64비트 정수형과 부호가 없는 64비트 정수형 |
| float16 | f2 | 반정밀도 부동소수점 |
| float32 | f4 or f | 단정밀도 부동소수점. C의 float형과 호환 |
| float64 | f8 or d | 배정밀도 부동소수점. C의 double형과 파이썬의 float객체와 호환 |
| float128 | f16 or g | 확장정밀도 부동소수점 |
| complex64,<br>complex128,<br>complex256 | c8, c16, c32 | 각각 2개의 32, 64, 128비트 부동소수점형을 가지는 복소수 |
| bool | ? | True와 False 값을 저장하는 불리언형 |
| object | O | 파이썬 객체형(문자열) |
| string_ | S | 고정 길이 아스키 문자열형(각 문자는 1바이트). 길이가 10인 문자열 dtype은 S10이 된다. |
| unicode_ | U | 고정 길이 유니코드형(플랫폼에 따라 문자별 바이트 수가 다르다). string_형과 같은 형식을 쓴다.(예:U10) |

### astype

데이터 타입을 변경하는 함수

- 부동소수점은 정수형으로 변환시 소수점 아래 자리는 버려진다.
- 숫자형태의 문자열은 astype을 통해 숫자로 변환할 수 있다.

## 연산

배열의 가장 큰 특징은 for문을 작성하지 않고 데이터를 일괄 처리할 수 있다는 것\
이를 **벡터화**라고 하는데, 각 배열의 원소끼리(element-wise) 연산을 진행하는 것

브로드캐스팅 연산도 지원한다

## 인덱싱, 슬라이싱

리스트와 거의 동일함\
차이점은 배열 조각은 원본 배열의 **뷰(view)**라는 점\
즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영된다.

In [37]:
ls = [1,2,3,4,5]
print(ls[2], ls[1:3])

3 [2, 3]


In [39]:
# 리스트는 이게 불가능
ls[1:3] = 4

TypeError: can only assign an iterable

In [40]:
arr = np.array([1,2,3,4,5])
print(arr[2], arr[1:3])

3 [2 3]


In [41]:
arr[1:3] = 4
arr

array([1, 4, 4, 4, 5])

만약 뷰대신 ndarray의 슬라이싱 복사본을 얻고 싶다면 .copy()함수를 써서 배열을 복사해야함

![IMG_5326.jpeg](attachment:187ad182-693e-454a-bdb2-aa9e06b2bd36.jpeg)

배열의 원소 인덱스는 2가지로 접근 가능
- arr[0][1]
- arr[0, 1]
두 표현 모두 동일한 표현 (재귀적으로 접근하나 리스트로 접근하나 같음)

In [47]:
# 3차원 인덱스
arr = np.array(([[1,2,3,4], [5,6,7,8]], [[9,8,7,6], [5,4,3,2]]))
arr[0] # 첫 depth의 모든 요소
arr[1] # 두번째 depth의 모든 요소

array([[9, 8, 7, 6],
       [5, 4, 3, 2]])

### fancy indexing

정수 배열을 사용한 인덱싱

8 by 4인 행렬 arr이 있을 때 arr[[4,3,0,6]]은 5번째, 4번째, 1번째, 7번째 행을 고르는 것

In [2]:
arr = np.empty((8,4))

In [3]:
for i in range(8):
    arr[i] = i

In [4]:
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [5]:
arr[[4,3,0,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [6]:
# 역인덱싱도 가능
arr[[-3, -5,-7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

다차원 인덱싱

In [7]:
arr = np.arange(32).reshape((8,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [9]:
# (1,0), (5,3), (7,1), (2,2)
arr[[1,5,7,2], [0,3,1,2]]

array([ 4, 23, 29, 10])

## 전치연산

선형대수의 transpose연산\
보통 내적을 위해 벡터를 전치해줄 때 사용함

- arr.T
- arr.transpose()

### swapaxes() 메소드

기준축을 주고 그 축을 기준으로 전치를 시행

In [18]:
arr = np.random.randint(10, size=(3,4))

In [22]:
arr.T, arr.transpose()

(array([[6, 7, 2],
        [6, 8, 7],
        [2, 7, 2],
        [4, 5, 8]]),
 array([[6, 7, 2],
        [6, 8, 7],
        [2, 7, 2],
        [4, 5, 8]]))

In [30]:
arr.swapaxes(1,1) # 1차원 행렬인 경우 (1,1)만 가능

array([[6, 6, 2, 4],
       [7, 8, 7, 5],
       [2, 7, 2, 8]])

In [36]:
np.dstack((arr, arr)).swapaxes(1,2)

array([[[6, 6, 2, 4],
        [6, 6, 2, 4]],

       [[7, 8, 7, 5],
        [7, 8, 7, 5]],

       [[2, 7, 2, 8],
        [2, 7, 2, 8]]])

# 유니버셜 함수
배열의 각 원소를 빠르게 처리하는 함수

- ufunc라고도 불리는 유니버설 함수는 ndarray 안에 있는 데이터 원소별로 연산을 수행하는 함수
- 하나 이상의 스칼라값을 받아서 하나 이상의 스칼라 결과값을 반환하는 간단한 함수를 고속으로 수행할 수 있는 벡터화된 래퍼 함수

- np.ufunc(*args) 꼴인데, 한개의 인자를 받는 함수를 **단항 유니버설 함수**, 2개의 인자를 받아서 단인 배열을 반환하는 함수를 **이항 유니버설 함수**라고 한다.

예시
- 단항 유니버설 함수 : np.arange(a), np.sqrt(a), np.exp(a), np.random.randn(a)
- 이항 유니버설 함수 : np.maximum(a,b)

여러 개의 배열을 반환하는 유니버설 함수도 있음
- modf => a, b = np.modf([-1.425, 3.14])
- 분수값(소수값)을 받아 몫과 나머지를 반환

단항 유니버설 함수

| 함수 | 설명 |
| :-- | :-- |
| abs, fabs | 각 원소(정수, 부동소수점수, 복소수)의 절댓값을 구함. 복소수가 아닌 경우에는 빠른 연산을 위해서 fabs를 사용함 |
| sqrt | 2제곱근 |
| square | 2제곱 |
| exp | exponetial |
| log, log10, log2, log1p | 자연로그, 로그10, 로그2, 로그(1+x) |
| sign | 부호출력(양수=1, 음수=-1, 0=0) |
| ceil | 각 원소의 소수자리를 올린다. 각 원소의 값보다 같거나 큰 정수 중 가장 작은 정수를 반환함 |

이항 유니버설 함수
| 함수 | 설명 |

## stack

- hstack
- vstack
- dstack

# Exponential

자연상수 e
- e는 약 2.71xxx
- 넘파이에서는 자연상수의 계산 지원
- exp() 함수를 사용하여 자연 상수 계산 가능

In [39]:
np.exp(1)

2.718281828459045

In [40]:
a = np.arange(5)
np.exp(a)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

곱하기 연산

In [42]:
a = np.arange(10)
print(a)
print(a * 100)

[0 1 2 3 4 5 6 7 8 9]
[  0 100 200 300 400 500 600 700 800 900]


# summary

- numpy란
- ndarray
    - np.array()
    - shape : np객체의 차원을 튜플형태로 출력
    - dtype : np객체의 데이터 타입을 출력
    - ndim : 차원을 출력