# Numpy

## 1. Numpy란
- **Num**erical **Py**thon의 약자
- 읽는 법: '넘파이', '넘피', '눔피'등 다양
- n차원의 행렬계산(선형대수)의 편리성과 고속화를 위해 만들어진 패키지
- 따라서, 컴퓨터 과학을 위한 기본적인 파이썬 패키지가 된다.
    - 많은 scientific library 들이 NumPy 기반
    - Pandas, Scipy, matplotlib, scikit-learn, statsmodels
    - TensorFlow: NumPy ndarray 확장 + 자동미분 + GPU 지원

### 공식 홈페이지
- https://numpv.org (홈페이지)
- https://docs.scipy.org/doc/numpv (공식 레퍼런스)

## 2. 특징
- C, C++, 포트란으로 만들어짐
- 대규모 수치 데이터(선형대수)를 다루는데 효율적이고 높은 성능을 제공 한다.
    - 스칼라 연산과 비슷하게 연산을 수행
    - 스칼라 : 값이 하나만 있는 데이터
    - 벡터 : 하나의 행이 있는 데이터
    - 매트릭스 : 행과 열이 있는 데이터
- Linear algebra, Fourier transform, Random 기능들
- 강력한 브로드 캐스팅 기능
    - 배열을 요소별로 조작하지 않고도 원소별 연산이 가능 - 브로드캐스팅(broadcasting)
- NumPy에 대한 이해가 있으면 pandas를 이해하는데 더 도움이 많이 된다. (pandas가 NumPy기반으로 되어 있기 때문)
- 파이썬으로 머신러닝을 하게 된다면 NumPy에 대한 지식이 매우 중요한 역할올 한다.

### ndarray
- ndarray(n-dimensional array object, 다차원 배열 객체》
- Numpy의 핵심
- numpy에서는 python의 리스트보다 속도가 빠른 ndarray의 데이터 타입 사용
    - 모든 요소가 동일한 datatype (기본 float64) [vs list(여러타입)]
    - 다차원 데이터도 연속 할당: 높은 성능의 비밀 [vs list(비연속)]

## 3. numpy사용
- NumPy와 Pandas를 사용하면，반복문을 거의 사용하지 않고도 데이터 처리 가능
- 코드가 줄어들 뿐만 아니라, 성능도 최대 수 백배까지 빠름

In [4]:
# 성능비교

import numpy as np

ls = range(1000)
%timeit [i**2 for i in ls]

a = np.arange(1000)
%timeit a**2

402 µs ± 3.27 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
1.94 µs ± 67.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


### 3.1. 임포트

In [2]:
import numpy as np

### 3.2. ndarray 생성1
- np.array(): 리스트, 튜플, 배열로 부터 리터럴하게 ndarray를 생성
    - 리터럴 : 변수 선언시 직접 값을 입력하여 생성하는 방법
- 항상 0부터시작한다는 점을 기억
- 행, 열: n-th row, n-th column

In [22]:
# 튜플로 부터 1차원 배열 생성
ar = np.array((10, 20, 30))
# 리스트로 부터
ar = np.array([1, 2, 3])
# range함수로부터(제네레이터로 부터)
ar = np.array(range(5))

print(ar, ar[0], ar[2])
print(type(ar))
print(ar.ndim) # n-dimension: 배열의 차원
print(ar.shape) # 배열의 형태: 5열짜리 배열
print(ar.size) # 배열의 총 길이

[0 1 2 3 4] 0 2
<class 'numpy.ndarray'>
1
(5,)
5


#### * tuple에 값이 하나만 있는 경우

In [10]:
a = (1)
b = (1,)
type(a), type(b), a, b

(int, tuple, 1, (1,))

In [12]:
# 리스트로 부터 2차원 배열 생성
ar = np.array([[10, 20, 30], [60, 70, 80]])

print(ar)
print(ar.ndim)
print(ar.shape) # 배열의 형태: 2행 3열짜리 배열

[[10 20 30]
 [60 70 80]]
2
(2, 3)


In [13]:
# 리스트로 부터 3차원 배열 생성
ar = np.array(
    [[[1, 2, 3],
      [4, 5, 6]],
     [[7, 8, 9],
     [10, 11, np.NaN]]],
)

print(ar)

[[[ 1.  2.  3.]
  [ 4.  5.  6.]]

 [[ 7.  8.  9.]
  [10. 11. nan]]]


#### * np.NaN??
- np.nan도 작동
- nan = not a number의 약자
- 말 그대로 '숫자가 아님'을 나타내는 '표시'
- 데이터 특성상 float으로 처리되지만, '숫자는 아님'

### 3.3. ndarray 생성2

#### 3.3.1. zeros
- 행렬을 만들고 0으로 채우기
- dtype으로 데이터 타입을 설정 가능
    - 설정하지 않으면 기본적으로 float

In [3]:
zero = np.zeros((2, 3))
zero

array([[0., 0., 0.],
       [0., 0., 0.]])

#### 3.3.2. ones
- 행렬을 만들고 1로 채우기

In [4]:
one = np.ones((4, 3), dtype=int)
one

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

#### 3.3.3. eye

- 행렬을 만들고 단위 행렬로 만들기

In [5]:
eye = np.eye(3)
eye

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [6]:
identity = np.identity(3)
identity

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#### 3.3.4. asarray
- array타입의 다른 객체를 numpy의 ndarray로 변환

In [7]:
np.asarray([1, 2, 3, 4])

array([1, 2, 3, 4])

#### 3.3.5. random
- random한 값을 가진 행렬을 생성
- random class 안 methods
    - seed : 랜덤변수의 설정값
        - 랜덤 값 출력 전 seed 설정시 동일한 결과 발생
    - rand : 균등분포(uniform)로 [0, 1) 난수 발생 rand(열, 행)
    - random : 균등분포(uniform)로 [0, 1) 난수 발생 random((열, 행)), =random_sample
    - randn : 0기준 정규분포(gaussian)로 난수 발생
    - randint : 균등분포(uniform)로 정수인 난수 발생([시작, 끝])
    - suffle : 행렬 데이터를 섞기
        - 데이터 순서 변경
        - 가장 높은 차원의 데이터 순서만 변경
    - choice : 특정 범위의 숫자를 선택(확률 설정 가능)

In [18]:
np.random.random((2, 3))

array([[0.25701336, 0.59384173, 0.86447349],
       [0.70389622, 0.31260002, 0.43947284]])

In [19]:
r = np.random.randint(1, 10, (3, 4))
r

array([[6, 4, 1, 5],
       [4, 6, 7, 4],
       [6, 9, 7, 2]])

In [20]:
np.random.shuffle(r)
r

array([[6, 9, 7, 2],
       [4, 6, 7, 4],
       [6, 4, 1, 5]])

In [30]:
# 0부터 4까지의 숫자 10개를 선택
# 선택 확률이 10%, 0%, 40%, 20%, 30%로 선택
# 확률의 모든 합이 1이 되어야 함
np.random.choice(5, 10, p=[0.1, 0, 0.4, 0.2, 0.3])

array([3, 2, 2, 2, 0, 2, 2, 3, 2, 2], dtype=int64)

### 3.4. 범위
- arange()
    - range함수와 사용방법 동일, ndarray
- linspace()
    - 설정범위 선형 분할, [시작, 종료]
- logspace()
    - 설정범위 로그 분할

In [9]:
np.arange(2, 10, 2)

array([2, 4, 6, 8])

In [10]:
np.linspace(2, 10, 100)

array([ 2.        ,  2.08080808,  2.16161616,  2.24242424,  2.32323232,
        2.4040404 ,  2.48484848,  2.56565657,  2.64646465,  2.72727273,
        2.80808081,  2.88888889,  2.96969697,  3.05050505,  3.13131313,
        3.21212121,  3.29292929,  3.37373737,  3.45454545,  3.53535354,
        3.61616162,  3.6969697 ,  3.77777778,  3.85858586,  3.93939394,
        4.02020202,  4.1010101 ,  4.18181818,  4.26262626,  4.34343434,
        4.42424242,  4.50505051,  4.58585859,  4.66666667,  4.74747475,
        4.82828283,  4.90909091,  4.98989899,  5.07070707,  5.15151515,
        5.23232323,  5.31313131,  5.39393939,  5.47474747,  5.55555556,
        5.63636364,  5.71717172,  5.7979798 ,  5.87878788,  5.95959596,
        6.04040404,  6.12121212,  6.2020202 ,  6.28282828,  6.36363636,
        6.44444444,  6.52525253,  6.60606061,  6.68686869,  6.76767677,
        6.84848485,  6.92929293,  7.01010101,  7.09090909,  7.17171717,
        7.25252525,  7.33333333,  7.41414141,  7.49494949,  7.57

In [11]:
np.logspace(2, 10, 100)

array([1.00000000e+02, 1.20450354e+02, 1.45082878e+02, 1.74752840e+02,
       2.10490414e+02, 2.53536449e+02, 3.05385551e+02, 3.67837977e+02,
       4.43062146e+02, 5.33669923e+02, 6.42807312e+02, 7.74263683e+02,
       9.32603347e+02, 1.12332403e+03, 1.35304777e+03, 1.62975083e+03,
       1.96304065e+03, 2.36448941e+03, 2.84803587e+03, 3.43046929e+03,
       4.13201240e+03, 4.97702356e+03, 5.99484250e+03, 7.22080902e+03,
       8.69749003e+03, 1.04761575e+04, 1.26185688e+04, 1.51991108e+04,
       1.83073828e+04, 2.20513074e+04, 2.65608778e+04, 3.19926714e+04,
       3.85352859e+04, 4.64158883e+04, 5.59081018e+04, 6.73415066e+04,
       8.11130831e+04, 9.77009957e+04, 1.17681195e+05, 1.41747416e+05,
       1.70735265e+05, 2.05651231e+05, 2.47707636e+05, 2.98364724e+05,
       3.59381366e+05, 4.32876128e+05, 5.21400829e+05, 6.28029144e+05,
       7.56463328e+05, 9.11162756e+05, 1.09749877e+06, 1.32194115e+06,
       1.59228279e+06, 1.91791026e+06, 2.31012970e+06, 2.78255940e+06,
      

### 3.5. 행렬 크기 변경
- np.reshape()

In [26]:
ar = np.arange(10)
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
ar = np.reshape(ar, (2, 5))
ar

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [29]:
ar = ar.reshape((2,5))
ar

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### * Quiz
r = np.random.randint(1, 10, (3, 4))로 생성된 r을 모든 차원에 대하여 shuffle하라.

In [39]:
ar = np.random.randint(1, 10, (3, 4))
ar

array([[1, 1, 9, 8],
       [3, 6, 6, 4],
       [2, 4, 8, 6]])

In [40]:
r = ar.copy() # deep copy

# 1차원으로 변경
matrix_1d = np.reshape(r, r.size)
print(matrix_1d)

# 1차원의 행렬을 섞어줌
np.random.shuffle(matrix_1d)
print(matrix_1d)

# 원래 있던 차원으로 변경
all_shuffle = matrix_1d.reshape(r.shape)
all_shuffle

[1 1 9 8 3 6 6 4 2 4 8 6]
[8 3 6 8 6 1 4 6 4 1 2 9]


array([[8, 3, 6, 8],
       [6, 1, 4, 6],
       [4, 1, 2, 9]])

#### * 1차원으로 변경하는 방법들
- flatten()
- ravel()

In [42]:
ar.flatten()

array([1, 1, 9, 8, 3, 6, 6, 4, 2, 4, 8, 6])

In [43]:
ar.ravel()

array([1, 1, 9, 8, 3, 6, 6, 4, 2, 4, 8, 6])

### 3.6. 행렬 타입 변경
- astype()

In [44]:
ar = np.array([10, 20, 30, 40])
ar

array([10, 20, 30, 40])

In [46]:
ar.dtype

dtype('int32')

In [48]:
ar = ar.astype('float')
ar, ar.dtype

(array([10., 20., 30., 40.]), dtype('float64'))

In [49]:
ar = ar.astype('str')
ar, ar.dtype

(array(['10.0', '20.0', '30.0', '40.0'], dtype='<U32'), dtype('<U32'))

### 3.7. 유일값 - unique
- 행열 데이터에서 유일값과 유일값의 갯수 확인 가능
    - 중복데이터를 제거한 벡터로 변환 된 후에 각 데이터가 몇 개인지를 출력

In [51]:
r

array([[8, 3, 6, 8],
       [6, 1, 4, 6],
       [4, 1, 2, 9]])

In [50]:
number, counts = np.unique(r, return_counts=True)
print(number)
print(counts)

[1 2 3 4 6 8 9]
[2 1 1 2 3 2 1]


### 3.8. 행렬 데이터 합치기 - concatenate
- 가로 결합: 행의 갯수 일치
- 세로 결합: 열의 갯수 일치

In [52]:
na1 = np.random.randint(10, size=(2, 3))
print(na1.shape)
na1

(2, 3)


array([[1, 4, 4],
       [2, 1, 2]])

In [53]:
na2 = np.random.randint(10, size=(3, 2))
print(na2.shape)
na2

(3, 2)


array([[4, 3],
       [9, 5],
       [2, 2]])

In [54]:
na3 = np.random.randint(10, size=(3, 3))
print(na3.shape)
na3

(3, 3)


array([[5, 2, 9],
       [4, 6, 3],
       [8, 7, 9]])

#### 3.8.1. 세로 결합 
- 컬럼 갯수가 맞아야 함
- axis(축) 파라미터를 0으로 설정(default:0)

In [55]:
np.concatenate((na1, na3))

array([[1, 4, 4],
       [2, 1, 2],
       [5, 2, 9],
       [4, 6, 3],
       [8, 7, 9]])

#### 3.8.2. 가로 결합 
- 로우 갯수가 맞아야 합니다.
- axis(축) 파라미터를 1로 설정(default:0)

In [56]:
np.concatenate((na2, na3), axis=1)

array([[4, 3, 5, 2, 9],
       [9, 5, 4, 6, 3],
       [2, 2, 8, 7, 9]])

### * axis parameter
- 0이면 열 기준
- 1이면 행 기준

In [60]:
# 컬럼으로 결합
np.c_[np.array([1, 2, 3]), np.array([4, 5, 6]), na2]

array([[1, 4, 4, 3],
       [2, 5, 9, 5],
       [3, 6, 2, 2]])

In [58]:
# 로우로 결합
np.r_[np.array([1, 2, 3]), np.array([4, 5, 6])]

array([1, 2, 3, 4, 5, 6])

### 3.9. 자르기 - split

In [61]:
r = np.arange(0, 10)
r

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [62]:
np.split(r, [5])

[array([0, 1, 2, 3, 4]), array([5, 6, 7, 8, 9])]

In [63]:
np.split(r, [2, 4, 6, 8])

[array([0, 1]), array([2, 3]), array([4, 5]), array([6, 7]), array([8, 9])]

### 3.10. 정렬 - sort

In [64]:
r1 = np.random.randint(10, size=(3, 3))
r1

array([[1, 8, 1],
       [8, 3, 4],
       [2, 9, 6]])

In [65]:
# 가로(row) 소팅
r1.sort()
r1

array([[1, 1, 8],
       [3, 4, 8],
       [2, 6, 9]])

In [66]:
# 세로(column) 소팅
r1.sort(axis=0)
r1

array([[1, 1, 8],
       [2, 4, 8],
       [3, 6, 9]])

# 앞으로 배울 것
- 요소지정과 슬라이싱, c vs f, 연산+브로드캐스팅, 뷰, 불리언 인덱싱, 팬시 인덱싱, 통계량->기초통계