In [15]:
# numpy 설치 명령어
# !pip install numpy
# !conda install numpy

# 넘파이 (Numpy) 

- http://www.numpy.org
- Numerical Python
- 고성능 과학연산을 위한 패키지로 데이터분석, 머신러닝등에  필수로 사용된다.
- 강력한 다차원 배열(array)  지원
- 벡터 연산 지원
- 다양한 수학관련 함수
- 선형대수, 난수 생성, 푸리에 변환 기능 지원


## 넘파이에서 데이터 구조
- **스칼라 (Scalar)**
    - 하나의 숫자로 이루어진 데이터
- **벡터 (Vector)**
    - 여러개의 숫자들을 특정한 순서대로 모아놓은 데이터 모음(데이터 레코드)
    - 1D Array (1차원 배열)
- **행렬 (Matrix)**
    - 벡터들을 모아놓은 데이터 집합
    - 2D Array (2차원 배열)
- **텐서 (Tensor)**
    - 같은 크기의 행렬들(텐서들)을 모아놓은 데이터 집합
    - ND Array (다차원 배열)

### 용어
- 축 (axis) 
    - 값들의 나열 방향
    - 하나의 축(axis)는 하나의 범주(Category)이다.
    - `[1, 2, 3, 4] 이 배열은 축이 하나다.(x축)`
- 랭크(rank) 
    - 데이터 집합에서 축의 개수. 
    - `[[1, 2, 3], [10, 11, 12]] 이 행렬의 축은 2고(x, y축) 랭크는 2이다.`
- 형태/형상(shape)
    - 각 축(axis) 별 데이터의 개수
    - `[1, 2, 3], [4, 5, 6]] 이 행렬은 (2, 5)의 형태이다.`
- 크기(size) 
    - 배열내 원소의 총 개수
    - `[1, 2, 3], [4, 5, 6]] 이 행렬의 크기는 10(2 x 5)이다.`

![image.png](attachment:image.png)
[출처: https://www.oreilly.com/library/view/elegant-scipy/9781491922927/ch01.html ]

# 넘파이 배열(ndarray)
- n-dimension array => ndarray
- Numpy에서 제공하는 N 차원 배열 객체
- 같은 타입의 값들만 가질 수 있다.
- 빠르고 메모리를 효율적으로 사용하며 벡터 연산과 브로드캐스팅 기능을 제공한다. 
- 각 축의 원소의 개수는 같아야 한다.
    - `[[0, 1, 2],[3, 4]]는 불가능!`

## 차원 (dimension)
- Vector에서 차원 : 원소의 개수
    - `[1, 2, 3, 4]는 4차원이다.`
- 넘파이 배열에서 차원 : 축의 개수
    - 랭크와 같음
    - `[1, 2, 3, 4]는 1차원이다.`

## 배열 생성 함수
### array(배열형태 객체 [, dtype])
- 배열형태 객체가 가진 원소들로 구성된 numpy 배열 생성
> - 배열형태 객체  (array-like)  
>     - 리스트, 튜플, 넘파이배열(ndarray), Series

### 데이터 타입
- 원소들의 데이터 타입
- ndarray 는 같은 타입의 데이터만 모아서 관리한다.
- 배열 생성시 dtype 속성을 이용해 데이터 타입 설정 가능
- ndarray.dtype 속성을 이용해 조회
- ndarray.astype(데이터타입)
    - 데이터타입 변환하는 메소드
    - 변환한 새로운 ndarray객체를 반환
- 타입 지정
    - 문자열로 지정
        - 'int', 'int64', 'float'
    - numpy에 각 타입이 변수로 제공됨
        - numpy.int, numpy.int64, numpy.float    

![image.png](attachment:image.png)

In [16]:
# numpy 모듈 import -> 별칭은 관례적으로 np
import numpy as np

In [17]:
# 기본 자료구조(array 형태)를 이용하여 ndarray 생성
a1 = np.array([1, 2, 3])
print(a1)
a1

[1 2 3]


array([1, 2, 3])

In [5]:
print(a1)

# a1의 타입 출력
print(type(a1))

# a1 배열의 타입
print(a1.dtype)

# 배열의 shape(형태 - 각축의 원소 수)
print(a1.shape)

[1 2 3]
<class 'numpy.ndarray'>
int32
(3,)


In [9]:
a2 = np.array([1.1, 2.2, 3.3])
print(a2)

# 실수의 기본형 : float64, 정수의 기본형 : int32
print(a2.dtype)

[1.1 2.2 3.3]
float64


In [11]:
# 데이터 타입 설정
a3 = np.array([1.1, 2.2, 3.3], dtype='float32')
# 또는
a3 = np.array([1.1, 2.2, 3.3], dtype=np.float32)

print(a3.dtype)

float32


In [14]:
# 배열의 dtype을 변경하는 메소드
# 원본을 바꾸는게 아닌 타입을 변환한 새로운 배열을 생성해서 반환
print(a2.astype(np.int32))
print(a2.astype(np.int32).dtype)

# 원본은 변경 사항이 없는 것을 확인 가능
print(a2)
print(a2.dtype)      

[1 2 3]
int32
[1.1 2.2 3.3]
float64


In [15]:
# 새로운 배열로 선언하여 사용해야 한다.
a4 = a2.astype(np.int32)
print(a4)

[1 2 3]


In [17]:
l = [1, 10.5, True, 'abc']
print(l)

[1, 10.5, True, 'abc']


- **서로 다른 타입의 값들 이용해서 ndarray를 생성하면 가장 큰 타입으로 통일해서 변환한다.**
- 타입의 크기
    - bool < int < float < str

In [18]:
a5 = np.array(l)

# <U32 : 문자열을 의미함
print(a5.dtype)

# 모두 문자열로 변경된다
a5

<U32


array(['1', '10.5', 'True', 'abc'], dtype='<U32')

In [21]:
a6 = np.array([10, 20, 30, 20.7])
print(a6)
a6.dtype

[10.  20.  30.  20.7]


dtype('float64')

In [22]:
# bool type이 숫자로 변경되면 True -> 1, False -> 0
a7 = np.array([1, True, False])
a7

array([1, 1, 0])

In [6]:
l2 = [
    [1, 2, 3],
    [10, 20, 30],
    [100, 200, 300],
    [1000, 2000, 3000]
]

# len(l2)   => 4 출력

In [8]:
a8 = np.array(l2)
print(a8)

# (4, 3) : 4행 3열
print(a8.shape)

# rank 출력
# rank는 shape만 봐도 알 수 있어서 굳이 메소드로 확인하지 않는다.
print(a8.ndim)

[[   1    2    3]
 [  10   20   30]
 [ 100  200  300]
 [1000 2000 3000]]
(4, 3)
2


In [11]:
# python 기본 모듈 copy
import copy

# deepcopy : 객체를 복제하는 메소드
l3 = copy.deepcopy(l2)
l3

[[1, 2, 3], [10, 20, 30], [100, 200, 300], [1000, 2000, 3000]]

In [15]:
a9 = np.array([l2, l3])
print(a9)

# 형태 출력
print(a9.shape)

# 원소 개수 출력
print(a9.size)

[[[   1    2    3]
  [  10   20   30]
  [ 100  200  300]
  [1000 2000 3000]]

 [[   1    2    3]
  [  10   20   30]
  [ 100  200  300]
  [1000 2000 3000]]]
(2, 4, 3)
24


### zeros(shape, dtype)
영벡터(행렬) 생성 : 원소들을 0으로 채운 배열
- shape : 형태(크기, 개수) 지정
    - 튜플()이나 리스트[] 중에 아무거나 사이즈를 지정해주면 된다.
    - 정수가 들어가면 1차원 벡터가 나온다.
- dtype : 요소의 개수 지정

In [17]:
a1 = np.zeros((3, 5))
print(a1)

# zeros의 기본 데이터 타입은 소수이다.
a1.dtype

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


dtype('float64')

In [18]:
a2 = np.zeros((3, 2), dtype=np.int8)
a2

array([[0, 0],
       [0, 0],
       [0, 0]], dtype=int8)

### ones(shape, dtype)
일벡터 생성 : 원소들을 1로 채운 배열
- shape : 형태(크기, 개수) 지정
- dtype : 요소의 개수 지정

In [20]:
a1 = np.ones((5, 2))
print(a1)
a1.dtype

[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


dtype('float64')

In [21]:
a2 = np.ones([5, 1], dtype=np.int8)
a2.dtype

dtype('int8')

In [22]:
a3 = np.ones([10])
a3

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### full(shape, fill_value, dtype)
원소들을 원한느 값으로 채운 배열 생성
- shape : 형태(크기, 개수) 지정
- fill_vlaue : 채울 값
- dtype : 요소의 개수 지정

In [23]:
a1 = np.full(10, fill_value=5)
a1

array([5, 5, 5, 5, 5, 5, 5, 5, 5, 5])

In [24]:
a2 = np.full([5, 2], fill_value=7, dtype=np.float)
print(a2.shape)
print(a2.dtype)
a2

(5, 2)
float64


array([[7., 7.],
       [7., 7.],
       [7., 7.],
       [7., 7.],
       [7., 7.]])

### xxx_like(배열)
- zeros_like(), ones_like()
- 매개변수로 받은 배열과 같은 shape의 0 또는 1로 값을 채운 배열을 생성.

In [25]:
a2.shape

(5, 2)

In [26]:
a3 = np.zeros_like(a2)
print(a3)
print(a3.shape)

[[0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]]
(5, 2)


### arange(start, stop, step, dtype)
start에서 stop 범위에서 step의 일정한 간격의 값들로 구성된 배열 리턴 
- [API](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.arange.html)
- start : 범위의 시작값으로 포함된다.(생략가능 - 기본값:0)
- stop : 범위의 끝값으로 **포함되지 않는다.** (필수)
- step : 간격 (기본값 1)
- dtype : 요소의 타입
- 1차원 배열만 생성가능

### linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

시작과 끝을 균등하게 나눈 값들을 가지는 배열을 생성 
- [API](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.linspace.html#numpy.linspace)

- start : 시작값
- stop : 종료값
- num : 나눌 개수. 기본-50, 양수 여야한다.
- endpoint : stop을 포함시킬 것인지 여부. 기본 True
- retstep : 생성된 배열 샘플과 함께 간격(step)도 리턴할지 여부. True일경우 간격도 리턴(sample, step) => 튜플로 받는다.
- dtype : 데이터 타입

### eye(N, M=None, k=0, dtype=<class 'float'>)  /  identity(N)
- 항등행렬 생성
단위 행렬 생성 
- N : 행수
- M : 컬럼수
- k : 대각선이 시작할 index (첫행의 index를 지정한다. ) 기본값 : 0
- [API](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.eye.html) 
> ### 대각행렬
>    - 행과 열이 같은 위치를 대각(diagnonal) 이라고 하며 그 대각에만 값이 있고 비대각은 0으로 채워진 행렬.    
>
> ### 항등행렬/단위행렬
>    - 대각의 값이 1인 정방행렬로 $E$나 $I$ 로 표현한다.
>    - 단위행렬은 행렬에서 곱셈의 항등원이다
>    - 행렬곱셈(내적)에대해서 교환법칙이 성립한다.
>         - $A\cdot E = A$

## 난수를 원소로 하는 ndarray 생성

- numpy의 서브패키지인 random 패키지에서 제공하는 함수들
- np.random.seed(정수) : 시드값 설정

### np.random.seed(시드값)
- 난수 발생 알고리즘이 사용할 시작값(시드값)을 설정
- 시드값을 설정하면 항상 일정한 순서의 난수(random value)가 발생한다.
> 랜덤함수는 특정숫자부터 시작하는 일렬의 수열을 만들어 값을 제공하는 함수이다.    
> 시작 숫자는 실행할때 마다 바뀌므로 다른 값들이 나오는데 시드값은 시작값을 고정시키면 항상 시작 값이 같으므로 같은 값들이 순서대로 제공된다.    
> 매번 실행할때 마다 같은 순서의 임의의 값이(난수) 나오도록 할때 시드값을 설정한다.

### np.random.rand(axis0[, axis1, axis2, ...])    
- [API](https://numpy.org/doc/stable/reference/random/generated/numpy.random.rand.html?highlight=rand#numpy.random.rand)
- 0~1사이의 실수를 리턴
- 축의 크기는 순서대로 나열한다.

### np.random.normal(loc=0.0, scale=1.0, size=None) 
정규분포를 따르는 난수.

- [API](https://numpy.org/doc/stable/reference/random/generated/numpy.random.normal.html?highlight=normal#numpy.random.normal)
- loc: 평균
- scale: 표준편차
- loc, scale 생략시 표준정규 분포를 따르는 난수를 제공 
> #### 표준정규분포
> 평균 : 0, 표준편차 : 1 인 분포

### np.random.randint(low, high=None, size=None, dtype='l')
임의의 정수를 가지는 배열
- [API](https://numpy.org/doc/stable/reference/random/generated/numpy.random.randint.html?highlight=randint#numpy.random.randint)
- low ~ high 사이의 정수 리턴. high는 포함안됨
- high 생략시 0 ~ low 사이 정수 리턴. low는 포함안됨
- size : 배열의 크기. 다차원은 튜플로 지정 기본 1개
- dtype : 원소의 타입

### np.random.choice(a, size=None, replace=True, p=None)
- [API](https://numpy.org/doc/stable/reference/random/generated/numpy.random.choice.html?highlight=choice#numpy.random.choice)
- 샘플링 메소드
- a : 샘플링대상. 1차원 배열 또는 정수 (정수일 경우 0 ~ 정수, 정수 불포함)
- size : 샘플 개수
- replace : True-복원추출(기본), False-비복원추출
    - True : 하나의 값이 여러번 나올 수 있다.
    - False : 하나의 값이 여러번 나올 수 없다.
- p: 샘플링할 대상 값들이 추출될 확률 지정한 배열


## 배열의 값 섞기
- np.random.shuffle(배열)
    - 원본을 섞는다.
    - 값을 반환하는 것이 아닌 원본만 변화시키는 거라서 다른 변수에 저장 불가
- np.random.permutation(배열)
    - 원본을 섞은 카피배열을 반환
    - 반환값이 있기 때문에 결과를 다른 변수에 저장할 수 있다.
- 다차원 배열의 경우는 0번 축을 기준으로 섞는다.    

In [11]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
t = np.random.permutation(a)
t

array([2, 6, 5, 3, 7, 4, 9, 0, 1, 8])

In [14]:
t2 = np.random.shuffle(a)
print(t2)

None
