# 넘파이(Numpy) 배열 프로그래밍

### 1. 넘파이 배열
#### Array(배열): 동일한 자료형을 순서대로 저장하여 처리하는 자료구조
#### 파이썬 자료형: List(가변길이 배열, 일반적인 배열은 길이의 변경이 불가능하다)[], Tuple(), Set{}, Dict{} - key:value 두개를 묶어서 item이라 부른다.
#### 파이썬은 배열이 없어서 그와 같은 역할을 수행할게 필요해서 넘파이가 생김
#### 넘파이 자료구조: 다차원 배열 자료구조 클래스 ndarray
#### 넘파이는 반복문을 쓰지 않고도 반복처리가 가능함, c언어를 기반으로 만들어짐

In [1]:
a = [1, 2, 3, 4, 5]
b = [1, 2, 3, 4, 5]
c = [] # 빈 리스트 객체
# for 개별변수 in 집합변수
for i in range(len(a)):  # range(5): 0, 1, 2, 3, 4
    c.append(a[i]*b[i])
print(c)

[1, 4, 9, 16, 25]


In [2]:
c = a * b # R의 벡터가 아니라서 실행 안됨. 넘파이가 필요한 이유
c

TypeError: can't multiply sequence by non-int of type 'list'

### 넘파이 패키지 임포트

In [3]:
import numpy as np

In [4]:
# Numpy 라이브러리 버전 확인
np.__version__

'1.20.3'

In [5]:
# a와 b의 길이거 같아야 됨
x = np.array(a)
y = np.array(b)
x * y

array([ 1,  4,  9, 16, 25])

#### 수업에 사용할 함수 정의

In [6]:
def pprint(arr):
    print('type:{}'.format(type(arr))) # arr의 타입(자료형) 확인
    print('shape:{}, dimension:{}, dtype:{}'.format(arr.shape, arr.ndim, arr.dtype))
    # shape 차원의 모양, 몇차원인지, 객체의 타입
    print("Array's Data: \n", arr)

#### 파이썬 1차원 배열(list)로 Numpy 배열 생성하는 방법

In [7]:
arr = [1, 2, 3]
a = np.array(arr) # a = np.array([1, 2, 3])

In [10]:
import teacher

In [11]:
from teacher import *

### 파이썬 2차원 배열로 Numpy 배열 생성, 원소 데이터타입 지정

In [12]:
arr = [[1, 2, 3], [4, 5, 6]] # 기본적으론 리스트로 # 행이 2개 열이 3개
arr2 = [(1, 2, 3), (4, 5, 6)] # 둘다 2차원 배열
b = np.array(arr, dtype = float)

In [13]:
pprint(b)

type : <class 'numpy.ndarray'>
shape: (2, 3), dimension:2, dtype:float64
Array's Data : /n [[1. 2. 3.]
 [4. 5. 6.]]


In [14]:
#### 파이썬 3차원 배열 생성, 원소 데이터 타입 지정

In [15]:
arr = np.array([[[1, 2, 3], [4,5,6]], [[3,2,1],[4,5,6]]], dtype= float)

In [16]:
pprint(arr) # 면 행 열

type : <class 'numpy.ndarray'>
shape: (2, 2, 3), dimension:3, dtype:float64
Array's Data : /n [[[1. 2. 3.]
  [4. 5. 6.]]

 [[3. 2. 1.]
  [4. 5. 6.]]]


#### np.zeros(shape, dtype= float, order='C')
 - shape는 튜플 형태로 order='C': C언어 스타일로
 - 지정된 shape의 배열을 생성하고, 모든 요소를 0으로 초기화

In [17]:
a = np.zeros((3, 4))

In [18]:
pprint(a)

type : <class 'numpy.ndarray'>
shape: (3, 4), dimension:2, dtype:float64
Array's Data : /n [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


#### np.ones(shape, dtype= None, order='C')
 - 지정된 shape의 배열을 생성하고, 모든 요소를 1로 초기화

In [19]:
a = np.ones((2, 3, 4), dtype = np.int16)
pprint(a)

type : <class 'numpy.ndarray'>
shape: (2, 3, 4), dimension:3, dtype:int16
Array's Data : /n [[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]


#### np.full(shap, fill_value, dtype=None, order='C')
 - 지정된 shape의 배열을 생성하고, 모든 요소를 fil_value 값으로 초기화

In [20]:
a = np.full((2, 2), 7)
pprint(a)

type : <class 'numpy.ndarray'>
shape: (2, 2), dimension:2, dtype:int32
Array's Data : /n [[7 7]
 [7 7]]


#### np.eye(N, M=None, k=0, dtype=float)
 - (N, N) shape의 단위 행렬을 생성

In [21]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

#### np.empty(shape, dtype=float, order='C')
 - 지정된 shape의 배열 생성
 - 요소의 초기화 과정이 없고, 기존 메모리값을 그대로  사용
 - 배열 생성비용이 가장 저렴하고 빠르다

In [22]:
a = np.empty((4,2))
pprint(a)

type : <class 'numpy.ndarray'>
shape: (4, 2), dimension:2, dtype:float64
Array's Data : /n [[0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 7.07502005e-321]
 [1.42411517e-306 8.34446834e-308]]


#### like 함수, ~ 처럼, ~ 같은
 - 지정된 배열과 shape이 같은 배열을 만드는 함수
 - np.zeros_like(기존에 만든 배열)
 - np.ones_like
 - np.full_like
 - np.empty_like

In [23]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.ones_like(a)
pprint(b)

type : <class 'numpy.ndarray'>
shape: (2, 3), dimension:2, dtype:int32
Array's Data : /n [[1 1 1]
 [1 1 1]]


#### 난수 발생과 카운팅
 - 난수(random number): 파이썬을 이용하여 데이터를 무작위로 섞거나 임의의 수를 발생
 - 시드(seed): 주고 싶은 정수값(0이거나 0보다 큰 정수) 설정, 역할은 난수의 고정을 위해서다.

In [24]:
# seed 설정
np.random.seed(0)

In [25]:
# rand(n): 0 ~ 1 사이의 난수를 n개 발생시키는 함수
np.random.rand(5) 

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [26]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [27]:
np.random.rand(10)

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215,
       0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443])

In [28]:
np.random.seed(0)

In [29]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [30]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [31]:
np.random.rand(5)

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215])

#### 데이터의 순서 변경: shuffle

In [32]:
x = np.arange(10) # 파이썬의 range와 비슷
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [33]:
np.random.shuffle(x)
x

array([7, 6, 9, 4, 5, 8, 1, 0, 3, 2])

#### 데이터 샘플링: choice
 - np.random.choice(data, size=None, replace = True, p = None)
 - data: 원래의 데이터, arange(data)
 - size= 샘플 숫자
 - replace: True 한 번 선택한 데이터를 다시 선택 가능, 중복 추출 할건지
 - p: 각 데이터가 선택될 수 있는 확률

In [34]:
np.random.choice(5, 5, replace = False) # 이렇게 쓰면 shuffle 명령과 같다

array([4, 2, 3, 1, 0])

In [35]:
np.random.choice(5, 3, replace = False)

array([1, 4, 2])

In [36]:
np.random.choice(5, 10)

array([3, 3, 2, 4, 2, 0, 0, 4, 0, 4])

In [37]:
np.random.choice(5, 10, p= [0.1, 0, 0.3, 0.6, 0])
# p는 앞의 숫자와 같아야됨(0, 1, 2, 3, 4)의 개별 확률, 확률의 합은 1이어야 한다.
# 확률은 리스트로 묶는다.
## shape만 튜플 형태

array([2, 3, 3, 3, 3, 0, 3, 3, 2, 2])