# 넘파이

### numpy
* 파이썬의 고성능 과학 계산용 라이브러리
* 벡터나 행렬 같은 선형대수의 표현법을 코드로 처리
* 사실상의 표준 라이브러리
* 속도가 빠르고 메모리 사용이 효율적
* 다양한 선형대수 관련 함수 제공

In [1]:
import numpy as np

### numpy 배열
* numpy에서 벡터나 행렬 데이터 다루는 객체
* `array(배열객체, 타입)`

In [3]:
nums = np.array([1,3,5,7,9], int)
nums

array([1, 3, 5, 7, 9])

In [5]:
type(nums), type(nums[3])

(numpy.ndarray, numpy.int64)

In [7]:
# numpy 배열의 자료형 출력
nums.dtype

dtype('int64')

In [8]:
# numpy 배열의 구조(차원) 출력
nums.shape

(5,)

In [13]:
# numpy 배열의 차원 출력
nums.ndim

1

In [14]:
# numpy 배열의 요소 개수 출력
nums.size

5

In [16]:
# numpy 배열 요소의 데이터크기 출력
nums.itemsize

8

In [17]:
# 8byte 정수 대신 4byte 정수 배열 선언
nums = np.array([1,3,5,7,9], dtype=np.int32)
nums.itemsize

4

In [9]:
nums2 = np.array([[1,2,3], [4,5,6], [7,8,9]],int)
nums2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [11]:
nums.dtype, nums2.shape

(dtype('int64'), (3, 3))

In [15]:
nums2.ndim, nums2.size

(2, 9)

### numpy 배열 구조 변경
* reshape

In [20]:
nums3 = np.array([[1,2,3,4],[5,6,7,8]])
nums3.shape, nums3.dtype

((2, 4), dtype('int64'))

In [22]:
# 2차원 행렬을 1차원으로 변경
nums3b = nums3.reshape(-1,)
nums3b.shape

(8,)

In [24]:
# 1차원 행렬을 2차원으로 변경
nums3c = nums3b.reshape(4,2)
nums3c

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

#### 1차원 구조로 변경 : flatten

In [28]:
num3d = nums3c.flatten()
num3d

array([1, 2, 3, 4, 5, 6, 7, 8])

### numpy 인덱싱
* 배열의 각 요소를 지정하는 동생
* 객체명[행, 열]

In [41]:
nums = np.array([1,2,3,4,5,6,7,8,9])

In [42]:
nums[0], nums[4]

(1, 5)

In [49]:
nums2 = np.array([[1,2,3,4], [5,6,7,8]])

In [50]:
nums2[0,0], nums2[1,0]

(1, 5)

### numpy 슬라이싱
* 배열의 요소들 중 부분적으로 나눠 지정하는 방식
* 객체명[시작:끝, 시작:끝]

In [52]:
# 1행만 지정
nums2[0, :]

array([1, 2, 3, 4])

In [53]:
# 3열만 지정
nums2[:, 2]

array([3, 7])

In [54]:
# 2행의 3, 4열만 지정
nums2[1, 2:4]

array([7, 8])

### 배열생성 함수
* arange(시작, 마지막-1, 증가)
* linspace(시작, 마지막, 갯수)

In [46]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
np.arange(-5, 5)

array([-5, -4, -3, -2, -1,  0,  1,  2,  3,  4])

In [48]:
np.arange(0, 10, 0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

In [220]:
np.linspace(1, 10, 10)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [221]:
np.linspace(1, 10, 20)

array([ 1.        ,  1.47368421,  1.94736842,  2.42105263,  2.89473684,
        3.36842105,  3.84210526,  4.31578947,  4.78947368,  5.26315789,
        5.73684211,  6.21052632,  6.68421053,  7.15789474,  7.63157895,
        8.10526316,  8.57894737,  9.05263158,  9.52631579, 10.        ])

In [222]:
np.linspace(0.5, 10, 20)

array([ 0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,  5.5,
        6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. ])

### 특정값으로 구성된 배열 만들기
* ones : 1로만 구성된 배열
* zeros : 0으로만 구성된 배열
* empty : 메모리 공간 확보후 배열 반환

In [56]:
np.ones(shape=(5, 3), dtype=np.int8)

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]], dtype=int8)

In [57]:
np.zeros(shape=(5, 3), dtype=np.int8)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]], dtype=int8)

In [72]:
# 랜덤한 값들이 들어가 있음 -> 그냥 자리 채우기용?
np.empty(shape=(5, 3), dtype=np.int8)

array([[83, 53, 87],
       [88,  5,  0],
       [ 0,  0,  0],
       [ 0,  0,  0],
       [ 0,  0,  0]], dtype=int8)

### 통계 분포함수 다루기
* 난수생성 : random 모듈 이용
* 정규분포를 따르는 난수 생성 : normal(평균,표준편차,갯수)
* 균등분포를 따르는 난수 생성 : uniform(시작,끝,갯수)
* 임의의 정수 난수 생성 : randint(시작,끝,갯수)

In [73]:
# 난수 생성전 시드값 설정
np.random.seed(2309081445)

In [74]:
# 균등분포 : 모든 확률변수에 대해 균일한 확률값을 가지는 분포형태
np.random.uniform(0, 5, 10)
# 범위가 0에서 5사이
# 10개의 균등분포를 따르는 임의의 수가 만들어짐

array([2.82937935, 3.66045438, 4.16329972, 2.9393755 , 1.51906392,
       0.16022914, 0.71736871, 1.24848411, 2.59987539, 0.03172445])

In [75]:
# 정규분포
np.random.normal(0, 5, 10)\
# 평균이 0이고, 분산이 5인 난수 10개
# 벗어난 값들도 보이지만 거의 대부분은 범위 내의 값들이 나옴

array([11.27025317,  1.96331374, -1.97450957, -5.55351531, -0.05032507,
        5.60572769, -2.49469196,  1.63449318, -3.60394016, -4.37462102])

In [76]:
# 표준정규분포 : 평균 0, 표준편차 1로 한정
np.random.randn(10)

array([-0.84966882, -2.01966132, -0.05843206,  0.25266574, -0.38997216,
        0.2782042 ,  0.28015555, -0.24515287,  0.0060408 ,  0.30149393])

In [112]:
# 임의의 정수 난수
np.random.randint(1, 45+1, (5,6))
# 1부터 45까지만 하면 45가 안나와서 +1을 해줌 / 5행 6열로 만들어줌

array([[38, 31, 25, 15,  7, 43],
       [15, 25, 31, 30, 34, 31],
       [ 2, 40, 35,  8, 43, 13],
       [32,  6,  1, 32, 25,  9],
       [ 8, 38, 11, 15,  8, 37]])

### numpy 배열 난수 다루기
* shuffle : 데이터 섞기
* choice : 무작위 표본 추출, replace 여부에 따라 복원/비복원 추출

In [151]:
nums = np.arange(1, 10+1)
nums

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [152]:
np.random.shuffle(nums)
nums

array([10,  3,  1,  4,  7,  2,  8,  6,  5,  9])

In [172]:
# 복원 추출 : 10개 중 5개를 뽑을 때 중복 허용
np.random.choice(nums, size=5)
# 흰구슬 10개 빨간구슬 10개가 한 바구니에 있는데 뽑고 나서 구슬을 다시 넣고 뽑는 걸 복원추출

array([8, 5, 9, 9, 8])

In [173]:
# 비복원 추출 : 10개 중 5개를 뽑을 떄 중복 허용 x
np.random.choice(nums, size=5, replace=False)
# 흰구슬 10개 빨간구슬 10개가 한 바구니에 있는데 뽑고 나서 구슬을 빼놓고 뽑는 걸 비복원추출

array([4, 1, 5, 2, 6])

### 통계함수 다루기
* mean
* median
* std, var
* sum, min, max
* percentile

In [161]:
nums = np.arange(1, 10+1)
nums

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [162]:
np.mean(nums)

5.5

In [163]:
np.median(nums)

5.5

In [165]:
np.std(nums), np.var(nums)

(2.8722813232690143, 8.25)

In [166]:
np.sum(nums), np.min(nums), np.max(nums)

(55, 1, 10)

In [170]:
np.percentile(nums, 0), np.percentile(nums, 25), \
np.percentile(nums, 50), np.percentile(nums, 75), \
np.percentile(nums, 100)

# 1사분위, 2사분위, 3사분위, 4사분위

(1.0, 3.25, 5.5, 7.75, 10.0)

### numpy 배열 기타 함수
* sort
* unique

In [182]:
lotto = np.random.randint(1, 45+1, 6)
lotto, np.sort(lotto)

(array([41, 42, 36, 32, 43, 39]), array([32, 36, 39, 41, 42, 43]))

In [183]:
lotto = np.random.randint(1, 45+1, 6)
lotto, np.unique(lotto)

(array([37, 38,  9, 23,  2, 24]), array([ 2,  9, 23, 24, 37, 38]))

### numpy 연결함수
* vstack
* hstack

In [196]:
nums1 = np.arange(1,10)
nums2 = np.arange(11,20)
nums1,nums2

(array([1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([11, 12, 13, 14, 15, 16, 17, 18, 19]))

In [197]:
np.vstack((nums1, nums2))

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9],
       [11, 12, 13, 14, 15, 16, 17, 18, 19]])

In [198]:
np.hstack((nums1, nums2))

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 11, 12, 13, 14, 15, 16, 17, 18,
       19])

In [199]:
nums1b = nums1.reshape(9, 1)
nums1b

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [200]:
# -1 : 열 갯수에 따라 행의 갯수를 자동으로 설정
nums2b = nums1.reshape(-1, 1)
nums2b

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

### numpy 연산
* 행렬 내적 : dot
* 브로드캐스팅 : 행렬과 스칼라, 행렬과 벡터, 벡터와 벡터간 연산시 발생
* 블리언 연산

In [202]:
x = np.array([1,2,3])
y = np.array([4,5,6])
x * y, x + y

(array([ 4, 10, 18]), array([5, 7, 9]))

In [203]:
x = np.array([[1,2], [3,4]])
y = np.array([[5,6], [7,8]])
np.dot(x,y)

array([[19, 22],
       [43, 50]])

In [204]:
x = np.array([1,2,3])
x * 3

array([3, 6, 9])

In [205]:
x = np.array([1,2,3])
y = np.array([4,5,6]).reshape(-1, 1)
x, y, x + y

(array([1, 2, 3]),
 array([[4],
        [5],
        [6]]),
 array([[5, 6, 7],
        [6, 7, 8],
        [7, 8, 9]]))

In [208]:
x = np.array([1,2,3])
x > 3

array([False, False, False])

In [210]:
x = np.array([1,2,3])
y = np.array([4,5,6])
x > y

array([False, False, False])

### 인덱스 반환함수
* where
* argsort, argmax, argmin

In [211]:
x = np.arange(1, 10)
x > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [212]:
np.where(x > 5)

(array([5, 6, 7, 8]),)

In [213]:
for idx in np.where(x > 5):
    print(x[idx])

[6 7 8 9]


In [214]:
np.where(x > 5, 'yes', 'no')

array(['no', 'no', 'no', 'no', 'no', 'yes', 'yes', 'yes', 'yes'],
      dtype='<U3')

In [216]:
np.argmax(x), x[np.argmax(x)]

(8, 9)

In [217]:
np.argmin(x), x[np.argmin(x)]

(0, 1)

In [218]:
np.random.shuffle(x)
x

array([2, 8, 4, 5, 6, 9, 1, 7, 3])

In [219]:
np.argsort(x)

array([6, 0, 8, 2, 3, 4, 7, 1, 5])