In [183]:
import numpy as np

# 넘파이 배열의 구조

- 넘파이 모듈의 기본 배열은 ndarray(n-dimension array; 다차원배열)

In [2]:
# 리스트를 다차원배열로 변환
# array() : 다차원배열을 만드는 함수
li = [1, 2, 3, 4]
li_arr = np.array(li)

In [3]:
li_arr

array([1, 2, 3, 4])

In [4]:
type(li_arr)

numpy.ndarray

In [5]:
# 튜플을 다차원배열로 변환
tu = (1, 2, 3, 4)
tu_arr = np.array(tu)

In [6]:
tu_arr

array([1, 2, 3, 4])

In [7]:
type(tu_arr)

numpy.ndarray

In [8]:
# 배열도 mutable의 특징을 가짐
# 변수를 다른 변수에 복사한 뒤 데이터를 수정하면 모든 변수의 데이터가 수정됨
co_arr = li_arr
id(co_arr), id(li_arr)

(2638646844688, 2638646844688)

In [9]:
co_arr[0] = 100
co_arr

array([100,   2,   3,   4])

In [10]:
li_arr

array([100,   2,   3,   4])

In [11]:
# 다차원 배열의 값을 복사해서 새로운 배열을 만들면 동일한 값을 가진 새로운 배열을 만들기 때문에 서로 다른 데이터가 됨
new_arr = np.array(li_arr)

In [12]:
id(new_arr), id(li_arr)

(2638642561552, 2638646844688)

In [13]:
new_arr[0] = 99
new_arr

array([99,  2,  3,  4])

In [14]:
li_arr

array([100,   2,   3,   4])

- 파이썬 리스트는 다양한 자료형을 사용할 수 있지만 넘파이 배열은 같은 자료형만 넣을 수 있음
    - 다차원 배열을 생성할 때 자료형을 지정하지 않으면 내부의 원소를 보고 자동으로 추론해서 만듦

In [15]:
# float 자료형을 지정해서 다차원 배열 만들기
fl_arr = np.array(li, dtype = float)
fl_arr

array([1., 2., 3., 4.])

In [16]:
fl_arr.dtype

dtype('float64')

## 2차원 배열

- 2개의 축을 가지는 배열(행, 열)
    - 두 개 이상의 1차원 배열이 쌓여서 하나의 2차원 배열이 만들어짐

In [18]:
arr2d = np.array([[1, 2, 3],[4, 5, 6]])
arr2d

array([[1, 2, 3],
       [4, 5, 6]])

In [19]:
# 각 축의 원소의 개수
arr2d.shape

(2, 3)

In [20]:
# 축의 개수
arr2d.ndim

2

In [21]:
arr2d.dtype

dtype('int32')

In [22]:
# 다차원 배열을 1차원 배열로 조회 (평탄화 : flatten)
arr2d.flatten()    

array([1, 2, 3, 4, 5, 6])

## 원소 조회하기

In [23]:
# 1차원 배열에서 원소 조회
li_arr

array([100,   2,   3,   4])

In [24]:
li

[1, 2, 3, 4]

In [25]:
li_arr[0]

100

In [26]:
li[0]

1

In [27]:
# 다차원 배열에서 원소 조회
list2d = arr2d.tolist() # 배열을 리스트로 변환

In [28]:
list2d

[[1, 2, 3], [4, 5, 6]]

In [29]:
arr2d

array([[1, 2, 3],
       [4, 5, 6]])

In [32]:
# 리스트는 정수만 이용해서 원소 조회 가능
# 따라서 리스트 내 리스트의 원소를 조회할 때는 인덱스를 두 번 사용해야함
list2d[0][0]

1

In [33]:
# 일차원은 이렇게 하면 안 됨
list2d[0, 1]

TypeError: list indices must be integers or slices, not tuple

In [34]:
# 다차원 배열은 행과 열의 인덱스를 튜플로 조회할 수 있음
arr2d[0, 1]

2

In [35]:
# 위 방법과 동일
arr2d[0][1]

2

### 슬라이싱

In [37]:
arr1 = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
arr1

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [38]:
# 첫 번째 행 전체
arr1[0, :]

array([0, 1, 2, 3])

In [39]:
# 두 번째 열 전체 
arr1[:, 1]

array([1, 5])

In [40]:
# 두 번째 행의 두 번째 열부터 끝열까지
arr1[1, 1:]

array([5, 6, 7])

In [41]:
# 각 행의 두 번째 열까지
arr1[:, :2]

array([[0, 1],
       [4, 5]])

#### 연습문제

1. 아래의 행렬에서 값 7을 인덱싱
2. 아리의 행렬에서 값 14를 인덱싱
3. 아래의 행렬에서 배열 [6, 7]을 슬라이싱
5. 아래의 행렬에서 배열 [7, 12]를 슬라이싱
5. 아래의 행렬에서 배열 [[3, 4], [8, 9]]를 슬라이싱

In [46]:
m = np.array([[0, 1, 2, 3, 4],
             [5, 6, 7, 8, 9],
             [10, 11, 12, 13, 14]])

In [47]:
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [60]:
# 1번
# m[1, 2:3]    슬라이싱
m[1,2]

7

In [61]:
# 2번
# m[2][4]
m[-1, -1]

14

In [55]:
# 3번
m[1, 1:3]

array([6, 7])

In [58]:
# 4번
m[1:,2]

array([ 7, 12])

In [62]:
# 5번
m[:2, 3:5]

array([[3, 4],
       [8, 9]])

In [70]:
m = np.array([[[1, 2, 3], [4, 5, 6]],
             [[7, 8, 9], [10, 11, 12]],
             [[13, 14, 15], [16, 17, 18]],
             [[19, 20, 21], [22, 23, 24]]])

1. [8, 14] 슬라이싱
2. [[11, 12], [17, 18]] 슬라이싱
3. [3, 9, 15, 21] 슬라이싱

In [106]:
m[1:3, 0, 1]


array([ 8, 14])

In [109]:
m.shape   

(4, 2, 3)

In [108]:
m[1:3, 1, 1:]

array([[11, 12],
       [17, 18]])

In [111]:
m[:, 0, 2]    # 가운데 0 이 의미하는게 [], [] 에서 첫번째 [] 는 0 두번째 []는 1

array([ 3,  9, 15, 21])

## 파이썬 리스트와 넘파이 배열의 차이

- 넘파이 배열은 배열까리 연산이 가능하지만 파이썬 리스트는 값의 추가만 가능
- 넘파이 배열은 숫자와의 연산도 가능하지만 파이썬 리스트는 불가능
    - 파이썬 리스트 : 곱셈으로 리스트 요소를 반복하는 것은 가능
    
- 사용 용도
    - 파이썬 리스트는 값을 추가하거나 제거하는 일에 사용
    - 넘파이 배열은 수치 계산이 많고 복잡하거나 다차원배열이 필요할 때 사용

# 전치 연산(transpose)

- 2차원 배열의 행과 열을 바꾸는 연산

In [4]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [114]:
arr.shape

(2, 3)

In [115]:
arr.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [116]:
arr.T.shape

(3, 2)

# 배열 크기 변형

In [5]:
arr1 = np.arange(12)
arr1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [9]:
arr2 = arr1.reshape(3, 4)
arr2

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [10]:
arr1.reshape(3, 3)

ValueError: cannot reshape array of size 12 into shape (3,3)

- 사용하는 원소의 수가 정해져 있기 때문에 reshape의 형태 원소 중 하나는 -1로 대체할 수 있음

In [12]:
arr1.reshape(3, -1)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [13]:
arr1.reshape(2, 2, -1)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [14]:
arr1.reshape(2, 2, 3)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [15]:
arr1.reshape(2, -1, 2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [16]:
arr1.reshape(2, 3, 2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [17]:
arr1.reshape(-1, 5)

ValueError: cannot reshape array of size 12 into shape (5)

# 넘파이 함수의 특징

- 벡터화 연산
    - 벡터와 행렬의 연산은 구성하는 원소별로 처리하는 것이 보통
    - 동일한 인덱스의 원소끼리 계산을 처리하는 것을 벡터화 연산이라고 함
    
- 유니버설 함수(universal function)
    - 벡터화 연산을 지원하는 특별한 함수를 유니버설 함수라고 함

In [18]:
# 일반 파이썬 함수의 타입 확인 
def test():
    pass

In [19]:
type(test)

function

In [20]:
# 유니버설 함수 확인
type(np.add)

numpy.ufunc

In [21]:
# 넘파이 모듈에는 유니버설 함수도 있고 일반 함수도 있음
type(np.sort)

function

In [22]:
list2d = [[1, 2, 3], [4, 5, 6]]

In [23]:
list2d + list2d

[[1, 2, 3], [4, 5, 6], [1, 2, 3], [4, 5, 6]]

In [24]:
np.add(list2d, list2d)

array([[ 2,  4,  6],
       [ 8, 10, 12]])

## 벡터화 연산

### 벡터화 연산이 필요한 이유

- data 리스트 내의 각 값에 2를 곱해야 하는 경우

In [25]:
# 리스트를 통한 풀이
data = list(range(10))
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [26]:
data * 2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [28]:
ans = []

for i in data:
    ans.append(i * 2)
    
ans

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [29]:
# 넘파이를 통한 풀이
data = np.array(data)
data

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
data * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

### 넘파이 벡터화 연산

- 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용됨

In [33]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

In [34]:
2 * a + b

array([12, 24, 36])

In [35]:
a == 2

array([False,  True, False])

In [36]:
[1, 2, 3] == 2

False

In [37]:
b > 10

array([False,  True,  True])

In [38]:
(a == 2) & (b > 10)

array([False,  True, False])

In [39]:
a[[True, False, True]]

array([1, 3])

In [40]:
a[ a == 2 ]

array([2])

- 배열끼리의 연산

In [41]:
arr1 = np.arange(6, 10)
arr1

array([6, 7, 8, 9])

In [44]:
arr2 = np.arange(10, 14)
arr2

array([10, 11, 12, 13])

In [45]:
# 두 개의 다차원 배열을 곱하면 동일한 인덱스의 원소끼리 곱셈한 결과인 1차원 배열이 반환됨
arr1 * arr2

array([ 60,  77,  96, 117])

In [46]:
# arr1에 차원 추가(수직축 추가)
new_arr1 = arr1.reshape(-1, 1)           # arr1.reshape(4, 1)
new_arr1

array([[6],
       [7],
       [8],
       [9]])

In [47]:
new_arr1.shape

(4, 1)

In [48]:
new_arr2 = arr2.reshape(1, -1)     # new_arr2(1, 4)
new_arr2

array([[10, 11, 12, 13]])

In [49]:
new_arr2.shape

(1, 4)

## 브로드캐스팅(broadcasting)

- 배열끼리 연산을 하기 위해서는 두 배열의 크기가 같아야 함
- 서로 다른 크기를 가진 배열의 사칙 연산을 하는 경우 넘파이에서는 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞춤

In [50]:
new_arr1 + new_arr2

array([[16, 17, 18, 19],
       [17, 18, 19, 20],
       [18, 19, 20, 21],
       [19, 20, 21, 22]])

In [51]:
# 행렬곱 연산
new_arr1 * new_arr2

array([[ 60,  66,  72,  78],
       [ 70,  77,  84,  91],
       [ 80,  88,  96, 104],
       [ 90,  99, 108, 117]])

In [52]:
new_arr1 @ new_arr2

array([[ 60,  66,  72,  78],
       [ 70,  77,  84,  91],
       [ 80,  88,  96, 104],
       [ 90,  99, 108, 117]])

In [53]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

In [54]:
a

array([[1, 2],
       [3, 4]])

In [55]:
b

array([[5, 6],
       [7, 8]])

In [56]:
# * 연산자는 요소별 곱셈을 수행
a * b

array([[ 5, 12],
       [21, 32]])

In [57]:
# @ 연산자는 행렬 곱셈을 수행
a @ b

array([[19, 22],
       [43, 50]])

#### 연습문제

1. 아래의 배열에서 3의 배수를 찾기
2. 아래의 배열에서 4로 나누면 1이 남는 수 찾기
3. 아래의 배열에서 3으로 나누면 나누어지고 4로 나누면 1이 남는 수 찾기

In [58]:
x = np.arange(1, 21)
x

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20])

In [75]:
x[x % 3 == 0]


array([ 3,  6,  9, 12, 15, 18])

In [81]:
x[2::3]

array([ 3,  6,  9, 12, 15, 18])

In [77]:
x[x % 4 == 1]


array([ 1,  5,  9, 13, 17])

In [83]:
x[(x % 3 == 0) & (x % 4 == 1)]

array([9])

## 축에 따른 연산

- 동일한 축에 있는 원소들을 계산하기 위해서 필요 

In [84]:
# 1차원배열
arr1 = np.array([1, 2, 3, 4])
arr1

array([1, 2, 3, 4])

In [85]:
# 합계
np.sum(arr1)

10

In [87]:
arr1.sum()

10

In [88]:
# 최댓값
arr1.max()

4

In [89]:
# 최솟값
arr1.min()

1

In [90]:
# 최솟값의 위치
arr1.argmin()

0

In [91]:
# 최댓값의 위치
arr1.argmax()

3

In [92]:
# 평균
arr1.mean()

2.5

In [94]:
# 중앙값
np.median(arr1)

2.5

In [97]:
# 2차원 배열
arr2 = arr1.reshape(2, 2)
arr2

array([[1, 2],
       [3, 4]])

In [98]:
# 모든 원소를 더한 합
np.sum(arr2)

10

In [99]:
# 수직방향으로 같은 열에 속한 원소만 합산
np.sum(arr2, axis = 0)

array([4, 6])

In [101]:
# 수평방향으로 같은 행에 속한 원소만 합산
np.sum(arr2, axis = 1)

array([3, 7])

In [102]:
# 3차원 배열
arr3 = np.arange(1, 9)
arr3

array([1, 2, 3, 4, 5, 6, 7, 8])

In [103]:
arr4 = arr3.reshape(2, 2, 2)
arr4

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [104]:
# 모든 원소를 더한 합
np.sum(arr4)

36

In [105]:
# 두 개의 행렬이 동일한 인덱스의 원소를 합한 값
np.sum(arr4, axis = 0)

array([[ 6,  8],
       [10, 12]])

In [106]:
# 각 2차원 배열의 0번축(열)의 합
np.sum(arr4, axis = 1)

array([[ 4,  6],
       [12, 14]])

In [107]:
# 각 2차원 배열의 1번축(행)의 합
np.sum(arr4, axis = 2)

array([[ 3,  7],
       [11, 15]])

#### 연습문제

1. 전체의 최댓값
2. 각 행의 합
3. 각 행의 최댓값
4. 각 열의 평균
5. 각 열의 최솟값

In [108]:
x = np.random.random((5, 6))
x

array([[0.56651163, 0.26513531, 0.98629325, 0.76371734, 0.0036209 ,
        0.51182717],
       [0.58286523, 0.31248116, 0.86897649, 0.1472495 , 0.84273182,
        0.52534811],
       [0.48305736, 0.58162859, 0.80372843, 0.13730009, 0.83709226,
        0.92993211],
       [0.1847746 , 0.96701979, 0.37853238, 0.29696322, 0.3234569 ,
        0.1602144 ],
       [0.13568064, 0.15173661, 0.90711153, 0.41948181, 0.77789824,
        0.7297802 ]])

In [129]:
# 모양확인
x.shape

(5, 6)

In [133]:
# 전체의 최댓값
x.max()

0.9862932508130051

In [130]:
# 각 행의 합
np.sum(x, axis = 1)

array([3.09710559, 3.2796523 , 3.77273886, 2.31096129, 3.12168903])

In [132]:
# 각 행의 최댓값
x.max(axis = 1)

array([0.98629325, 0.86897649, 0.92993211, 0.96701979, 0.90711153])

In [134]:
# 각 열의 평균
x.mean(axis = 0)

array([0.39057789, 0.45560029, 0.78892842, 0.35294239, 0.55696002,
       0.5714204 ])

In [135]:
# 각 열의 최솟값
x.min(axis =0)

array([0.13568064, 0.15173661, 0.37853238, 0.13730009, 0.0036209 ,
       0.1602144 ])

In [136]:
arr4

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [137]:
arr4.sum(axis = 0)

array([[ 6,  8],
       [10, 12]])

In [138]:
arr4.sum(axis = 1)

array([[ 4,  6],
       [12, 14]])

In [139]:
arr4.sum(axis = 2)

array([[ 3,  7],
       [11, 15]])

In [141]:
arr4.sum(axis = (0, 1))

array([16, 20])

In [142]:
arr4.sum(axis = (0, 2))

array([14, 22])

In [143]:
arr4.sum(axis = (1, 2))

array([10, 26])

In [144]:
arr5 = np.random.randint(0, 3, (2, 3, 4))
arr5

array([[[1, 1, 1, 0],
        [2, 2, 1, 2],
        [2, 1, 2, 1]],

       [[0, 1, 0, 1],
        [1, 1, 2, 0],
        [0, 1, 1, 0]]])

In [145]:
arr5.sum(axis = 0)

array([[1, 2, 1, 1],
       [3, 3, 3, 2],
       [2, 2, 3, 1]])

In [146]:
arr5.sum(axis = 1)

array([[5, 4, 4, 3],
       [1, 3, 3, 1]])

In [147]:
arr5.mean(axis = 2)

array([[0.75, 1.75, 1.5 ],
       [0.5 , 1.  , 0.5 ]])

In [148]:
arr5.mean(axis = (0, 1))

array([1.        , 1.16666667, 1.16666667, 0.66666667])

In [149]:
arr5.mean(axis = (0, 2))

array([0.625, 1.375, 1.   ])

In [150]:
arr5.mean(axis = (1, 2))

array([1.33333333, 0.66666667])

In [151]:
data_3d = np.random.random((3, 5, 6))
data_3d

array([[[8.22131358e-01, 9.68502708e-01, 2.23880177e-01, 1.69363223e-01,
         7.93174814e-01, 6.39943930e-01],
        [6.68640443e-01, 4.74055870e-01, 3.81782652e-01, 5.23856495e-01,
         3.96954164e-01, 2.04395248e-01],
        [3.11068142e-01, 4.51307585e-01, 6.19437297e-02, 1.12181725e-02,
         8.29796785e-01, 8.65150676e-01],
        [8.14548765e-02, 4.81709454e-01, 8.09205454e-02, 8.79623648e-01,
         2.11352751e-01, 3.17459203e-01],
        [7.41436982e-01, 9.73065155e-01, 1.43124300e-01, 2.31585859e-01,
         7.62488225e-01, 8.36603928e-01]],

       [[3.83042835e-01, 3.65264367e-01, 3.97984387e-03, 1.02402228e-01,
         8.93947985e-01, 5.74733624e-01],
        [7.22757362e-01, 5.73636584e-01, 8.72355075e-01, 8.62784596e-01,
         4.40713589e-01, 9.87557326e-01],
        [3.73379560e-01, 3.40770984e-02, 6.15386221e-01, 5.74425479e-03,
         9.42681993e-01, 2.99232332e-01],
        [4.34385347e-01, 3.53207694e-01, 3.83432825e-01, 1.63661834e-01,
     

1. 각 2차원 배열에서의 최댓값
2. 각 2차원 배열에서의 행의 합
3. 각 2차원 배열에서의 각 행의 최댓값
4. 전체 열의 평균
5. 각 2차원 배열에서의 열의 평균
6. 각 2차원 배열에서의 각 열의 최솟값

In [154]:
# 각 2차원 배열에서의 최댓값
data_3d.max(axis = (1, 2))

array([0.97306516, 0.98755733, 0.98576751])

In [180]:
# 각 2차원 배열에서의 행의 합
data_3d.sum(axis = 2)

array([[3.61699621, 2.64968487, 2.53048509, 2.05252048, 3.68830445],
       [2.32337088, 4.45980453, 2.27050146, 2.48732915, 3.03311013],
       [3.56124878, 2.80354562, 2.88997171, 2.05562524, 3.61110987]])

In [176]:
# 각 2차원 배열에서의 각 행의 최댓값
data_3d.max(axis = 2)

array([[0.96850271, 0.66864044, 0.86515068, 0.87962365, 0.97306516],
       [0.89394798, 0.98755733, 0.94268199, 0.60804942, 0.85821882],
       [0.98576751, 0.89035428, 0.91752243, 0.7612631 , 0.97572864]])

In [177]:
# 전체 열의 평균
data_3d.mean(axis = (0,1))

array([0.52970299, 0.47560924, 0.42440275, 0.39624957, 0.62840597,
       0.48120338])

In [178]:
# 각 2차원 배열에서의 열의 평균
data_3d.mean(axis = 1)

array([[0.52494636, 0.66972815, 0.17833028, 0.36312948, 0.59875335,
        0.5727106 ],
       [0.42496576, 0.41127209, 0.52245075, 0.31418689, 0.74872236,
        0.49322538],
       [0.63919685, 0.34582748, 0.57242721, 0.51143233, 0.53774221,
        0.37767417]])

In [179]:
# 각 2차원 배열에서의 각 열의 최솟값
data_3d.min(axis = 1)

array([[8.14548765e-02, 4.51307585e-01, 6.19437297e-02, 1.12181725e-02,
        2.11352751e-01, 2.04395248e-01],
       [2.11263680e-01, 3.40770984e-02, 3.97984387e-03, 5.74425479e-03,
        4.40713589e-01, 6.00115883e-02],
       [4.93465081e-01, 5.26177491e-02, 4.55258173e-04, 4.57688205e-02,
        1.10465301e-01, 2.40400225e-02]])

- 열을 구하고 싶으면 : axis = 행의값(숫자) 넣어야함 
- 2차원이라고 했으니까 앞에 차원 제외하고 생각하는게 맞음

# Inf 와 nan

- 넘파이에서는 무한대를 표현하기 위한 np.inf와 정의할 수 없는 숫자를 나타내는 np.nan이 있음

In [182]:
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])
  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])


array([  0.,  inf, -inf,  nan])