In [1]:
# numpy 설치
!pip install numpy



##  List 의 문제점
### mathematical operations 부족, speed 가 늦음

In [2]:
h = [170, 185, 157, 165]
w = [67, 79, 66, 70]
w/h

TypeError: unsupported operand type(s) for /: 'list' and 'list'

## Solution : Numpy
1. Numeric Python
2. Alternative to Python List : NumPy Array
3. Calculations over entire arrays
4. Easy and fast

In [3]:
import numpy as np
np_h = np.array(h)
np_w = np.array(w)
np_w / np_h

array([0.39411765, 0.42702703, 0.42038217, 0.42424242])

##  numpy 배열( np.ndarray)
1차원 배열

In [4]:
import numpy as np

In [5]:
np.array([1,2,3,4])

array([1, 2, 3, 4])

In [6]:
a = np.array([1,2,3])

In [7]:
a.shape      # a 객체의 형태(shape)

(3,)

In [8]:
a.ndim       # a 객체의 차원

1

In [9]:
a.dtype      # a 객체 내부 자료형

dtype('int32')

In [10]:
a.size       # a 객체의 전체 크기(항목의 수)

3

###  주의 : ndarray 배열을 생성할 때 주의할 점

 a = np.array([1, 2, 3, 4])

In [11]:
a = np.array(1, 2, 3, 4) # 잘못된 입력

TypeError: array() takes from 1 to 2 positional arguments but 4 were given

In [12]:
a = np.array([1, 'two', 3, 4])
a

array(['1', 'two', '3', '4'], dtype='<U11')

In [13]:
a = np.array([1, 'two', 3, 4])
a

array(['1', 'two', '3', '4'], dtype='<U11')

In [14]:
a=[[1,2,3],['a','b','c'],('가','나','다')]
b=np.array(a)
b

array([['1', '2', '3'],
       ['a', 'b', 'c'],
       ['가', '나', '다']], dtype='<U11')

In [15]:
b.ndim

2

### NOTE : 넘파이 배열의 데이터 타입을 지정하는 방법

In [16]:
a = np.array([1, 2, 3, 4], dtype = np.int32)

In [17]:
a = np.array([1, 2, 3, 4], dtype = 'int32')
a

array([1, 2, 3, 4])

In [18]:
a = np.array([1, 2, 3, 4], dtype = 'float')
a

array([1., 2., 3., 4.])

### 2차원 배열

In [19]:
a2 = np.array( [[1,2,3],[4,5,6]])
a2

array([[1, 2, 3],
       [4, 5, 6]])

In [20]:
a2.shape

(2, 3)

###  초기값을 가지는 배열의 생성

In [21]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [22]:
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [23]:
np.full((2, 3), 2)

array([[2, 2, 2],
       [2, 2, 2]])

In [24]:
np.full((2, 3), 100.)

array([[100., 100., 100.],
       [100., 100., 100.]])

In [25]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

###  arange() 함수를 이용한 배열 생성

In [26]:
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [27]:
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

In [28]:
np.arange(0, 10, 3)

array([0, 3, 6, 9])

In [29]:
np.arange(0.0, 1.0, 0.2)

array([0. , 0.2, 0.4, 0.6, 0.8])

###  linspace() 함수를 이용한 배열 생성

In [30]:
np.linspace(0, 10, 5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [31]:
np.linspace(0, 10, 7)

array([ 0.        ,  1.66666667,  3.33333333,  5.        ,  6.66666667,
        8.33333333, 10.        ])

###  난수 발생

In [32]:
np.random.rand(3)

array([0.50438129, 0.0357368 , 0.07263086])

In [33]:
np.random.rand(3,3)            # (3,3)shape의 난수 생성, 0~1사이의 값

array([[0.68509254, 0.32838153, 0.519734  ],
       [0.90699583, 0.56890619, 0.5798134 ],
       [0.67215511, 0.04577868, 0.11874246]])

In [34]:
np.random.randn(3,2)          # randn(행개수, 열개수)
                              # 정규분포를 따르는 데이터가 생성된다.

array([[ 0.32089041,  0.04898263],
       [ 0.03386254, -1.60132818],
       [-1.00315971,  0.50322322]])

In [35]:
np.random.randint(1,10, size=10)  # 1~9 사이의 숫자를 랜덤하게 10번 선택

array([9, 4, 9, 5, 8, 7, 2, 1, 4, 1])

In [36]:
np.random.choice(6, 10)          # 0~5 사이의 숫자를 랜덤하게 10번 선택

array([5, 2, 0, 0, 1, 4, 3, 1, 1, 3])

In [37]:
a=range(1,20,3)
np.random.choice(a, 10)        # a에서 랜덤하게 10번 선택

array([10,  7,  4, 16,  7,  1, 10,  7,  4,  1])

In [38]:
np.random.choice(30, 10, replace=False)  # 0~29 중복없이 10번 

array([25, 26, 10, 12, 11, 24,  8, 22, 17, 14])

### reshape()을 이용한 배열의 재구성

In [39]:
a=np.arange(0,10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [40]:
a.reshape(5,2)       # 5행 2열의 2차원 배열로 변환

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [41]:
a.reshape(3,4)

ValueError: cannot reshape array of size 10 into shape (3,4)

In [42]:
np.arange(0,10).reshape(2,5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [43]:
b = np.arange(32)
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31])

In [44]:
b.reshape(4,8)     # 4행 8열의 2차원 배열로 변환

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31]])

In [45]:
b.reshape(2,-1)     # -1 은 다른 행or열의 모양에 맞춰서 자동 계산.

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31]])

In [46]:
b.reshape(-1,4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [47]:
np.arange(0, 24).reshape(4, 3, 2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]],

       [[12, 13],
        [14, 15],
        [16, 17]],

       [[18, 19],
        [20, 21],
        [22, 23]]])

###  transpose() 함수

In [48]:
a = np.arange(6).reshape(3, 2)
a 

array([[0, 1],
       [2, 3],
       [4, 5]])

In [49]:
np.transpose(a)       # 전치(transpose), 행과 열이 서로 바뀜

array([[0, 2, 4],
       [1, 3, 5]])

In [50]:
a.T

array([[0, 2, 4],
       [1, 3, 5]])

In [51]:
a

array([[0, 1],
       [2, 3],
       [4, 5]])

###  ndarray의 메소드

In [52]:
import numpy as np
a = np.array([1, 2, 3])  # 1차원 ndarray 배열 생성
a.max()     # 가장 큰 값을 반환

3

In [53]:
a.min()     # 가장 작은 값을 반환

1

In [54]:
a.mean()    # 평균 값을 반환

2.0

###  ndarray의 flatten() 메소드

In [55]:
a = np.array([[1, 1], [2, 2], [3, 3]])  
a     

array([[1, 1],
       [2, 2],
       [3, 3]])

In [56]:
a.shape

(3, 2)

In [57]:
a.flatten()  # 배열의 평탄화 메소드, 1차원 베열로 변환

array([1, 1, 2, 2, 3, 3])

###  ndarray의 덧셈(shape이 같을 경우)
 

In [58]:
a = np.array([1, 2, 3])   # 1, 2, 3 원소를 가지는 1차원 ndarray
b = np.array([4, 5, 6])   # 4, 5, 6 원소를 가지는 1차원 ndarray
c = a + b                 # 1차원 ndarray의 덧셈
c

array([5, 7, 9])

###  numpy의 ndarray의 덧셈(shape이 다를 경우)

In [59]:
a = np.array([1, 2])     # 2개의 원소를 가지는 1차원 배열 : (2,) shape
b = np.array([4, 5, 6])  # 3개의 원소를 가지는 1차원 배열 : (3,) shape
c = a + b

ValueError: operands could not be broadcast together with shapes (2,) (3,) 

###  2차원 ndarray의 사칙연산

In [60]:
a = np.array([[1, 2], [3, 4]])   # 2차원 배열 a
b = np.array([[10,20], [30,40]]) # 2차원 배열 b
a + b

array([[11, 22],
       [33, 44]])

In [61]:
np.add(a,b)

array([[11, 22],
       [33, 44]])

In [62]:
a - b

array([[ -9, -18],
       [-27, -36]])

In [63]:
np.subtract(a,b)

array([[ -9, -18],
       [-27, -36]])

In [64]:
a * b

array([[ 10,  40],
       [ 90, 160]])

In [65]:
np.multiply(a,b)

array([[ 10,  40],
       [ 90, 160]])

In [66]:
a / b

array([[0.1, 0.1],
       [0.1, 0.1]])

In [67]:
np.divide(a,b)

array([[0.1, 0.1],
       [0.1, 0.1]])

In [68]:
# 행렬 곱 함수 matmul()    a @ b 
np.matmul(a, b)

array([[ 70, 100],
       [150, 220]])

In [69]:
a @ b

array([[ 70, 100],
       [150, 220]])

###  2차원 배열과 broadcasting

In [70]:
a = np.array([[1, 2], [3, 4]])
a + 1             # 행렬의 각 성분에 대한 덧셈

array([[2, 3],
       [4, 5]])

In [71]:
a - 1             # 행렬의 각 성분에 대한 뺄셈

array([[0, 1],
       [2, 3]])

In [72]:
a * 100           # 행렬의 각 성분에 대한 곱셈

array([[100, 200],
       [300, 400]])

In [73]:
a / 100           # 행렬의 각 성분에 대한 나눗셈

array([[0.01, 0.02],
       [0.03, 0.04]])

In [74]:
a ** 2            # 행렬의 각 성분에 대한 제곱연산

array([[ 1,  4],
       [ 9, 16]], dtype=int32)

In [75]:
np.sqrt(a)        # 각 요소의 제곱근을 구한다.

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

##  Quiz

In [76]:
# 1. 0~100 사이의 20 개의 랜덤 정수를 생성하여 a에 저장하시오.
# 2. a 의 평균(mean)을 구하시오.
a=np.random.randint(0,101,20)
a.mean()

43.75

In [77]:
# 3. 대각 성분이 모두 10인 4X4 크기의 2차원 배열을 생성하시오.
np.eye(4)*10

array([[10.,  0.,  0.,  0.],
       [ 0., 10.,  0.,  0.],
       [ 0.,  0., 10.,  0.],
       [ 0.,  0.,  0., 10.]])

In [78]:
# 4. 평균값이 165, 표준편차가 10인 정규 분포를 따르는 난수 5개를 생성하시오.
np.random.randn(5)*10+165


array([176.41486016, 175.90436074, 155.93315671, 157.64267718,
       159.08024305])

###  sum 함수와 axis에 따른 원소의 합

In [79]:
a = np.arange(0,6).reshape(3,2)
a

array([[0, 1],
       [2, 3],
       [4, 5]])

In [80]:
a.sum()           # 행렬의 모든 원소의 합

15

In [81]:
a.sum(axis = 0)   # 0축 방향(행 방향) 원소의 합

array([6, 9])

In [82]:
a.sum(axis = 1)   # 1축 방향(열 방향) 원소의 합

array([1, 5, 9])

In [83]:
a.min(axis=0)     # 0축 방향 원소의 최솟값

array([0, 1])

In [84]:
a.min(axis=1)     # 1축 방향 원소의 최솟값

array([0, 2, 4])

In [85]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))
print(np.sum(x, axis=0))
print(np.sum(x, axis=1))

print(np.argmax(x, axis=0))            # argmax - 최대값의 index

10
[4 6]
[3 7]
[1 1]


###  배열의 인덱싱과 슬라이싱

In [86]:
import numpy as np

In [87]:
a = np.array([1, 2, 3])
print(a[0], a[1], a[2])

1 2 3


In [88]:
print(a[-1], a[-2], a[-3])

3 2 1


In [89]:
a[np.array([1, 1, 1, 1])]

array([2, 2, 2, 2])

In [90]:
# 리스트 슬라이싱
aList = [0, 10, 20, 30, 40, 50, 60, 70, 80]
aList[1:5]

[10, 20, 30, 40]

In [91]:
# 넘파이 슬라이싱
a = np.array([0, 10, 20, 30, 40, 50, 60, 70, 80])
a[1:5]     # 슬라이싱 구간  인덱스

array([10, 20, 30, 40])

In [92]:
a[1:]

array([10, 20, 30, 40, 50, 60, 70, 80])

In [93]:
a[:]        # 전체를 슬라이싱

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80])

In [94]:
a[::2]      # 양수 2의 스텝값

array([ 0, 20, 40, 60, 80])

In [95]:
a[::-1]     # 음수 스텝값

array([80, 70, 60, 50, 40, 30, 20, 10,  0])

###  2차원 배열의 인덱싱과 슬라이싱

In [96]:
a = np.arange(0, 6).reshape(3, 2)
a

array([[0, 1],
       [2, 3],
       [4, 5]])

In [97]:
a[0]

array([0, 1])

In [98]:
a[0, 0]

0

In [99]:
a[0, 1]

1

In [100]:
a[0, 2]

IndexError: index 2 is out of bounds for axis 1 with size 2

In [101]:
a = np.arange(0, 9).reshape(3, 3)
a                  

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [102]:
a[0, 2]

2

In [103]:
a[0, :]

array([0, 1, 2])

In [104]:
a[:, 0]

array([0, 3, 6])

In [105]:
a[0, 0:2]

array([0, 1])

In [106]:
a[0, :2]

array([0, 1])

In [107]:
a[0:2, 0:2]

array([[0, 1],
       [3, 4]])

In [108]:
a[:2, :2]

array([[0, 1],
       [3, 4]])

In [109]:
a[1:, 1:]

array([[4, 5],
       [7, 8]])

In [110]:
a[1, 1:]

array([4, 5])

In [111]:
a[1:2, 1:]     # 이 내용도 테스트 해 봅시다

array([[4, 5]])

In [112]:
a[1, 1:].shape

(2,)

In [113]:
a[1:2, 1:].shape

(1, 2)

### boolean indexing(조건 인덱싱)

In [114]:
ar = np.arange(1,13).reshape(4,3)
ar

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [115]:
ar >= 5

array([[False, False, False],
       [False,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [116]:
ar[ar >= 5]

array([ 5,  6,  7,  8,  9, 10, 11, 12])

In [117]:
ar[ar >= 3]

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

### np.where
- 배열을 원하는 조건에 맞춰서 변형시킬 수 있다.

In [118]:
arr = np.random.randn(4,4) # 4행 4열의 정규분포 데이터
print(arr)

[[ 0.82617304 -0.35680293 -1.3752478   1.07914011]
 [-1.56763521 -0.21494012  0.88521237 -0.46116734]
 [-1.06489153 -0.77810718 -0.95929172  0.78739452]
 [ 0.65475531 -1.11888662 -0.80210078 -1.54792493]]


In [119]:
# np.where(조건, 조건만족시 대체값, 조건불만족시 대체값)

print(np.where(arr>0, 1, -1))

[[ 1 -1 -1  1]
 [-1 -1  1 -1]
 [-1 -1 -1  1]
 [ 1 -1 -1 -1]]


In [120]:
print(np.where(arr>0, arr, 0)) # 조건 만족시 원본 데이터를 그대로 사용

[[0.82617304 0.         0.         1.07914011]
 [0.         0.         0.88521237 0.        ]
 [0.         0.         0.         0.78739452]
 [0.65475531 0.         0.         0.        ]]
