# Numpy

- Numpy는 C언어로 구현된 파이썬 라이브러리, 고성능의 수치계산을 목적
- Numpy는 벡터 및 행렬 연산에 있어서 매우 편리한 기능을 제공
- 데이터분석을 할 때 사용되는 라이브러리인 pandas와 matplotlib의 기반으로 사용
- 기본적으로 array(벡터와 유사한 개념) 단위로 데이터를 관리하며 이에 대한 연산을 수행

In [1]:
import numpy as np

## 1. Arrary 정의 및 사용

**`np.array()`**

In [2]:
# np.array()를 통해 array를 생성할 수 있음
array1 = np.array([1, 2, 3, 4, 5])
array1

array([1, 2, 3, 4, 5])

In [3]:
# np.array()를 통해 파이썬의 list를 numpy의 array로 바꿀 수 있음
list2 = [1, 2, 3.5, 4, 5]
print(list2)
array2 = np.array(list2)
array2

[1, 2, 3.5, 4, 5]


array([1. , 2. , 3.5, 4. , 5. ])

In [4]:
array3 = np.array([[1, 2, 3],[4, 5, 6],[7, 8, 9],[10, 11, 12]]) # list of list
array3 # 4 by 3

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

**`array.shape`**

In [5]:
# shape을 통해 array의 크기를 확인할 수 있음
array1.shape

(5,)

In [6]:
array2.shape

(5,)

In [7]:
array3.shape

(4, 3)

In [8]:
### shape과 ndim의 차이 ###
# shape => 크기(size)
# ndim => 차원(dimension)

print(array1.shape)
print(array3.shape)
    
print(array1.ndim)
print(array3.ndim)

(5,)
(4, 3)
1
2


**`array.dtype`**

In [9]:
# dtype를 통해 array의 자료형을 확인할 수 있음
print(array1.dtype)
print(array2.dtype)
print(array3.dtype)

int64
float64
int64


**`np.zeros()`**

In [10]:
# zeros는 입력받은 형태로 값이 0으로 채워진 array를 생성함
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [11]:
np.zeros((3,5)) # 3 by 5

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

**`np.ones()`**

In [12]:
# ones는 입력받는 형태로 값이 1으로 채워진 array를 생성함
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [13]:
np.ones((3,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

**`np.arange()`**

In [14]:
# arange는 파이썬의 range와 비슷한 기능을 함
# 인자를 한 개(n) 입력할 경우 0부터 n-1까지 1씩 증가하는 값을 갖는 array를 생성함
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [15]:
# 인자를 두 개(first, end) 입력할 경우 first부터 end-1까지 1씩 증가하는 값을 갖는 array를 생성함
np.arange(1,20)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19])

In [16]:
# 인자를 세 개(first, end, step) 입력할 경우 first부터 end-1까지 step씩 증가하는 값을 갖는 array를 생성함
np.arange(1,20,0.5)

array([ 1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,  5.5,  6. ,
        6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. , 10.5, 11. , 11.5,
       12. , 12.5, 13. , 13.5, 14. , 14.5, 15. , 15.5, 16. , 16.5, 17. ,
       17.5, 18. , 18.5, 19. , 19.5])

## 2. Array 연산

**! 원칙적으로 크기가 같아야 연산 가능 !**
- 각 array의 같은 자리에 있는 값들끼리 연산하기 때문임

In [17]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [18]:
arr2 = np.array([[10,11,12],[13,14,15]])
arr2

array([[10, 11, 12],
       [13, 14, 15]])

In [19]:
print(arr1.shape)
print(arr2.shape)

(2, 3)
(2, 3)


**덧셈**

In [20]:
arr1+arr2

array([[11, 13, 15],
       [17, 19, 21]])

**뺄셈**

In [21]:
arr1-arr2

array([[-9, -9, -9],
       [-9, -9, -9]])

**곱셈**
- 주의!
- `array1*array2` : element-wise product
- `array1.dot(array2)` : inner product(dot product) of matrix

In [22]:
arr1*arr2

array([[10, 22, 36],
       [52, 70, 90]])

In [23]:
a = np.arange(1, 11)
b = np.arange(11, 21)
print(a)
print(b)
print(a*b)
print(a.dot(b))

[ 1  2  3  4  5  6  7  8  9 10]
[11 12 13 14 15 16 17 18 19 20]
[ 11  24  39  56  75  96 119 144 171 200]
935


In [24]:
a = np.arange(1, 11).reshape(2,5) # 2 by 5
b = np.arange(11, 21).reshape(5,2) # 5 by 2
print(a)
print(b)
#print(a*b) => error
print(a.dot(b)) # 2 by 2

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
[[11 12]
 [13 14]
 [15 16]
 [17 18]
 [19 20]]
[[245 260]
 [620 660]]


#### 나눗셈

In [25]:
arr1/arr2

array([[0.1       , 0.18181818, 0.25      ],
       [0.30769231, 0.35714286, 0.4       ]])

**! 원칙적으로 shape가 같아야 연산 가능하지만 브로드캐스팅이 가능 !**

- numpy에서 브로드캐스팅이란 서로 크기가 다른 array가 연산이 가능하게 하는 것을 말함

In [26]:
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [27]:
arr1.shape

(2, 3)

In [28]:
arr3 = np.array([10, 11, 12])
arr3

array([10, 11, 12])

In [29]:
arr3.shape

(3,)

In [30]:
# 덧셈
arr1+arr3

array([[11, 13, 15],
       [14, 16, 18]])

In [31]:
# 곱셈
arr1*arr3

array([[10, 22, 36],
       [40, 55, 72]])

In [32]:
# 스칼라곱
arr1 * 10

array([[10, 20, 30],
       [40, 50, 60]])

## 3. Array 인덱싱

**1차원 array 인덱싱**

In [33]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [34]:
# 0번째 요소 불러옴
arr[0]

0

In [35]:
# 3번째 요소 불러옴
arr[3]

3

In [36]:
# 3번째 요소부터 8번째 요소를 불러옴
arr[3:9]

array([3, 4, 5, 6, 7, 8])

In [37]:
# 전체를 불러옴
arr[:]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

**2차원 array 인덱싱**

In [38]:
arr = np.array([[1,2,3,4],
                [5,6,7,8],
                [9,10,11,12]])
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [39]:
# 2차원 array를 인덱싱을 하기 위해서는 인덱스를 두개 입력해야 함
arr[0,0] # 0행 0열

1

In [40]:
# 2번째 array의 전체를 불러옴
arr[2,:] # 2행 전체

array([ 9, 10, 11, 12])

In [41]:
# 2번째 array의 3번째 값을 불러옴
arr[2,3] # 2행 3열

12

In [42]:
# 모든 array의 3번째 값을 불러옴
arr[:,3] # 3열 전체

array([ 4,  8, 12])

**필터링을 통한 인덱싱**

In [43]:
arr = np.arange(10, 20)
arr

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [44]:
# boolean으로 확인함
arr>12

array([False, False, False,  True,  True,  True,  True,  True,  True,
        True])

In [45]:
# array에서 조건에 맞는(=필터링 된) 값만 불러옴
arr[arr>12]

array([13, 14, 15, 16, 17, 18, 19])

In [46]:
# 조건에 맞는 값들의 인덱스를 불러옴
# 즉 np.where()은 인덱스를 반환함
np.where(arr>12)

(array([3, 4, 5, 6, 7, 8, 9]),)

In [47]:
np.where(arr>12, 'O', 'X')

array(['X', 'X', 'X', 'O', 'O', 'O', 'O', 'O', 'O', 'O'], dtype='<U1')

## 4. 자주 쓰이는 Numpy 함수

**`np.concatenate()`** : 결합
- 주의
- 가로/세로 결합에 따라 row/column 개수가 맞아야 결합이 가능함

In [48]:
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [49]:
arr2

array([[10, 11, 12],
       [13, 14, 15]])

In [50]:
# 수평축(axis=0, default)으로 결합함
arr_concat_0 = np.concatenate((arr1, arr2))
print(arr_concat_0)

[[ 1  2  3]
 [ 4  5  6]
 [10 11 12]
 [13 14 15]]


In [51]:
# 수직축(axis=1)으로 결합함
arr_concat_1 = np.concatenate((arr1, arr2), axis=1)
print(arr_concat_1)

[[ 1  2  3 10 11 12]
 [ 4  5  6 13 14 15]]


**`array.reshape()`** : 재배열
- reshape(행 수, 열 수)
- resahpe(-1) : 원래 array의 크기로부터 남은 부분을 추정해서 재배열 함

In [52]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [53]:
print(arr.shape)
print(arr.ndim)

(10,)
1


In [54]:
arr_reshape_1 = arr.reshape(2, 5)
arr_reshape_1

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [55]:
print(arr_reshape_1.shape)
print(arr_reshape_1.ndim)

(2, 5)
2


In [56]:
arr_reshape_2 = arr.reshape(5, 2)
arr_reshape_2

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [57]:
print(arr_reshape_2.shape)
print(arr_reshape_2.ndim)

(5, 2)
2


In [58]:
arr_reshape_3 = arr.reshape(5, -1)
arr_reshape_3

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [59]:
print(arr_reshape_3.shape)
print(arr_reshape_3.ndim)

(5, 2)
2


**`np.argmax()`, `np.argmin()`**

In [60]:
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [61]:
np.argmax(arr1)

5

In [62]:
np.argmin(arr1)

0