### **1.Numpy란?**

* 수학, 과학 계산용 패키지
* 성능: 파이썬 리스트보다 빠름
* 메모리 사이즈: 파이썬 리스트보다 적은 메모리 사용
* built-in 함수: 선형대수, 통계관련 여러 함수들을 내장하고 있음

In [None]:
import numpy # 코랩의 경우 넘파이 모듈이 미리 설치가 되어있다.(만약 jupyter인 경우 따로 pip install을 이용해 설치해 주면 된다.)

In [None]:
numpy

<module 'numpy' from '/usr/local/lib/python3.7/dist-packages/numpy/__init__.py'>

In [None]:
# 별칭(alias) 지정하기
import numpy as np # numpy라는 풀네임 대신 np라고 호출하면 된다.

In [None]:
np

<module 'numpy' from '/usr/local/lib/python3.7/dist-packages/numpy/__init__.py'>

#### **1-1. Array(배열)**
* 여러 값들의 그룹

In [None]:
arr = np.array([1,2,3,4])

In [None]:
arr # array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [None]:
type(arr) # numpy.ndarray  --> n dimension array : 다차원 배열

numpy.ndarray

In [None]:
list1 = [1,2,3,4]
list2 = [[1,2,3,4],[5,6,7,8]]
print(list1)
print(list2)

[1, 2, 3, 4]
[[1, 2, 3, 4], [5, 6, 7, 8]]


In [None]:
# 리스트 -> ndarray
arr1 = np.array(list1)
arr2 = np.array(list2)

In [None]:
arr1.shape   # shape(): 차원을 확인할 수 있는 키워드
# (4,)  --> 데이터 4개짜리 1차원 배열

(4,)

In [None]:
arr2.shape  # (2, 4)  --> 2행 4열의 2차원 데이터

(2, 4)

#### **1-2. Array에서의 데이터 타입**
* array에서는 list와는 다르게 1개의 단일 데이터 타입만 허용된다.

In [None]:
list = [1,3.14,'😃','1234']  # 리스트에는 여러 자료형을 혼용해서 저장할 수 있다.(파이썬 1)

In [None]:
list

[1, 3.14, '😃', '1234']

In [None]:
list[2]

'😃'

In [None]:
# int와 float 타입이 같이 존재하는 경우
arr = np.array([1,2,3,3.14])

In [None]:
arr # float 타입으로 저장(더 큰 자료형으로 변한다.)

array([1.  , 2.  , 3.  , 3.14])

In [None]:
# int와 float 타입이 같이 존재하는 경우, dtype을 int로 설정
arr = np.array([1,2,3,3.14],dtype = int)

In [None]:
arr # dtype이 int --> 소수점이 다 짤리고 들어간다,

array([1, 2, 3, 3])

In [None]:
# int와 str 타입이 같이 존재하는 경우
arr = np.array([1,3.14,'😎','1234'])

In [None]:
arr # 모두 문자열로 저장된다.

array(['1', '3.14', '😎', '1234'], dtype='<U32')

In [None]:
arr[0] + arr[1] # 1 + 3.14 = 13.14 (문자열 붙이기)

'13.14'

In [None]:
# int와 str 타입이 같이 존재하는 경우, dtype을 int로 설정
arr = np.array([1,3.14,'😎','1234'],dtype = int)

ValueError: ignored

In [None]:
arr = np.array([1,3.14,'1234'],dtype = int)  # dtype: 강제 형변환

In [None]:
arr

array([   1,    3, 1234])

#### **1-3. 슬라이싱(Slicing)**
* 배열의 부분 선택

In [None]:
arr = np.array(['🎈','🎄','🎋','🎁','🎀'])
arr.shape

(5,)

In [None]:
# index를 지정하여 색인
arr = np.array(['🎈','🎄','🎋','🎁','🎀'])
print(arr[0])
print(arr[4])

🎈
🎀


In [None]:
arr[-1] # -1 : 역순으로 가져온다.
arr[-3]

'🎋'

In [None]:
# 2차원 array
arr2d = np.array([[1,2,3,4],
                  [5,6,7,8],
                  [9,10,11,12]])

In [None]:
arr2d.shape     # (3, 4) --> 3행 4열의 2차원 배열

(3, 4)

In [None]:
arr2d[0,2]  # 0행 2열의 데이터  --> 3

3

In [None]:
arr2d[2,1] 

10

In [None]:
# 범위 색인
arr

array(['🎈', '🎄', '🎋', '🎁', '🎀'], dtype='<U1')

In [None]:
# index 1 이상 끝까지
arr[1:]

array(['🎄', '🎋', '🎁', '🎀'], dtype='<U1')

In [None]:
# index 3 미만까지
arr[:3]

array(['🎈', '🎄', '🎋'], dtype='<U1')

In [None]:
# index 1이상 3미만
arr[1:3]

array(['🎄', '🎋'], dtype='<U1')

In [None]:
arr[:-1] # 마지막 1개를 제외한 나머지 값

array(['🎈', '🎄', '🎋', '🎁'], dtype='<U1')

In [None]:
arr2d = np.array([[1,2,3,4],
                  [5,6,7,8],
                  [9,10,11,12]])

In [None]:
# 특정 row(행)을 모두 가져오기
arr2d[0,:]

array([1, 2, 3, 4])

In [None]:
# 1 column(열)을 모두 가져오기
arr2d[:,1]

array([ 2,  6, 10])

In [None]:
arr2d[:2,:]

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
arr2d[:2,2:]

array([[3, 4],
       [7, 8]])

#### **1-4. Fancy 인덱싱**
* 범위가 아닌 특정 index의 집합의 값을 선택하여 추출하고 싶을 때 활용 

In [None]:
arr = np.array([10,23,2,7,90,65,32,66,70])

In [None]:
idx = [1,3,5] # 추출하고 싶은 인덱스를 []로 묶어 저장

In [None]:
arr[idx] # 해당 인덱스 추출

array([23,  7, 65])

In [None]:
arr2d = np.array([[1,2,3,4],
                  [5,6,7,8],
                  [9,10,11,12]])

In [None]:
arr2d[[0,1],:]

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

#### **1-5. Boolean 인덱싱**
* 조건 필터링을 통하여 Boolean값을 이용한 색인


In [None]:
arr = np.array(['🎈','🎄','🎋','🎁','🎀'])
arr2d = np.array([[1,2,3,4],
                  [5,6,7,8],
                  [9,10,11,12]])

In [None]:
# True와 False 값으로 색인
myValue = [True,False,True]

In [None]:
arr[myValue] # array에 값의 개수가 맞지 않음

IndexError: ignored

In [None]:
myValue = [True,False,True,True,False]

In [None]:
arr[myValue]

array(['🎈', '🎋', '🎁'], dtype='<U1')

In [None]:
# 조건 필터
arr2d > 2

array([[False, False,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [None]:
arr2d[arr2d > 2]

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [None]:
arr2d[arr2d < 5]

array([1, 2, 3, 4])

# 2. Matrix(행렬)

#### **2-1. Matrix(행렬)**
* 행(row) + 열(column)

> 데이터분석 및 기계학습에 있어서 행렬을 빼놓고 얘기할 수 없음..!

2-1-1. 덧셈
* shape가 같아야 함
* 같은 position끼리 연산을 진행한다

2-1-2. 뺄셈
* shape가 같아야 함
* 같은 position끼리 연산


2-1-3. 곱셈
* 맞닫는 shape가 같아야 함 => (2 x 3)과 (3 x 2)끼리는 연산 가능, 
* 나오는 결과 -> 맨 뒤에 두 개 곱한 것  
(결과가 나오는 과정 이해하기/ 계산은 못해도 ok) 

In [None]:
import numpy as np

#### **2-2.aragne란?**
* arange: 순차적인 값을 생성할 때 사용

In [None]:
arr = [1,2,3,4,5,6,7,8,9,10]

In [None]:
arr

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [None]:
arr = np.arange(1,11)  # 1부터 11미만

In [None]:
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [None]:
arr = np.arange(start = 1,stop = 11)

In [None]:
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [None]:
arr = np.arange(stop = 11, start = 1)  # 순서에 대한 제약이 생기지 않는다.

In [None]:
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [None]:
arr = np.arange(start = 1,stop = 11,step = 2)

In [None]:
arr

array([1, 3, 5, 7, 9])

#### **2-3. range(numpy와는 상관없는 python 문법)**
* 범위를 지정해주는 python의 기본함수
* 보통 for, in의 반복문에서 많이 사용된다.


In [None]:
arr = np.arange(1,11) # 변수에 저장하고 사용할 수 있다.
for i in arr:
  print(i)

1
2
3
4
5
6
7
8
9
10


In [None]:
for i in range(1,11): # in 뒤에 바로 사용한다.
  print(i)

1
2
3
4
5
6
7
8
9
10


In [None]:
for i in range(1,11,2):
  print(i)

1
3
5
7
9


#### **2-4. 정렬(sort)**

In [None]:
arr = np.array([1,10,5,8,2,4,3,6,8,7,9])

In [None]:
arr

array([ 1, 10,  5,  8,  2,  4,  3,  6,  8,  7,  9])

In [None]:
np.sort(arr) # 기본적으로 오름차순 정렬
             # 값이 유지되지는 않는다.

array([ 1,  2,  3,  4,  5,  6,  7,  8,  8,  9, 10])

In [None]:
np.sort(arr)[::-1]  # 내림차순 정렬: -1을 설정
                    # 단지 보여주기용. 배열에 정렬결과가 저장되지는 않는다.

array([10,  9,  8,  8,  7,  6,  5,  4,  3,  2,  1])

In [None]:
np.sort(arr)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  8,  9, 10])

In [None]:
arr

array([ 1, 10,  5,  8,  2,  4,  3,  6,  8,  7,  9])

In [None]:
result = np.sort(arr)

In [None]:
result

array([ 1,  2,  3,  4,  5,  6,  7,  8,  8,  9, 10])

In [None]:
# n차원 정렬
arr2d = np.array([[11,10,12,9], 
                  [3,1,4,2],
                  [5,6,7,8]])

In [None]:
arr2d.shape

(3, 4)

In [None]:
arr2d

array([[11, 10, 12,  9],
       [ 3,  1,  4,  2],
       [ 5,  6,  7,  8]])

In [None]:
# 열 정렬(왼쪽에서 오른쪽으로 / 각각의 행 내에서 열을 정렬)
np.sort(arr2d, axis = 1)  # axis : 정렬의 기준(0: 행, 1: 열, 2: 면)

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

In [None]:
# 행 정렬(위애서 아래로) 
np.sort(arr2d,axis = 0)

array([[ 3,  1,  4,  2],
       [ 5,  6,  7,  8],
       [11, 10, 12,  9]])

In [None]:
# index를 반환하는 argsort
arr2d = np.array([[11,10,12,9], 
                  [3,1,4,2],
                  [5,6,7,8]])

In [None]:
np.argsort(arr2d,axis = 1)    # 열 기준으로 정렬 -> 오름차순 정렬 시 원래 데이터가 어디로 이동하는지를 인덱스를 이용해 표시해준다.

array([[3, 1, 0, 2],
       [1, 3, 0, 2],
       [0, 1, 2, 3]])

In [None]:
np.argsort(arr2d,axis = 0) # 1번 행의 요소들이 제일 위로 올라가고, 그 다음에 2번 행의 요소들이 두번째로 이동하고, 마지막으로 0번 행의 요소들은 제일 아래로 내려간다. 

array([[1, 1, 1, 1],
       [2, 2, 2, 2],
       [0, 0, 0, 0]])

In [None]:
arr2d = np.array([[5,6,7,8],
                  [4,3,2,1],
                  [10,9,12,11]])

In [None]:
np.argsort(arr2d,axis = 1)

array([[0, 1, 2, 3],
       [3, 2, 1, 0],
       [1, 0, 3, 2]])

In [None]:
np.argsort(arr2d,axis = 0)

array([[1, 1, 1, 1],
       [0, 0, 0, 0],
       [2, 2, 2, 2]])

In [None]:
arr2d = np.array([[1,5,6,8],
                  [10,3,7,1],
                  [3,4,8,6]])

In [None]:
np.argsort(arr2d,axis = 1)

array([[0, 1, 2, 3],
       [3, 1, 2, 0],
       [0, 1, 3, 2]])

In [None]:
np.argsort(arr2d,axis = 0)

array([[0, 1, 0, 1],
       [2, 2, 1, 2],
       [1, 0, 2, 0]])

#### **2-5. 행렬의 덧셈**
* 차원, 차수가 같아야 한다.(연산하려는 두 matrix의 shape가 동일해야 한다.)
* 각각의 자리에 있는 요소들이 더해져 matrix 형태로 결과값이 나온다.

In [None]:
import numpy as np

In [None]:
# 덧셈
a = np.array([[1,2,3],
              [2,3,4]])

b = np.array([[3,4,5],
              [1,2,3]])

In [None]:
a+b

array([[4, 6, 8],
       [3, 5, 7]])

In [None]:
a = np.array([[1,2,3],
              [2,3,4]])

b = np.array([[1,2],
              [3,4],
              [5,6]])

In [None]:
a+b

ValueError: ignored

In [None]:
# sum 사용하기
a = np.array([[1,2,3],
              [2,3,4]])

In [None]:
np.sum(a,axis = 0)  # axis = 0  --> 각각의 행의 요소끼리 더해진다. (연산: 열 단위)

array([3, 5, 7])

In [None]:
np.sum(a,axis = 1)  #axis = 1 --> 각각의 열의 요소끼리 더해진다.(연산 : 행 단위)

array([6, 9])

#### **2-6. 행렬의 뺄셈**
* 차원, 차수가 같아야 한다.(연산하려는 두 matrix의 shape가 동일해야 한다.)
* 각각의 자리에 있는 요소들이 빼져 matrix 형태로 결과값이 나온다.

In [None]:
a = np.array([[1,2,3],
              [2,3,4]])

b = np.array([[3,4,5],
              [1,2,3]])

In [None]:
a-b

array([[-2, -2, -2],
       [ 1,  1,  1]])

In [None]:
a = np.array([[1,2,3],
              [2,3,4]])

b = np.array([[1,2],
              [3,4],
              [5,6]])

In [None]:
a - b

ValueError: ignored

#### **2-7. 행렬의 곱셈**

In [None]:
# 일반 곱셈(단순 연산)
a = np.array([[1,2,3],
              [2,3,4]])

b = np.array([[3,4,5],
              [1,2,3]])

In [None]:
print(a.shape)
print(b.shape)

(2, 3)
(2, 3)


In [None]:
a * b

array([[ 3,  8, 15],
       [ 2,  6, 12]])

> 단순 곱셈과 dot product는 다름을 주의해야 한다.

In [None]:
a = np.array([[1,2,3],
              [2,3,4]])

b = np.array([[1,2],
              [3,4],
              [5,6]])

In [None]:
a * b # 단순 곱셈: shape가 맞아야 연산이 된다,(ValueError: operands could not be broadcast together with shapes (2,3) (3,2))

ValueError: ignored

In [None]:
a = np.array([[1,2,3],
              [1,2,3],
              [2,3,4]])

b = np.array([[1,2],
              [3,4],
              [5,6]])

In [None]:
a.shape, b.shape

((3, 3), (3, 2))

In [None]:
np.dot(a,b) # 3 * 2의 matrix

array([[22, 28],
       [22, 28],
       [31, 40]])

# **3. broadcastring**

#### **3-1. 숫자의 연산(단일)**


In [None]:
a = np.array([[1,2,3],
              [2,3,4]])

b = np.array([[3,3,3],
              [3,3,3]])

In [None]:
a + b

array([[4, 5, 6],
       [5, 6, 7]])

In [None]:
a + 3

array([[4, 5, 6],
       [5, 6, 7]])

In [None]:
a - 3

array([[-2, -1,  0],
       [-1,  0,  1]])

In [None]:
a * 3

array([[ 3,  6,  9],
       [ 6,  9, 12]])

In [None]:
a / 3

array([[0.33333333, 0.66666667, 1.        ],
       [0.66666667, 1.        , 1.33333333]])

In [None]:
a = np.array([[1,2,3],
              [2,3,4]])

b = np.array([[1],
              [2]])

In [None]:
a.shape, b.shape

((2, 3), (2, 1))

In [None]:
a * b

array([[1, 2, 3],
       [4, 6, 8]])