#01. 머신러닝의 개념

**머신러닝** : 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법.

머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출해 낸다.

**머신러닝의 분류**

**1. 지도학습 (Supervised Learning)**
: 라벨 데이터가 주어짐

- 분류
- 회귀
- 추천 시스템
- 시각/음성감지/인지
- NLP

**2. 비지도학습 (Unsupervised Learning)**
: 라벨 데이터가 주어지지 않음

- 클러스터링
- 차원축소
- 강화학습

# 03. 넘파이

**Numpy** : Numerical Python

파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지.

루프를 사용하지 않고 대량 데이터의 배열 계산을 가능하게 하므로 빠른 배열 연산속도를 보유함.

C/C++ 같은 저수준언어기반의 호환 API 제공해 수행 성능이 매우 중요한 부분은 C기반의 코드로 작성하고 넘파이로 호출 가능.

-> 텐서플로가 이런 방식 활용

**넘파이를 이해하는 것은 파이썬 기반의 머신러닝에서 매우 중요함**

: 많은 머신러닝 패키지가 넘파이 기반으로 작성되었으며, 알고리즘의 입력데이터와 출력 데이터를 넘파이 배열 타입으로 사용하기 때문.
또한 판다스를 이해하는데에도 많은 도움이 됨.

## 넘파이 ndarray 개요

In [2]:
import numpy as np

**넘파이 기반 데이터 타입 : ndarray**

: 넘파이에서 다차원 배열을 쉽게 생성하고 다양한 연산 수행 가능

### array() 함수

: 파이썬의 리스트 같은 다양한 인자를 입력받아 ndarray로 변환하는 기능 수행

- shape 변수 : ndarray의 크기를 튜플 형태로 가지고 있음

  -> ndarray 배열의 차원 파악 가능
  -> shape() 가 아님을 주의하자. 계속 헷갈림

In [3]:
array1 = np.array([1,2,3])
print('array1 type:', type(array1))
print('array1 array 형태: ', array1.shape)

array2 = np.array([[1,2,3],
                  [2,3,4]])
print('array2 type:', type(array2))
print('array2 array 형태 :', array2.shape)

array3=np.array([[1,2,3]])
print('array3 type:', type(array3))
print('array3 array 형태 :', array3.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태:  (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태 : (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태 : (1, 3)


array1 : 1차원 데이터, 3개의 데이터

array2 : 2차원 데이터, 2개의 로우와 3개의 칼럼

array3 : 2차원 데이터, 1개의 로우와 3개의 칼럼

**array1은 1차원. array3은 2차원**

In [5]:
print('array1 : {:0}차원, array2 : {:1}차원, array3 : {:2}차원'.format(array1.ndim,
                                                                 array2.ndim, array3.ndim))

array1 : 1차원, array2 : 2차원, array3 :  2차원


**ndim이다. dim이 아님**

### ndarray의 데이터 타입

ndarray의 데이터값은 숫자 값, 문자열 값, 불 값 등이 모두 가능하다. 단, 그 연산의 특성상 같은 데이터 타입만 가능하다. 즉 한개의 ndarray객체에 int와 float가 함께 있을 수 없다.

ndarray의 데이터 타입은 dtype속성으로 확인할 수 있다.

In [6]:
list1 =[1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


만약 다른 데이터 유형이 섞여있는 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용한다.

In [7]:
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2, array2.dtype)

['1' '2' 'test'] <U21


int가 모두 문자열 값인 '1', '2'로 변환되었음. (유니코드 문자열 값으로 변환)

In [9]:
list3 = [1,2,3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

[1. 2. 3.] float64


int가 float64로 변환됨

In [10]:
# 데이터값 타입 변경 : astype() 메서드

array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


데이터 타입 변경을 통헤 메모리를 절약할 수 있음.

* float를 int로 변경할 때는 소수점 이하를 모두 없앰

### ndarray를 편리하게 생성하기 - arange, zeros, ones

특정 크기와 차원을 가진 ndarray를 연속값이나 0, 1로 초기화 해 쉽게 생성할 필요가 있을 때가 존재함. 주로 테스트용으로 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화해야 할 경우에 사용

In [11]:
# arange()

sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


range와 유사한 기능을 하며, 0이 아닌 다른 값부터 시작한 연속 값을 부여하는 것도 가능함.

In [12]:
# zeros()

zero_array = np.zeros((3,2), dtype = 'int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

#ones()
one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


zeros()와 ones()는 함수 인자로 튜플 형태의 shape값을 입력하면 모든 값을 0 또는 1로 채운 해당 shape를 가진 ndarray를 반환함.

함수 인자를 정해주지않으면 ones()는 디폴트로 float64형의 데이터로 ndarray를 채움

### ndarray의 차원과 크기를 변경하는 reshape()

In [13]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2,5)
print('array2:\n', array2)

array3 = array1.reshape(5,2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [14]:
array1.reshape(4,3)

ValueError: cannot reshape array of size 10 into shape (4,3)

지정된 사이즈로 변경이 불가능하면 오류를 발생

**reshape를 더욱 효율적으로 사용하는 방법**

**인자로 -1**을 사용해 원래 ndarray와 호환되는 새로운 shape로 변환해줌

In [15]:
array1 = np.arange(10)
print(array1)
array2 = array1.reshape(-1,5)
print('array2 shape:', array2.shape)
array3 = array1.reshape(5,-1)
print('array3 shape:', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


array1은 1차원 ndarray로 0 ~ 9까지의 데이터를 가짐.

array2는 고정된 5개의 칼럼에 맞는 로우를 자동으로 새롭게 생성해 변환한 것.

array3은 고정된 5개의 로우에 맞는 칼럼을 자동으로 새롭게 생성해 변환한 것.

* 물론 -1을 사용하더라도 호환될 수 없는 형태는 변환할 수 없다!

In [16]:
array1 = np.arange(10)
array4 = array1.reshape(-1,4)

ValueError: cannot reshape array of size 10 into shape (4)

**reshape(-1,1)**

In [17]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n', array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5= array3d.reshape(-1,1)
print('array5:\n', array5.tolist())
print('array5 shape:', array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n', array6.tolist())
print('array6 shape:', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


reshape(-1,1)은 원본 ndarray가 어떤 형태라도 2차원이고, 여러개의 로우를 가지되 반드시 1개의 칼럼을 가진 ndarray로 변환됨을 보장한다.

-> 여러개의 넘파이 ndarray는 stack이나 concat으로 결합할 때 각각의 ndarray의 형태를 통일하며 유용하게 사용된다.

### Indexing : 넘파이의 ndarray의 데이터 세트 선택하기

**1. 특정한 데이터만 추출**
: 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환됨

**2. 슬라이싱**
: 슬라이싱은 연속된 인덱스상의 ndarray를 추출하는 방식으로, 시작인덱스에서 종료인덱스 -1 위치에 있는 데이터를 반환함

**3. 팬시 인덱싱**
: 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray를 반환함

**4. 불린 인덱싱**
: 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 해당하는 인덱스 위치에 있는 데이터의 ndarray를 반환

**단일 값 추출**

In [18]:
# 1부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start=1, stop=10)
print('array1:', array1)

#index는 0부터 시작하므로 array1[2]는 3번째 index 위치의 데이터값을 의미
value = array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>


In [19]:
print('맨 뒤의 값:', array1[-1], '맨 뒤에서 두번째 값:', array1[-2])

맨 뒤의 값: 9 맨 뒤에서 두번째 값: 8


인덱스에 마이너스 기호를 이용해 맨 뒤에서부터 데이터를 추출할 수 있다.

In [20]:
array1[0]= 9
array1[8] = 0
print('array1: ', array1)

array1:  [9 2 3 4 5 6 7 8 0]


단일 인덱스를 활용해 데이터 값도 간단히 수정 가능

In [21]:
# 다차원 ndarray에서 단일값을 추출

array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:', array2d[0,0])
print('(row=0, col=1) index 가리키는 값:', array2d[0,1])
print('(row=1, col=0) index 가리키는 값:', array2d[1,0])
print('(row=2, col=2) index 가리키는 값:', array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


**axis 0 : 로우방향의 축**
**axis 1 : 칼럼방향의 축**

**슬라이싱**

단일 데이터값 추출을 제외하고 슬라이싱, 팬시 인덱싱, 불린 인덱싱으로 추출된 데이터 세트는 모두 ndarray 타입.

In [22]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


In [23]:
array1 = np.arange(start=1, stop=10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6= array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


: 기호 앞뒤에 시작/종료 인덱스를 생략하면 자동으로 맨 처음/ 맨 마지막 인덱스로 간주함.

In [26]:
# 2차원 ndarray에서 슬라이싱으로 데이터에 접근

array1d = np.arange(start=1, stop=10) # 9까지
array2d = array1d.reshape(3,3)
print('array2d:\n', array2d)

print('array2d[0:2, 0:2]\n',array2d[0:2, 0:2])
print('array2d[1:3, 0:3]\n',array2d[1:3, 0:3])
print('array2d[1:3, :]\n', array2d[1:3, :])
print('array2d[:,:]\n', array2d[:,:])
print('array2d[:2, 1:]\n', array2d[:2, 1:])
print('array2d[:2, 0]\n', array2d[:2,0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2]
 [[1 2]
 [4 5]]
array2d[1:3, 0:3]
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :]
 [[4 5 6]
 [7 8 9]]
array2d[:,:]
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:]
 [[2 3]
 [5 6]]
array2d[:2, 0]
 [1 4]


2차원 ndarray에서 뒤에 오는 인덱스를 없애면 1차원 ndarray를 반환한다.

3차원 ndarray에서 뒤에 오는 인덱스를 없애면 2차원 ndarray를 반환한다.

In [27]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].reshape, 'array2d[1] shape:', array2d[1].shape)

[1 2 3]
[4 5 6]
array2d[0] shape: <built-in method reshape of numpy.ndarray object at 0x7ff6d9ec6b50> array2d[1] shape: (3,)


**팬시 인덱싱**

In [28]:
array1d = np.arange(start=1 , stop=10)
array2d = array1d.reshape(3,3)

array3 = array2d[[0,1],2]
print('array2d[[0,1],2]=>',array3.tolist())

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1], 0:2] =>', array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]]=>', array5.tolist())

array2d[[0,1],2]=> [3, 6]
array2d[[0,1], 0:2] => [[1, 2], [4, 5]]
array2d[[0,1]]=> [[1, 2, 3], [4, 5, 6]]


**불린 인덱싱**

In [29]:
array1d = np.arange(start=1, stop=10)
array3 = array1d[array1d>5]
print('array1d>5 불린 인덱싱 결과 값:', array3)

array1d>5 불린 인덱싱 결과 값: [6 7 8 9]


In [30]:
array1d>5

array([False, False, False, False, False,  True,  True,  True,  True])

True값이 있는 위치 인덱스 값으로 자동 변환해 해당하는 인덱스 위치의 데이터만 반환하게 된다.


In [32]:
boolean_index= np.array([False, False, False, False,False,True, True,True,True])
array3 = array1d[boolean_index]
print('불린 인덱스로 필터링 결과:', array3)

불린 인덱스로 필터링 결과: [6 7 8 9]


In [33]:
indexes = np.array([5,6,7,8])
array4 = array1d[indexes]
print('일반 인덱스로 필터링 결과:', array4)

일반 인덱스로 필터링 결과: [6 7 8 9]


**불린 인덱싱이 동작하는 단계**

1. array1d>5와 같이 ndarray의 필터링 조건을 [] 안에 기재

2. False 값은 무시, True 값에 해당하는 인덱스값만 저장

3. 저장된 인덱스 데이터 세트로 ndarray 조회

### 행렬의 정렬 - sort(), argsort()

**행렬 정렬**

1) np.sort() : 원행렬은 그대로 유지, 원행렬의 정렬된 행렬을 반환

2) ndarray.sort() : 원행렬 자체를 정렬한 형태로 변환, 반환값은 None

In [35]:
org_array = np.array([3,1,9,5])
print('원본 행렬:', org_array)

# np.sort()로 정렬
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 원본 행렬:', org_array)

# ndarray.sort()로 정렬
sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort() 호출 후 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]


**내림차순으로 정렬 : [::-1]**

In [36]:
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬:', sort_array1_desc)

내림차순으로 정렬: [9 5 3 1]


In [37]:
array2d = np.array([[8,12],
                    [7,1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('칼럼 방향으로 정렬:\n', sort_array2d_axis1)

로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]


**정렬된 행렬의 인덱스를 반환하기**

np.argsort()

In [38]:
org_array = np.array([3,1,9,5])
sort_indices= np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [39]:
org_array = np.array([3,1,9,5])
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


넘파이의 ndarray는 메타 데이터를 가질 수 없다.

np.argsort()를 이용해 반환된 인덱스를 name_array에 팬시 인덱스로 적용해 추출할 수 있다.

In [42]:
import numpy as np

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array= np.array([78,95,84, 98, 88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


###선형대수 연산 - 행렬 내적과 전치 행렬 구하기

행렬 내적 : np.dot()

In [43]:
A = np.array([[1,2,3],
              [4,5,6]])
B = np.array([[7,8],
              [9,10],
              [11,12]])

dot_product = np.dot(A,B)
print('행렬  내적 결과:\n', dot_product)

행렬  내적 결과:
 [[ 58  64]
 [139 154]]


전치 행렬

In [44]:
A = np.array([[1,2],
              [3,4]])
transpose_mat = np.transpose(A)
print('A의 전치행렬:\n', transpose_mat)

A의 전치행렬:
 [[1 3]
 [2 4]]
