## 01. 머신러닝의 개념

* 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법
* 데이터를 기반으로 통계적인 신뢰도를 강화하고, 예측 오류를 최소화하기 위해 다양한 수학적 기법 적용해  
  (1)데이터 내의 패턴을 스스로 인지하고 (2)신뢰도 있는 예측 결과를 도출해냅니다.     

### (1) 머신러닝의 분류

* 지도학습 (Supervised Learning)  
    분류  
    회귀  
    추천시스템  
    시각/ 음성감지/ 인지  
    텍스트 분석/ NLP

* 비지도학습 (Un-supervised Learning)  
    클러스터링  
    차원 축소  
    강화학습

### (2) 데이터 전쟁

* 머신러닝은 '데이터'에 매우 의존적
* 데이터의 품질 -> 머신러닝 수행결과
* 머신러닝 알고리즘과 모델 파라미터를 구축하는 능력보다  
  데이터를 이해하고 효율적으로 가공, 처리, 추출해 최적의 데이터를 기반으로 알고리즘을 구동할 수 있도록 준비하는 능력이 더 중요해진다. 

### (3) 파이썬과 R기반의 머신러닝 비교

* R은 통계 전용 프로그램 언어
* 파이썬은 다양한 영역에서 사용되는 개발 전문 프로그램 언어 
* 딥러닝 프레임워크인 텐서플로, 케라스, 파이토치에서 R보다 파이썬을 우선으로 지원

## 02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지

* 머신러닝 패키지  
    사이킷런() : 가장 대표적  
    텐서플로(), 케라스() : 전문 딥러닝
* 행렬/선형대수/통계 패키지  
    넘파이() : 가장 대표적  
    사이파이() : 자연과학과 통계를 위한 패키지
* 데이터 핸들링  
    판다스() : 가장 대표적  
    
    
    

## 03. 넘파이

* 개념: 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지  
* 장점  
    1)루프를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 함.  
    2)저수준 언어 (C/C++) 기반의 호환 API를 제공함.  
    3)다양한 데이터 핸들링 기능을 제공함.  
* 단점  
    1)파이썬 언어 자체가 가지는 수행 성능의 제약이 있음.  
    2)편의성과 다양한 API지원 측면에서 한계가 있음.

### (1) 넘파이 ndarray 개요

In [2]:
import numpy as np

* ndarray : N-dimentional array의 약자, 넘파이 기반 데이터 타입, 다차원 배열 자료구조를 지원함. 
* arrary() : 리스트 등의 다양한 인자 -> ndarray 로 변환
* .shape변수 : ndarray의 크기를 튜플 형태로 가지며, ndarray 배열의 차원을 알 수 있음

In [12]:
array1 = np.array([1,2,3])
print(array1)
# 1차원은 벡터로 들어감
print('array1 type:', type(array1))
# 데이터 타입은 ndarray
print('array1 array형태:', array1.shape)
# 1차원 array로, 3개의 데이터(3개의 행)를 가짐
# (차원, 크기) -> 튜플 형태로 나타냄

[1 2 3]
array1 type: <class 'numpy.ndarray'>
array1 array형태: (3,)


In [10]:
array2 = np.array([[1,2,3], [2,3,4]])
print(array2)
# 2차원부터 행으로 들어감
print('array1 type:', type(array2))
# 데이터 타입은 ndarray
print('array2 array형태:', array2.shape)
# 2차원 array로, 2개의 행과 3개의 열음 가짐

[[1 2 3]
 [2 3 4]]
array1 type: <class 'numpy.ndarray'>
array2 array형태: (2, 3)


In [11]:
array3 = np.array([[1,2,3]])
print(array3)
# 행 1개로 구성
print('array3 type:', type(array3))
# 데이터 타입은 ndarray
print('array3 array형태:', array3.shape)
# 2차원 array로, 1개의 행과 3개의 열을 가짐

[[1 2 3]]
array3 type: <class 'numpy.ndarray'>
array3 array형태: (1, 3)


In [14]:
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3:  2차원


#### 참고
* format 함수
    -문자열 중간 중간에 특정 변수의 값을 넣어주기 위해서
    -'{인덱스0}, {인덱스1}'.format(값0, 값1)

### (2) ndarray의 데이터 타입

In [4]:
list1 = [1,2,3]
print(list1)
print(type(list1))

array1=np.array(list1) # 리스트를 ndarray로 변환
print(array1)
print(type(array1), array1.dtype)
# 데이터 타입은 ndarray고
# ndarray 내 데이터 값의 타입은 int

[1, 2, 3]
<class 'list'>
[1 2 3]
<class 'numpy.ndarray'> int32


#### 비교
* 리스트 : 서로 다른 데이터 타입 가질 수 있음
* ndarray : 같은 데이터 타입만 가질 수 있음  
    -> 서로 다른 데이터 타입을 가진 리스트를 ndarray로 변환 시, 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용

In [6]:
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2)
# 서로 다른 데이터 타입의 리스트를 ndarray로 변환 시, 크기가 더 큰 문자형으로 일괄변환
print(type(array2), array2.dtype)
# U11 : 유니코드 문자형 

['1' '2' 'test']
<class 'numpy.ndarray'> <U11


In [10]:
a = ['a', 'b', '1', '#']
array5 = np.array(a)
print(array5.dtype)

<U1


* .astype() : ndarray 내 데이터 값의 타입 변경
* 데이터 크기/용량 순서 : 정수형 int32 < 실수형 float64 < 문자형 U11 U1

In [13]:
array_int = np.array([1,2,3])
array_float = array_int.astype('float64') # 정수를 실수로 변경
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype) # 다시 실수에서 정수로 변경, 메모리 절약

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2=array_float1.astype('int32')
print(array_int2, array_int2.dtype) # 소수점 실수를 정수로 변경시, 소수점 이하는 없어짐

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


### (3) ndarray를 편리하게 생성하기
#### - arrange, zeros, ones

* arange(a) : 0 ~ a-1 의 값을 순차적으로 1차원 ndarray형태로 변환

In [21]:
sequence_array = np.arange(10) 
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)
# 데이터 값은 정수형이고, 데이터 형태는 1차원 10개의 데이터인 ndarray

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


* zeros(shape, dtype=' ') : 해당 shape, 해당 데이터타입의 형태로 모든 값이 0으로 채운 ndarray를 반환
* ones(shape, dtype=' ') : 해당 shape, 해당 데이터타입의 형태로 모든 값이 1으로 채운 ndarray를 반환

In [25]:
zero_array = np.zeros((3,2), dtype='int32')
print(zero_array)
print(zero_array.shape, zero_array.dtype)

zero_array = np.zeros((3,2), dtype='float64')
print(zero_array)
print(zero_array.shape, zero_array.dtype)

zero_array = np.zeros((3,2)) # 기본값 float
print(zero_array)
print(zero_array.shape, zero_array.dtype)

[[0 0]
 [0 0]
 [0 0]]
(3, 2) int32
[[0. 0.]
 [0. 0.]
 [0. 0.]]
(3, 2) float64
[[0. 0.]
 [0. 0.]
 [0. 0.]]
(3, 2) float64


In [30]:
ones_array = np.ones((4,2), dtype='int64')
print(ones_array)
print(ones_array.shape, ones_array.dtype)

ones_array = np.ones((4,2), dtype='float64')
print(ones_array)
print(ones_array.shape, ones_array.dtype)

ones_array = np.ones((4,2)) # 기본값 float
print(ones_array)
print(ones_array.shape, ones_array.dtype)

[[1 1]
 [1 1]
 [1 1]
 [1 1]]
(4, 2) int64
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
(4, 2) float64
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
(4, 2) float64


### (4) ndarray의 차원과 크기를 변경하는 reshape()

* .reshape(shape) : 지정한 차원으로 변환

In [44]:
array1 = np.arange(10)
print("array1: \n", array1)
print(array1.shape)

array2 = array1.reshape((2,5)) 
array2 = array1.reshape(2,5) # 괄호 없이 바로 가능!
print("array2: \n", array2) # 행을 먼저 채움 
print(array2.shape)

array3 = array2.reshape(5,2)
print("array3: \n", array3) # 행 순으로 접근해서 행을 먼저 채움
print(array3.shape)

array1: 
 [0 1 2 3 4 5 6 7 8 9]
(10,)
array2: 
 [[0 1 2 3 4]
 [5 6 7 8 9]]
(2, 5)
array3: 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
(5, 2)


In [81]:
# 오류 오는 경우
'''
array.error1 = np.arange(10).reshape(3,5)
array.error2 = np.arange(10).reshape(-1,3)
'''

'\narray.error1 = np.arange(10).reshape(3,5)\narray.error2 = np.arange(10).reshape(-1,3)\n'

* .reshape(x, -1) /.reshape(-1, y) : 고정된 x개의 로우, 고정된 y개의 칼럼에 맞춰서 자동으로 생성해라.

In [41]:
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(5, -1) # 자동으로 -1은 2로 생성
print(array2, array2.shape)

array3 = array1.reshape(-1, 5) # 자동으로 -1은 5로 생성
print(array3, array3.shape)

[0 1 2 3 4 5 6 7 8 9]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]] (5, 2)
[[0 1 2 3 4]
 [5 6 7 8 9]] (2, 5)


* reshape(-1, 1) : 여러개의 로우, 1개의 칼럼, 2차원을 가진 벡터형태 보장 

* 참고) tolist() : ndarray를 리스트로 변환

In [52]:
np.arange(4).reshape(-1,1)
# "2차원인" 벡터형태임을 기억하기!

array([[0],
       [1],
       [2],
       [3]])

In [57]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print(array3d, "\n")
print(array3d.tolist(), "\n")

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)
print("array5: \n", array5)
print("array5.shape: \n", array5.shape, "\n")

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print("array6: \n", array6)
print("array6.shape: \n", array6.shape)

## reshape(-1, 1)은 "2차원"인 벡터

[[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]] 

[[[0, 1], [2, 3]], [[4, 5], [6, 7]]] 

array5: 
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]
array5.shape: 
 (8, 1) 

array6: 
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]
array6.shape: 
 (8, 1)


### (5) 넘파이의 ndarray의 데이터 세트 선택하기
#### - 인덱싱

In [33]:
# 1. 1차원의 ndarray에서 한 개의 데이터 추출

# 1차원 ndarray 생성 
array1 = np.arange(1, 10)
print("array1:",array1)

# 리스트 인덱싱과 같음
value1 = array1[2] #0부터 시작
print("value1:", value1)
print(type(value))
## 추출된 단일 데이터의 타입은 int32

value2 = array1[-1] # 맨뒤에서 첫번째
value3 = array1[-2] # 맨뒤에서 두번째
print(value2, value3)

array1: [1 2 3 4 5 6 7 8 9]
value1: 3
<class 'numpy.int32'>
9 8


In [10]:
# 단일 데이터 수정 가능 
array11 = np.arange(1,10)
print(array11)
array11[0] = 9
array11[8] = 1
print(array11)

[1 2 3 4 5 6 7 8 9]
[9 2 3 4 5 6 7 8 1]


In [67]:
# 2. 다차원의 ndarray에서 한개의 데이터 추출

# 2차원 ndarray 생성
array1d = np.arange(1, 10)
array2d = array1d.reshape(3,3)
print("array2d: \n", array2d)

# (row, col) 형태의 인덱스로 접근
print("한개의 데이터 추출:")
print(array2d[0,0])
print(array2d[0,1])
print(array2d[0,2])
print(array2d[2,2])

array2d: 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
한개의 데이터 추출:
1
2
3
9


In [38]:
# 3. 슬라이싱 이용해서 연속한 데이터 추출

# 1차원 ndarray
array1d = np.arange(1,10)
slicing1d = array1[0:2]
print(slicing1d, type(slicing))
## 추출된 연속데이터의 타입은 ndarray
## 추출된 단일 데이터의 타입은 int32

# 슬라이싱에서 시작, 종료 인덱스는 생략 가능
array1 = np.arange(1, 10)
print(array1)
print(array1[:3])
print(array1[3:])
print(array1[:])

[1 2] <class 'numpy.ndarray'>
slicing2d_1: 
 [[1 2 3]
 [4 5 6]] <class 'numpy.ndarray'>
slicing2d_2: 
 [4 5 6] <class 'numpy.ndarray'>
slicing2d_3: 
 6 <class 'numpy.int32'>
array2d[0:2, 0:2]: 
 [[1 2]
 [4 5]]


In [54]:
# 2차원 ndarray
# (1) (row, col) 형태의 인덱스로 접근
print(array2d)
print('array2d[0:2, 0:2]: \n', array2d[0:2, 0:2]) # 0,1로우, 0,1칼럼
print('array2d[1:3, 0:3]: \n', array2d[1:3, 0:3]) # 1,2로우, 0,1,2칼럼
print('array2d[1:3, :]: \n', array2d[1:3, :]) # 1,2로우, 전체 칼럼
print('array2d[:,:]: \n', array2d[:,:]) # 전체 ndarray
print('array2d[:2, 1:]: \n', array2d[:2, 1:]) # 0,1로우, 1,2칼럼
print('array2d[:2, 0]: \n', array2d[:2, 0]) # 0,1로우, 0칼럼
print('array2d[:2, 2]: \n', array2d[:2, 2]) # 0,1로우, 2칼럼
                                           ## 한쪽에만 슬라이싱 적용하고, 다른쪽에는 단일 인덱스만 적용 가능  

[[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2]: 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3]: 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :]: 
 [[4 5 6]
 [7 8 9]]
array2d[:,:]: 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:]: 
 [[2 3]
 [5 6]]
array2d[:2, 0]: 
 [1 4]
array2d[:2, 2]: 
 [3 6]


In [65]:
# 2차원 ndarray
# (2) 콤마 없이 단일 인덱스만 적용하면 1차원 ndarray 반환
## row순으로 접근함
array2d = np.arange(1,10).reshape(3,3)

a1= array2d[0]
a2 = array2d[1]

print(array2d)
print('\n')
print(a1, a1.shape, type(a1)) # 0로우를 1차원 ndarray로 반환
print('\n')
print(a2, a2.shape, type(a2)) # 1로우를 1차원 ndarray로 반환

[[1 2 3]
 [4 5 6]
 [7 8 9]]


[1 2 3] (3,) <class 'numpy.ndarray'>


[4 5 6] (3,) <class 'numpy.ndarray'>


In [62]:
# 2차원 ndarray
# (3) 순차적으로 접근하기
array2d = np.arange(1,10).reshape(3,3)

b1 = array2d[0:2]
b2 = array2d[0:2][1]
b3 = array2d[0:2][1][2]

print(b1, b1.shape, type(b1)) # 2차원 ndarray의 2row, 3col
print('\n')
print(b2, b2.shape, type(b2)) # 1차원 ndarray의 3row (vector형태로 기억..)
print('\n')
print(b3, b3.shape, type(b3)) # 단일 데이터 값으로서, 정수 반환

[[1 2 3]
 [4 5 6]] (2, 3) <class 'numpy.ndarray'>


[4 5 6] (3,) <class 'numpy.ndarray'>


6 () <class 'numpy.int32'>


In [75]:
# 4. 팬시 인덱싱
array2d = np.arange(1,10).reshape(3,3)
print(array2d)
print('\n')
#             row ,col
print(array2d[[0,1],2])
#    분배하면 (0,2) (1,2) => [3, 6]
print('\n')

#              row , col
print(array2d[[0,1], 0:2])
# 1차로 분배하면 (0, 0:2), (1, 0:2)
# 2차로 분배하면 (0,0),(0,1) => [1,2]
#               (1,0),(1,1) => [4,5]
print('\n')

#              row    (col 없음)
print(array2d[[0,1]])

[[1 2 3]
 [4 5 6]
 [7 8 9]]


[3 6]


[[1 2]
 [4 5]]


[[1 2 3]
 [4 5 6]]


In [80]:
# 5. 불린 인덱싱
# 조건 필터링, 검색
array1d = np.arange(1,10)
print(array1d)

bool1 = array1d>5
print(bool1)

bool2 = array1d[array1d>5]
print(bool2)
## []안의 조건에서 False값은 무시하고, True값에 해당하는 인덱스값으로만 조회 

bool1_indexes = np.array(bool1)
bool2_indexes_return = array1d[bool1_indexes] 
print(bool2_indexes_return)

[1 2 3 4 5 6 7 8 9]
[False False False False False  True  True  True  True]
[6 7 8 9]
[6 7 8 9]


### (6) 행렬의 정렬 
#### - sort()와 argsort()

#### 행렬의 정렬
* np.sort() : 넘파이에서 sort() 호출/ 원행렬은 그대로 유지한 채, 원 행렬의 정렬된 행렬을 반환  
* ndarray.sort() : 행렬 자체에서 sort() 호출/ 원행렬 자체를 정렬한 형태로 변환하고, 원행렬 반환값은 None

In [83]:
org_array = np.array([3,1,9,5])

sort_array1 = np.sort(org_array)
print(org_array, sort_array1)
# 원행렬 그대로, 원행렬의 정렬된 행렬로 반환

sort_array2 = org_array.sort()
print(org_array, sort_array2)
# 원행렬 None, 원행렬을 정렬된 행렬로 변환함

[3 1 9 5] [1 3 5 9]
[1 3 5 9] None


In [4]:
# 내림차순 [::-1]적용
org_array = np.array([3,1,9,5])

sort_array_desc = np.sort(org_array)[::-1]
print(org_array, sort_array_desc)

[3 1 9 5] [9 5 3 1]


In [10]:
# 행렬이 2차원 이상일 경우, axis 축값 설정

array2d = np.array([[8,12], [7,1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print("로우 방향으로 정렬: \n", sort_array2d_axis0)
'''
axis=0 로우방향 [8 |12] ->[7 | 1]
"아래로"        [7 | 1] ->[8 |12]
'''
sort_array2d_axis1 = np.sort(array2d, axis=1)
print("칼럼 방향으로 정렬: \n", sort_array2d_axis1)
'''
axis=1 칼럼방향 [8 12] -> [8 12]
                ------    ------
"옆으로"        [7  1] -> [1  7]
'''

로우 방향으로 정렬: 
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬: 
 [[ 8 12]
 [ 1  7]]


#### 정렬된 행렬의 인덱스 반호나하기 
* np.argsort() : 정렬행렬의 원본행렬 인덱스를 ndarray형으로 반환

In [11]:
org_array = np.array([3,1,5,9])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬시 원본행렬의 인덱스: ', sort_indices)

'''
원본행렬 [3, 1, 5, 9]
인덱스(*)  0  1  2  3

정렬행렬 [1, 3, 5, 9]
인덱스(*) 1  0  2  3 -> return
'''

<class 'numpy.ndarray'>
행렬 정렬시 원본행렬의 인덱스:  [1 0 2 3]


In [13]:
# 내림차순
org_array = np.array([3,1,5,9])
sort_indices_desc = np.argsort(org_array)[::-1]
print(type(sort_indices_desc))
print('행렬 내림차순 정렬시 원본행렬의 인덱스: ', sort_indices_desc)

'''
원본행렬 [3, 1, 5, 9]
인덱스(*) 0  1  2  3

정렬행렬 [9, 5, 3, 1]
인덱스(*) 3  2  0  1 -> return
'''

<class 'numpy.ndarray'>
행렬 내림차순 정렬시 원본행렬의 인덱스:  [3 2 0 1]


In [14]:
# 정렬 시, 원본행렬의 인덱스 활용 예시

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬시 score_array의 인덱스: ', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력: ', name_array[sort_indices_asc]) # 이름 어레이에 성적 오름차순 인덱스를 적용
'''
['John', 'Mike', 'Sarah', 'Kate', 'Samuel']

원본행렬  [78, 95, 84, 98, 88]
인덱스(*)   0   1   2   3   4

정렬행렬  [78, 84, 88, 95, 98]
인덱스(*)   0   2   4   1   3 -> return

이름에 적용하면...

1.      0       1       2        3        4
    ['John', 'Mike', 'Sarah', 'Kate', 'Samuel']
    
2.     0      2        4       1      3     <= 위에서나온return 적용
    ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']
'''

성적 오름차순 정렬시 score_array의 인덱스:  [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력:  ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### (7) 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

* np.dot(A,B) : 두행렬의 내적 계산

In [16]:
A = np.array([[1,2,3],
             [4,5,6]])
B = np.array([[7,8],
             [9,10],
             [11,12]])

dot_product = np.dot(A,B)
print('행렬 내적 결과: \n', dot_product)

행렬 내적 결과: 
 [[ 58  64]
 [139 154]]


* np.transpose(A) : 전치행렬

In [17]:
A = np.array([[1,2],
              [3,4]])
transpose_mat = np.transpose(A)
print('A의 전치행렬: \n', transpose_mat)

A의 전치행렬: 
 [[1 3]
 [2 4]]
