# 지도학습, 비지도 학습
- 하드 코딩(if, else) : 모델링할 처리 과정을 사람이 잘 알고 있는 경우
    - 결정에 필요한 로직은 한 분야나 작업에 국한된다. 작업이 조금만 변경되더라도 시스템 전체를 다시 개발
    
- 지도학습 : in/out 데이터를 알고리즘에 학습시키고, 새로운 input데이터를 넣었을 때 output 데이터를 추측
- 의사 결정 프로세스를 자동화한다. 핵심은 학습시킬 데이터 셋을 만드는 것!
- 의료영상이미지에 기반한 종양판단 : 학습데이터셋을 만들때 양성인지 종양인지 판단할 도메인 지식이 필요
- 분석, 성능측정에 용이하다.

- 비지도 학습 : - 학습 데이터에 input데이터만 존재, output데이터가 없음, 평가하거나 이해하는 것이 어려움

- 지도학습, 비지도학습에 필요한 데이터를 컴퓨터가 인식할 수 있는 데이터셋(행과열)로 준비해야함.
- 행 = 샘플 = 데이터 포인트
- 열 = 특성 
- 좋은 학습 데이터가 있어야한다. ex)성씨로 여성남성 구별 (bad), 이름으로 여성남성 구별 (가능)


# 머신러닝 알고리즘 개발 프로세스 (중요!)
- 어떤 질문에 대한 답을 원하는가? 가지고 있는 데이터가 원하는 답을 줄 수 있는가?
- 내 질문을 머신러닝의 문제로 가장 잘 기술하는 방법은 무엇인가? (어떤 모델을 선택할 것인가?)
- 문제를 풀기에 충분한 데이터를 모았는가?
- 내가 추출한 데이터의 특성은 무엇이며 좋은 예측을 만들어낼 수 있을 것인가?
- 머신러닝 애플리케이션의 성과를 어떻게 측정할 수 있는가?
- 머신러닝 솔루션이 다른 연구나 제품과 어떻게 협력할 수 있는가?

- **넓은시각으로 보면, 머신러닝 알고리즙이나 방법론은 특정 문제를 푸는 전체 과정의 일부일 뿐이다. 항상 머리속에 전체시스템에 대한 큰 그림을 담고 있어야 한다.**

- 파이썬은 사용자 인터페이스 GUI 가능함.-> 졸업작품과 연계가능성?

# 링크
- [scikit머신러닝 알고리즘 설명](http://scikit-learn.org/stable/documentation)
- [scikit디테일 가이드](http://scikit-learn.org/stable/user_guide.html)
- [scikit디테일 가이드 API문서](http://scikit-learn.org/stable/modules/classes.html)
- 이 책은 알고리즘의 딥한 원리에 대해 설명한 것이 아니라 scikit라이브러리의 대표 모델 사용법 설명서

- [책의 모든 예제코드](https://github.com/rickiepark/intro_ml_with_python_2nd_revised)
- 구글 코랩(colab) : 무료 주피터 노트북 환경 : 파이썬 설치 필요 없음.
- [(코랩)책의 모든 예제코드](https://bit.ly/python-ml-colab)

# Numpy
- scikit-learn은 numpy배열 형태의 데이터를 입력으로 받는다! (모든 데이터를 numpy로 변환과정 필요)
- 배열 = numpy배열 = ndarray  :: 모든 원소가 동일한 데이터 타입이어야 한다.


In [1]:
import numpy as np
x = np.array([[1,2,3],[4,5,6]]) #리스트 행렬 형식 
print("x:\n", x)

x:
 [[1 2 3]
 [4 5 6]]


# SciPy
- [SciPy](https://scipy.org/)
- 과학 계산용 함수를 모아놓은 파이썬 패키지
- 고성능 선형 대수, 함수 최적화, 신호 처리, 특수한 수학 함수와 통계 분포
- scikit-learn은 알고리즘을 구현할 때 SciPy의 여러 함수를 사용한다.
- 그 중 가장 중요한 기능은 scipy.sparse
    - 해당 모듈은 scikit-learn에서 데이터를 표현하는 또 하나의 방법인 희소 행렬 기능을 제공
    - 희소 행렬은 0을 많이 포함한 2차원 배열을 저장할 때 사용한다.

In [8]:
import numpy as np
from scipy import sparse

eye = np.eye(4)*2 #4x4 단위 행렬 
print("Numpy 배열:\n", eye)

Numpy 배열:
 [[2. 0. 0. 0.]
 [0. 2. 0. 0.]
 [0. 0. 2. 0.]
 [0. 0. 0. 2.]]


In [9]:
#numpy 배열을 CSR 포맷의 SciPy 희박 행렬로 변환합니다.
#0이 아닌 원소만 저장됩니다. 0이 많은 행렬에서 0이 아닌 원소만 저장 : 효율적임.

#scipy.sparse.csr_matrix(ndarray) :: ndarry를 csr포맷으로 저장한다. 0이 많은 다차원 배열을 효율적으로 관리
sparse_matrix = sparse.csr_matrix(eye)
print("\nSciPy의 CSR 행렬:\n",sparse_matrix)

#0이 아닌 원소의 위치 (행,열) 과 그 곳에서의 값


SciPy의 CSR 행렬:
   (0, 0)	2.0
  (1, 1)	2.0
  (2, 2)	2.0
  (3, 3)	2.0


In [42]:
#COO포맷을 이용해서 앞서와 동일한 희소 행렬을 만드는 예제

data = np.ones(4) #모든 원소가 1로 채워진 다차원 배열, np.ones(shape) :: ex) np.shape((4,5))

#행, 열의 인덱스를 다차원배열[np.arange()]를 이용해서 지정
row_indices = np.array([0,1,2,3]) 
col_indices = np.array([1,2,0,3]) 

#해당 data의 원소를 차례대로 0행1열, 1행2열, 2행0열, 3행3열에 배치한 행렬을 만들라.
eye_coo = sparse.coo_matrix((data, (row_indices, col_indices)))
print("COO 표현: \n", eye_coo)




COO 표현: 
   (0, 1)	1.0
  (1, 2)	1.0
  (2, 0)	1.0
  (3, 3)	1.0
