# 소개
머신러닝은 데이터에서 지식을 추출하는 작업으로, **통계학, 인공지능 그리고 컴퓨터 과학**의 합작이다. **예측 분석**이나 **통계적 머신러닝**으로도 불린다. 여러 상업적 어플리케이션 외에도 오늘날 데이터 기반 연구에 큰 영향을 끼쳐왔다. 별 탐구, 새로운 행성, 새로운 미립자의 발견, DNA 서열 분석 등 다양한 과학 분야에도 적용되었다. 머신러닝이 왜 유명해졌고, 어떤 문제를 해결할 수 있는지 알아보자.

## 왜?
초창기엔 지능형 어플리케이션의 시스템은 **하드 코딩**된 if와 else명령으로 데이터를 처리했다.  
이런 시스템의 단점:
* 결정에 필요한 로직이 한 분야 혹은 작업에 국한, 작업이 바뀌면 전체 시스템을 다시 개발해야 함
* 규칙을 설계하려면 분야 전문가들이 내리는 결정 방식을 잘 알아야 함  

요즘엔 스마트폰이 이미지로부터 얼굴을 찾아낼 수 있지만, 2001년 이전에는 얼굴인식은 풀 수 없는 문제였다. 얼굴인식은 규칙을 직접 만드는 데 실패한 대표적 예시이다. 사람이 얼굴을 인식하는 방식과 컴퓨터가 인식하는 방식이 다르기 때문에, 디지털 이미지에서 얼굴 구성 요소를 일련의 규칙으로 표현하는 것은이 근본적으로 불가능하다. 그러나 머신 러닝으로 아주 많은 얼굴이미지를 제공하면 얼굴을 특정하는 요소를 찾아낼 수 있다

### 머신러닝으로 풀 수 있는 문제
**지도학습** : 이미 알려진 사례를 바탕으로 일반화된 모델을 만들어 의사 결정 프로세스를 자동화  
사용자는 알고리즘에 입력과 기대되는 출력을 제공  
알고리즘은 주어진 입력에서 원하는 출력을 만드는 방법 모색  
입력 데이터로부터 기대한 출력이 나오도록 가르치기 때문에, 입력과 출력으로부터 학습하는 머신러닝 알고리즘을 **지도 학습(supervised)** 알고리즘이라 한다.  
입출력 데이터는 종종 수작업이 필요하지만, 지도학습 알고리즘은 분석하기에 좋고 성능을 측정하기도 쉽다.  

**지도학습의 예**  

1) **편지봉투 손으로 쓴 우편번호 판별**   
*입력* : 손글씨 스캔이미지  
기대하는 *출력* : 우편번호 숫자

2) **의료영상 이미지에 기반한 종양 판단**  
*입력* : 이미지  
*출력* : 종양이 양성인지 아닌지  
모델 구축을 위해 의료 영상 데이터베이스와 전문가의 의견이 필요  

3) **의심되는 신용카드 거래 감지**  
*입력* : 신용카드 거래 내역  
*출력* : 부정 거래 여부  

**비지도 학습** :알고리즘에 입력은 주어지지만 **출력은 제공되지 않는다.** 성공사례는 많지만 비지도 학습을 이해하거나 평가하기가 어렵다.

**비지도학습의 예**  

1) **블로그 글의 주제 구분**  
입력 : 블로그 글 (텍스트 데이터)   
사전에 어떤 주제인지, 몇 개의 주제가 있는지 알 수 없다.  

2) **취향이 비슷한 고객 그룹으로 묶기**  
쇼핑 사이트라면 부모, 독서광, 게이머 등의 그룹으로 묶을 수 있다. 어떤 그룹이 있는지 미리 알 수 없고 얼마나 많은 그룹이 있는지 알 수 없으므로 출력을 가지고 있지 않다.  

3) **비정상적인 웹사이트 접근 탐지**  
일상적이지 않은 접근 패턴을 찾으면 부정행위나 버그를 구별하는데 도움이 된다. 각각의 비정상 패턴은 서로 다를 수 있고 이미 가지고 있는 비정상 데이터도 없을 수 있다. 웹 트래픽만을 관찰 가능, 어떤 것이 정상인지 비정상인지 알지 못하므로 비지도 학습  

! point : 지도 학습, 비지도 학습 모두 **데이터 준비가 중요** (컴퓨터가 **인식 가능**한)  
대부분 행과 열로 구성된 **테이블 형태**  (엑셀과 같이)  
행 : 판별해야 할 각각의 데이터 (개개의 이메일, 고객, 거래)    
열 : 데이터를 구성하는 각 속성 (고객의 나이, 거래 가격, 지역)  

예시) 고객 데이터 (나이, 성별, 계정 생성일, 구매빈도)  
        종양 데이터 (크기나 모양, 색상의 진하기 등) - 흑백이미지

머신러닝에서는 **하나의 개체(행)**을 **샘플 sample** 또는 **데이터 포인트 data point** 라고 부른다.  
**샘플의 속성(열)**을 **특성 feature**이라고 한다. 

후에 좋은 입력 데이터를 만들어내는 특성 추출 feature extraction 혹은 특성 공학 feature engineering 도 다룰 것이다.

### 문제와 데이터 이해
데이터를 이해하고, 데이터로 해결할 문제와의 연관을 이해하는 것이 가장 중요! 다음과 같은 질문을 상기하자.

* 어떤 질문에 대한 답을 찾는가? 확보 데이터가 원하는 답을 줄 수 있는가?
* 질문을 머신러닝의 문제로 가장 잘 기술하는 방법은?
* 충분한 데이터를 수집했는가?
* 추출한 데이터의 특성은 무엇이고, 좋은 예측을 만들 수 있는가?
* 머신러닝 어플의 성과를 어떻게 측정할 수 있나?
* 머신러닝 솔루션이 다른 연구나 제품과 어떻게 협력할 수 있는가?

결국 문제를 푸는 건 사람. 전체 시스템에 대한 큰 그림을 가지고 있어야 한다.

## 왜 파이썬?
파이썬 python은 데이터 과학의 표준 프로그래밍 언어처럼 여겨진다. 

그 이유는?
* 범용 프로그래밍 언어의 장점 + 매트랩 MATLAB 과 R 같은 특정 분야를 위한 스크립팅 언어의 편리함
* 데이터 적재, 시각화, 통계, 자연어 처리, 이미지 처리 등에 필요한 라이브러리
* 터미널이나 주피터 노트북 jupyter notebook 같은 도구로 대화하듯 프로그래밍 가능
* 머신러닝과 데이터 분석을 위한 반복작업을 빠르고 손쉽게 처리 가능
* 복잡한 그래픽 사용자 인터페이스나 웹 서비스도 만들 수 있음
* 기존 시스템과의 통합이 용이함

## scikit-learn
오픈 소스 scikit-learn 사이킷런: 자유롭게 배포가능, 누구나 소스코드를 보고 실제로 어떻게 동작하는지 쉽게 확인 가능

### 설치
scikit-learn은 두 개의 다른 파이썬 패키지 NumPy 넘파이 와 SciPy 사이파이 를 사용한다. 그래프를 그리기 위해 matplotlib 맷플롯립, 대화식 개발을 위해 IPython 아이파이썬 과 주피터 노트북이 필요하다.  
필요한 패키지를 모아놓은 파이썬 배포판 설치:  
* Anaconda (https://www.continuum.io/anaconda-overview)  
* Enthought Canopy (https://www.enthought.com/products/canopy/)  
* Python(x,y) (https://python-xy.github.io/)  

이미 파이썬을 설치했다면 pip 명령을 이용해 필요한 패키지를 설치한다  
$ pip install numpy scipy matplotlib ipython scikit-learn pandas pillow

## 필수 라이브러리와 도구들
사이킷런을 구성하는 NumPy 와 SciPy와 pandas, matplotlib, mglearn에 대해서 알아보자.

### NumPy

