# chapter01. Introduction

## 1.1 왜 머신러닝인가?

- 초창기 지능형 애플리케이션들은 `if`와 `for`의 향연으로 하드 코딩되어 있었습니다.

- 이런 방식을 **규칙 기반 전문가 시스템**이라고 하지만 이를 직접 구현하는 건 큰 단점이 있습니다.

    1. 결정에 필요한 로직이 특정 한 분야나 작업에 국한됩니다. 조금만 변경되어도 대대적인 수정이 필요합니다.
    
    2. 해당 분야 전문가들이 내리는 결정 방식에 대해 알아야 규칙을 설계할 수 있습니다.

- 이 문제를 해결하기 위해 머신러닝을 사용하게 되었습니다.

### 1.1.1 머신러닝으로 풀 수 있는 문제

- 가장 많이 사용되는 머신러닝 알고리즘은 이미 알려진 사례를 바탕으로 일반화된 모델을 만드는 **지도 학습**입니다.

    - 지도 학습은 사용자가 알고리즘에 입력과 그에 상응하는 출력을 제공하고 이를 알고리즘이 적절한 출력을 만드는 것입니다.

- 이렇게 학습된 알고리즘은 사람의 도움 없이도 새로운 입력을 받으면 적절한 출력을 만들 수 있습니다.

- 지도 학습 알고리즘은 분석하기 좋고 성능을 측정하기 쉽지만 입출력 데이터를 수작업으로 만들어야 합니다.

    - 지도 학습의 예로 우편번호 분석, 의료 영상을 기반으로 한 병 판단, 신용카드 부정 거래 감지 등이 있습니다.

- 반면 알고리즘에 입력은 주어지나 출력이 주어지지 않는 형태의 학습도 존재합니다. 이를 **비지도 학습**이라고 합니다.

    - 비지도 학습의 예로 블로그 글의 주제 구분, 고객의 취향 분석 및 그룹화, 비정상적 웹사이트 접근 탐지 등이 있습니다.

- 이들 학습은 모두 컴퓨터가 인식 가능한 형태의 데이터가 필요합니다.

    - 이 데이터 중 하나의 개체 혹은 행을 **샘플** 혹은 **데이터 포인트**라고 합니다.
    
    - 반면 샘플의 특성, 즉 열을 **특성**이라고 합니다.
    
    - 이들을 통해 좋은 입력 데이터를 만드는 것을 **특성 추출** 혹은 **특성 공학**이라고 합니다.

### 1.1.2 문제와 데이터 이해하기

- 머신러닝에서 가장 중요한 과정은 사용할 데이터를 이해하고 그 데이터가 해결해야 할 문제와 어떤 관련이 있는지 이해하는 일입니다.

- 이를 해결하기 위해 다음 질문을 새겨두는 것이 좋습니다.

    - 어떤 질문에 대한 답을 원하는 가? 가지고 있는 데이터가 원하는 답을 줄 수 있는가?
    
    - 내 질문을 머신러닝 문제로 가장 잘 기술하는 방법은 무엇인가?
    
    - 문제를 풀기에 충분한 데이터를 모았는가?
    
    - 내가 추출한 데이터의 특성은 무엇이며 좋은 예측을 만들어 낼 수 있는가?
    
    - 머신러닝 애플리케이션의 성과응 어떻게 측정할 수 있는가?
    
    - 머신러닝 솔루션이 다른 연구나 제품과 어떻게 협력할 수 있는가?

- 넓은 시각으로 머신러닝 알고리즘이나 방법론은 특정 문제를 푸는 전체 과정의 일부일 뿐이므로 전체 시스템에 대해 항상 생각해야 합니다.

## 1.2 왜 파이썬인가?

- python은 범용 프로그램ㅇ 언어의 장점에 특정 분야를 위한 스크립팅 언어의 편리함을 가졌습니다.

    - 대표적으로 데이터 적재, 시각화, 통계, 자연어 처리, 이미지 처리 등 다양한 라이브러리가 있습니다.

- 이러한 도구가 풍부하고 일반적이면서 특수한 기능을 제공합니다.

    - 터미널이나 jupyter notebook 같은 대화형 프로그래밍이 가능하다는 점도 있습니다.

- 이러한 장점은 머신러닝이나 데이터 분석 같은 반복 작업에 용이하고 GUI, 웹 서비스 제작 등 기존 시스템에 통합하기 좋습니다.

## 1.3 scikit-learn

- 오픈 소스인 scikit-learn은 머신러닝 알고리즘들과 이를 설명한 [문서](http://scikit-learn.org/stable/documentation)을 제공합니다.

    - 앞으로 scikit-learn의 [사용자 가이드](http://scikit-learn.org/stable/user_guide.html)과 [API 문서](http://scikit-learn.org/stable/modules/classes.html)을 같이 참고하며 상세한 내용과 다양한 옵션을 확인하세요.

### 1.3.1 scikit-learn 설치

- scikit-learn은 **NumPy**와 **SciPy**, matplotlib, IPython, notebook 등을 사용합니다. 이들을 설치하는 대표적인 방법은 다음과 같습니다.

    1. [Anaconda](https://www.continuum.io/anaconda-overview/)
    
        - 대용향 데이터 처리, 예측 분석, 과학 계산용 python 배포판입니다. 필요한 라이브러리들을 전부 내장하고 있습니다.
    
    2. [Enthought Canopy](https://www.enthought.com/products/canopy/)
    
        - 다른 과학 계산용 python 배포판 이지만 무료 버전에 scikit-learn이 없는 것이 단점입니다.
    
    3. [Python(x, y)](http://python-xy.githubio/)
    
        - 윈도우 환경을 위한 무료 python 배포판입니다.

- 만약 python이 이미 설치했다면 다음 pip 명령어를 통해 처리할 수 있습니다.

```bash
$ pip install numpy scipy matplotlib, ipython scikit-learn pandas pillow
```

> 이 외에도 `graphviz`, `nltk`, `spacy`와 같은 라이브러리도 사용하지만 사용하게 될 경우 추가로 설치하겠습니다.