# Machine Learning : Concepts, Methods and Tools

## What is Machine Learning?


### Limitations of explicit programming
- 기존의 방식은 데이터와 프로그래밍, 즉 코딩을 통해 결과를 내는 방식

### Machine learning
- Field of study that gives computers the ability to learn without being explicitly programmed.
- 머신러닝은 데이터와 결과를 주면 프로그램 규칙을 컴퓨터가 찾아주는 방식

##### Feature engineering : 
- 얼마만큼의 X 변수를 잘 만드냐에 따라 모델 성능의 결과가 다름

<img src="images/Picture1.png"/>

## Why use Machine Learning ?
- Problems for which existing solutions require a lot of han-tuning or longlists of rules 
> **one machine learning algorithm can often simplify code and perform better**
- Complex problems for which there is no good solution at all using a traditional approach 
> **the best machine learning techniques can find a solution**
- Fluctuating environments (유동적인 환경)
> ** a machine learning systm can adapt to new data**
- Getting insights about complex problems and large amounts of data

## Limitaions of Machine Learning
- 과적합(over-fitting) 또는 과도한 일반화(Overgeneralization) 문제
- 모델 성능 약화(model performance deterioration)
- 활용할 수 있는 정확한 데이터가 충분하지 않을 경우
- 영역 복잡성(Domain Complexity)
- 샘플링 오류 및 편향(Sampling Error or Bias) 문제
- 미래 데이터 유출(Data Leakage from the Future)

<img src="images/Picture2.png"/>

## Traditional ML vs. deep learning
<img src="images/Picture3.png" />

*Coming up wih features is difficult, time-consuming, requires expert knowledge. "Applied machine learning" is basically feature engineering.*

*딥러닝은 이미지, 오디오 그리고 텍스트에 특화되어 있다. 즉 예측률이 좋다. 딥러닝의 기본 전제는 위와같이 피쳐엔지니어링을 안하는 것이지만 현재 비즈니스 추세는 features 가 필요하여 하이브리드로 가는 추세이다.*

## Types of Machine Learning
> 머신러닝의 대부분은 지도학습으로 사용되며, Classification 이 70~80%, 나머지가 Regression(연속값 예측) 분석으로 사용된다.

#### Machine Learning
1. Supervised Learning (지도학습 Predictive Analytics)
 - Classification
    - binary
    - multiclass
 - Regression
2. Unsupervised Learning (비지도학습 Descriptive Analytics)
 - Clustering
 - Dimensionality reduction
 - Association rule learning

## Naming Conventions (규약)
- **Features = predictor variables = independent variables**
- **Class = target variable = dependent variable**

## 분류(Classification) 분석

### 분류분석의 개념
<img src="images/Picture4.png" />


### 분류분석 기법
> 분류 분석은 선(SVM), 면(Decision Tree, Random Forest), 비선형(Neural Network)가 있으며 과적합 문제가 있으므로 어떤 기법이 최적인지는 전부 해봐야 알 수 있다.

#### 시각적해석

<img src="images/Picture5.png" />

#### Support Vector Machines

<img src="images/Picture6.png" />

#### Decision Tree based Methods

<img src="images/Picture7.png" />

#### Neural Networks

<img src="images/Picture8.png" />

### Overfitting vs. Underfitting

#### 과도적합(overfitting)
- 모델이 데이터에 필요이상으로 적합한 모델
- 데이터 내에 존재하는 규칙 뿐만 아니라 불완전한 레코드도 학습

#### 과소적합(underfitting)
- 모델이 데이터에 제대로 적합하지 못한 모델
- 데이터 내에 존재하는 규칙도 제대로 학습하지 못함

<img src="images/Picture9.png" />

### 차원의 저주(Curse of Dimensionality)

- Feature는 최대한 많이 만들고 줄여나가야 한다.
- Feature의 수가 증가하면 (같은 비율의 공간을 채우기 위해 변수 1개당) 분석에 필요한 데이터의 양은 기하급수적으로 증가한다.
<img src="images/Picture10.png" />
- 충분한 데이터가 없다면 적은 데이터로 공간을 설명해야 하기 때문에 Overfitting이 발생하게 되고, 결국 모형의 성능이 떨어지게 된다.(일반화가 안됨)
<img src="images/Picture11.png" />
- 해결방법 : feature reduction or feature selection

### 데이터 분할(Data Partitioning)

<img src="images/Picture12.png" />
- 모형의 Overfitting 여부(일반화 가능성)를 검증하기 위해 데이터를 학습용과 평가용으로 분리
- 학습데이터(Training data) -> 모형 적합(Model Fitting)
- 평가데이터(Test data) -> 모형 평가(Model Evaluation)
- 60%(학습) - 40%(평가), 75%(학습) - 25%(평가) 분할을 주로 사용

### Data Structure for Classification

<img src="images/Picture13.png" />
- 모든 데이터가 하나의 테이블에 존재해야 한다.
- 각 행은 기업과 관련있는 한 개체(Ex: 고객)에 대응해야 한다.
- 하나의 값을 갖는 필드는 무시되어야 한다.
- 대부분이 한 값을 갖는 필드도 가급적 무시되어야 한다.
- 각 행마다 다른 값들을 가지는 필드는 무시되어야 한다.
- 목표필드와 지나치게 높은 상관관계를 갖는 필드는 제거되어야 한다.

### 분류분석이 적용될 수 있는 비즈니스 문제

- 특정 상품(Ex: 퇴직연금)에 가입할 가능성이 높은 고객은 누구인가?
- 추가 가입을 유도하기 위해 대상고객에게 어떤 상품을 추천해야 하는가?
- 향후 6개월 안에 이탈(Ex: 계약 만기 전에 실효 또는 중도 해약)할 가능성이 높은 고객들은 누구이며 그들의 특징은?
- 고객별 LTV(Life Time Value)를 계산해 주는 모델은?

- Ex: LTV = 현재 고객의 기여가치 + 추가 구매확률에 의한 기여가치 - 이탈확률에 의한 손실 가치
- 담보대출 고객 중에서 누가 향후 90일 내에 조기상환할 것인가?
- 각 고객별로 클릭할 가능성이 가장 높은 광고는 어떤 것인가?
- 고객별로 어떤 할인쿠폰이 다음달에 사용될 것인가?
- 추후 VIP의 고객이 될 가능성이 높은 고객들은?
- 누가 차량사고를 낼 것인가?
- 누가 이직할 것인가?

### 지도학습이 발견한 이상하고 놀라운 사실

- 배너광고를 본 사람 중 61%는 그와 관련된 검색을 할 가능성이 높다.
- 맥 사용자들은 상대적으로 더 비싼 호텔을 예약한다.
- 금융 및 주식사이트는 오후1시 직후가 접속 피크다.
- 이메일 주소는 그 사람의 충성도를 암시한다.
- 신용카드를 술집에서 자주 사용한다면 결제대금을 연체할 위험이 높다.
- 신용등급이 낮을수록 자동차 사고를 낼 확률이 높다.
- 이미 여러개의 계좌를 개설한 고객들에게 우편물을 보내면 오히려 그들이 더 많은 계좌를 개설할 가능성을 낮춘다.
- 약정기간이 끝났는지 온라인으로 알아보는 고객은 경쟁업체로 넘어갈 가능성이 높다.
- 직무순환을 많이 한 직원일수록 회사에 더 오래 다니는 경향이 있다.
- 스테이플러는 일자리를 의미한다.

# Machine Learning Process

## CRISP-DM : SPSS에서 제시하는 데이터 마이닝 프로세스
>CRISP-DM(cross-industry standard process for data mining)은 데이터마이닝에 관련된 광버위한 업무의 범위를 다루고 있음.

<img align="left" src="http://www.kdnuggets.com/wp-content/uploads/crisp-dm-4-problems-fig1.png" alt="CRISP-DM">
<img align="left" src="http://www.dataprix.com/files/CRISPDM/Metodologia_CRISP_DM1_html_52cdbecf.png", alt="CRISP-DM">

- 단계 1: 비즈니스 이해(Business Understanding)
  - 각종 참고 자료와 현업 책임자와의 커뮤니케이션을 통해 해당 비즈니스를 이해하는 단계
- 단계 2: 데이터 이해(Data Understanding)
  - 레코드 수, 변수 종류, 자료의 질 등, 현업이 보유 관리하고 있는 데이터를 이해하는 단계
- 단계 3: 데이터 준비(Data Preparation)
  - 데이터의 정제, 새로운 데이터 생성 등, 자료를 분석 가능한 상태로 만드는 단계
- 단계 4: 모델링(Modeling)
  - 자료 기술 및 탐색을 포함하여 필요한 각종 모델링을 하는 단계
- 단계 5: 평가(Evaluation)
  - 모형의 해석 가능 여부, 독립적인 새 자료에 적용되는 경우에도 재현 가능한지를 검토하는 단계
- 단계 6: 전개(Deployment)
  - 각 관리자에게 전달하여 필요한 조치를 취하는 등 검토가 끝난 모형을 실제 현업에 적용하는 단계


## Predictive Analytics Process

<img src="images/Picture14.png" />

## Excercise #1

### Step 1: Business Understanding

- 사업 목적
  - 새로운 개인연금상품(PEP: Personal Equity Plan)을 개발하여 기존 고객들을 대상으로 가능한 많은 계좌를 유치
- 분석 목적
  - PEP 가입 예측모형 개발
  - 고객 프로파일 개발
  - 다이렉트 메일 광고 효율성 제고
  - 타겟 메일링에 의한 응답률 제고

### Step 2: Data Understanding
- 데이터 획득 절차
  1. 기존고객 DB로부터 시험메일 발송을 위한 표본고객목록을 추출
  2. 새로운 금융상품(PEP)의 제안 메일을 발송
  3. 고객의 반응을 기록
- 분석 데이터
  - 학습용 데이터 600건
  - 신규고객 데이터 200건

<font color = "blue">
##### Frequently used libraries in Module 3 & 4 #####

In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

### Collect Initial Data

#### Create the Workspace

In [2]:
%lsmagic

Available line magics:
%alias  %alias_magic  %autocall  %automagic  %autosave  %bookmark  %cd  %clear  %cls  %colors  %config  %connect_info  %copy  %ddir  %debug  %dhist  %dirs  %doctest_mode  %echo  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %macro  %magic  %matplotlib  %mkdir  %more  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %popd  %pprint  %precision  %profile  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %ren  %rep  %rerun  %reset  %reset_selective  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%cmd  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%markdown  %%perl  %%prun  %%pypy  %%python  %%python2  %%py

In [3]:
# Change working directory
#%cd c:/+module3

#### Read Initial Data

In [4]:
#for modeling
df = pd.read_csv("data/M3T1_data_pepTestCustomers.csv")
#for deployment
new = pd.read_csv("data/M3T1_data_pepNewCustomers.csv")

### Describe Data

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 600 entries, 0 to 599
Data columns (total 12 columns):
id             600 non-null object
age            600 non-null int64
sex            600 non-null int64
region         600 non-null int64
income         600 non-null float64
married        600 non-null int64
children       600 non-null int64
car            600 non-null int64
save_act       600 non-null int64
current_act    600 non-null int64
mortgage       600 non-null int64
pep            600 non-null int64
dtypes: float64(1), int64(10), object(1)
memory usage: 56.3+ KB


In [11]:
df.head(10)

Unnamed: 0,id,age,sex,region,income,married,children,car,save_act,current_act,mortgage,pep
0,ID12101,48,0,0,17546.0,0,1,0,0,0,0,1
1,ID12102,40,1,3,30085.1,1,3,1,0,1,1,0
2,ID12103,51,0,0,16575.4,1,0,1,1,1,0,0
3,ID12104,23,0,3,20375.4,1,3,0,0,1,0,0
4,ID12105,57,0,1,50576.3,1,0,0,1,0,0,0
5,ID12106,57,0,3,37869.6,1,2,0,1,1,0,1
6,ID12107,22,1,1,8877.07,0,0,0,0,1,0,1
7,ID12108,58,1,3,24946.6,1,0,1,1,1,0,0
8,ID12109,37,0,2,25304.3,1,2,1,0,0,0,0
9,ID12110,54,1,3,24212.1,1,2,1,1,1,0,0
