# 11. Imbalanced data

- 비대칭적인 데이터
- 비(Im-) 대칭(balanced)

- 데이터가 많은 쪽(majority)으로 편향되는 경향

- 보통은 데이터가 적은 쪽(minority)에 관심
 - 예: 암, 구매고객 등

- 텍스트 분석에서도 흔히 발생
- 보통 우리가 관심이 많은 쪽은 마이너리티 쪽이 많다. 
 - 예) 병에 걸린사람을 찾고 싶다. <br>이메일을 감시하고 있다가 정보를 유출하는 직원을 찾고싶으면, 보안을 위배하는 경우를 찾기 힘들고 …..


## 11.1 해결책
 - 비용 함수 기반
  - Minority에 가중치를 두어 학습
  - 알고리즘 자체를 수정해야되어 어려운 방법임
 
 - 샘플링 기반(많이 사용)
  - 언더샘플링 (Undersampling): 데이터를 줄임
  - 오버샘플링 (Oversampling) : 데이터를 늘림 -> 있는 데이터를 재활용 (데이터를 2번 넣는다와 같은 방법 조금 세련된 방법)

### 실습
 - stackoverflow에서 python 4 : R 1 정도의 경우가 글이 나온다. 

In [1]:
import itertools
import re

import lxml.html
import requests
import tqdm

In [2]:

url_base = 'http://stackoverflow.com/questions/tagged/{tag}?page={page}&sort=newest&pagesize=50'

In [3]:
tags = ['python', 'r']

In [4]:
list(itertools.product(tags, range(1, 3)))

[('python', 1), ('python', 2), ('r', 1), ('r', 2)]

In [5]:
tag_page = list(itertools.product(tags, range(1, 21)))

titles = []
title_tag = []
for tag, page in tqdm.tqdm_notebook(tag_page):
    url = url_base.format(tag=tag, page=page)
    res = requests.get(url)
    root = lxml.html.fromstring(res.text)
    for link in root.cssselect('h3 a.question-hyperlink'):
        title = link.text
        title = re.sub(tag, ' ', title, flags=re.IGNORECASE)
        titles.append(title)
        title_tag.append(tag)




In [6]:
print(len(titles))
print(len(title_tag))

2000
2000


#### 데이터 준비 
#### TDM

In [7]:
from sklearn.feature_extraction.text import CountVectorizer

In [9]:
cv = CountVectorizer(stop_words='english', max_features=1000)
tdm = cv.fit_transform(titles)
tdm

<2000x1000 sparse matrix of type '<class 'numpy.int64'>'
	with 8786 stored elements in Compressed Sparse Row format>

#### train-test split

In [10]:
from sklearn.model_selection import train_test_split

In [11]:
X_train, X_test, y_train, y_test = train_test_split(tdm, title_tag, test_size=0.2)

#### Logistic Regression
#### training

In [12]:
from sklearn.linear_model import LogisticRegressionCV

In [13]:
logreg = LogisticRegressionCV()
logreg.fit(X_train, y_train)

LogisticRegressionCV(Cs=10, class_weight=None, cv=None, dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
           refit=True, scoring=None, solver='lbfgs', tol=0.0001, verbose=0)

#### 결과

In [15]:
logreg.C_

array([ 2.7825594])

In [16]:
logreg.classes_

array(['python', 'r'], 
      dtype='<U6')

In [17]:
logreg.score(X_train, y_train)  # accuracy

0.98187500000000005

In [18]:
logreg.score(X_test, y_test)  # accuracy

0.91000000000000003

#### 평가

In [19]:
y_logreg = logreg.predict(X_test)

In [20]:
from sklearn import metrics

In [21]:
metrics.confusion_matrix(y_test, y_logreg)  # row: true, col: predicted

array([[188,  11],
       [ 25, 176]])

In [22]:
metrics.accuracy_score(y_test, y_logreg)

0.91000000000000003

### Imbalanced data로 만들기

In [23]:
import numpy 

In [24]:
len(y_train)

1600

In [29]:
list(enumerate(y_train))[:5]

[(0, 'r'), (1, 'r'), (2, 'python'), (3, 'python'), (4, 'python')]

In [25]:
imb_id = []
count = 0
for i, tag in enumerate(y_train):
    if tag == 'python':
        imb_id.append(i)
    elif count < 200:
        imb_id.append(i)
        count += 1

### Imbalanced data로 만들기

In [30]:
X_imb = X_train[imb_id, :]
y_imb = numpy.array(y_train)[imb_id]

In [31]:
X_imb.shape

(1001, 1000)

In [32]:
model_imb = LogisticRegressionCV()
model_imb.fit(X_imb, y_imb)

LogisticRegressionCV(Cs=10, class_weight=None, cv=None, dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
           refit=True, scoring=None, solver='lbfgs', tol=0.0001, verbose=0)

In [33]:
y_pred_imb = model_imb.predict(X_test)

In [34]:
metrics.confusion_matrix(y_test, y_pred_imb)  # row: true, col: predicted

array([[184,  15],
       [ 64, 137]])

 - R글인데 Python으로 많이 판정하게 되었다. => 편향되어 
 - 정확도 또한 떨어지게 되었다.

In [35]:
metrics.accuracy_score(y_test, y_pred_imb)

0.80249999999999999

## 11.2 언더샘플링
### 11.2.1 Tomek link
 - Tomek link: 가장 비슷한 데이터가 다른 분류인 데이터 ( <- 이것을 Tomek link)
 - 제거하면 사이가 벌어져서 분류가 잘 됨
 - 비무장 지대 처럼 만들어버린다(경계선 부분에 데이터를 없애버린다. 실제로는 경계선이 데이터가 없는 쪽으로 밀려져버린다)

![img1](img/0520/1.PNG)

## 11.3 오버샘플링 
### 11.3.1 SMOTE (Synthetic Minority Over-Sampling Technique)
- 마이너리티를 합성한다.

#### 11.3.1.1 SMOTE 종류 
 - Regular
 - Borderline
 - SVM
 - ADASYN

#### 11.3.1.2 SMOTE - Regular
 - minority에서 무작위로 데이터 A를 뽑는다
 - minority 중에 뽑힌 데이터와 비슷한 데이터 B를 찾는다 
 - 각 변수를 A와 B 사이에 랜덤하게 만든 새 데이터 C를 추가한다
 
|        | SkLearn | Anaconda |
|--------|---------|----------|
| A      | 10      | 15       |
| B      | 12      | 13       |
| C(new) | 11      | 14       |

#### 11.3.1.3 SMOTE - Borderline
- minority에서 무작위로 데이터 A를 뽑는다
- minority 중에 뽑힌 데이터와 가장 비슷한 데이터들을 찾는다
- 경계선에 가까운 데이터만 합성한다
 - 비슷한 데이터가 모두 majority -> 잡음일 가능성 높음
 - 비슷한 데이터가 모두 minority -> 굳이 합성할 필요 X
 - 비슷한 데이터 중 major와 minor 비율이 비슷 -> 합성 (합성방법은 위와 같다.)

- SVM 에서 margin에서 가장 가까운 데이터들만 신경쓰고 비교 하면되지만 뒤에 있는 데이터는 신경 쓸 필요가 없다 (너무 차이가 나기 때문에) 
 - 경계선에만 데이터를 합성을 더 많이 해주자 . 

![img2](img/0520/2.PNG)

#### 11.3.1.4 SMOTE - Borderline 변형 
![img3](img/0520/3.PNG)

#### 11.3.1.5 SMOTE - SVM
 - SVM을 수행한다
 - 경계선과 가장 가까운 데이터 A를 찾는다
 - A와 가장 비슷한 데이터들을 고른다
 - 비슷한 데이터들의 분류에 따라 내삽 또는 외삽을 한다
  - 내삽 (interpolation) : 나온 숫자들 사이의 데이터를 넣는 것 (Regular 방법 참조.) 
  - 외삽 (extrapolation): Majority 쪽으로 데이터를 만든다. 경계선을 밀어내는 느낌 
![img4](img/0520/4.PNG)

#### 11.3.1.6 SMOTE - ADASYN
 - 주변에 majority가 많은 minority 데이터에서 더 많이 합성 
  - 예) 주변에 적이 많을 수록 아군이 많이 필요하다. 라는 개념 

### 실습 
### SMOTE

In [37]:
from imblearn.over_sampling import SMOTE

In [38]:
sm = SMOTE(kind='svm')  # kind = ['regular', 'borderline1', 'borderline2', 'svm]

In [39]:
X_sm, y_sm = sm.fit_sample(X_imb.toarray(), y_imb)

In [40]:
X_sm.shape

(1602, 1000)

In [41]:
model_sm = LogisticRegressionCV()
model_sm.fit(X_sm, y_sm)

LogisticRegressionCV(Cs=10, class_weight=None, cv=None, dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
           refit=True, scoring=None, solver='lbfgs', tol=0.0001, verbose=0)

In [42]:
y_pred_sm = model_sm.predict(X_test)

In [43]:
metrics.confusion_matrix(y_test, y_pred_sm)  # row: true, col: predicted

array([[178,  21],
       [ 41, 160]])

In [44]:
metrics.accuracy_score(y_test, y_pred_sm)

0.84499999999999997

#### 다른 방식들

In [84]:
sm2 = SMOTE(kind='borderline2')

In [85]:
X_sm2, y_sm2 = sm2.fit_sample(X_imb.toarray(), y_imb)

In [86]:
X_sm2.shape

(1601, 1000)

In [87]:
model_sm2 = LogisticRegressionCV()
model_sm2.fit(X_sm2, y_sm2)

LogisticRegressionCV(Cs=10, class_weight=None, cv=None, dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
           refit=True, scoring=None, solver='lbfgs', tol=0.0001, verbose=0)

In [88]:
y_pred_sm2 = model_sm2.predict(X_test)

In [89]:
metrics.confusion_matrix(y_test, y_pred_sm)  # row: true, col: predicted

array([[178,  21],
       [ 41, 160]])

In [90]:
metrics.accuracy_score(y_test, y_pred_sm2)

0.84750000000000003

 - Regular : 0.8575
 - Border 1 : 0.854999
 - Border 2 : 0.8475

### ADASYN

In [45]:
from imblearn.over_sampling import ADASYN

In [46]:
ada = ADASYN()
X_ada, y_ada = ada.fit_sample(X_imb.toarray(), y_imb)
model_ada = LogisticRegressionCV()
model_ada.fit(X_ada, y_ada)

LogisticRegressionCV(Cs=10, class_weight=None, cv=None, dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
           refit=True, scoring=None, solver='lbfgs', tol=0.0001, verbose=0)

In [47]:
y_pred_ada = model_ada.predict(X_test)

In [48]:
metrics.confusion_matrix(y_test, y_pred_ada)  # row: true, col: predicted

array([[185,  14],
       [ 60, 141]])

In [49]:
metrics.accuracy_score(y_test, y_pred_ada)

0.81499999999999995

### Tomek link + SMOTE

In [50]:
from imblearn.combine import SMOTETomek 

In [51]:
tomek = SMOTETomek(kind_smote='regular')
X_tomek, y_tomek = tomek.fit_sample(X_imb.toarray(), y_imb)
model_tomek = LogisticRegressionCV()
model_tomek.fit(X_tomek, y_tomek)

LogisticRegressionCV(Cs=10, class_weight=None, cv=None, dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
           refit=True, scoring=None, solver='lbfgs', tol=0.0001, verbose=0)

In [52]:
y_pred_tomek = model_tomek.predict(X_test)

In [53]:
metrics.confusion_matrix(y_test, y_pred_tomek)  # row: true, col: predicted

array([[169,  30],
       [ 34, 167]])

In [54]:
metrics.accuracy_score(y_test, y_pred_tomek)

0.83999999999999997