## 6장 생성
데이터가 불균형할 경우 데이터를 조정해야하는데, 데이터를 생성해야 합니다.
데이터가 불균형하다는 것의 의미는 a랑 b로 구분을 해야하는데, 전체가 100만개인데, b상태는 100건정도 되는 경우랑 비슷하게 생각할 수 있습니다.
따라서 조정을 하는 방법은 첫번째가 가중치 부여가 있고, 두번째가 데이터를 변경하는 방법이 있는데, 가중치 부여는 머신러닝 특성에 따라 다르고, 사용하기 까다로워, 따로 소개는 안하겠습니다.

데이터를 변경하는 방법에는 언더샘플링, 오버샘플링이 있는데, 언더샘플링의 경우 데이터를 줄이는 작업이므로, 데이터를 선택하는 방법만 고려하면 되므로, 전의 내용(결합, 분할)에서 사용한 방법으로 구현이 가능합니다.
그러나 언더샘플링은 데이터를 걸러서 정보를 적게 만드므로, 되도록 사용안하는 것이 좋습니다.

# 오버샘플링으로 데이터 불균형 조정

오버샘플링은 원본 데이터에서 새로운 데이터를 생성하는 방법입니다.
그중 하나의 방법은 랜덤 샘플링으로 원래의 데이터 수보다 많은 데이터를 추출하는 것입니다.
그러나 똑같은 데이터가 생성되기 때문에, 과적합이 발생할 수 있습니다.
이를 해결하기 위해 오버샘플링 기법으로 'SMOTE'가 있습니다.
원리는 적기 힘드므로, 단순히 다수의 데이터를 복사하는 오버샘플링 보다는 어느정도 좋습니다.
그러나 SMOTE는 직선차원(2차원)에서 샘플링 하므로, 차수가 클 경우(3차원, 4차원) 언더샘플링과 배깅을 조합하는 것이 좋습니다.

배깅에는 랜덤 포레스트 등의 머신러닝 기법이 해당됩니다.

In [1]:
from imblearn.over_sampling import SMOTE
import pandas as pd
sm = SMOTE(sampling_strategy='auto', k_neighbors=5, random_state=71)

In [2]:
production_tb = pd.read_csv('C:/Users/User/daejeon/production.csv')
production_tb

Unnamed: 0,type,length,thickness,fault_flg
0,E,274.027383,40.241131,False
1,D,86.319269,16.906715,False
2,E,123.940388,1.018462,False
3,B,175.554886,16.414924,False
4,B,244.934740,29.061081,False
...,...,...,...,...
995,C,363.214163,48.369483,False
996,D,134.773797,26.861665,False
997,B,231.174985,7.087471,False
998,D,81.613510,5.716271,False


In [3]:
balance_data, balance_target = sm.fit_resample(production_tb[['length', 'thickness']],
                                            production_tb['fault_flg'])

balance_data

Unnamed: 0,length,thickness
0,274.027383,40.241131
1,86.319269,16.906715
2,123.940388,1.018462
3,175.554886,16.414924
4,244.934740,29.061081
...,...,...
1891,83.027175,12.307428
1892,76.554335,9.363658
1893,80.078486,10.566607
1894,115.081638,6.771068


In [4]:
balance_target.value_counts(True)

False    0.5
True     0.5
Name: fault_flg, dtype: float64

sm 객체를 통해 SMOTE 기법이 적용되는 객체를 만들고, fit_resample을 통해 오버샘플링을 적용합니다.
이때 fit_resample(x, y)에서 간단히 설명하자면,
여기서 length, thickness 보고 fault_flg를 예측하여야 하는데,
x 자리에는 length, thickness y 자리에는 fault_flg 를 넣으시면 됩니다.