### Regularized Linear Regression (정규화된 선형 회귀)

- 다중 회귀 모델은 복잡도가 높아서 과대적합(overfitting)되는 경향이 있다. 이를 해결하기 위해서는 규제(penalty)를 주어 복잡도를 감소시켜야 한다.

#### 라쏘(LASSO, Least Absolute Shrinkage and Selection Operator)
- L1 규제를 통한 정규화를 사용하는 방식이다.
- 규제항이 0에 수렴할 때 L1 정규화에서는 가중치(W)가 0이 될 수 있다.
- L1 NORM의 경우에 절대값에 대한 식이므로 미분이 불가능한 점이 있지만, 특정 방식을 통해 미분하면 가중치가 0이 된다. 따라서 경사하강법을 통해 학습하는 모델에는 적합하지 않다.
- 중요하지 않은 feature들은 모델에서 제외하여 모델을 단순하게 만들고, 가장 영향력이 큰 특성이 무엇인지 알 수 있기 때문에 모델의 해석력이 좋아진다.

<div style="display: flex; margin-  top:20px">
    <div>
        <img src="./images/regularized01.png" width="350" style="margin-left: 30px">
    </div>
    <div>
        <img src="./images/regularized02.png" style="margin-left: 50  px">
     
   
  
#### 릿지 (Ridge)
- L2 규제를 통한 정규화를 사용하는 방식이다.
- 규제항이 0에 수렴할 때 L2 정규화의 경우 가중치는 0이 될 수 없다.
- L2 NORM의 경우 미분했을 때 가중치가 남아있기 때문에, 경사하강법을 통해 학습하는 모델에 적합하다
- 값이 0이 되어 제외되는 feature가 없지만, 골고루 0에 가까운 값으로 작아지기 때문에 장기적으로 더 좋은 모델이 된다.  
  
<div style="display: flex; margin-top:20px">
    <div>
        <img src="./images/regularized03.png" width="350" style="margin-left: 30px">
    </div>
    <div>
        <img src="./images/regularized04.png" style="margin-left: 50px">
    </div>
</div>


**λ (Regulation parameter)**
- λ가 커지면 loss function을 최소화하는 과정에서 NORM이 작아지므로 규제가 강해졌다고 표현한다.
- λ가 작아지면 loss function을 최소화하는 과정에서 NORM이 커지므로 규제가 약해졌다고 표현한다.   </div>
</div>

##### 한국인 수익 예측
- id : 식별 번호
- year : 조사 년도
- wave : 2005년 wave 1위부터 2018년 wave 14위까지
- region: 1)서울 2)경기 3)경남 4)경북 5)충남 6)강원 & 충북 7)전라 & 제주
- income: 연간 수입 M원(백만원.1100원=1USD)
- family_member: 가족 구성원 수
- gender: 1) 남성 2) 여성
- year_born: 태어난 년도
- education_level:1)무교육(7세 미만) 2)무교육(7세 이상) 3)초등학교 4)중학교 5)고등학교 6)대학 학위 8)MA 9)박사 학위
- marriage: 혼인상태. 1)해당없음(18세 미만) 2)혼인중 3)사망으로 별거중 4)별거중 5)미혼 6)기타
- religion: 1) 종교 있음 2) 종교 없음  
- occupation: 직종 코드, 별도 첨부
- company_size: 기업 규모
- reason_none_worker: 1)능력 없음 2)군 복무 중 3)학교에서 공부 중 4)학교 준비 5)직장인 7)집에서 돌보는 아이들 8)간호 9)경제 활동 포기 10)일할 의사 없음 11)기타

In [40]:
import pandas as pd


i_df = pd.read_csv('./datasets/korean_income.csv', low_memory=False)

i_df


Unnamed: 0,id,year,wave,region,income,family_member,gender,year_born,education_level,marriage,religion,occupation,company_size,reason_none_worker
0,10101,2005,1,1,614.0,1,2,1936,2,2,2,,,8
1,10101,2011,7,1,896.0,1,2,1936,2,2,2,,,10
2,10101,2012,8,1,1310.0,1,2,1936,2,2,2,,,10
3,10101,2013,9,1,2208.0,1,2,1936,2,2,2,,,1
4,10101,2014,10,1,864.0,1,2,1936,2,2,2,,,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92852,98000701,2014,10,5,11600.0,6,1,1967,5,1,1,874,1,
92853,98000701,2015,11,5,8327.0,6,1,1967,5,1,1,874,1,
92854,98000701,2016,12,5,7931.0,6,1,1967,5,1,1,874,1,
92855,98000701,2017,13,5,8802.0,5,1,1967,5,1,1,874,1,


In [41]:
i_df.occupation.value_counts()

occupation
        33643
611     10079
941      2800
873      2595
312      2211
        ...  
1009        2
113         1
12          1
828         1
122         1
Name: count, Length: 244, dtype: int64

In [42]:
pre_i_df = i_df.copy()

pre_i_df['occupation'] = i_df['occupation'].apply(lambda x: x.replace(' ','0'))


In [43]:
import numpy as np

pre_i_df['occupation'] = pre_i_df.occupation.astype(np.int16)

In [44]:
pre_i_0_df = pre_i_df[pre_i_df.occupation == 0]

In [45]:
pre_i_df = pre_i_df.drop(index=pre_i_df[~pre_i_df.occupation.between(11,1012)].index, axis=0)

In [46]:
pre_i_df = pd.concat([pre_i_df, pre_i_0_df], axis=0)

In [48]:
pre_i_df.reset_index(drop=True, inplace=True)