### Regularized Linear Regression (정규화된 선형 회귀)

- 다중 회귀 모델은 복잡도가 높아서 과대적합(overfitting)되는 경향이 있다. 이를 해결하기 위해서는 규제(penalty)를 주어 복잡도를 감소시켜야 한다.

#### 라쏘(LASSO, Least Absolute Shrinkage and Selection Operator)
- L1 규제를 통한 정규화를 사용하는 방식이다.
- 규제항이 0에 수렴할 때 L1 정규화에서는 가중치(W)가 0이 될 수 있다.
- L1 NORM의 경우에 절대값에 대한 식이므로 미분이 불가능한 점이 있지만, 특정 방식을 통해 미분하면 가중치가 0이 된다. 따라서 경사하강법을 통해 학습하는 모델에는 적합하지 않다. 
- 중요하지 않은 feature들은 모델에서 제외하여 모델을 단순하게 만들고, 가장 영향력이 큰 특성이 무엇인지 알 수 있기 때문에 모델의 해석력이 좋아진다.

<div style="display: flex; margin-top:20px">
    <div>
        <img src="./images/regularized01.png" width="350" style="margin-left: 30px">
    </div>
    <div>
        <img src="./images/regularized02.png" style="margin-left: 50px">
    </div>
</div>


#### 릿지(Ridge)
- L2 규제를 통한 정규화를 사용하는 방식이다.
- 규제항이 0에 수렴할 때 L2 정규화의 경우 가중치는 0이 될 수 없다.
- L2 NORM의 경우 미분했을 때 가중치가 남아있기 때문에, 경사하강법을 통해 학습하는 모델에 적합하다.
- 값이 0이 되어 제외되는 feature가 없지만, 골고루 0에 가까운 값으로 작아지기 때문에 장기적으로 더 좋은 모델이 된다.

<div style="display: flex; margin-top:20px">
    <div>
        <img src="./images/regularized03.png" width="350" style="margin-left: 30px">
    </div>
    <div>
        <img src="./images/regularized04.png" style="margin-left: 50px">
    </div>
</div>


**λ (Regulation parameter)**
- λ이 커지면 loss function을 최소화하는 과정에서 NORM이 작아지므로 규제가 강해졌다고 표현한다.
- λ이 작아지면 loss function을 최소화하는 과정에서 NORM이 커지므로 규제가 약해졌다고 표현한다.



#### L1 규제란
- 머신러닝 및 통계에서 과적합을 방지하거나 모델의 가중치를 단순화하기 위해 사용되는 규제기법. 비용함수에 추가적인 패널티를 도입하여 모델의 복잡성을 제어하고, 일반화 성능을 향상시킨다.
- 모델의 가중치가 0이 되도록 만드는 특성을 특성을 가지고 있다. 이는 중요하지 않은 가중치를 0으로 만드는 효과가 있으며, 결과적으로 모델이 더 희소해지고, 특성 선택(feature selection) 효과가 나타난다. 이를 통해 과적합을 줄이고 모델을 간단하게 만든다.
- L1 규제는 주로 선형 모델(라쏘 회귀, 로지스틱 회귀) 및 인공신경망의 가중치를 규제하기 위해 사용된다. 많은 특성 중 중요한 특성만 선택하려는 경우 유용하다.

#### L2 규제란
- 머신러닝과 통계에서 모델의 복잡성을 제한하고 과적합을 방지하기 위해 사용하는 기술이다. 비용 함수에 가중치의 제곱을 합친 항을 추가하여, 모델이 지나치게 복잡해지지 않도록 제약을 부과한다.
- 비용함수에 모델의 가중치의 제곱의 합을 추가하는 방식이다. 이 추가적인 항을 릿지 규제라고 한다.
- L2 규제는 가중치가 너무 커지지 않도록 제한하는 효과가 있다. 이는 가중치의 크기를 작게 유지하여 모델이 훈련 데이터에 과도하게 적합되는 것을 방지하고, 모델의 일반화 성능을 향상시킨다.
- L2 규제는 선형모델, 신경망, 서포트 벡터 머신 등 다양한 모델에서 사용된다. 특히 데이터의 특성이 많거나, 모델이 복잡한 경우에 과적합을 방지하는데 유용하다.



##### 한국인 수익 예측
- id : 식별 번호
- year : 조사 년도
- wave : 2005년 wave 1위부터 2018년 wave 14위까지
- region: 1)서울 2)경기 3)경남 4)경북 5)충남 6)강원 & 충북 7)전라 & 제주
- income: 연간 수입 M원(백만원.1100원=1USD)
- family_member: 가족 구성원 수
- gender: 1) 남성 2) 여성
- year_born: 태어난 년도
- education_level:1)무교육(7세 미만) 2)무교육(7세 이상) 3)초등학교 4)중학교 5)고등학교 6)대학 학위 8)MA 9)박사 학위
- marriage: 혼인상태. 1)해당없음(18세 미만) 2)혼인중 3)사망으로 별거중 4)별거중 5)미혼 6)기타
- religion: 1) 종교 있음 2) 종교 없음  
- occupation: 직종 코드, 별도 첨부
- company_size: 기업 규모
- reason_none_worker: 1)능력 없음 2)군 복무 중 3)학교에서 공부 중 4)학교 준비 5)직장인 7)집에서 돌보는 아이들 8)간호 9)경제 활동 포기 10)일할 의사 없음 11)기타

In [11]:
import pandas as pd

i_df = pd.read_csv('./datasets/korean_income.csv', low_memory=False)
i_df

Unnamed: 0,id,year,wave,region,income,family_member,gender,year_born,education_level,marriage,religion,occupation,company_size,reason_none_worker
0,10101,2005,1,1,614.0,1,2,1936,2,2,2,,,8
1,10101,2011,7,1,896.0,1,2,1936,2,2,2,,,10
2,10101,2012,8,1,1310.0,1,2,1936,2,2,2,,,10
3,10101,2013,9,1,2208.0,1,2,1936,2,2,2,,,1
4,10101,2014,10,1,864.0,1,2,1936,2,2,2,,,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92852,98000701,2014,10,5,11600.0,6,1,1967,5,1,1,874,1,
92853,98000701,2015,11,5,8327.0,6,1,1967,5,1,1,874,1,
92854,98000701,2016,12,5,7931.0,6,1,1967,5,1,1,874,1,
92855,98000701,2017,13,5,8802.0,5,1,1967,5,1,1,874,1,


In [12]:
i_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92857 entries, 0 to 92856
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  92857 non-null  int64  
 1   year                92857 non-null  int64  
 2   wave                92857 non-null  int64  
 3   region              92857 non-null  int64  
 4   income              92857 non-null  float64
 5   family_member       92857 non-null  int64  
 6   gender              92857 non-null  int64  
 7   year_born           92857 non-null  int64  
 8   education_level     92857 non-null  int64  
 9   marriage            92857 non-null  int64  
 10  religion            92857 non-null  int64  
 11  occupation          92857 non-null  object 
 12  company_size        92857 non-null  object 
 13  reason_none_worker  92857 non-null  object 
dtypes: float64(1), int64(10), object(3)
memory usage: 9.9+ MB


In [13]:
i_df.occupation.value_counts()

occupation
        33643
611     10079
941      2800
873      2595
312      2211
        ...  
1009        2
113         1
12          1
828         1
122         1
Name: count, Length: 244, dtype: int64

In [14]:
i_df[i_df.occupation == ' ']

Unnamed: 0,id,year,wave,region,income,family_member,gender,year_born,education_level,marriage,religion,occupation,company_size,reason_none_worker
0,10101,2005,1,1,614.0,1,2,1936,2,2,2,,,8
1,10101,2011,7,1,896.0,1,2,1936,2,2,2,,,10
2,10101,2012,8,1,1310.0,1,2,1936,2,2,2,,,10
3,10101,2013,9,1,2208.0,1,2,1936,2,2,2,,,1
4,10101,2014,10,1,864.0,1,2,1936,2,2,2,,,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92843,97990701,2012,8,6,1591.0,2,1,1932,2,1,2,,,1
92845,97990701,2014,10,6,1612.0,2,1,1932,2,1,2,,,10
92846,97990701,2015,11,6,1899.0,2,1,1932,2,1,2,,,10
92847,97990701,2016,12,6,1770.3,2,1,1932,2,1,2,,,10
