### Regularized Linear Regression (정규화된 선형 회귀)
- 다중 회귀 모델은 복잡도가 높아서 과대적합(overfitting)되는 경향이 있다.
- 이를 해결하기 위해서는 규제(penalty)를 주어 복잡도를 감소시켜야 한다.

#### 라쏘 (LASSO, Least Absolute Shrinkage and Selection Operator)
- L1 규제를 통한 정규화(L1 Norm)를 사용하는 방식이다.
- 규제항이 0에 수렴할 때 L1 정규화에서는 가중치(W)가 0이 될 수 있다.
- L1 정규화의 경우 절대값에 대한 식이므로 미분이 불가능한 지점이 있지만,  
  특정 방식을 통해 미분하면 가중치가 0이 된다.
- 위의 성질 때문에 경사하강법을 통해 학습하는 모델에는 적합하지 않다.
- 중요도가 떨어지는 feature들은 모델에서 제외하는 식으로 모델을 단순화하고,  
  가장 영향력이 큰 feature가 무엇인지 알 수 있기 때문에 모델의 해석력이 향상된다.

<div style="display: flex; margin-top:20px">
    <div>
        <img src="./images/regularized01.png" width="350" style="margin-left: 30px">
    </div>
    <div>
        <img src="./images/regularized02.png" style="margin-left: 50px">
    </div>
</div>


#### 릿지 (Ridge)
- L2 규제를 통한 정규화(L2 Norm)를 사용하는 방식이다.
- 규제항이 0에 수렴할 때 L2 정규화의 경우 가중치는 0이 될 수 없다.
- L2 정규화의 경우 미분했을 때 가중치가 남아있기 때문에 경사하강법을 사용하는 모델에 적합하다.
- 값이 0이 되어 제외되는 feature가 없지만,  
  골고루 0에 수렴하는 방향으로 작아지기 때문에 장기적으로 봤을 때 더 좋은 모델이 된다.

**λ (Regulation Parameter)**
- λ이 커지면 Loss Function을 최소화하는 과정에서 Norm이 작아지므로 규제가 강해졌다고 표현한다.
- λ이 작아지면 Loss Function을 최소화하는 과정에서 Norm이 커지므로 규제가 약해졌다고 표현한다.

<div style="display: flex; margin-top:20px">
    <div>
        <img src="./images/regularized03.png" width="350" style="margin-left: 30px">
    </div>
    <div>
        <img src="./images/regularized04.png" style="margin-left: 50px">
    </div>
</div>

### 한국인 수익 예측
- id : 식별 번호
- year : 조사 년도
- wave : 2005년 wave 1위부터 2018년 wave 14위까지
- region: 1)서울 2)경기 3)경남 4)경북 5)충남 6)강원 & 충북 7)전라 & 제주
- income: 월급(달러, $1 = 1300원)
- family_member: 가족 구성원 수
- gender: 1) 남성 2) 여성
- year_born: 태어난 년도
- education_level: 1)무교육(7세 미만) 2)무교육(7세 이상) 3)초등학교 4)중학교 5)고등학교 6)대학 학위 8)MA 9)박사 학위
- marriage: 혼인상태. 1)해당없음(18세 미만) 2)혼인중 3)사망으로 별거중 4)별거중 5)미혼 6)기타
- religion: 1) 종교 있음 2) 종교 없음  
- occupation: 직종 코드, 별도 첨부
- company_size: 기업 규모
- reason_none_worker: 1)능력 없음 2)군 복무 중 3)학교에서 공부 중 4)학교 준비 5)직장인 7)집에서 돌보는 아이들 8)간호 9)경제 활동 포기 10)일할 의사 없음 11)기타 

In [41]:
import pandas as pd
import numpy as np

# 데이터 세트 불러오기
i_df = pd.read_csv('./datasets/korean_income.csv', low_memory=False)
i_df

Unnamed: 0,id,year,wave,region,income,family_member,gender,year_born,education_level,marriage,religion,occupation,company_size,reason_none_worker
0,10101,2005,1,1,614.0,1,2,1936,2,2,2,,,8
1,10101,2011,7,1,896.0,1,2,1936,2,2,2,,,10
2,10101,2012,8,1,1310.0,1,2,1936,2,2,2,,,10
3,10101,2013,9,1,2208.0,1,2,1936,2,2,2,,,1
4,10101,2014,10,1,864.0,1,2,1936,2,2,2,,,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92852,98000701,2014,10,5,11600.0,6,1,1967,5,1,1,874,1,
92853,98000701,2015,11,5,8327.0,6,1,1967,5,1,1,874,1,
92854,98000701,2016,12,5,7931.0,6,1,1967,5,1,1,874,1,
92855,98000701,2017,13,5,8802.0,5,1,1967,5,1,1,874,1,


In [42]:
# 데이터 세트 정보 확인
i_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92857 entries, 0 to 92856
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  92857 non-null  int64  
 1   year                92857 non-null  int64  
 2   wave                92857 non-null  int64  
 3   region              92857 non-null  int64  
 4   income              92857 non-null  float64
 5   family_member       92857 non-null  int64  
 6   gender              92857 non-null  int64  
 7   year_born           92857 non-null  int64  
 8   education_level     92857 non-null  int64  
 9   marriage            92857 non-null  int64  
 10  religion            92857 non-null  int64  
 11  occupation          92857 non-null  object 
 12  company_size        92857 non-null  object 
 13  reason_none_worker  92857 non-null  object 
dtypes: float64(1), int64(10), object(3)
memory usage: 9.9+ MB


In [43]:
# occupation의 value counts 출력
i_df.occupation.value_counts()

occupation
        33643
611     10079
941      2800
873      2595
312      2211
        ...  
1009        2
113         1
12          1
828         1
122         1
Name: count, Length: 244, dtype: int64

### 이상치 조정

In [44]:
# occupation이 공백인 행만 출력
i_df[i_df.occupation == ' ']

Unnamed: 0,id,year,wave,region,income,family_member,gender,year_born,education_level,marriage,religion,occupation,company_size,reason_none_worker
0,10101,2005,1,1,614.0,1,2,1936,2,2,2,,,8
1,10101,2011,7,1,896.0,1,2,1936,2,2,2,,,10
2,10101,2012,8,1,1310.0,1,2,1936,2,2,2,,,10
3,10101,2013,9,1,2208.0,1,2,1936,2,2,2,,,1
4,10101,2014,10,1,864.0,1,2,1936,2,2,2,,,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92843,97990701,2012,8,6,1591.0,2,1,1932,2,1,2,,,1
92845,97990701,2014,10,6,1612.0,2,1,1932,2,1,2,,,10
92846,97990701,2015,11,6,1899.0,2,1,1932,2,1,2,,,10
92847,97990701,2016,12,6,1770.3,2,1,1932,2,1,2,,,10


In [45]:
# 기존 데이터 세트 복사
pre_i_df = i_df.copy()

# 공백을 문자열 0으로 대체
pre_i_df.loc[:, 'occupation'] = i_df.occupation.apply(lambda x: x.replace(' ', '0'))

In [46]:
# occupation의 데이터 타입을 int16 형으로 변경
pre_i_df.occupation = pre_i_df.occupation.astype(np.int16)

In [47]:
# occupation이 0(백수)인 행들만 모아놓은 데이터 세트 생성
test_df = pre_i_df[pre_i_df.occupation == 0]
test_df

Unnamed: 0,id,year,wave,region,income,family_member,gender,year_born,education_level,marriage,religion,occupation,company_size,reason_none_worker
0,10101,2005,1,1,614.0,1,2,1936,2,2,2,0,,8
1,10101,2011,7,1,896.0,1,2,1936,2,2,2,0,,10
2,10101,2012,8,1,1310.0,1,2,1936,2,2,2,0,,10
3,10101,2013,9,1,2208.0,1,2,1936,2,2,2,0,,1
4,10101,2014,10,1,864.0,1,2,1936,2,2,2,0,,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92843,97990701,2012,8,6,1591.0,2,1,1932,2,1,2,0,,1
92845,97990701,2014,10,6,1612.0,2,1,1932,2,1,2,0,,10
92846,97990701,2015,11,6,1899.0,2,1,1932,2,1,2,0,,10
92847,97990701,2016,12,6,1770.3,2,1,1932,2,1,2,0,,10


In [48]:
# 기존 occupation 값 범위를 벗어나는 행(0, 이상치) 제거
pre_i_df = pre_i_df.drop(index=pre_i_df[~pre_i_df.occupation.between(11, 1012)].index, axis=0)
pre_i_df

Unnamed: 0,id,year,wave,region,income,family_member,gender,year_born,education_level,marriage,religion,occupation,company_size,reason_none_worker
8,20101,2005,1,1,1257.0,1,2,1945,4,2,2,421,1,
10,20101,2007,3,1,602.0,1,2,1945,4,2,2,411,1,
11,20101,2008,4,1,1972.0,1,2,1945,4,2,2,951,1,
12,20101,2009,5,1,1638.0,1,2,1945,4,2,1,951,1,
13,20101,2010,6,1,1598.0,1,2,1945,4,2,2,951,1,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92852,98000701,2014,10,5,11600.0,6,1,1967,5,1,1,874,1,
92853,98000701,2015,11,5,8327.0,6,1,1967,5,1,1,874,1,
92854,98000701,2016,12,5,7931.0,6,1,1967,5,1,1,874,1,
92855,98000701,2017,13,5,8802.0,5,1,1967,5,1,1,874,1,


In [49]:
# 이상치 제거한 데이터 세트와 occupation이 0인 데이터 세트 병합
pre_i_df = pd.concat([test_df, pre_i_0_df], axis=0)

In [50]:
# 인덱스 초기화
pre_i_df.reset_index(drop=True, inplace=True)
pre_i_df

Unnamed: 0,id,year,wave,region,income,family_member,gender,year_born,education_level,marriage,religion,occupation,company_size,reason_none_worker
0,10101,2005,1,1,614.0,1,2,1936,2,2,2,0,,8
1,10101,2011,7,1,896.0,1,2,1936,2,2,2,0,,10
2,10101,2012,8,1,1310.0,1,2,1936,2,2,2,0,,10
3,10101,2013,9,1,2208.0,1,2,1936,2,2,2,0,,1
4,10101,2014,10,1,864.0,1,2,1936,2,2,2,0,,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67281,97990701,2012,8,6,1591.0,2,1,1932,2,1,2,0,,1
67282,97990701,2014,10,6,1612.0,2,1,1932,2,1,2,0,,10
67283,97990701,2015,11,6,1899.0,2,1,1932,2,1,2,0,,10
67284,97990701,2016,12,6,1770.3,2,1,1932,2,1,2,0,,10


In [51]:
# 직종 코드만 담긴 데이터 세트 읽어오기
j_df = pd.read_csv('./datasets/korean_job_code.csv')

j_df

Unnamed: 0,job_code,job_title,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,0,Jobless,,,,,
1,11,Senior public and corporate positions,,,,,
2,111,Assembly members,senior public officials and executives of pub...,,,,
3,112,senior corporate executive,,,,,
4,12,Administrative and management support manageri...,,,,,
...,...,...,...,...,...,...,...
194,991,Simple workers related to agriculture,forestry and fishing,,,,
195,992,Employees related to meter reading,collection and parking,,,,
196,999,Other service related simple employees,,,,,
197,1011,Military officer,,,,,


In [52]:
# job_code 값만 출력(ndarray 타입)
j_df.loc[:, 'job_code'].values

array([   0,   11,  111,  112,   12,  120,   13,  131,  132,  133,  134,
        135,  139,   14,  141,  149,   15,  151,  152,  153,  159,   21,
        211,  212,  213,   22,  221,  222,  223,  224,   23,  231,  232,
        233,  234,  235,  236,  237,  239,   24,  241,  242,  243,  244,
        245,  246,  247,  248,   25,  251,  252,  253,  254,  259,   26,
        261,  262,   27,  271,  272,  273,  274,   28,  281,  282,  283,
        284,  285,  286,  289,   31,  312,  313,  314,   32,  320,   33,
        330,   39,  391,  392,  399,   41,  411,  412,   42,  421,  422,
        423,  429,   43,  431,  432,   44,  441,  442,   51,  510,   52,
        521,  522,   53,  530,   61,  611,  612,  613,   62,  620,   63,
        630,   71,  710,   72,  721,  722,   73,  730,   74,  741,  742,
        743,   75,  751,  752,  753,   76,  761,  762,   77,  771,  772,
        773,  774,   78,  780,   79,  791,  792,  799,   81,  811,  812,
        819,   82,  821,  822,  823,   83,  831,  8

In [53]:
# pre_i_df에 존재하는 occupation 값들 중 job_code에 포함된 행들만 유지한 다음 인덱스 초기화 
pre_i_df = pre_i_df[pre_i_df.occupation.isin(j_df.loc[:, 'job_code'].values)].reset_index(drop=True)
pre_i_df

Unnamed: 0,id,year,wave,region,income,family_member,gender,year_born,education_level,marriage,religion,occupation,company_size,reason_none_worker
0,10101,2005,1,1,614.0,1,2,1936,2,2,2,0,,8
1,10101,2011,7,1,896.0,1,2,1936,2,2,2,0,,10
2,10101,2012,8,1,1310.0,1,2,1936,2,2,2,0,,10
3,10101,2013,9,1,2208.0,1,2,1936,2,2,2,0,,1
4,10101,2014,10,1,864.0,1,2,1936,2,2,2,0,,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67281,97990701,2012,8,6,1591.0,2,1,1932,2,1,2,0,,1
67282,97990701,2014,10,6,1612.0,2,1,1932,2,1,2,0,,10
67283,97990701,2015,11,6,1899.0,2,1,1932,2,1,2,0,,10
67284,97990701,2016,12,6,1770.3,2,1,1932,2,1,2,0,,10


In [54]:
# 현재 데이터 세트 정보 확인
pre_i_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67286 entries, 0 to 67285
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  67286 non-null  int64  
 1   year                67286 non-null  int64  
 2   wave                67286 non-null  int64  
 3   region              67286 non-null  int64  
 4   income              67286 non-null  float64
 5   family_member       67286 non-null  int64  
 6   gender              67286 non-null  int64  
 7   year_born           67286 non-null  int64  
 8   education_level     67286 non-null  int64  
 9   marriage            67286 non-null  int64  
 10  religion            67286 non-null  int64  
 11  occupation          67286 non-null  object 
 12  company_size        67286 non-null  object 
 13  reason_none_worker  67286 non-null  object 
dtypes: float64(1), int64(10), object(3)
memory usage: 7.2+ MB


In [55]:
pre_i_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67286 entries, 0 to 67285
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  67286 non-null  int64  
 1   year                67286 non-null  int64  
 2   wave                67286 non-null  int64  
 3   region              67286 non-null  int64  
 4   income              67286 non-null  float64
 5   family_member       67286 non-null  int64  
 6   gender              67286 non-null  int64  
 7   year_born           67286 non-null  int64  
 8   education_level     67286 non-null  int64  
 9   marriage            67286 non-null  int64  
 10  religion            67286 non-null  int64  
 11  occupation          67286 non-null  object 
 12  company_size        67286 non-null  object 
 13  reason_none_worker  67286 non-null  object 
dtypes: float64(1), int64(10), object(3)
memory usage: 7.2+ MB


In [56]:
# company_size의 value counts 출력
pre_i_df.company_size.value_counts()

company_size
      67284
99        2
Name: count, dtype: int64

In [57]:
# company_size가 공백인 행의 값을 문자열 0으로 대체
pre_i_df.loc[:, 'company_size'] = pre_i_df.company_size.apply(lambda x: x.replace(' ', '0'))

In [58]:
# company_size가 99인 행 삭제
pre_i_df = pre_i_df.drop(index=pre_i_df[pre_i_df.company_size == '99'].index, axis=0)

In [59]:
# company_size의 데이터 타입을 int16 형으로 변경
pre_i_df.company_size = pre_i_df.company_size.astype(np.int16)

In [60]:
# 이상치 제거 여부 확인
pre_i_df.company_size.value_counts()

company_size
0    67284
Name: count, dtype: int64

In [61]:
# reason_none_worker의 value counts 확인
pre_i_df.reason_none_worker.value_counts()

reason_none_worker
10    38182
8      8550
9      5370
1      4998
       2992
7      2238
6      2148
4      1408
5       652
11      474
99      152
3       104
2        14
0         2
Name: count, dtype: int64

In [62]:
# reason_none_worker가 공백인 행들만 모아놓은 새로운 데이터 세트 생성
test_df = pre_i_df[pre_i_df.reason_none_worker == ' ']

# 위 데이터 세트에서 occupation이 0(백수)인 행들의 인덱스 출력
test_df[test_df.occupation == 0].index

Index([   20,    46,    60,    72,    73,    74,    75,    76,    77,    78,
       ...
       66937, 67025, 67026, 67029, 67082, 67167, 67175, 67213, 67237, 67261],
      dtype='int64', length=2992)

In [63]:
# occupation이 0인 인덱스의 무직 사유를 11(기타)로 변경
pre_i_df.loc[test_df[test_df.occupation == 0].index, 'reason_none_worker'] = 11

In [64]:
pre_i_df.loc[pre_i_df[pre_i_df.reason_none_worker == '0'].index, 'reason_none_worker'] = 11

In [65]:
# 현재 reason_none_worker의 value counts 출력
pre_i_df.reason_none_worker.value_counts()

reason_none_worker
10    38182
8      8550
9      5370
1      4998
11     2994
7      2238
6      2148
4      1408
5       652
11      474
99      152
3       104
2        14
Name: count, dtype: int64

In [66]:
# reason_none_worker가 공백인 행들의 값을 0(직업 있음)으로 변경
pre_i_df.loc[:, 'reason_none_worker'] = \
                    pre_i_df.reason_none_worker.apply(lambda x: str(x).replace(' ', '0'))

# reason_none_worker가 99인 행들의 값을 11로 변경
pre_i_df.loc[:, 'reason_none_worker'] = \
                    pre_i_df.reason_none_worker.apply(lambda x: str(x).replace('99', '11'))

In [67]:
# 현재 reason_none_worker의 value counts 출력
pre_i_df.reason_none_worker.value_counts()

reason_none_worker
10    38182
8      8550
9      5370
1      4998
11     3620
7      2238
6      2148
4      1408
5       652
3       104
2        14
Name: count, dtype: int64

In [68]:
# reason_none_worker의 데이터 타입을 int16 형으로 변경
pre_i_df.reason_none_worker = pre_i_df.reason_none_worker.astype(np.int16)

In [69]:
# 현재 데이터 세트 정보 확인
pre_i_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 67284 entries, 0 to 67285
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  67284 non-null  int64  
 1   year                67284 non-null  int64  
 2   wave                67284 non-null  int64  
 3   region              67284 non-null  int64  
 4   income              67284 non-null  float64
 5   family_member       67284 non-null  int64  
 6   gender              67284 non-null  int64  
 7   year_born           67284 non-null  int64  
 8   education_level     67284 non-null  int64  
 9   marriage            67284 non-null  int64  
 10  religion            67284 non-null  int64  
 11  occupation          67284 non-null  object 
 12  company_size        67284 non-null  int16  
 13  reason_none_worker  67284 non-null  int16  
dtypes: float64(1), int16(2), int64(10), object(1)
memory usage: 8.9+ MB


In [70]:
pre_i_df.year.value_counts()

year
2011    5502
2014    5376
2012    5334
2015    5302
2013    5214
2016    5086
2017    5018
2018    4878
2005    4596
2006    4340
2008    4338
2007    4204
2009    4152
2010    3944
Name: count, dtype: int64

In [None]:
# occupation이 0(백수)인 행 삭제 - 월급 산출에 필요 없는 데이터이기 때문
pre_i_df = pre_i_df.drop(index=pre_i_df[pre_i_df.occupation == 0].index, axis=0).reset_index(drop=True)

In [40]:
# 연도별로 다른 물가 상승률을 적용해주는 함수
# income 값을 2024년에 맞춰 재조정하는 것이 목적
def inflation(years, incomes):
    interests = {'2005': '0.439',
                '2006': '0.4115',
                '2007': '43.9',
                '2008': '43.9',
                '2009': '43.9',
                '2010': '43.9',
                '2011': '43.9',
                '2012': '43.9',
                '2013': '43.9',
                '2014': '43.9',
                '2015': '43.9',
                '2016': '43.9',
                '2017': '43.9',
                '2018': '43.9',
                '2019': '43.9',
                '2020': '43.9',
                '2021': '43.9',
                '2022': '43.9',
                '2023': '43.9',
                '2024': '43.9',} 
    for i, income in enumerate(incomes):
        income * (1 + dict(years[i]))

In [39]:
# 기존 데이터 프레임 복사
test_df = pre_i_df.copy()

# 물가 상승률이 적용된 값을 income에 재할당
test_df.loc[:, 'income'] = inflation(pre_i_df.year.values, pre_i_df.income.values)

array([1257. ,  602. , 1972. , ..., 1899. , 1770.3, 1446.3])

In [31]:
# 불필요한 컬럼 제거
columns = ['id', 'year', 'wave', 'year_born', 'marraige', 'religion', 'reason_none_worker']
pre_i_df = pre_i_df.drop(labels=columns, axis=1)
pre_i_df

In [None]:
# 각 컬럼의 데이터 분포를 히스토그램으로 시각화
pre_i_df.hist(figsize=(10, 8))

In [None]:
from sklearn.preprocessing import StandardScaler

# 월급에 StandardScaler를 적용해서 표준화
std = StandardScaler()
result = std.fit_transform(pre_i_df[['income']])

# pre_i_df 복사 후, 표준화 된 수치를 income에 재할당
std_pre_i_df = pre_i_df.copy()
std_pre_i_df.loc[:, 'income'] = result

std_pre_i_df

In [None]:
std_pre_i_df[std_pre_i_df.income.between(-1.96, 1.96)].describe().T

In [None]:
# income 표준화 시 -1.96 ~ 1.96 사이가 되는 행만 유지
pre_i_df.loc[std_pre_i_df[std_pre_i_df.income.between(-1.96, 1.96)].index]