In [1]:
import pandas as pd
import numpy as np
import os

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
import matplotlib.pyplot as plt
import platform

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus']= False

if platform.system() == 'Darwin':
    plt.style.use('seaborn-darkgrid')
    rc('font', family = 'AppleGothic')

elif platform.system() == 'Windows':
    path = 'c:/Windows/Fonts/malgun.ttf'
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)

In [3]:
import warnings
warnings.filterwarnings("ignore")

In [4]:
# 패스 지정해주기
data_path = 'esg_merge.csv'
df = pd.read_csv(data_path)

# 데이터 프레임 정리하기
df['company_id'] = df['Unnamed: 0']
df.drop(['Unnamed: 0'], axis=1, inplace=True)

df = df.replace("-", np.nan) # -는 결측치로, nan으로 처리.

df.head(5)

Unnamed: 0,회사명,KCGS_종합등급,KCGS_환경,KCGS_사회,KCGS_지배구조,한국ESG연구소,Moody's,MSCI,S&P,연도,company_id
0,AJ네트웍스,B,D,B,B,,,,,2020,0
1,AJ네트웍스,B,D,B,B,,,,,2021,0
2,AJ네트웍스,B+,C,B+,B+,,,,,2022,0
3,AJ네트웍스,B+,C,B+,B+,,,,,2023,0
4,AK홀딩스,B+,C,B+,B+,,,,,2020,1


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3176 entries, 0 to 3175
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   회사명         3176 non-null   object
 1   KCGS_종합등급   3086 non-null   object
 2   KCGS_환경     3086 non-null   object
 3   KCGS_사회     3086 non-null   object
 4   KCGS_지배구조   3086 non-null   object
 5   한국ESG연구소    618 non-null    object
 6   Moody's     236 non-null    object
 7   MSCI        457 non-null    object
 8   S&P         1099 non-null   object
 9   연도          3176 non-null   int64 
 10  company_id  3176 non-null   int64 
dtypes: int64(2), object(9)
memory usage: 273.1+ KB


In [6]:
df.isna().sum() / len(df)

회사명           0.000000
KCGS_종합등급     0.028338
KCGS_환경       0.028338
KCGS_사회       0.028338
KCGS_지배구조     0.028338
한국ESG연구소      0.805416
Moody's       0.925693
MSCI          0.856108
S&P           0.653967
연도            0.000000
company_id    0.000000
dtype: float64

In [7]:
## KCGS_종합등급 ~ KCGS_지배구조 4개의 column에 모두 결측치가 존재하는 행 90개가 있음.
## 이는 행을 drop하는 것이 좋을 것.
drop_rows = df[df['KCGS_종합등급'].isna()]
display(drop_rows.isna().sum())

df = df.drop(drop_rows.index, axis=0)

drop_rows = df[df['S&P'].isna()]
df = df.drop(drop_rows.index, axis=0)
df.info()

회사명            0
KCGS_종합등급     90
KCGS_환경       90
KCGS_사회       90
KCGS_지배구조     90
한국ESG연구소      62
Moody's       90
MSCI          70
S&P           56
연도             0
company_id     0
dtype: int64

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1065 entries, 5 to 3163
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   회사명         1065 non-null   object
 1   KCGS_종합등급   1065 non-null   object
 2   KCGS_환경     1065 non-null   object
 3   KCGS_사회     1065 non-null   object
 4   KCGS_지배구조   1065 non-null   object
 5   한국ESG연구소    578 non-null    object
 6   Moody's     236 non-null    object
 7   MSCI        334 non-null    object
 8   S&P         1065 non-null   object
 9   연도          1065 non-null   int64 
 10  company_id  1065 non-null   int64 
dtypes: int64(2), object(9)
memory usage: 99.8+ KB


In [8]:
drop_columns = ["한국ESG연구소", "Moody's", "MSCI"] #결측지의 비율이 너무 높아 drop
final_df = df.drop(drop_columns, axis=1)

## drop_columns는 결측치 비율이 너무 높아 해당 column을 제거하는 것이 타당.
## 우선 EDA는 제거할 column까지 하겠지만, 실제로는 drop하는 것이 좋을 것.

In [9]:
categorical_variables = ['KCGS_종합등급', 'KCGS_환경', 'KCGS_사회', 'KCGS_지배구조']

In [10]:
final_df

Unnamed: 0,회사명,KCGS_종합등급,KCGS_환경,KCGS_사회,KCGS_지배구조,S&P,연도,company_id
5,AK홀딩스,B+,B,B+,B+,1,2021,1
6,AK홀딩스,B+,B,A,B,4,2022,1
7,AK홀딩스,B+,B,A,B,4,2023,1
9,BGF,A,A,A+,A,13,2021,2
10,BGF,B+,A,A+,B,18,2022,2
...,...,...,...,...,...,...,...,...
3154,휠라홀딩스,B+,B,A,B+,40,2022,788
3155,휠라홀딩스,B+,B,A,B+,40,2023,788
3161,휴비스,A,B+,A+,A,5,2021,790
3162,휴비스,B+,B+,A,B+,6,2022,790


In [11]:
# 정수 인코딩
rating_mapping = {'A': 4, 'A+': 4.5, 'B': 3, 'B+': 3.5, 'C': 2, 'D': 1}

for col in categorical_variables:
    final_df[f"{col}_encoded"] = final_df[col].map(rating_mapping)

In [12]:
final_df

Unnamed: 0,회사명,KCGS_종합등급,KCGS_환경,KCGS_사회,KCGS_지배구조,S&P,연도,company_id,KCGS_종합등급_encoded,KCGS_환경_encoded,KCGS_사회_encoded,KCGS_지배구조_encoded
5,AK홀딩스,B+,B,B+,B+,1,2021,1,3.5,3.0,3.5,3.5
6,AK홀딩스,B+,B,A,B,4,2022,1,3.5,3.0,4.0,3.0
7,AK홀딩스,B+,B,A,B,4,2023,1,3.5,3.0,4.0,3.0
9,BGF,A,A,A+,A,13,2021,2,4.0,4.0,4.5,4.0
10,BGF,B+,A,A+,B,18,2022,2,3.5,4.0,4.5,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...
3154,휠라홀딩스,B+,B,A,B+,40,2022,788,3.5,3.0,4.0,3.5
3155,휠라홀딩스,B+,B,A,B+,40,2023,788,3.5,3.0,4.0,3.5
3161,휴비스,A,B+,A+,A,5,2021,790,4.0,3.5,4.5,4.0
3162,휴비스,B+,B+,A,B+,6,2022,790,3.5,3.5,4.0,3.5


In [13]:
final_df.to_csv("./esg_regression_preprocessing.csv", encoding='utf-8-sig')

가장 적합한 모델을 찾기 위하여 multiple, ridge, lasso 회귀 모델을 비교해보았습니다.

multiple linear regression

In [14]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import cross_val_score

df = pd.read_csv('esg_regression_preprocessing.csv')
df.head()

# 종속 변수, 독립 변수 설정
X = df[['KCGS_종합등급_encoded','KCGS_환경_encoded', 'KCGS_사회_encoded', 'KCGS_지배구조_encoded', '연도']]  # 독립 변수
y = df['S&P']  # 종속 변수

# 훈련 세트, 테스트 세트로 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 로드
lin_model = LinearRegression()

# 모델 학습
lin_model.fit(X_train, y_train)

# 5-폴드 교차 검증 수행 (cross_val_score 사용)
scores = cross_val_score(lin_model, X, y, cv=5, scoring='neg_mean_squared_error')
mse_scores = -scores  # cross_val_score는 음수 MSE를 반환하므로 양수로 변환합니다.

# 교차 검증 결과 출력
print("각 폴드의 MSE:", mse_scores)
print("평균 MSE:", mse_scores.mean())

# 테스트 데이터로 예측 수행
y_pred = lin_model.predict(X_test)

# 회귀 평가 지표 계산
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse}")
print(f"R-squared (R2): {r2}")

각 폴드의 MSE: [552.50781912 280.64505051 380.93538038 256.96364289 497.48303541]
평균 MSE: 393.7069856615906
Mean Squared Error (MSE): 405.1594504822352
R-squared (R2): 0.3571735429200803


ridge regression

In [15]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import cross_val_score

# 데이터 불러오기
df = pd.read_csv('esg_regression_preprocessing.csv')

# 종속 변수와 독립 변수 나누기
X = df[['KCGS_종합등급_encoded','KCGS_환경_encoded', 'KCGS_사회_encoded', 'KCGS_지배구조_encoded', '연도']]  # 독립 변수
y = df['S&P']  # 종속 변수

# 훈련 세트와 테스트 세트로 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ridge 회귀 모델 초기화
ridge_model = Ridge(alpha=0.2)  # alpha는 L2 규제의 강도를 조절하는 하이퍼파라미터입니다.

# 5-폴드 교차 검증 수행 (cross_val_score 사용)
scores = cross_val_score(ridge_model, X, y, cv=5, scoring='neg_mean_squared_error')
mse_scores = -scores  # cross_val_score는 음수 MSE를 반환하므로 양수로 변환합니다.

# 교차 검증 결과 출력
print("각 폴드의 MSE:", mse_scores)
print("평균 MSE:", mse_scores.mean())

# 모델 훈련
ridge_model.fit(X_train, y_train)

# 테스트 데이터로 예측 수행
y_pred = ridge_model.predict(X_test)

# 회귀 평가 지표 계산
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse}")
print(f"R-squared (R2): {r2}")


각 폴드의 MSE: [552.57262873 280.5445521  380.94023631 256.97885639 497.41244656]
평균 MSE: 393.68974401817917
Mean Squared Error (MSE): 405.1829172801128
R-squared (R2): 0.35713631047117467


lasso regression

In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import cross_val_score
# 데이터 불러오기
df = pd.read_csv('esg_regression_preprocessing.csv')

# 종속 변수와 독립 변수 나누기
X = df[['KCGS_종합등급_encoded','KCGS_환경_encoded', 'KCGS_사회_encoded', 'KCGS_지배구조_encoded', '연도']]  # 독립 변수
y = df['S&P']  # 종속 변수

# 훈련 세트와 테스트 세트로 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Lasso 회귀 모델 초기화
lasso_model = Lasso(alpha=0.2)  # alpha는 L1 규제의 강도를 조절하는 하이퍼파라미터입니다.

# 5-폴드 교차 검증 수행 (cross_val_score 사용)
scores = cross_val_score(lasso_model, X, y, cv=5, scoring='neg_mean_squared_error')
mse_scores = -scores  # cross_val_score는 음수 MSE를 반환하므로 양수로 변환합니다.

# 교차 검증 결과 출력
print("각 폴드의 MSE:", mse_scores)
print("평균 MSE:", mse_scores.mean())
# 모델 훈련
lasso_model.fit(X_train, y_train)

# 테스트 데이터로 예측 수행
y_pred = lasso_model.predict(X_test)

# 회귀 평가 지표 계산
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse}")
print(f"R-squared (R2): {r2}")

각 폴드의 MSE: [559.09004602 274.06636275 382.13189337 257.59246974 491.15474001]
평균 MSE: 392.8071023788504
Mean Squared Error (MSE): 407.0655011915936
R-squared (R2): 0.35414940063966893


각 데이터의 값을 입력 후 S&P값을 예측하는 프로그램입니다.

In [17]:
# 예측
new_data = pd.DataFrame({'KCGS_종합등급_encoded': [3.5], 'KCGS_환경_encoded': [3.5], 'KCGS_사회_encoded': [3.5], 'KCGS_지배구조_encoded': [3.5], '연도': [2022]})  # 예측하려는 데이터
prediction = lin_model.predict(new_data)
print(f"S&P 예측 값: {prediction[0]}")

S&P 예측 값: 29.03485365090455
