# Predicting ESG Categories and Polarities

In [2]:
from ekorpkit import eKonf

eKonf.setLogger("WARNING")
eKonf.set_cuda(device=0)
print("version:", eKonf.__version__)
print("is notebook?", eKonf.is_notebook())
print("is colab?", eKonf.is_colab())
print("environment variables:")
eKonf.print(eKonf.env().dict())

INFO:ekorpkit.base:Setting cuda device to ['A100-SXM4-40GB (id:0)']
INFO:ekorpkit.base:shell type: ZMQInteractiveShell
INFO:ekorpkit.base:Google Colab not detected.


version: 0.1.38+19.g57d76db.dirty
is notebook? True
is colab? False
environment variables:
{'CUDA_DEVICE_ORDER': 'PCI_BUS_ID',
 'CUDA_VISIBLE_DEVICES': '0',
 'EKORPKIT_CONFIG_DIR': '/workspace/projects/ekorpkit-book/config',
 'EKORPKIT_DATA_DIR': None,
 'EKORPKIT_PROJECT': 'ekorpkit-book',
 'EKORPKIT_WORKSPACE_ROOT': '/workspace',
 'KMP_DUPLICATE_LIB_OK': 'TRUE',
 'NUM_WORKERS': 230}


In [3]:
data_dir = "../data/econ_news_kr"


## Load data

In [4]:
filtered_data = eKonf.load_data("econ_news_filtered.parquet", data_dir)
filtered_data

Unnamed: 0,id,chunk_id,text,filename
0,0,0,'사보'는 기업들의 소통수단이다. 계열사 정보 공유 측면도 있다. 또한 대외적으로 ...,02100101.20201101082723001.txt
1,0,1,"안병덕 코오롱그룹 부회장은 ""사보를 통해 코오롱인은 하나가 되었고, 자긍심을 키워왔...",02100101.20201101082723001.txt
2,0,2,"코오롱 관계자는 ""600호에 이르기까지 인쇄 사보를 중심으로 온라인, 모바일 환경 ...",02100101.20201101082723001.txt
3,1,0,2030을 주축으로 한 이른바 '동학개미운동'이 계속되는 등 주식 투자 열풍이 사그...,02100101.20201101090150001.txt
4,1,1,한국투자증권은 지난 8월 소액으로 투자 가능한 해외주식 모바일 앱 '미니스탁'을 선...,02100101.20201101090150001.txt
...,...,...,...,...
553936,1090639,1,과거 러시아 중앙은행 고위 관료였던 세르게이 알레카센코는 WSJ에 “30~40% 수...,02100851.20220228175603001.txt
553937,1090639,2,특히 스위프트 제재 대상인 러 금융기관들은 백척간두에 서 있다. 유럽중앙은행(ECB...,02100851.20220228175603001.txt
553938,1090645,0,이재명 더불어민주당 대선 후보(왼쪽)와 윤석열 국민의힘 후보가 각각 GTX 관련 공...,02100851.20220228180156001.txt
553939,1090645,1,"한 전문가는 서울권, 특히 강남권의 최근 아파트 거래 현황이 지난해 같은 기간보다 ...",02100851.20220228180156001.txt


In [5]:
filtered_data.text[222]

'재산세 감면 범위를 둘러싸고 혼선을 빚었던 정부와 더불어민주당이 공시가격 6억원 이하 1주택자의 재산세를 감면해주는 방향으로 가닥을 잡은 것으로 알려졌다.\n3일 정치권에 따르면 당정은 1가구 1주택 재산세율은 공시가격 6억원 이하에 대해서만 0.05%포인트 인하하기로 방침을 정한 것으로 전해졌다. 현재 재산세율은 과세표준(공시가격 60%) 구간에 따라 0.1~0.4%다.\n6일 발표할 것으로 예상되는 당정의 이번 대책이 성난 민심을 가라앉힐 수 있을지 관심이 모아지고 있다. 올해 정부가 발표한 부동산 정책마다 논란에 휩싸였기 때문이다.\n실제로 국토교통부가 지난달 20일 주택자금조달계획서 제출 확대를 주요 내용으로 하는 \'부동산 거래 신고 등에 관한 법률\' 시행령 일부 개정안이 국무회의를 통과했다고 밝히자 "민주주의 국가가 맞냐"는 지적이 나왔다.\n또 김현미 국토교통부 장관이 지난달 23일 국회 국토교통위원회의 국토부 종합 국정감사에서 "월세 세액공제 등을 통해 세입자의 부담을 덜어주는 방안에 대해 공감한다"라며 "재정 당국과 협의가 필요한 문제여서 함께 협의해 나가겠다"고 말하자, 이를 비판하는 의견이 쇄도했다. 전세를 구하기 어려운데 월세를 사는 사람들에게 혜택을 주는 것은 결국 정부가 월세를 권장하는 것 아니냐는 지적이었다.\n홍남기 부총리 겸 기획재정부 장관이 지난달 28일 토지·건물 지분의 20∼25%만으로 주택을 분양받아 입주하고 이후 20∼30년간 남은 지분을 취득하는 지분적립형 주택을 도입하겠다고 밝혔을 때도 논란이 일었다. 지분형 주택은 대출받아서 집을 사거나 장기간 월세로 산 후 30년 된 낡은 집을 받는 것과 다름이 없다는 이유에서다.'

## Predicting polarities

In [6]:
overrides=[
    '+model/transformer=classification',
    '+model/transformer/pretrained=ekonelectra-base',
]
model_cfg = eKonf.compose('model/transformer=classification', overrides)
model_cfg.name = "esg_polarity"
model_cfg.verbose = False
model_cfg.config.num_train_epochs = 2
model_cfg.config.max_seq_length = 256
model_cfg.config.train_batch_size = 32
model_cfg.config.eval_batch_size = 32


In [7]:
cfg = eKonf.compose(config_group='pipeline')
cfg.name = 'esg_polarities'
cfg.data_dir = data_dir
cfg.data_file = 'econ_news_filtered.parquet'
cfg._pipeline_ = ['predict']
cfg.predict.model = model_cfg
cfg.predict.output_dir = data_dir
cfg.predict.output_file = f'{cfg.name}-preds.parquet'
cfg.num_workers = 1
preds_df = eKonf.instantiate(cfg)
preds_df.head()

INFO:ekorpkit.base:Loaded .env from /workspace/projects/ekorpkit-book/config/.env
INFO:ekorpkit.base:shell type: ZMQInteractiveShell
INFO:ekorpkit.base:setting environment variable CACHED_PATH_CACHE_ROOT to /workspace/.cache/cached_path
INFO:ekorpkit.base:setting environment variable KMP_DUPLICATE_LIB_OK to TRUE
INFO:ekorpkit.base:Applying pipe: functools.partial(<function predict at 0x7fd89c1484c0>)
INFO:ekorpkit.base:No method defined to call


  0%|          | 0/553941 [00:00<?, ?it/s]

Token indices sequence length is longer than the specified maximum sequence length for this model (564 > 512). Running this sequence through the model will result in indexing errors


  0%|          | 0/34447 [00:00<?, ?it/s]

Unnamed: 0,id,chunk_id,text,filename,pred_labels,raw_preds,pred_probs
0,0,0,'사보'는 기업들의 소통수단이다. 계열사 정보 공유 측면도 있다. 또한 대외적으로 ...,02100101.20201101082723001.txt,Neutral,"[-2.4318339824676514, 0.8959189653396606, 1.84...",0.401912
1,0,1,"안병덕 코오롱그룹 부회장은 ""사보를 통해 코오롱인은 하나가 되었고, 자긍심을 키워왔...",02100101.20201101082723001.txt,Positive,"[-2.316277503967285, 0.3658405840396881, 2.254...",0.300486
2,0,2,"코오롱 관계자는 ""600호에 이르기까지 인쇄 사보를 중심으로 온라인, 모바일 환경 ...",02100101.20201101082723001.txt,Positive,"[-2.5923120975494385, 1.227860927581787, 1.683...",0.606853
3,1,0,2030을 주축으로 한 이른바 '동학개미운동'이 계속되는 등 주식 투자 열풍이 사그...,02100101.20201101090150001.txt,Positive,"[-2.567436933517456, 1.0360676050186157, 1.814...",0.34134
4,1,1,한국투자증권은 지난 8월 소액으로 투자 가능한 해외주식 모바일 앱 '미니스탁'을 선...,02100101.20201101090150001.txt,Neutral,"[-2.502641439437866, 0.918285071849823, 1.9027...",0.372076


In [16]:
xls_path = eKonf.join_path(data_dir, "esg_polarities-preds.xlsx")
preds_df.to_excel(xls_path)


## Predicting categories

In [8]:
overrides=[
    '+model/transformer=classification',
    '+model/transformer/pretrained=ekonelectra-base',
]
model_cfg = eKonf.compose('model/transformer=classification', overrides)
model_cfg.name = "esg_topics"
model_cfg.verbose = False
model_cfg.config.num_train_epochs = 2
model_cfg.config.max_seq_length = 256
model_cfg.config.train_batch_size = 32
model_cfg.config.eval_batch_size = 32


In [9]:
cfg = eKonf.compose(config_group='pipeline')
cfg.name = 'esg_categories'
cfg.data_dir = data_dir
cfg.data_file = 'econ_news_filtered.parquet'
cfg._pipeline_ = ['predict']
cfg.predict.model = model_cfg
cfg.predict.output_dir = data_dir
cfg.predict.output_file = f'{cfg.name}-preds.parquet'
cfg.num_workers = 1
cat_preds_df = eKonf.instantiate(cfg)
cat_preds_df.head()

INFO:ekorpkit.base:Applying pipe: functools.partial(<function predict at 0x7fd89c1484c0>)
INFO:ekorpkit.base:No method defined to call


  0%|          | 0/553941 [00:00<?, ?it/s]

Token indices sequence length is longer than the specified maximum sequence length for this model (564 > 512). Running this sequence through the model will result in indexing errors


  0%|          | 0/34447 [00:00<?, ?it/s]

Unnamed: 0,id,chunk_id,text,filename,pred_labels,raw_preds,pred_probs
0,0,0,'사보'는 기업들의 소통수단이다. 계열사 정보 공유 측면도 있다. 또한 대외적으로 ...,02100101.20201101082723001.txt,G-지배구조,"[1.9145476818084717, -0.024444209411740303, 1....",0.532799
1,0,1,"안병덕 코오롱그룹 부회장은 ""사보를 통해 코오롱인은 하나가 되었고, 자긍심을 키워왔...",02100101.20201101082723001.txt,S-기술혁신,"[0.11691971123218536, 1.8329441547393799, -0.8...",0.301615
2,0,2,"코오롱 관계자는 ""600호에 이르기까지 인쇄 사보를 중심으로 온라인, 모바일 환경 ...",02100101.20201101082723001.txt,S-소비자,"[3.184396743774414, 1.4087409973144531, -0.136...",0.579502
3,1,0,2030을 주축으로 한 이른바 '동학개미운동'이 계속되는 등 주식 투자 열풍이 사그...,02100101.20201101090150001.txt,S-소비자,"[3.4277491569519043, 3.1105027198791504, 0.159...",0.333507
4,1,1,한국투자증권은 지난 8월 소액으로 투자 가능한 해외주식 모바일 앱 '미니스탁'을 선...,02100101.20201101090150001.txt,S-소비자,"[3.432396411895752, 2.870363473892212, 0.29488...",0.273119


In [10]:
xls_path = eKonf.join_path(data_dir, "esg_categories-preds.xlsx")
cat_preds_df.to_excel(xls_path)
cat_preds_df

Unnamed: 0,id,chunk_id,text,filename,pred_labels,raw_preds,pred_probs
0,0,0,'사보'는 기업들의 소통수단이다. 계열사 정보 공유 측면도 있다. 또한 대외적으로 ...,02100101.20201101082723001.txt,G-지배구조,"[1.9145476818084717, -0.024444209411740303, 1....",0.532799
1,0,1,"안병덕 코오롱그룹 부회장은 ""사보를 통해 코오롱인은 하나가 되었고, 자긍심을 키워왔...",02100101.20201101082723001.txt,S-기술혁신,"[0.11691971123218536, 1.8329441547393799, -0.8...",0.301615
2,0,2,"코오롱 관계자는 ""600호에 이르기까지 인쇄 사보를 중심으로 온라인, 모바일 환경 ...",02100101.20201101082723001.txt,S-소비자,"[3.184396743774414, 1.4087409973144531, -0.136...",0.579502
3,1,0,2030을 주축으로 한 이른바 '동학개미운동'이 계속되는 등 주식 투자 열풍이 사그...,02100101.20201101090150001.txt,S-소비자,"[3.4277491569519043, 3.1105027198791504, 0.159...",0.333507
4,1,1,한국투자증권은 지난 8월 소액으로 투자 가능한 해외주식 모바일 앱 '미니스탁'을 선...,02100101.20201101090150001.txt,S-소비자,"[3.432396411895752, 2.870363473892212, 0.29488...",0.273119
...,...,...,...,...,...,...,...
553936,1090639,1,과거 러시아 중앙은행 고위 관료였던 세르게이 알레카센코는 WSJ에 “30~40% 수...,02100851.20220228175603001.txt,G-주주환원,"[1.4552439451217651, -0.23222839832305908, 0.4...",0.118807
553937,1090639,2,특히 스위프트 제재 대상인 러 금융기관들은 백척간두에 서 있다. 유럽중앙은행(ECB...,02100851.20220228175603001.txt,G-지배구조,"[0.552001953125, -0.5348021984100342, 2.861389...",0.365142
553938,1090645,0,이재명 더불어민주당 대선 후보(왼쪽)와 윤석열 국민의힘 후보가 각각 GTX 관련 공...,02100851.20220228180156001.txt,S-소비자,"[3.0158867835998535, 0.18313424289226532, 1.51...",0.291026
553939,1090645,1,"한 전문가는 서울권, 특히 강남권의 최근 아파트 거래 현황이 지난해 같은 기간보다 ...",02100851.20220228180156001.txt,S-소비자,"[3.171722650527954, 0.41740426421165466, 0.905...",0.283430


In [None]:
polarity_preds_df = eKonf.load_data("esg_polarities-preds.parquet", data_dir)
polarity_preds_df

In [None]:
category_preds_df = eKonf.load_data("esg_categories-preds.parquet", data_dir)
category_preds_df

In [None]:
code_info_available = eKonf.load_data("econ_news_code_info_available.parquet", data_dir)
code_info_available

In [None]:
p_cols = ['id', 'chunk_id', 'text', 'filename', 'pred_labels']
c_cols = ['id', 'chunk_id', 'pred_labels']
pred_data = polarity_preds_df[p_cols].rename(columns={"pred_labels": "pred_polarity"}).merge(
    category_preds_df[c_cols].rename(columns={"pred_labels": "pred_category"}), on=['id', 'chunk_id']
).merge(
    code_info_available, on='filename'
)

xls_path = eKonf.join_path(data_dir, "esg_preds_all.xlsx")
pred_data.to_excel(xls_path)


In [21]:
codes = eKonf.load_data("codes.csv", data_dir, dtype={"codes":"str"})
xls_path = eKonf.join_path(data_dir, "esg_preds.xlsx")
pred_data.merge(codes).to_excel(xls_path)

INFO:ekorpkit.io.file:Processing [1] files from ['codes.csv']
INFO:ekorpkit.io.file:Loading 1 dataframes from ['../data/econ_news_kr/codes.csv']
INFO:ekorpkit.io.file:Loading data from ../data/econ_news_kr/codes.csv
