# Predicting ESG Categories and Polarities

In [1]:
from ekorpkit import eKonf

eKonf.setLogger("WARNING")
eKonf.set_cuda(device=0)
print("version:", eKonf.__version__)
print("is notebook?", eKonf.is_notebook())
print("is colab?", eKonf.is_colab())
print("environment variables:")
eKonf.print(eKonf.env().dict())

INFO:ekorpkit.base:Setting cuda device to ['A100-SXM4-40GB (id:0)']


version: 0.1.38+26.g3d56094
is notebook? True
is colab? False
environment variables:
{'CUDA_DEVICE_ORDER': 'PCI_BUS_ID',
 'CUDA_VISIBLE_DEVICES': '0',
 'EKORPKIT_CONFIG_DIR': '/workspace/projects/ekorpkit-book/config',
 'EKORPKIT_DATA_DIR': None,
 'EKORPKIT_PROJECT': 'ekorpkit-book',
 'EKORPKIT_WORKSPACE_ROOT': '/workspace',
 'KMP_DUPLICATE_LIB_OK': 'TRUE',
 'NUM_WORKERS': 230}


In [2]:
data_dir = "../data/econ_news_kr"


## Load data

In [3]:
filtered_data = eKonf.load_data("econ_news_filtered_20220905.parquet", data_dir)
filtered_data

Unnamed: 0,id,chunk_id,text,filename
0,11,0,문재인 대통령이 지난해 전용차로 선택한 수소전기차 '넥쏘'가 중·장년층 남성들로부터...,02100101.20201101113442001.txt
1,11,1,넥쏘는 국내 뿐만 아니라 해외에서도 코로나19 확산 여파를 이겨내고 질주하고 있다....,02100101.20201101113442001.txt
2,19,0,LG전자는 국내 최대 쇼핑 행사 ‘2020 코리아세일페스타’에 맞춰 11월 1일부터...,02100101.20201101125903001.txt
3,20,0,SK는 그룹 8개 관계사가 한국 최초로 ‘RE100’에 가입한다고 1일 밝혔다.\n...,02100101.20201101130118001.txt
4,20,1,SK 8개사가 신청서를 제출하면 더 클라이밋 그룹의 검토를 거친 후 가입이 최종 확...,02100101.20201101130118001.txt
...,...,...,...,...
160582,1090535,1,"업종별로 하락한 업종은 운수창고(-1.22%), 운수장비(-1.12%), 전기전자(...",02100851.20220228093428001.txt
160583,1090566,0,[회사채 미매각 현황]\n회사채 시장에 미매각이 속출하고 있다. 현재 연 1.25%...,02100851.20220228103653001.txt
160584,1090566,1,하지만 가뜩이나 악화된 회사채 시장 분위기에 사고 소식까지 전해지면서 아무도 수요예...,02100851.20220228103653001.txt
160585,1090566,2,이에 채권시장에서 자금을 운용하는 각 증권사들의 부담이 커지고 있다. 대부분이 총액...,02100851.20220228103653001.txt


In [4]:
filtered_data.text[222]

'특히 반도체산업 회복 기대감이 높다. 삼성전자와 SK하이닉스는 코스피 시가총액 25%를 차지한다. 삼성전자는 내년 영업이익이 46조원대로 올해 대비 25% 이상 증가할 것이라는 전망이 나온다. 같은 기간 SK하이닉스 영업이익은 8조3000억원대로 70% 넘게 늘어날 듯 보인다.\n김용구 삼성증권 애널리스트는 “내년 국내 증시는 역사적 신고가 돌파에 나서는 대세 상승장 시작점에 해당된다”고 밝혔다. 근거는 ▲수출 실적 정상화 ▲전 세계적인 경기 부양 정책 환경 ▲외국인과 개인 수급 선순환 구도 본격화다.\nKB증권이 내세운 희망 키워드는 생산과 투자 회복이다. 선진국 소비는 코로나 팬데믹 이전을 넘어섰으나 생산은 아직 절반밖에 회복하지 못했기 때문에 내년 생산 증가를 기대해볼 만하다는 분석이다. 신동준 KB증권 리서치센터장은 “한국 기업이익은 올해 상반기 줄어들고 하반기 늘어나는 양상을 보였다”며 “내년 성장폭은 작아도 이익 정상화는 충분히 가능하다”고 봤다.\n신지윤 KTB투자증권 리서치센터장은 “저금리, 재정확장 정책, 원화 강세 현상은 증시로 자금을 끌어모으는 요인”이라며 “삼성전자와 현대차 등 대형주 실적이 좋아 주가 상승을 기대해볼 만하다”고 말했다. 명쾌하게 결론은 안 났지만 美 대선 불확실성을 벗어났다는 점도 호재로 평가된다.'

In [5]:
filtered_data[filtered_data.filename == "02100201.20200323170208001.txt"]

Unnamed: 0,id,chunk_id,text,filename
58469,385724,0,[머니투데이 박소연 기자] [당장 유동성보다는 전 세계 수요·구매력 감소가 더 큰 ...,02100201.20200323170208001.txt
58470,385724,1,"국내 전자업계는 공장이 한국과 중국, 베트남 지역에 있어 북미나 유럽발 셧다운으로 ...",02100201.20200323170208001.txt


## Predicting polarities

In [6]:
overrides=[
    '+model/transformer=classification',
    '+model/transformer/pretrained=ekonelectra-base',
]
model_cfg = eKonf.compose('model/transformer=classification', overrides)
model_cfg.name = "esg_polarity"
model_cfg.verbose = False
model_cfg.config.num_train_epochs = 2
model_cfg.config.max_seq_length = 256
model_cfg.config.train_batch_size = 32
model_cfg.config.eval_batch_size = 32


In [7]:
cfg = eKonf.compose(config_group='pipeline')
cfg.name = 'esg_polarities_20220905'
cfg.data_dir = data_dir
cfg.data_file = 'econ_news_filtered_20220905.parquet'
cfg._pipeline_ = ['predict']
cfg.predict.model = model_cfg
cfg.predict.output_dir = data_dir
cfg.predict.output_file = f'{cfg.name}-preds.parquet'
cfg.num_workers = 1
preds_df = eKonf.instantiate(cfg)
preds_df.head()

INFO:ekorpkit.base:Loaded .env from /workspace/projects/ekorpkit-book/config/.env
INFO:ekorpkit.base:setting environment variable CACHED_PATH_CACHE_ROOT to /workspace/.cache/cached_path
INFO:ekorpkit.base:setting environment variable KMP_DUPLICATE_LIB_OK to TRUE
INFO:ekorpkit.base:Applying pipe: functools.partial(<function predict at 0x7f1029331f70>)
INFO:ekorpkit.base:No method defined to call


  0%|          | 0/160587 [00:00<?, ?it/s]

Token indices sequence length is longer than the specified maximum sequence length for this model (552 > 512). Running this sequence through the model will result in indexing errors


  0%|          | 0/10480 [00:00<?, ?it/s]

Unnamed: 0,id,chunk_id,text,filename,pred_labels,raw_preds,pred_probs
0,11,0,문재인 대통령이 지난해 전용차로 선택한 수소전기차 '넥쏘'가 중·장년층 남성들로부터...,02100101.20201101113442001.txt,Positive,"{'Negative': 0.003234388916771163, 'Neutral': ...",0.320464
1,11,1,넥쏘는 국내 뿐만 아니라 해외에서도 코로나19 확산 여파를 이겨내고 질주하고 있다....,02100101.20201101113442001.txt,Positive,"{'Negative': 0.005179156956969719, 'Neutral': ...",0.463171
2,19,0,LG전자는 국내 최대 쇼핑 행사 ‘2020 코리아세일페스타’에 맞춰 11월 1일부터...,02100101.20201101125903001.txt,Positive,"{'Negative': 0.0022622254938860858, 'Neutral':...",0.293573
3,20,0,SK는 그룹 8개 관계사가 한국 최초로 ‘RE100’에 가입한다고 1일 밝혔다.\n...,02100101.20201101130118001.txt,Positive,"{'Negative': 0.003873849489889034, 'Neutral': ...",0.457221
4,20,1,SK 8개사가 신청서를 제출하면 더 클라이밋 그룹의 검토를 거친 후 가입이 최종 확...,02100101.20201101130118001.txt,Positive,"{'Negative': 0.0033662562749769104, 'Neutral':...",0.38781


## Predicting categories

In [8]:
overrides=[
    '+model/transformer=classification',
    '+model/transformer/pretrained=ekonelectra-base',
]
model_cfg = eKonf.compose('model/transformer=classification', overrides)
model_cfg.name = "esg_topics"
model_cfg.verbose = False
model_cfg.config.num_train_epochs = 2
model_cfg.config.max_seq_length = 256
model_cfg.config.train_batch_size = 32
model_cfg.config.eval_batch_size = 32


In [9]:
cfg = eKonf.compose(config_group='pipeline')
cfg.name = 'esg_categories_20220905'
cfg.data_dir = data_dir
cfg.data_file = 'econ_news_filtered.parquet'
cfg._pipeline_ = ['predict']
cfg.predict.model = model_cfg
cfg.predict.output_dir = data_dir
cfg.predict.output_file = f'{cfg.name}-preds.parquet'
cfg.num_workers = 1
cat_preds_df = eKonf.instantiate(cfg)
cat_preds_df.head()

INFO:ekorpkit.base:Applying pipe: functools.partial(<function predict at 0x7f1029331f70>)
INFO:ekorpkit.base:No method defined to call


  0%|          | 0/160587 [00:00<?, ?it/s]

Token indices sequence length is longer than the specified maximum sequence length for this model (552 > 512). Running this sequence through the model will result in indexing errors


  0%|          | 0/10480 [00:00<?, ?it/s]

Unnamed: 0,id,chunk_id,text,filename,pred_labels,raw_preds,pred_probs
0,11,0,문재인 대통령이 지난해 전용차로 선택한 수소전기차 '넥쏘'가 중·장년층 남성들로부터...,02100101.20201101113442001.txt,E-환경혁신,"{'S-기업(공급망)동반성장/상생': 0.0035235610749915036, 'G...",0.274359
1,11,1,넥쏘는 국내 뿐만 아니라 해외에서도 코로나19 확산 여파를 이겨내고 질주하고 있다....,02100101.20201101113442001.txt,E-환경혁신,"{'S-기업(공급망)동반성장/상생': 0.00476169941298804, 'G-지...",0.38531
2,19,0,LG전자는 국내 최대 쇼핑 행사 ‘2020 코리아세일페스타’에 맞춰 11월 1일부터...,02100101.20201101125903001.txt,S-소비자,"{'S-기업(공급망)동반성장/상생': 0.007591910869623802, 'G-...",0.39387
3,20,0,SK는 그룹 8개 관계사가 한국 최초로 ‘RE100’에 가입한다고 1일 밝혔다.\n...,02100101.20201101130118001.txt,G-지배구조,"{'S-기업(공급망)동반성장/상생': 0.00795168713418085, 'G-지...",0.316108
4,20,1,SK 8개사가 신청서를 제출하면 더 클라이밋 그룹의 검토를 거친 후 가입이 최종 확...,02100101.20201101130118001.txt,S-소비자,"{'S-기업(공급망)동반성장/상생': 0.003973197078848794, 'G-...",0.269355


In [12]:
polarity_preds_df = eKonf.load_data("esg_polarities_20220905-preds.parquet", data_dir)
polarity_preds_df

Unnamed: 0,id,chunk_id,text,filename,pred_labels,raw_preds,pred_probs
0,11,0,문재인 대통령이 지난해 전용차로 선택한 수소전기차 '넥쏘'가 중·장년층 남성들로부터...,02100101.20201101113442001.txt,Positive,"{'Negative': 0.003234388916771163, 'Neutral': ...",0.320464
1,11,1,넥쏘는 국내 뿐만 아니라 해외에서도 코로나19 확산 여파를 이겨내고 질주하고 있다....,02100101.20201101113442001.txt,Positive,"{'Negative': 0.005179156956969719, 'Neutral': ...",0.463171
2,19,0,LG전자는 국내 최대 쇼핑 행사 ‘2020 코리아세일페스타’에 맞춰 11월 1일부터...,02100101.20201101125903001.txt,Positive,"{'Negative': 0.0022622254938860858, 'Neutral':...",0.293573
3,20,0,SK는 그룹 8개 관계사가 한국 최초로 ‘RE100’에 가입한다고 1일 밝혔다.\n...,02100101.20201101130118001.txt,Positive,"{'Negative': 0.003873849489889034, 'Neutral': ...",0.457221
4,20,1,SK 8개사가 신청서를 제출하면 더 클라이밋 그룹의 검토를 거친 후 가입이 최종 확...,02100101.20201101130118001.txt,Positive,"{'Negative': 0.0033662562749769104, 'Neutral':...",0.387810
...,...,...,...,...,...,...,...
160582,1090535,1,"업종별로 하락한 업종은 운수창고(-1.22%), 운수장비(-1.12%), 전기전자(...",02100851.20220228093428001.txt,Neutral,"{'Negative': 0.021272389449621617, 'Neutral': ...",0.558927
160583,1090566,0,[회사채 미매각 현황]\n회사채 시장에 미매각이 속출하고 있다. 현재 연 1.25%...,02100851.20220228103653001.txt,Negative,"{'Negative': 0.3028968002392749, 'Neutral': 0....",0.302897
160584,1090566,1,하지만 가뜩이나 악화된 회사채 시장 분위기에 사고 소식까지 전해지면서 아무도 수요예...,02100851.20220228103653001.txt,Negative,"{'Negative': 0.21217251856446653, 'Neutral': 0...",0.227077
160585,1090566,2,이에 채권시장에서 자금을 운용하는 각 증권사들의 부담이 커지고 있다. 대부분이 총액...,02100851.20220228103653001.txt,Neutral,"{'Negative': 0.16820714620311472, 'Neutral': 0...",0.807850


In [13]:
category_preds_df = eKonf.load_data("esg_categories_20220905-preds.parquet", data_dir)
category_preds_df

Unnamed: 0,id,chunk_id,text,filename,pred_labels,raw_preds,pred_probs
0,11,0,문재인 대통령이 지난해 전용차로 선택한 수소전기차 '넥쏘'가 중·장년층 남성들로부터...,02100101.20201101113442001.txt,E-환경혁신,"{'E-기후변화': 0.030596958199968844, 'E-환경영향': 0.0...",0.274359
1,11,1,넥쏘는 국내 뿐만 아니라 해외에서도 코로나19 확산 여파를 이겨내고 질주하고 있다....,02100101.20201101113442001.txt,E-환경혁신,"{'E-기후변화': 0.06051763617022947, 'E-환경영향': 0.03...",0.385310
2,19,0,LG전자는 국내 최대 쇼핑 행사 ‘2020 코리아세일페스타’에 맞춰 11월 1일부터...,02100101.20201101125903001.txt,S-소비자,"{'E-기후변화': 0.0021545055695108587, 'E-환경영향': 0....",0.393870
3,20,0,SK는 그룹 8개 관계사가 한국 최초로 ‘RE100’에 가입한다고 1일 밝혔다.\n...,02100101.20201101130118001.txt,G-지배구조,"{'E-기후변화': 0.03785571833286824, 'E-환경영향': 0.01...",0.316108
4,20,1,SK 8개사가 신청서를 제출하면 더 클라이밋 그룹의 검토를 거친 후 가입이 최종 확...,02100101.20201101130118001.txt,S-소비자,"{'E-기후변화': 0.10284557588551027, 'E-환경영향': 0.03...",0.269355
...,...,...,...,...,...,...,...
160582,1090535,1,"업종별로 하락한 업종은 운수창고(-1.22%), 운수장비(-1.12%), 전기전자(...",02100851.20220228093428001.txt,S-소비자,"{'E-기후변화': 0.00907623428840548, 'E-환경영향': 0.00...",0.367147
160583,1090566,0,[회사채 미매각 현황]\n회사채 시장에 미매각이 속출하고 있다. 현재 연 1.25%...,02100851.20220228103653001.txt,S-소비자,"{'E-기후변화': 0.005465546001302883, 'E-환경영향': 0.0...",0.221578
160584,1090566,1,하지만 가뜩이나 악화된 회사채 시장 분위기에 사고 소식까지 전해지면서 아무도 수요예...,02100851.20220228103653001.txt,S-소비자,"{'E-기후변화': 0.003758780272562501, 'E-환경영향': 0.0...",0.161850
160585,1090566,2,이에 채권시장에서 자금을 운용하는 각 증권사들의 부담이 커지고 있다. 대부분이 총액...,02100851.20220228103653001.txt,S-소비자,"{'E-기후변화': 0.012670146350806367, 'E-환경영향': 0.0...",0.286236


In [14]:
code_info_available = eKonf.load_data("econ_news_code_info_available_20220905.parquet", data_dir)
code_info_available

Unnamed: 0,filename,codes,len,num_codes
0,02100101.20200101040200001.txt,000660,40,2
1,02100101.20200101040200001.txt,005930,40,2
2,02100101.20200101040200002.txt,005930,40,2
3,02100101.20200101040200002.txt,066570,40,2
4,02100101.20200101040202001.txt,000270,40,2
...,...,...,...,...
198598,02100851.20220531150108001.txt,032640,47,3
198599,02100851.20220531150108001.txt,017670,47,3
198600,02100851.20220531150108001.txt,030200,47,3
198601,02100851.20220531154303001.txt,006400,40,2


In [15]:
# p_cols = ['id', 'chunk_id', 'text', 'filename', 'pred_labels']
# c_cols = ['id', 'chunk_id', 'pred_labels']
# pred_data = polarity_preds_df[p_cols].rename(columns={"pred_labels": "pred_polarity"}).merge(
#     category_preds_df[c_cols].rename(columns={"pred_labels": "pred_category"}), on=['id', 'chunk_id']
# ).merge(
#     code_info_available, on='filename'
# )

# xls_path = eKonf.join_path(data_dir, "esg_preds_all.xlsx")
# pred_data.to_excel(xls_path)


In [16]:
# codes = eKonf.load_data("codes.csv", data_dir, dtype={"codes":"str"})
# xls_path = eKonf.join_path(data_dir, "esg_preds.xlsx")
# pred_data.merge(codes).to_excel(xls_path)