### 1. 사용할 모듈

In [73]:
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
from urllib.request import urlopen
import re
import os
import numpy as np
import math
import pandas as pd

### 2. PDF 파일 읽어오기

- ESG의 대한 기업의 대한 정보를 가져오기 위해서 주로 PDF의 파일로 된 지속가능경영보고서를 읽어 왔습니다.

- 현 프로젝트에서는 많은 양의 데이터를 가져와야 하지만 업로드 할 수 있는 양의 제한이 되어 15개 정도의 보고서만 읽은 내용을 가져왔습니다.

In [74]:
def read_pdf_file(pdfFile):
    pdfrm = PDFResourceManager()
    strio = StringIO()
    lapa = LAParams()
    device = TextConverter(pdfrm, strio, laparams = lapa)
    
    process_pdf(pdfrm, device, pdfFile)
    device.close()
    
    content = strio.getvalue()
    strio.close()
    return content

In [75]:
pdf_a = open("data/environment_S/대기업.pdf", "rb")
a = read_pdf_file(pdf_a)
pdf_a.close() 

pdf_b = open("data/environment_S/대기업.pdf", "rb")
b = read_pdf_file(pdf_b)
pdf_b.close()

pdf_c = open("data/environment_S/대기업.pdf", "rb")
c = read_pdf_file(pdf_c)
pdf_c.close()

pdf_d = open("data/environment_S/대기업.pdf", "rb")
d = read_pdf_file(pdf_d)
pdf_d.close()

pdf_e = open("data/environment_S/대기업.pdf", "rb")
e = read_pdf_file(pdf_e)
pdf_e.close()

pdf_f = open("data/governance_S/대기업.pdf", "rb")
f = read_pdf_file(pdf_f)
pdf_f.close() 

pdf_g = open("data/governance_S/대기업.pdf", "rb")
g = read_pdf_file(pdf_g)
pdf_g.close()

pdf_h = open("data/governance_S/대기업.pdf", "rb")
h = read_pdf_file(pdf_h)
pdf_h.close()

pdf_i = open("data/governance_S/대기업.pdf", "rb")
i = read_pdf_file(pdf_i)
pdf_i.close()

pdf_j = open("data/governance_S/대기업.pdf", "rb")
j = read_pdf_file(pdf_j)
pdf_j.close()

pdf_k = open("data/social_S/대기업.pdf", "rb")
k = read_pdf_file(pdf_k)
pdf_k.close() 

pdf_l = open("data/social_S/대기업.pdf", "rb")
l = read_pdf_file(pdf_l)
pdf_l.close()

pdf_n = open("data/social_S/대기업.pdf", "rb")
n = read_pdf_file(pdf_n)
pdf_n.close()

pdf_m = open("data/social_S/대기업.pdf", "rb")
m = read_pdf_file(pdf_m)
pdf_m.close()

pdf_o = open("data/social_S/대기업.pdf", "rb")
o = read_pdf_file(pdf_o)
pdf_o.close()



### 3. 문서 토큰화

In [76]:
from konlpy.tag import Mecab
mecab = Mecab()

def word_token (x) :
    tokens = []
    for token in mecab.pos(x):
        tokens.append(token)
    return tokens

a = word_token(a)
b = word_token(b)
c = word_token(c)
d = word_token(d)
e = word_token(e)
f = word_token(f)
g = word_token(g)
h = word_token(h)
i = word_token(i)
j = word_token(j)
k = word_token(k)
l = word_token(l)
n = word_token(n)
m = word_token(m)
o = word_token(o)

### 4. 불용어 처리 및 TF-IDF

- stop 리스트는 불용어를 넣어 처리하는 부분이며, 임의적으로 변경이 가능합니다. 이부분은 각 문서를 토큰화하여 불용어를 찾아 리스트에 추가해도 되었지만 TF-IDF의 경우 빈도 수치가 높은 단어를 가져오기 때문에 불용어를 따로 처리할 필요가 없었습니다.

- feature 값과 label 값을 나누기 위해서 W0, w1, w2 ... w14와 v0, v1, v2 ... v14 로 나누어 저장하였습니다.

In [77]:
from konlpy.tag import Mecab
mecab = Mecab()
stop = ["회사", "에서", "위해", "관련", "기준"]

def vocab_nodes (x):
    nodes = [t[0] for t in x]
    vocab = [t[0] for t in x if t[0] not in stop if t[1] in ['NNG', 'NNP'] and len(t[0]) > 1]
    
    vocab = list(set(vocab))

    vocab2idx = {vocab[i]:i for i in range(len(vocab))}
    idx2vocab = {i:vocab[i] for i in range(len(vocab))}
    
    vocab_len = len(vocab2idx)

    # 토큰별로 그래프 edge를 Matrix 형태로 생성
    weighted_edge = np.zeros((vocab_len,vocab_len),dtype=np.float32)

    # 각 토큰 노드별로 스코어 1로 초기화
    score = np.ones((vocab_len),dtype=np.float32)

    # coocurrence를 판단하기 위한 window 사이즈 설정
    window_size = 4
    covered_coocurrences = []

    for window_start in range(len(nodes) - window_size + 1):
        window = nodes[window_start:window_start+window_size]
        for i in range(window_size):
            for j in range(i+1, window_size):
                if window[i] in vocab and window[j] in vocab:
                    index_i = window_start + i
                    index_j = window_start + j

                    if (index_i, index_j) not in covered_coocurrences:
                        weighted_edge[vocab2idx[window[i]]][vocab2idx[window[j]]] = 1
                        weighted_edge[vocab2idx[window[j]]][vocab2idx[window[i]]] = 1
                        covered_coocurrences.append((index_i, index_j))

    for i in range(vocab_len):
        row_sum = weighted_edge[i].sum()
        weighted_edge[i] = weighted_edge[i]/row_sum if row_sum > 0 else 0

    MAX_ITERATIONS = 50
    d=0.85
    threshold = 0.0001 #convergence threshold

    for iter in range(MAX_ITERATIONS):
        prev_score = np.copy(score)

        for i in range(vocab_len):
            summation = 0
            for j in range(vocab_len):
                if weighted_edge[j][i] != 0:
                    summation += weighted_edge[j][i] * prev_score[j]

            score[i] = (1 - d) * d*summation

        if np.sum(np.fabs(prev_score -  score)) <= threshold:
            break


    sorted_index = np.flip(np.argsort(score), 0)

    w = []
    v = []
    for i in range(0, 100) :
        w.append(str(idx2vocab[sorted_index[i]]))
        v.append(str(score[sorted_index[i]]))
    return w, v

In [78]:
w0, v0 = vocab_nodes (a)
w1, v1 = vocab_nodes (b)
w2, v2 = vocab_nodes (c)
w3, v3 = vocab_nodes (d)
w4, v4 = vocab_nodes (e)

w5, v5 = vocab_nodes (f)
w6, v6 = vocab_nodes (g)
w7, v7 = vocab_nodes (h)
w8, v8 = vocab_nodes (i)
w9, v9 = vocab_nodes (j)

w10, v10 = vocab_nodes (k)
w11, v11 = vocab_nodes (l)
w12, v12 = vocab_nodes (n)
w13, v13 = vocab_nodes (m)
w14, v14 = vocab_nodes (o)

### 5. 데이터 프레임 생성 및 CSV 수정

- 단어의 값을 시리즈로 만들어 데이터 프레임으로 만들어서 feature 값의 모음을 만들었습니다.

In [79]:
attr = []
for i in range(1, 101):
    attr.append(f"속성{i}")

In [80]:
w0 = pd.Series(w0, attr)
w1 = pd.Series(w1, attr)
w2 = pd.Series(w2, attr)
w3 = pd.Series(w3, attr)
w4 = pd.Series(w4, attr)

w5 = pd.Series(w5, attr)
w6 = pd.Series(w6, attr)
w7 = pd.Series(w7, attr)
w8 = pd.Series(w8, attr)
w9 = pd.Series(w9, attr)

w10 = pd.Series(w10, attr)
w11 = pd.Series(w11, attr)
w12 = pd.Series(w12, attr)
w13 = pd.Series(w13, attr)
w14 = pd.Series(w14, attr)

In [81]:
df = pd.DataFrame([w0, w1, w2, w3, w4, w5, w6, w7, w8, w9, w10, w11, w12, w13, w14], index=[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15])

In [82]:
df

Unnamed: 0,속성1,속성2,속성3,속성4,속성5,속성6,속성7,속성8,속성9,속성10,...,속성91,속성92,속성93,속성94,속성95,속성96,속성97,속성98,속성99,속성100
1,제품,생활,건강,협력,관리,환경,활동,평가,고객,운영,...,용기,생산,배출,뷰티,안심,성과,정도,기타,구성,구축
2,전자,제품,관리,협력,고객,경영,사업,환경,활동,사회,...,국가,확보,향상,단위,데이터,내부,검증,전사,참여,단계
3,사회,대응,구성원,하이닉스,기술,경영,개발,운영,지속,환경,...,지휘,의심,검사,본사,소통,인재,제공,메시지,접촉,행복
4,관리,삼성,환경,교육,제품,운영,협력,강화,활동,안전,...,구매,전사,중요,직무,모니터링,선정,적용,처리,기업,감축
5,부문,관리,사업,교육,안전,삼성물산,사회,환경,활동,건설,...,가치,문화,프로젝트,중요,추진,공정,이사,보건,변화,통합
6,고객,지원,정보,경영,서비스,기업,운영,관리,대상,임직원,...,주주,이해,사외,현장,수립,사항,사내,재난,품질,이슈
7,디스플레이,활동,경영,환경,임직원,지원,관리,안전,사회,대한,...,장애,확대,공급,관계자,공정,역량,규제,사항,프로세스,혁신
8,사회,대응,구성원,하이닉스,기술,경영,개발,운영,지속,환경,...,지휘,의심,검사,본사,소통,인재,제공,메시지,접촉,행복
9,금융,신한,그룹,관리,고객,사회,지원,경영,운영,평가,...,성장,내부,보안,반영,과정,수립,거래,자금,계획,이행
10,자동차,현대,차량,기술,관리,지원,서비스,안전,운영,고객,...,위원회,탄소,성과,대응,역량,업무,공급,구분,한국,미국


* 이 작업을 할때마다 PDF불러오고 토큰화하는데 많은 시간이 결려서 추출된 내용을 저장하는 작업을 수행하였습니다.
* 그리고 Label 값은 이미 평가받은 ESG 평가 점수를 직접 입력해야 하기 때문에 CSV 파일로 받아서 입력을 시도하였습니다. (이부분은 웹사이트 크롤링을 통해 CSV 파일로 만들어 입력하면 됩니다. 여기서는 공개 허용 부분으로 인해 이부분은 제외)

In [83]:
df.to_csv("data/csv/esg.csv")

In [84]:
df_result = pd.read_csv("data/csv/result.csv")

In [107]:
df_test = pd.read_csv("data/csv/esg.csv")

* Unnamed 0가 지속적으로 나와서 그 값만 삭제하여깔끔하게 데이터프레임을 정리하였습니다.

In [108]:
df_test = df_test.drop(["Unnamed: 0", "y"], axis=1, inplace = False)

### 6. 속성별 레이블 인코딩

In [99]:
def label (x) :
    col_list = list(df_test[x])
    en = LabelEncoder()
    en.fit(df_test[x])
    x_list = en.transform(df_test[x])
    
    return x_list

In [109]:
a = []
for i in df_train:
    a.append(label(f"{i}"))
    

In [133]:
df_test_label = pd.DataFrame(data = a, columns=[x for x in range(1, 16)])

In [134]:
df_test_label = df_test_label.transpose()

In [136]:
df_test_label.to_csv("data/csv/label.csv")

In [137]:
df_label = pd.read_csv("data/csv/label.csv")

### 7. Test
- 간단한 예시를 보여드리기 위해 랜덤 포레스트를 사용하였습니다. 
- 현재는 GridSearchCV를 사용하여 파라미터 값을 조정도 해보고 있습니다.

In [159]:
df_train = df_label.drop(["y", "Unnamed: 0"], axis=1, inplace = False)
df_target = df_label["y"]

In [161]:
from sklearn.ensemble import RandomForestRegressor

In [162]:
model1 = RandomForestRegressor()

model1.fit(df_train, df_target)


pred1 = model1.predict(df_train)

df_result['y'] = pred1

- 테스트 데이터로 다른 토큰화 된 데이터를 가져와 결과값 즉 label값만 빼고 df_train 값에 넣어 실행해보았습니다.
- 결과값과 실제 평가받은 값이 비슷하게 나오는 결과를 볼 수 있었습니다.

In [163]:
df_result

Unnamed: 0.1,Unnamed: 0,y
0,1,91.584
1,2,92.751
2,3,95.458
3,4,93.008
4,5,92.498
5,6,94.385
6,7,92.757
7,8,95.458
8,9,93.197
9,10,93.591


In [150]:
df_target

0     90.5
1     92.1
2     95.5
3     92.6
4     92.0
5     94.5
6     92.1
7     95.5
8     93.1
9     94.0
10    94.5
11    93.8
12    95.5
13    93.9
14    93.6
Name: y, dtype: float64