# DGT x ChatGPT API

In [None]:
import openai
GPT_API_KEY = 'your OpenAI API KEY'
openai.api_key = GPT_API_KEY
openai.Model.list()

# (함수) chatGPT의 대답을 출력하는 함수

In [2]:
def getAnswer(q):
    return q.choices[0].message.content

# (함수) chatGPT의 대답 문자열로부터 리스트를 얻는 함수

In [3]:
import re
import ast

def getListFromAnswer(ans):
    list_pattern = r"\[.*\]"
    str_list = re.findall(list_pattern, ans, re.DOTALL)[0]
    lst = ast.literal_eval(str_list)
    return lst

# (함수) chatGPT의 대답 문자열로부터 딕셔너리를 얻는 함수

In [4]:
import re
import ast

def getDictFromAnswer(ans):
    list_pattern = r"\{.*\}"
    str_dict = re.findall(list_pattern, ans, re.DOTALL)[0]
    
    if str_dict:
        dct = ast.literal_eval(str_dict)
    else:
        dct = {}
    return dct

# (예시) S&P500 기업 503개 평가

# S&P500 티커심볼, 기업명 불러오기

In [5]:
import pandas as pd

# S&P500 기업 정보 데이터 불러오기
sp500 = pd.read_html('https://en.wikipedia.org/wiki/List_of_S%26P_500_companies')[0]

# 필요한 열 선택하기
sp500 = sp500[['Symbol', 'Security']]

# 열 이름 변경하기
sp500 = sp500.rename(columns={'Symbol': 'Ticker', 'Security': 'Company'})

# 데이터프레임 출력하기
sp500


Unnamed: 0,Ticker,Company
0,MMM,3M
1,AOS,A. O. Smith
2,ABT,Abbott
3,ABBV,AbbVie
4,ACN,Accenture
...,...,...
498,YUM,Yum! Brands
499,ZBRA,Zebra Technologies
500,ZBH,Zimmer Biomet
501,ZION,Zions Bancorporation


# (함수) 평가함수: 데이터프레임 입력

In [2]:
import time 

def evaluateCorporations(df_tickerAndcorp):
    listTickers = df_tickerAndcorp['Ticker'].tolist()
    listCorps = df_tickerAndcorp['Company'].tolist()
    print(f'start ...')
    print(f'corps: {listTickers}')
    start_time = time.time()

    bucket_ans_eval = []
    bucket_dicts_eval = []
    
    for i in range(len(listTickers)):
        print(f'evaluating {listTickers[i]} ... {i+1}/{len(listTickers)}')
        q_eval = openai.ChatCompletion.create(
            model = 'gpt-3.5-turbo',
            messages = [
                {
                    "role": "system", 
                    "content": '''
                        From now on, please consider yourself as a well-known and respected corporate analyst, 
                        fund manager, and analyst.'''
                },
                {
                    "role": "user", 
                    "content": 
                     f'''
                         I am interested in a company with 
                         the ticker symbol {listTickers[i]}, corporation name {listCorps[i]}, 
                         and here are the important characteristics used to evaluate the company:
                         
                            ['financial stability and liquidity',
                            'strong management team',
                            'competitive advantage',
                            'market potential',
                            'growth prospects',
                            'diversification within the company',
                            'sustainable business model',
                            'innovation and R&D',
                            'corporate governance',
                            'strong brand recognition']
                    
                        Can you assign a score of 0-100 for each of these characteristics to provide an evaluation of the company? 
                        
                        It would be great if the output is in the form of a Python dictionary, which also includes keys "ticker" in first place and "company" in second place to identify the company.'''
                }
            ]
        )

        a_eval = getAnswer(q_eval)
        bucket_ans_eval.append(a_eval)
        dict_eval = getDictFromAnswer(a_eval)
        if dict_eval == {}:
            dict_eval = {'ticker': listTickers[i], 'company': listCorps[i]}
        bucket_dicts_eval.append(dict_eval)

    print(f'end ...')
    end_time = time.time()
    elapsed_time = end_time - start_time  # 실행 시간 계산
    print(f"Elapsed time: {elapsed_time:.2f} seconds")
    return [bucket_dicts_eval, bucket_ans_eval]

# (함수) 평가로부터 데이터프레임을 출력하는 함수

In [7]:
import pandas as pd

# index = 0 = 기본값인 경우 평가함수의 출력만을 넣어 데이터 프레임 출력 가능  
# index= -1 일 경우 딕셔너리 인풋으로 데이터프레임을 출력 가능
def getDataFrame(listDicts, index=0):
    if index != -1:
        df = pd.DataFrame(listDicts[index])
    else:
        df = pd.DataFrame(listDicts)
    return df

# (함수) 입력 데이터프레임 쪼개어 배치 만들기

In [8]:
def makeBatch(df, batch_size=5):
    bucket = []
    num_batch = len(df) // batch_size
    for n_th in range(num_batch+1):
        if (n_th+1)*batch_size < len(df):
            df_batch = df.iloc[n_th*batch_size: (n_th+1)*batch_size]
        else:
            df_batch = df.iloc[n_th*batch_size: ]
        bucket.append(df_batch)
    return bucket

# STEP 0: 입력 데이터 배치 만들기 

In [None]:
list_batches = makeBatch(sp500)
list_batches # 여기에 index를 입력하면 배치 5개 기업 단위로 얻어짐

# 배치 0/100 (0번째 배치 = 첫 5개 기업)

Q) 잠깐! 왜 배치를 나누고 5개 기업 단위로 평가를 할까요? 
A) 5개 기업 이상을 반복해서 돌릴 경우 gpt의 이상 답변 확률이 증가하고 네트워크 이상에 의해 오류 답변 가능성, 답변 대기 시간이 증가합니다. 반면 5개 미만이 되면 지나치게 여러번 평가 함수를 돌려야 하므로 작업 효율이 떨어집니다.

# STEP 1: 평가하기

In [10]:
index = 0 # 배치 인덱스 입력
eval_batch0 = evaluateCorporations(list_batches[index])

start ...
corps: ['MMM', 'AOS', 'ABT', 'ABBV', 'ACN']
evaluating MMM ... 1/5
evaluating AOS ... 2/5
evaluating ABT ... 3/5
evaluating ABBV ... 4/5
evaluating ACN ... 5/5
end ...
Elapsed time: 161.36 seconds


# STEP 2: 평가한 배치 저장하기

In [None]:
# 평가 결과는 [평가 점수 딕셔너리, 평가한 원문 문자열] 형식으로 저장되므로
# 인덱스 0으로 딕셔너리만을 저장하는 것에 유의하라
evals = eval_batch0[0]
evals

# STEP 3: 평가한 배치0 데이터프레임 출력해보기

In [13]:
df_batch = getDataFrame(eval_batch0)
df_batch

Unnamed: 0,ticker,company,financial stability and liquidity,strong management team,competitive advantage,market potential,growth prospects,diversification within the company,sustainable business model,innovation and R&D,corporate governance,strong brand recognition
0,MMM,3M,90,85,95,80,75,90,85,90,80,95
1,AOS,A. O. Smith Corporation,90,85,80,85,80,70,90,75,85,90
2,ABT,Abbott,85,90,90,80,85,80,90,90,85,85
3,ABBV,AbbVie,90,85,90,75,80,70,85,90,75,85
4,ACN,Accenture,95,90,95,85,90,85,90,85,90,95


# 배치 1/100 (0번째 배치 = 다음 5개 기업)

# STEP 4: 또 평가하기

In [14]:
eval_batch1 = evaluateCorporations(list_batches[1])

start ...
corps: ['ATVI', 'ADM', 'ADBE', 'ADP', 'AAP']
evaluating ATVI ... 1/5
evaluating ADM ... 2/5
evaluating ADBE ... 3/5
evaluating ADP ... 4/5
evaluating AAP ... 5/5
end ...
Elapsed time: 124.24 seconds


# STEP 5: 앞서 평가한 배치0과 이번 평가를 합쳐 저장하기

In [None]:
# 평가 결과는 [평가 점수 딕셔너리, 평가한 원문 문자열] 형식으로 저장되므로
# 평가 결과 중 인덱스 0인 요소인 평가 점수 딕셔너리만을 합친다.
evals = evals + eval_batch1[0]
evals

# STEP 6: 합쳐진 평가들을 데이터프레임 출력해보기

In [24]:
# 합쳐진 평가를 데이터프레임으로 출력할 경우 딕셔너리 입력을 넣게 된다.
# 딕셔너리 입력을 넣을 경우, 함수 두번째 변수(인덱스 변수)에 -1을 입력하라 
df_total = getDataFrame(evals, -1)
df_total

Unnamed: 0,ticker,company,financial stability and liquidity,strong management team,competitive advantage,market potential,growth prospects,diversification within the company,sustainable business model,innovation and R&D,corporate governance,strong brand recognition
0,MMM,3M,90,85,95,80,75,90,85,90,80,95
1,AOS,A. O. Smith Corporation,90,85,80,85,80,70,90,75,85,90
2,ABT,Abbott,85,90,90,80,85,80,90,90,85,85
3,ABBV,AbbVie,90,85,90,75,80,70,85,90,75,85
4,ACN,Accenture,95,90,95,85,90,85,90,85,90,95
5,ATVI,Activision Blizzard,85,90,85,80,90,80,90,85,85,95
6,ADM,ADM Corporation,80,90,85,75,70,75,80,70,90,85
7,ADBE,Adobe Inc.,80,85,90,85,90,80,85,95,90,95
8,ADP,ADP,88,95,80,70,75,85,90,70,90,95
9,AAP,Advance Auto Parts,85,80,70,75,65,60,80,30,75,90


In [1]:
# 이하 모든 배치 반복