# Get some keywords related to the stock name 
- used clover x

In [2]:
# -*- coding: utf-8 -*-

import base64
import hashlib
import hmac
import requests
import time


class CreateTaskExecutor:
    def __init__(self, host, uri, method, iam_access_key, secret_key, request_id):
        self._host = host
        self._uri = uri
        self._method = method
        self._api_gw_time = str(int(time.time() * 1000))
        self._iam_access_key = iam_access_key
        self._secret_key = secret_key
        self._request_id = request_id

    def _make_signature(self):
        secret_key = bytes(self._secret_key, 'UTF-8')
        message = self._method + " " + self._uri + "\n" + self._api_gw_time + "\n" + self._iam_access_key
        message = bytes(message, 'UTF-8')
        signing_key = base64.b64encode(hmac.new(secret_key, message, digestmod=hashlib.sha256).digest())
        return signing_key

    def _send_request(self, create_request):

        headers = {
            'X-NCP-APIGW-TIMESTAMP': self._api_gw_time,
            'X-NCP-IAM-ACCESS-KEY': self._iam_access_key,
            'X-NCP-APIGW-SIGNATURE-V2': self._make_signature(),
            'X-NCP-CLOVASTUDIO-REQUEST-ID': self._request_id
        }
        result = requests.post(self._host + self._uri, json=create_request, headers=headers).json()
        return result

    def execute(self, create_request):
        res = self._send_request(create_request)
        if 'status' in res and res['status']['code'] == '20000':
            return res['result']
        else:
            return res


if __name__ == '__main__':
    completion_executor = CreateTaskExecutor(
        host='https://clovastudio.apigw.ntruss.com',
        uri='/tuning/v2/tasks',
        method='POST',
        iam_access_key='iam_access_key',
        secret_key='secret_key',
        request_id='request_id'
    )

    request_data = {'name': 'generation_task',
                    'model': 'HCX-003',
                    'tuningType': 'PEFT',
                    'taskType': 'GENERATION',
                    'trainEpochs': '8',
                    'learningRate': '1e-5f',
                    'trainingDatasetBucket': 'bucket_name',
                    'trainingDatasetFilePath': 'root_path/sub_path/file_name',
                    'trainingDatasetAccessKey': 'ncp_iam_BPAMKR2ccaEsJbyQxJBn',
                    'trainingDatasetSecretKey': 'ncp_iam_BPKMKRGL0zzgFBXwl2bcKzszp7rYloCJ9J'
                    }
    response_text = completion_executor.execute(request_data)



In [4]:
import json

# JSON 파일 읽기
with open('./youtube/2024.06/youtube_videos_2024-06-02.json', 'r', encoding='utf-8') as json_file:
    data = json.load(json_file)

# JSONL 파일 쓰기
with open('data.jsonl', 'w', encoding='utf-8') as jsonl_file:
    for entry in data:
        jsonl_file.write(json.dumps(entry) + '\n')

In [1]:
# -*- coding: utf-8 -*-

import requests


class CompletionExecutor:
    def __init__(self, host, api_key, api_key_primary_val, request_id):
        self._host = host
        self._api_key = api_key
        self._api_key_primary_val = api_key_primary_val
        self._request_id = request_id

    def execute(self, completion_request):
        headers = {
            'X-NCP-CLOVASTUDIO-API-KEY': self._api_key,
            'X-NCP-APIGW-API-KEY': self._api_key_primary_val,
            'X-NCP-CLOVASTUDIO-REQUEST-ID': self._request_id,
            'Content-Type': 'application/json; charset=utf-8',
            'Accept': 'text/event-stream'
        }

        with requests.post(self._host + '/testapp/v1/chat-completions/HCX-DASH-001',
                           headers=headers, json=completion_request, stream=True) as r:
            for line in r.iter_lines():
                if line:
                    print(line.decode("utf-8"))


[{'role': 'system', 'content': '입력된 기업과 가장 관련성 있는 단어 5개만 답해 대신 이 단어는 영어야.\n\n\n예를 들면 tesla\n\n1. electric car \n2. battery \n3. Elon Musk\n4. X\n5. stock'}, {'role': 'user', 'content': '3M(MMM)'}, {'role': 'assistant', 'content': '관련성 있는 단어 다섯 개는 다음과 같습니다. \n\n1. 포스트잇 (Post-it)\n2. 스카치테이프 (Scotch Tape)\n3. 투명 테이프 (Clear Tape)\n4. 마스킹 테이프 (Masking Tape)\n5. 문구용품 (Stationery)  \n\n위와 같이 3M은 포스트잇, 스카치테이프 등 다양한 문구용품으로 유명한 기업입니다.'}, {'role': 'user', 'content': 'APPLE'}, {'role': 'assistant', 'content': '1. 아이폰 (iPhone)\n2. 아이패드 (iPad)\n3. 맥북 (MacBook)\n4. 애플워치 (Apple Watch)\n5. 팀쿡'}, {'role': 'user', 'content': 'Airbnb'}, {'role': 'assistant', 'content': '1. 숙박 공유 서비스 (Accommodation sharing service)\n2. 에어비앤비 호스트 (Airbnb Host)\n3. 에어비앤비 게스트 (Airbnb Guest)\n4. 도시 재생 (Urban regeneration)\n5. 여행 산업 (Travel industry)  \n\n위와 같이 Airbnb는 숙박 공유 서비스를 제공하는 기업으로, 이를 통해 도시 재생과 여행 산업에 기여하고 있습니다.'}, {'role': 'user', 'content': 'Aon'}, {'role': 'assistant', 'content': '1. 보험 중개 ( Insurance brokerage )\n2

In [None]:
completion_executor = CompletionExecutor(
    host='https://clovastudio.stream.ntruss.com',
    api_key='NTA0MjU2MWZlZTcxNDJiY1Xe7aQkqrIiOsYDwm3iQIBHIkVg9pQCWoYXEiyqAeZr',
    api_key_primary_val='J93S8N9DL4alpCm5IYRtWWce0NitVO830oPSnmn2',
    request_id='46135814-e914-4061-acdf-fb4e9a970131'
)

preset_text = [
    {"role":"system","content":"입력된 기업과 가장 관련성 있는 단어 5개만 답해 대신 이 단어는 영어야.\n\n\n예를 들면 tesla\n\n1. electric car \n2. battery \n3. Elon Musk\n4. X\n5. stock"},{"role":"user","content":"3M(MMM)"},{"role":"assistant","content":"관련성 있는 단어 다섯 개는 다음과 같습니다. \n\n1. 포스트잇 (Post-it)\n2. 스카치테이프 (Scotch Tape)\n3. 투명 테이프 (Clear Tape)\n4. 마스킹 테이프 (Masking Tape)\n5. 문구용품 (Stationery)  \n\n위와 같이 3M은 포스트잇, 스카치테이프 등 다양한 문구용품으로 유명한 기업입니다."},
    {"role":"user","content":"APPLE"},
    {"role":"assistant","content":"1. 아이폰 (iPhone)\n2. 아이패드 (iPad)\n3. 맥북 (MacBook)\n4. 애플워치 (Apple Watch)\n5. 팀쿡"},
    {"role":"user","content":"Airbnb"},
    {"role":"assistant","content":"1. 숙박 공유 서비스 (Accommodation sharing service)\n2. 에어비앤비 호스트 (Airbnb Host)\n3. 에어비앤비 게스트 (Airbnb Guest)\n4. 도시 재생 (Urban regeneration)\n5. 여행 산업 (Travel industry)  \n\n위와 같이 Airbnb는 숙박 공유 서비스를 제공하는 기업으로, 이를 통해 도시 재생과 여행 산업에 기여하고 있습니다."},
    {"role":"user","content":"Aon"},
    {"role":"assistant","content":"1. 보험 중개 ( Insurance brokerage )\n2. 리스크 관리 ( Risk management )\n3. 인사 컨설팅 ( Human resource consulting )\n4. 자산 운용 ( Asset management )\n5. 재보험 ( Reinsurance )  \n\n위와 같이 Aon은 다양한 분야에서 서비스를 제공하는 글로벌 기업 중 하나 입니다."}]

request_data = {
    'messages': preset_text,
    'topP': 0.8,
    'topK': 0,
    'maxTokens': 256,
    'temperature': 0.5,
    'repeatPenalty': 5.0,
    'stopBefore': [],
    'includeAiFilters': True,
    'seed': 0
}

print(preset_text)
completion_executor.execute(request_data)

In [14]:
import pandas as pd

real_list = pd.read_csv('S&P500_company_list.csv')
real_list

Unnamed: 0,Symbol,Security,GICS Sector,GICS Sub-Industry,Headquarters Location,Date added,CIK,Founded
0,MMM,3M,Industrials,Industrial Conglomerates,"Saint Paul, Minnesota",1957.3.4,66740,1902
1,AOS,A. O. Smith,Industrials,Building Products,"Milwaukee, Wisconsin",2017.7.26,91142,1916
2,ABT,Abbott,Health Care,Health Care Equipment,"North Chicago, Illinois",1957.3.4,1800,1888
3,ABBV,AbbVie,Health Care,Biotechnology,"North Chicago, Illinois",2012.12.31,1551152,2013 (1888)
4,ACN,Accenture,Information Technology,IT Consulting & Other Services,"Dublin, Ireland",2011.7.6,1467373,1989
...,...,...,...,...,...,...,...,...
498,XYL,Xylem Inc.,Industrials,Industrial Machinery & Supplies & Components,"White Plains, New York",2011.11.1,1524472,2011
499,YUM,Yum! Brands,Consumer Discretionary,Restaurants,"Louisville, Kentucky",1997.10.6,1041061,1997
500,ZBRA,Zebra Technologies,Information Technology,Electronic Equipment & Instruments,"Lincolnshire, Illinois",2019.12.23,877212,1969
501,ZBH,Zimmer Biomet,Health Care,Health Care Equipment,"Warsaw, Indiana",2001.8.7,1136869,1927


## Make the query for clover

In [30]:
request_list = [{"role":"system","content":"five english words related to the company.\n\n\nFor example, tesla\n\n1. electric car \n2. battery \n3. Elon Musk\n4. X\n5. stock"}]
security = real_list['Security']
symbol = real_list['Symbol']

for i in range(len(real_list)):
    if i<10:
        print({"role":"user","content":str(security[i])+"("+str(symbol[i])+")"})
        request_list.append({"role":"user","content":str(security[i])+"("+str(symbol[i])+")"})

{'role': 'user', 'content': '3M(MMM)'}
{'role': 'user', 'content': 'A. O. Smith(AOS)'}
{'role': 'user', 'content': 'Abbott(ABT)'}
{'role': 'user', 'content': 'AbbVie(ABBV)'}
{'role': 'user', 'content': 'Accenture(ACN)'}
{'role': 'user', 'content': 'Adobe Inc.(ADBE)'}
{'role': 'user', 'content': 'Advanced Micro Devices(AMD)'}
{'role': 'user', 'content': 'AES Corporation(AES)'}
{'role': 'user', 'content': 'Aflac(AFL)'}
{'role': 'user', 'content': 'Agilent Technologies(A)'}


In [77]:
def mk_text(i):
    security = real_list['Security']
    symbol = real_list['Symbol']
    request_list = [{"role": "system", "content": "입력된 기업과 가장 관련성 있는 단어 5개만 답해 대신 이 단어는 영어야.\n\n\n예를 들면 tesla\n\n1. electric car\n2. battery\n3. Elon Musk\n4. X\n5. stock"}]
    request_list.append({"role": "user", "content": str(security[i]) + "(" + str(symbol[i]) + ")"})
    
    return request_list

request_list = mk_text(1)


def extract_phrases(text):
    # 각 항목을 리스트로 분리
    items = text.split('\n')
    phrases = []

    for item in items:
        # 숫자와 점 뒤의 내용을 추출
        parts = item.split('. ', 1)
        if len(parts) > 1:
            phrases.append(parts[1])

    return phrases

{'role': 'user', 'content': 'A. O. Smith(AOS)'}


#### You can check out the result of all the company keyword from keyword_list.txt. Getting the result of this all the data were omitted in this code