In [51]:
#필요 모듈 임포트
from google.cloud import texttospeech
from google.cloud import speech
from pydub import AudioSegment
from konlpy.tag import Okt
from konlpy.tag import Kkma
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys
import matplotlib.pyplot as plt
import FinanceDataReader as fdr
import speech_recognition as sr
import pandas as pd
import numpy as np
import datetime
import subprocess
import time
import os
import io

# 필요 함수 정의

## 1) Text To Speech API 사용하는 함수

In [None]:
#text to speech api 사용하는 함수
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = './tts_key.json' #경로 자기에 맞게 설정

def synthesize_text(text, file_name):
    client = texttospeech.TextToSpeechClient()

    input_text = texttospeech.SynthesisInput(text=text)

    voice = texttospeech.VoiceSelectionParams(
        language_code='ko-KR',
        ssml_gender=texttospeech.SsmlVoiceGender.NEUTRAL)

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16)

    response = client.synthesize_speech(
        input=input_text,
        voice=voice,
        audio_config=audio_config)

    with open(file_name, 'wb') as out:
        out.write(response.audio_content)

## 2) 음성 데이터 입력받고 텍스트로 변환하는 함수

In [None]:
#사용자로부터 음성 데이터를 입력받아 텍스트로 변환하여 반환하는 함수
def voice_recog():
    try:
        r = sr.Recognizer()

        with sr.Microphone() as source:
            print('음성을 입력하세요.')
            audio = r.record(source, duration = 10)
            try:
                print('음성변환 : ' + r.recognize_google(audio, language='ko-KR'))
                return r.recognize_google(audio, language='ko-KR')
            except sr.UnknownValueError:
                print('오디오를 이해할 수 없습니다.')
            except sr.RequestError as e:
                print(f'에러가 발생하였습니다. 에러원인 : {e}')

    except KeyboardInterrupt:
        pass

## 3) 네이버 증권 주요 뉴스 크롤링하는 함수

In [None]:
def naver_crawling(path):
    # Selenium 드라이버 실행
    options = webdriver.ChromeOptions()
    options.add_argument('headless')  # Chrome 창 숨기기 옵션
    driver = webdriver.Chrome(path + '/chromedriver', options=options) #크롬 드라이버 경로 자기한테 맞게 변경

    # 네이버 증권 뉴스 페이지로 이동
    driver.get('https://finance.naver.com/news/mainnews.naver')

    # 페이지 로딩을 위해 3초 대기
    time.sleep(3)

    # 페이지 소스코드 가져오기
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # 뉴스 제목 추출하기
    src = soup.select('.articleSubject')
    news_titles  = [news.text for news in src]
    news_titles = [news.replace("\n", "") for news in news_titles]


    #뉴스 링크 추출하기
    news_links = []
    base_url = 'https://finance.naver.com/'

    for s in src:
        end = str(s.a).find(">")
        link = str(s.a)[9:end-1]
        link = base_url + link.replace("amp;","")
        news_links.append(link)

    #뉴스 내용 추출하기
    news_contents = []
    for link in news_links:
        driver.get(link)
        time.sleep(2)
        html = driver.page_source
        soup = BeautifulSoup(html, 'html.parser')
        content = soup.select('.articleCont')[0].text.strip()
        news_contents.append(content)

    # 드라이버 종료
    driver.quit()

    #시장 전반 뉴스 데이터 프레임 형태로 저장하기
    df_naver = pd.DataFrame(columns = ['제목', '링크', '본문'])
    df_naver['제목'] = news_titles
    df_naver['링크'] = news_links
    df_naver['본문'] = news_contents
    
    #결과 데이터프레임 반환
    return df_naver

## 4) Investing.com 종목별 주요 뉴스 크롤링하는 함수

In [None]:
def crawling_inv(path, company):
    # Selenium 드라이버 실행
    options = webdriver.ChromeOptions()
    options.add_argument('headless')  # Chrome 창 숨기기 옵션

    # 웹 드라이버 경로 설정 
    driver_path = path + '/chromedriver'

    # Selenium 드라이버 실행
    driver = webdriver.Chrome(driver_path)

    # kr.investing.com/equities 사이트 접속
    driver.get('https://kr.investing.com/equities')

    name = company

    # 광고 팝업 닫기
    try:
        popup_close_button = WebDriverWait(driver, 2).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'i.popupCloseIcon.largeBannerCloser'))
        )
        popup_close_button.click()
    except:
        pass

    # 검색 입력란에 회사 이름 입력 후 검색 버튼 클릭
    search_box = WebDriverWait(driver, 2).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '.searchText.arial_12.lightgrayFont.js-main-search-bar'))
    )
    search_box.send_keys(name)

    search_button = WebDriverWait(driver, 2).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '.searchGlassIcon.js-magnifying-glass-icon'))
    )
    search_button.click()

    # 광고 팝업 닫기
    try:
        popup_close_button = WebDriverWait(driver, 2).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'i.popupCloseIcon.largeBannerCloser'))
        )
        popup_close_button.click()
    except:
        pass

    # 대기 시간 늘리기 및 다른 선택자 사용
    article_items = WebDriverWait(driver, 3).until(
        EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.articleItem'))
    )

    news_titles = []
    news_links = []
    news_contents = []

    for item in article_items:
        # Extract article title
        title_element = WebDriverWait(item, 3).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'a.title'))
        )
        news_titles.append(title_element.text)

        # Extract article link
        news_links.append(title_element.get_attribute('href'))

        # Extract article content
        content_element = WebDriverWait(item, 3).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, 'div.textDiv'))
        )
        news_contents.append(content_element.text)

    # 드라이버 종료
    driver.quit()

    #특정 기업 뉴스 데이터 프레임 형태로 저장하기
    df_inv = pd.DataFrame(columns = ['제목', '링크', '본문'])
    df_inv['제목'] = news_titles
    df_inv['링크'] = news_links
    df_inv['본문'] = news_contents

    #결과 데이터 프레임 반환
    return df_inv

## 5) KRX 정보데이터 시스템에서 개별 종목 관련 정보 크롤링하는 함수

In [None]:
def finance_crawling(path, company):
    # 정보를 가져오고 싶은 종목명 입력
    name = company

    # Selenium 드라이버 실행
    options = webdriver.ChromeOptions()
    options.add_argument('headless')  # Chrome 창 숨기기 옵션

    # 웹 드라이버 경로 설정
    driver_path = '/Users/parkjunhyeong/Downloads/chromedriver'

    # Selenium 드라이버 실행
    driver = webdriver.Chrome(driver_path)

    # KOREA EXCHANGE 주식 종목 사이트 접속
    driver.get('http://data.krx.co.kr/contents/MMC/ISIF/isif/MMCISIF001.cmd')

    # 버튼을 찾아 클릭
    button = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, "//button[@class='btnSearch CI-STOCK-SEARCH-OPEN']")))
    button.click()

    # 검색 입력란에 회사 이름 입력
    search_input = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'jsStockSearchLayerWord')))
    search_input.clear()
    search_input.send_keys(name)

    # 엔터 입력
    time.sleep(3)
    search_input.send_keys(Keys.RETURN)
    time.sleep(5)
    search_input.send_keys(Keys.RETURN)

    # 페이지 로딩을 위해 10초 대기
    time.sleep(5)

    # HTML 요소를 찾기 위해 JavaScript 실행
    element_script = "document.querySelector('a[data-index=\"0\"]').click();"
    driver.execute_script(element_script)

    # 페이지 로딩을 위해 5초 대기
    time.sleep(5)

    # 요소의 값을 가져와 변수에 저장
    sb_prc = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="SB_PRC"]').text.replace(',', '')
    date = datetime.datetime.now().strftime('%Y-%m-%d')
    company = driver.find_element(By.CSS_SELECTOR, 'strong[data-bind="ISU_NM"]').text
    forn_rto = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="FORN_RTO"]').text
    tdd_opnprc = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="TDD_OPNPRC"]').text.replace(',', '')
    acc_trdvol = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="ACC_TRDVOL"]').text.replace(',', '')
    tdd_hgprc = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="TDD_HGPRC"]').text.replace(',', '')
    acc_trdval = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="ACC_TRDVAL"]').text.replace(',', '')
    tdd_lwprc = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="TDD_LWPRC"]').text.replace(',', '')
    mktcap = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="MKTCAP"]').text.replace(',', '')
    wk52_hgst_prc = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="WK52_HGST_PRC"]').text.replace(',', '')
    wk52_lwst_prc = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="WK52_LWST_PRC"]').text.replace(',', '')
    forn_rto = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="FORN_RTO"]').text.replace(',', '')
    per_pbr = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="PER_PBR"]').text.replace(',', '')
    sb_prc = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="SB_PRC"]').text.replace(',', '')
    div_yd = driver.find_element(By.CSS_SELECTOR, 'td[data-bind="DIV_YD"]').text.replace(',', '')
    asst_totamt = driver.find_element(By.CSS_SELECTOR, 'span[data-bind="ASST_TOTAMT"]').text.replace(',', '')
    debt_totamt = driver.find_element(By.CSS_SELECTOR, 'span[data-bind="DEBT_TOTAMT"]').text.replace(',', '')
    cap = driver.find_element(By.CSS_SELECTOR, 'span[data-bind="CAP"]').text.replace(',', '')
    cap_grndtot = driver.find_element(By.CSS_SELECTOR, 'span[data-bind="CAP_GRNDTOT"]').text.replace(',', '')
    sales = driver.find_element(By.CSS_SELECTOR, 'span[data-bind="SALES"]').text.replace(',', '')
    operproft_amt = driver.find_element(By.CSS_SELECTOR, 'span[data-bind="OPERPROFT_AMT"]').text.replace(',', '')
    netincm = driver.find_element(By.CSS_SELECTOR, 'span[data-bind="NETINCM"]').text.replace(',', '')

    # 드라이버 종료
    driver.quit()

    # 데이터 파일이 존재하는지 확인하고, 파일이 없을 경우 빈 데이터프레임 생성
    # df_stock = pd.DataFrame(columns=['날짜', '회사', '시가', '거래량', '고가', '거래대금', '저가', '시가총액',
    #                            '52주 최고 종가', '52주 최저 종가', '외국인비율', 'PER/PBR', '대용가',
    #                            '배당수익률', '자산총계', '부채총계', '자본금', '자본총계', '매출액', '영업이익', '당기순이익'])


    # DataFrame 데이터 추가
    data = {'날짜': [date], '회사': [company], '시가': [tdd_opnprc], '거래량': [acc_trdvol],
            '고가': [tdd_hgprc], '거래대금': [acc_trdval], '저가': [tdd_lwprc], '시가총액': [mktcap],
            '52주 최고 종가': [wk52_hgst_prc], '52주 최저 종가': [wk52_lwst_prc], '외국인비율': [forn_rto],
            'PER/PBR': [per_pbr], '대용가': [sb_prc], '배당수익률': [div_yd], '자산총계': [asst_totamt],
            '부채총계': [debt_totamt], '자본금': [cap], '자본총계': [cap_grndtot], '매출액': [sales],
            '영업이익': [operproft_amt], '당기순이익': [netincm]}

    df_stock = pd.DataFrame(data)

    return df_stock

## 6) 금액을 api가 읽을 수 있는 한국어로 바꿔주기 위한 함수

In [1]:
#금액 숫자를 text to speech api가 읽을 수 있는 한국어로 바꿔주기 위한 함수 정의
def number_to_korean(num):
    units = ['', '만', '억', '조', '경']
    count = 0
    result = ''
    while num > 0:
        num, mod = divmod(num, 10000)
        if mod > 0:
            result = '{}{}{}'.format(mod, units[count], result)
        count += 1
    return result

# 1. 사용자로부터 원하는 주식 종목 음성 데이터로 입력받기 

In [None]:
text = voice_recog()

## 1-3. konlpy 활용하여 변환한 문자열에서 주식 종목명만 추출하기

In [57]:
#상장 기업 목록 가져오기
krx = pd.read_csv('/path/to/KRX_data.csv')
companies = krx['Name'].tolist()

In [58]:
#konlpy의 kkma 활용해서 명사 단어들만 추출
kkma = Kkma()
nouns = kkma.nouns(text)
#추출 결과 확인 
print('Kkma 명사 추출 :', nouns)

Kkma 명사 추출 : ['삼성', '삼성전자', '전자']


In [59]:
#추출된 명사들 중 상장된 종목명과 일치하는 것이 있을 경우 company 변수에 저장
#없을 경우 "Company not here"
company = None
found = "no"

for n in nouns:
    if n in companies:
        company = n
        found = "yes"
        break
        
if found == "no" :
    print("Company not here.")

In [60]:
company

'삼성전자'

# 2. 시장 전반 뉴스 & 해당 종목에 대한 기업 뉴스 크롤링하기

## 2-1. 네이버 증권 뉴스에서 시장 전반 뉴스 크롤링

## 2-2. Investing.com에서 해당 종목에 대한 기업 뉴스 크롤링하기

# 3. 데이터프레임에서 뉴스 본문 가져와서 요약해주는 코드 (추후 업로드 예정)

# 4. 요약된 내용 Text To Speech로 음성 변환해주는 코드 (추가 업로드 예정)

# 5. 투자 지표 추출하기

## 5-1. 데이터 평활을 통해 주가 추세 요약하기

In [67]:
# 종목 코드 설정 (삼성전자)
code = krx[krx['Name'] == company]['Code'][0]

# 시작 날짜 설정 (현재 날짜로부터 6달 이전)
month = 6 # 사용자의 input값
start_date = datetime.datetime.now() - datetime.timedelta(days=month*30)

# 주가 데이터 가져오기
df = fdr.DataReader(code, start_date)

# 'Date'를 열로 가져오기
df['Date'] = df.index

# 'Close'를 제외한 열 제거
df = df[['Date','Close']]

# 이동평균(Moving Average) 계산 (기간: 7일) --> 5일, 20일, 60일, 120일
win = 7 # 사용자의 input값
df['MA'] = df['Close'].rolling(window=win).mean()

# 이동평균(Moving Average)를 다시 적용하여 평활화
df['Smoothed_MA'] = df['MA'].rolling(window=win).mean()

# 이동평균(Moving Average)를 다시 적용하여 평활화
df['Smoothed_MA_1'] = df['Smoothed_MA'].rolling(window=win).mean()

# 'Date'를 열로 가져오고, 레이블 제거
df = df.reset_index(drop=True)

# NaN이 포함된 행 제거
df = df.dropna()

df = df.drop(['Close', 'MA', 'Smoothed_MA'], axis = 1)
df.reset_index(drop=True, inplace=True)

# 'Diff'열 추가
row_count = df.shape[0]
for i in range (0,row_count-1) :
  df.loc[i+1, 'Diff'] =  df.loc[i+1, 'Smoothed_MA_1'] - df.loc[i, 'Smoothed_MA_1'] 

# NaN이 포함된 행 제거
df = df.dropna()

df1 = {'Date': ['2023-01-02'],
       'Smoothed_MA_1': [10],
       'Diff': [100]}

df1 = pd.DataFrame(df1)

for i in range (1, row_count-2) :
   if df.loc[i+1, 'Diff'] * df.loc[i, 'Diff'] < 0 :
        df1 = df1.append(df.loc[i])


df1 = df1.drop([0], axis = 0)
df1.reset_index(drop=True, inplace=True)

  df1 = df1.append(df.loc[i])
  df1 = df1.append(df.loc[i])
  df1 = df1.append(df.loc[i])
  df1 = df1.append(df.loc[i])
  df1 = df1.append(df.loc[i])
  df1 = df1.append(df.loc[i])


In [68]:
row_count_1 = df1.shape[0]
result_str = '안녕하세요. 신한AI 주가 추세 분석 AI입니다.\n'
result_str += '요청하신 삼성전자의 최근 {}개월 주가 추세를 분석해드리겠습니다.\n'.format(month)

for i in range(0, row_count_1 - 1):
    if df1.loc[i, 'Diff'] < 0:
        a = df1.loc[i, 'Date'].year
        b = df1.loc[i, 'Date'].month
        c = df1.loc[i, 'Date'].day
        result_str += '{}년 {}월 {}일 까지는 하락 추세입니다.\n'.format(a, b, c)
        if i == 0:
            result_str += '설정 기간부터 이 시기까지는 주가가 하락합니다.\n'
        else:
            d = abs(round(df1.loc[i, 'Smoothed_MA_1'] - df1.loc[i - 1, 'Smoothed_MA_1'],2))
            e = abs(round(((df1.loc[i, 'Smoothed_MA_1'] - df1.loc[i - 1, 'Smoothed_MA_1']) / df1.loc[i - 1, 'Smoothed_MA_1']) * 100, 2))
            result_str += '이 기간까지는 {}만큼 하락 주가가 하락하며 최대 {}%만큼 하락합니다.\n'.format(d, e)
    if df1.loc[i, 'Diff'] > 0:
        a = df1.loc[i, 'Date'].year
        b = df1.loc[i, 'Date'].month
        c = df1.loc[i, 'Date'].day
        result_str += '{}년 {}월 {}일 까지는 상승 추세입니다.\n'.format(a, b, c)
        if i == 0:
            result_str += '설정 기간부터 이 시기까지는 주가가 상승합니다.\n'
        else:
            d = abs(round(df1.loc[i - 1, 'Smoothed_MA_1'] - df1.loc[i, 'Smoothed_MA_1']))
            e = abs(round(((df1.loc[i, 'Smoothed_MA_1'] - df1.loc[i - 1, 'Smoothed_MA_1']) / df1.loc[i - 1, 'Smoothed_MA_1']) * 100, 2))
            result_str += '이 기간까지는 {}만큼 하락 주가가 하락하며 최대 {}%만큼 상승합니다.\n'.format(d, e)
            
print(result_str)

안녕하세요. 신한AI 주가 추세 분석 AI입니다.
요청하신 삼성전자의 최근 6개월 주가 추세를 분석해드리겠습니다.
2023년 1월 12일 까지는 하락 추세입니다.
설정 기간부터 이 시기까지는 주가가 하락합니다.
2023년 2월 13일 까지는 상승 추세입니다.
이 기간까지는 5435만큼 하락 주가가 하락하며 최대 9.48%만큼 상승합니다.
2023년 2월 16일 까지는 하락 추세입니다.
이 기간까지는 48.4만큼 하락 주가가 하락하며 최대 0.08%만큼 하락합니다.
2023년 2월 24일 까지는 상승 추세입니다.
이 기간까지는 45만큼 하락 주가가 하락하며 최대 0.07%만큼 상승합니다.
2023년 3월 24일 까지는 하락 추세입니다.
이 기간까지는 2615.74만큼 하락 주가가 하락하며 최대 4.17%만큼 하락합니다.



In [69]:
#결과 문자열 음성 파일로 저장
synthesize_text(result_str)

## 5-2. 종목 정보 크롤링하기

## 5-3. 사용자로부터 원하는 항목 입력받기

In [144]:
text = voice_recog()

음성을 입력하세요.
음성변환 : 삼성전자의 고가 저가 배당수익률에 대해 알려 줘


## 5-4. 종목 정보 DF 내용 문자열로 바꾼 뒤 음성 파일로 변환하기

In [137]:
col_list = ['시가', '거래량', '고가', '거래대금', '저가', '시가총액', '52주 최고 종가','52주 최저 종가','대용가','자산총계', '부채총계', 
            '자본금','자본총계', '매출액', '영업이익', '당기순이익']

for col in col_list: 
    df_stock[col] = number_to_korean(int(df_stock[col][0]))

df_stock.T

Unnamed: 0,0
날짜,2023-05-12
회사,삼성전자
시가,6만3700
거래량,869만3913
고가,6만4600
거래대금,55만7964
저가,6만3600
시가총액,3억8266만3061
52주 최고 종가,6만8100
52주 최저 종가,5만2600


In [138]:
#음성 변환할 문자열 만들기
df_stock

response_str = '안녕하세요. 신한AI 주가 추세 분석 AI입니다.\n'
response_str += '{}년 {}월 {}일 {}의 주식 정보에 대해 안내해 드리겠습니다.\n'.format(df_stock['날짜'][0][:4],
                                                                df_stock['날짜'][0][5:7],
                                                                df_stock['날짜'][0][8:],
                                                                df_stock['회사'][0])
for col in col_list:
    if col in text:
        response_str += "{} : {}원.\n".format(col, df_stock[col][0])

if 'PER' in text:
    response_str += "PER: {}.\n".format(df_stock['PER/PBR'][0].split('/')[0])
elif 'PBR' in text:
    response_str += "PBR: {}.\n".format(df_stock['PER/PBR'][0].split('/')[1])
elif '배당수익률' in text:
    response_str += "배당수익률은 {}%입니다.".format(df_stock['배당수익률'][0])

In [139]:
synthesize_text(response_str)

In [140]:
response_str

'안녕하세요. 신한AI 주가 추세 분석 AI입니다.\n2023년 05월 12일 삼성전자의 주식 정보에 대해 안내해 드리겠습니다.\n시가 : 6만3700원.\n고가 : 6만4600원.\n그리고 배당수익률은 2.25%입니다.'

In [141]:
subprocess.call(['afplay', 'output.wav'])

0