In [1]:
import konlpy
from konlpy.tag import Hannanum
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Okt
import numpy as np
import pandas as pd
import json
import os
import re
import requests
from bs4 import BeautifulSoup
from pykrx import stock

In [2]:
from eunjeon import Mecab

In [3]:
tagger = Mecab()

In [5]:
tagger.nouns("고양이가 냐 하고 울면 나는 녜 하고 울어야지")

['고양이', '녜']

In [6]:
poem = """
흘러내린 머리카락이 흐린 호박빛 아래 빛난다.
유영하며.
저건가보다.
세월의 힘을 이겨낸 마지막 하나 남은 가로등.
미래의 색, 역겨운 청록색으로 창백하게 바뀔 마지막 가로등
난 유영한다. 차분하게 과거에 살면서 현재의 공기를 마신다.
가로등이 깜빡인다.
나도 깜빡여준다.
... """

In [7]:
tagger.morphs(poem)

['흘러내린',
 '머리카락',
 '이',
 '흐린',
 '호박',
 '빛',
 '아래',
 '빛난다',
 '.',
 '유영',
 '하',
 '며',
 '.',
 '저건가',
 '보',
 '다',
 '.',
 '세월',
 '의',
 '힘',
 '을',
 '이겨',
 '낸',
 '마지막',
 '하나',
 '남',
 '은',
 '가로등',
 '.',
 '미래',
 '의',
 '색',
 ',',
 '역겨운',
 '청록색',
 '으로',
 '창백',
 '하',
 '게',
 '바뀔',
 '마지막',
 '가로등',
 '난',
 '유영',
 '한다',
 '.',
 '차분',
 '하',
 '게',
 '과거',
 '에',
 '살',
 '면서',
 '현재',
 '의',
 '공기',
 '를',
 '마신다',
 '.',
 '가로등',
 '이',
 '깜빡인다',
 '.',
 '나',
 '도',
 '깜빡',
 '여',
 '준다',
 '.',
 '...']

In [8]:
url = "https://finance.naver.com/sise/sise_market_sum.nhn?page=1"

res = requests.get(url)
soup = BeautifulSoup(res.text, 'lxml')

print (soup)

<!--  global include --><html lang="ko">
<head>
<title>시가총액 : 네이버 금융</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<meta content="http://finance.naver.com/sise/sise_market_sum.nhn" property="og:url"/>
<meta content="시가총액 : 네이버 금융" property="og:title"/>
<meta content="관심종목의 실시간 주가를 가장 빠르게 확인하는 곳" property="og:description"/>
<meta content="https://ssl.pstatic.net/static/m/stock/im/2016/08/og_stock-200.png" property="og:image"/>
<meta content="article" property="og:type"/>
<meta content="" property="og:article:thumbnailUrl"/>
<meta content="네이버금융" property="og:article:author"/>
<meta content="http://FINANCE.NAVER.COM" property="og:article:author:url"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20220407160311/css/finance_header.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/2

In [9]:
stock_head = soup.find("thead").find_all("th")
data_head = [head.get_text() for head in stock_head]

print(data_head)

['N', '종목명', '현재가', '전일비', '등락률', '액면가', '시가총액', '상장주식수', '외국인비율', '거래량', 'PER', 'ROE', '토론실']


In [10]:
stock_list = soup.find("table", attrs={"class": "type_2"}).find("tbody").find_all("tr")
for stocks in stock_list:
     if len(stocks) > 1 :
            print(stocks.get_text().split())

['1', '삼성전자', '67,000', '700', '-1.03%', '100', '3,999,754', '5,969,783', '51.14', '11,743,285', '11.60', '13.92']
['2', 'LG에너지솔루션', '436,500', '500', '-0.11%', '500', '1,021,410', '234,000', '3.00', '245,332', '110.14', '10.68']
['3', 'SK하이닉스', '110,500', '2,500', '-2.21%', '5,000', '804,443', '728,002', '49.89', '2,347,483', '8.38', '16.84']
['4', '삼성바이오로직스', '801,000', '5,000', '-0.62%', '2,500', '529,982', '66,165', '10.44', '37,912', '136.27', '8.21']
['5', '삼성전자우', '60,400', '200', '-0.33%', '100', '497,024', '822,887', '72.98', '650,500', '10.46', 'N/A']
['6', 'NAVER', '300,000', '9,500', '-3.07%', '100', '492,147', '164,049', '54.48', '1,069,386', '2.99', '106.72']
['7', '카카오', '92,000', '1,600', '-1.71%', '100', '410,569', '446,270', '28.73', '1,547,316', '29.37', '17.10']
['8', '삼성SDI', '596,000', '14,000', '-2.30%', '5,000', '409,837', '68,765', '43.05', '195,254', '35.86', '8.45']
['9', '현대차', '180,000', '3,000', '-1.64%', '5,000', '384,603', '213,668', '26.67', '851,034', 

In [11]:
data_head

['N',
 '종목명',
 '현재가',
 '전일비',
 '등락률',
 '액면가',
 '시가총액',
 '상장주식수',
 '외국인비율',
 '거래량',
 'PER',
 'ROE',
 '토론실']

In [23]:
data = stock.get_market_ohlcv_by_date('20200101','20211107','005930')

In [24]:
data

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-01-02,55500,56000,55000,55200,12993228
2020-01-03,56000,56600,54900,55500,15422255
2020-01-06,54900,55600,54600,55500,10278951
2020-01-07,55700,56400,55600,55800,10009778
2020-01-08,56200,57400,55900,56800,23501171
...,...,...,...,...,...
2021-11-01,70200,70600,69900,69900,11503729
2021-11-02,70800,72200,70700,71500,16812570
2021-11-03,71700,71700,70100,70400,12770428
2021-11-04,71200,71600,70500,70600,11818987


In [14]:
temp = pd.read_csv('./data/mecab_test.csv')

In [15]:
aaa = temp.iloc[0,1]

In [16]:
aaa

'[둔촌주공 파문②][앵커]\'바꿔달라\'는 조합과 \'할 수 없다\'며 버티기에 들어간 시공사업단 간 갈등은 공사비 뿐 아니라 납품업체 선정을 놓고도 반복됐습니다. 조합은 고급화를 이유로 교체를 요구했고, 시공단은 이권 개입이라며 반발했습니다. 임유진 기자가 취재했습니다. [리포트]둔촌주공 재건축 조합은  시공단에 각종 자재 납품업체의 변경을 요구하고 있습니다.하지만 시공단은  조합이 사실상 특정업체로  계약 변경을 요구하고 있다며 그간 오간 공문을 공개했습니다.특히 층간 소음 차단제는  품질 인증이 필수인데도,   조건이 안되는 업체를  무리하게 참여시키려 했다고 주장했습니다.\xa0시공단 관계자 "(조합 고위 관계자) 직접 그 업체 하나를 데리고 와서  이 업체를 현장 테스트를 해보자"조합이  업체 변경을  요구하고 있는 품목은  모두 5개.\xa0타일이나 변기 등 마감재는  조합이 업체를  구체적으로 지목했다는 게  시공단 측 주장입니다.  하지만 조합은 시공단의  허위 주장이라고 반박합니다.\xa0 조합 관계자 "저희는 당연히 고급화 차원에서 한 거지  무슨 특정업체를 선정하기 위해서 한 건 전혀 아닙니다." 문제는  중도에 업체가 바뀌면  비용 증가와  공사기간 연장이  불가피하다는 점입니다.  조합이  교체를 추진하고 있는  일부 업체는  소송도 제기했습니다.\xa0 기존 납품 업체 관계자 "끝까지 저희가 공사 못하게 되면 한 200억 원까지 손실이 가는 거죠. 도급 계약이 끝난 후에 변경하는 경우는 없거든요." 조합과 시공단이  평행선을 달리면서  공사 지연 피해는  눈덩이처럼 불어나고 있습니다. TV조선 임유진입니다. TV조선 관련뉴스해당 언론사에서 선정하며 언론사 페이지(아웃링크)로 이동해 볼 수 있습니다.[단독] 취임식 주제는 \'회복과 미래\'…"연예인 초청 없이 국정철학 강조"2년 1개월 만에 거리두기 해제…마스크 빼고 다 풀렸다\'검수완박\' 법안에 박범계 이름…장관 겸직 의원들, 투표권 논란한동훈 후보자 첫 출근 "검수완박은 명분 없

In [17]:
tagger.nouns(aaa)

['둔촌',
 '주공',
 '파문',
 '앵커',
 '조합',
 '수',
 '시공',
 '사업단',
 '간',
 '갈등',
 '공사비',
 '납품',
 '업체',
 '선정',
 '반복',
 '조합',
 '고급',
 '이유',
 '교체',
 '요구',
 '시',
 '공단',
 '이권',
 '개입',
 '반발',
 '임유진',
 '기자',
 '취재',
 '리포트',
 '둔촌',
 '주공',
 '재건축',
 '조합',
 '시',
 '공단',
 '각종',
 '자재',
 '납품',
 '업체',
 '변경',
 '요구',
 '시',
 '공단',
 '조합',
 '특정',
 '업체',
 '계약',
 '변경',
 '요구',
 '그간',
 '공문',
 '공개',
 '층간',
 '소음',
 '차단제',
 '품질',
 '인증',
 '필수',
 '조건',
 '업체',
 '무리',
 '참여',
 '주장',
 '시',
 '공단',
 '관계자',
 '조합',
 '고위',
 '관계자',
 '업체',
 '하나',
 '업체',
 '현장',
 '테스트',
 '조합',
 '업체',
 '변경',
 '요구',
 '품목',
 '개',
 '타일',
 '변기',
 '등',
 '마감재',
 '조합',
 '업체',
 '구체',
 '지목',
 '게',
 '시',
 '공단',
 '측',
 '주장',
 '조합',
 '시',
 '공단',
 '허위',
 '주장',
 '반박',
 '조합',
 '관계자',
 '저희',
 '고급',
 '차원',
 '거',
 '특정',
 '업체',
 '선정',
 '건',
 '문제',
 '중도',
 '업체',
 '비용',
 '증가',
 '공사',
 '기간',
 '연장',
 '점',
 '조합',
 '교체',
 '추진',
 '일부',
 '업체',
 '소송',
 '제기',
 '기존',
 '납품',
 '업체',
 '관계자',
 '끝',
 '저희',
 '공사',
 '억',
 '원',
 '손실',
 '거',
 '도급',
 '계약',
 '후',
 '변경',
 '경우',
 '조합',
 '시',
 '공단',
 

In [19]:
mecab = Mecab(dicpath='C:/mecab/mecab-ko-dic')

In [21]:
text = "싹쓰리가 이번에 싹 쓸어버리네." 
a = mecab.pos(text) 
print(a) 
a = mecab.morphs(text) 
print(a)

[('싹', 'NNG'), ('쓰리', 'NNG'), ('가', 'JKS'), ('이번', 'NNG'), ('에', 'JKB'), ('싹', 'MAG'), ('쓸', 'VV'), ('어', 'EC'), ('버리', 'VX'), ('네', 'EF'), ('.', 'SF')]
['싹', '쓰리', '가', '이번', '에', '싹', '쓸', '어', '버리', '네', '.']
