In [1]:
import pandas as pd
import numpy as np
import re
import csv
from ast import literal_eval

In [2]:
df = pd.read_csv('stock_v3.csv', encoding='utf-8')
df.head()

Unnamed: 0,name,words
0,인터파크홀딩스,"['홀딩스', '파크', '인터', '영업', '경제', '합병', '전년']"
1,성광벤드,"['1차 철강 제조업', '관이음쇠', '기계', '성광', '벤드', '경제', ..."
2,신풍제약,"['의약품 제조업', '의약품(항생제,혈전용해제,향정신성약품,구충제) 제조,판매',..."
3,남선알미늄,"['1차 비철금속 제조업', '알미늄샷시 제조/환경사업', '건축제품', '남선',..."
4,GV,"['전구 및 조명장치 제조업', 'CNC전용장비,LightPanel', '디스플레이..."


In [3]:
df.shape

(1602, 2)

In [4]:
# 'words'  에서 문자들만 추출하는 함수
def words_preprocess(str_list):
    p = re.compile("'.+?'")
    matched = p.findall(str_list)
    w_list = []
    
    for w in matched:
        kor = w.replace("'",'')
        w_list.append(kor)

    return w_list

In [5]:
print(words_preprocess(df['words'][0]))
for i in range(len(df['words'])):
    df['words'][i] = words_preprocess(df['words'][i])

['홀딩스', '파크', '인터', '영업', '경제', '합병', '전년']


In [6]:
df.head()

Unnamed: 0,name,words
0,인터파크홀딩스,"[홀딩스, 파크, 인터, 영업, 경제, 합병, 전년]"
1,성광벤드,"[1차 철강 제조업, 관이음쇠, 기계, 성광, 벤드, 경제, 영업, 전년, 이익, 증권]"
2,신풍제약,"[의약품 제조업, 의약품(항생제,혈전용해제,향정신성약품,구충제) 제조,판매, 제약,..."
3,남선알미늄,"[1차 비철금속 제조업, 알미늄샷시 제조/환경사업, 건축제품, 남선, 알미늄, 경제..."
4,GV,"[전구 및 조명장치 제조업, CNC전용장비,LightPanel, 디스플레이장비및부품..."


In [7]:
df['words'] = df['words'].apply(lambda x : ' '.join(x))
print(df['words'])

0                                   홀딩스 파크 인터 영업 경제 합병 전년
1                  1차 철강 제조업 관이음쇠 기계 성광 벤드 경제 영업 전년 이익 증권
2       의약품 제조업 의약품(항생제,혈전용해제,향정신성약품,구충제) 제조,판매 제약 신풍 ...
3       1차 비철금속 제조업 알미늄샷시 제조/환경사업 건축제품 남선 알미늄 경제 매수 기관...
4       전구 및 조명장치 제조업 CNC전용장비,LightPanel 디스플레이장비및부품 LE...
                              ...                        
1597     자동차 신품 부품 제조업 브레이크패드 자동차부품 경제 시스 오토 KB 외국인 기관 정배
1598    컴퓨터 프로그래밍, 시스템 통합 및 관리업 유해사이트차단서비스 소프트웨어 플랜 차단...
1599    특수 목적용 기계 제조업 소형 머시닝센터 기계 바이오 프로 경제 기사 에이비 외국인...
1600    시멘트, 석회, 플라스터 및 그 제품 제조업 레미콘 제조,판매 건축자재 경제 산업 ...
1601    특수 목적용 기계 제조업 메모리 웨이퍼 테스터 반도체와반도체장비 케이 경제 이아이 ...
Name: words, Length: 1602, dtype: object


In [8]:
#df_stock = df[:10]
df_stock = df

from sklearn.feature_extraction.text import TfidfVectorizer
# ngram_range=(1, 2) 는 단어를 1개 혹은 2개 연속으로 보겠다
# 숫자를 너무 높이면 실행 x (성능 부족)
tfidf_vec = TfidfVectorizer(ngram_range=(1, 4))

tfidf_matrix = tfidf_vec.fit_transform(df_stock['words'])
print(tfidf_vec.vocabulary_.items())

print(tfidf_matrix.shape)


dict_items([('홀딩스', 54439), ('파크', 50743), ('인터', 36265), ('영업', 31828), ('경제', 6361), ('합병', 53134), ('전년', 38537), ('홀딩스 파크', 54541), ('파크 인터', 50750), ('인터 영업', 36275), ('영업 경제', 31850), ('경제 합병', 9209), ('합병 전년', 53146), ('홀딩스 파크 인터', 54542), ('파크 인터 영업', 50751), ('인터 영업 경제', 36276), ('영업 경제 합병', 31888), ('경제 합병 전년', 9210), ('홀딩스 파크 인터 영업', 54543), ('파크 인터 영업 경제', 50752), ('인터 영업 경제 합병', 36277), ('영업 경제 합병 전년', 31889), ('1차', 40), ('철강', 46664), ('제조업', 41449), ('관이음쇠', 10826), ('기계', 12079), ('성광', 25898), ('벤드', 21791), ('이익', 35792), ('증권', 45302), ('1차 철강', 54), ('철강 제조업', 46732), ('제조업 관이음쇠', 41905), ('관이음쇠 기계', 10827), ('기계 성광', 12181), ('성광 벤드', 25899), ('벤드 경제', 21792), ('경제 영업', 7919), ('영업 전년', 32165), ('전년 이익', 38577), ('이익 증권', 35876), ('1차 철강 제조업', 55), ('철강 제조업 관이음쇠', 46745), ('제조업 관이음쇠 기계', 41906), ('관이음쇠 기계 성광', 10828), ('기계 성광 벤드', 12182), ('성광 벤드 경제', 25900), ('벤드 경제 영업', 21793), ('경제 영업 전년', 7992), ('영업 전년 이익', 32178), ('전년 이익 증권', 38581), ('1차 철강 제조업 관이음쇠', 62),

In [9]:

from sklearn.metrics.pairwise import cosine_similarity

# 종목끼리 유사도를 구하겠다!
# 자신과의 유사도는 1
genres_similarity = cosine_similarity(tfidf_matrix, tfidf_matrix)
print(genres_similarity)
# 유사도가 높은 종목을 알고 싶다!
# 유사도 값이 높은 것의 인덱스를 내림차순으로 출력/리턴
similar_index = np.argsort(-genres_similarity)
print(similar_index)

[[1.00000000e+00 1.81566333e-02 7.12973730e-04 ... 7.96980219e-04
  4.96215626e-03 7.71773864e-04]
 [1.81566333e-02 1.00000000e+00 1.64981854e-03 ... 1.30467254e-02
  4.96213713e-03 7.20998706e-03]
 [7.12973730e-04 1.64981854e-03 1.00000000e+00 ... 4.14779205e-03
  3.25200934e-02 5.79539538e-03]
 ...
 [7.96980219e-04 1.30467254e-02 4.14779205e-03 ... 1.00000000e+00
  4.44442506e-03 5.95957714e-02]
 [4.96215626e-03 4.96213713e-03 3.25200934e-02 ... 4.44442506e-03
  1.00000000e+00 6.20985820e-03]
 [7.71773864e-04 7.20998706e-03 5.79539538e-03 ... 5.95957714e-02
  6.20985820e-03 1.00000000e+00]]
[[   0 1489  445 ... 1501 1339  996]
 [   1 1231  481 ... 1570 1435   46]
 [   2  994 1139 ...  228 1148 1255]
 ...
 [1599 1326  256 ... 1166 1148  149]
 [1600  221  610 ... 1567 1179  837]
 [1601  913  426 ... 1567  606 1123]]


In [10]:
# 사용자가 입력한 조의 인덱스 값을 찾아내고
# similar_index 에 기록된 유사한 인덱스를 찾아내고
# 유사한 주식 인덱스를 토대로 주식 이름을 찾아내면 된다!
input_stock = input()

stock_index = df_stock[df_stock['name'] ==input_stock].index.values
#print(stock_index)
similar_stock = similar_index[stock_index, :10]
#print(similar_stock)
# 인덱스로 사용하기 위해서는 1차원으로 변형해줘야하기 때문
similar_stock_index = similar_stock.reshape(-1)
#print(similar_stock_index)
print(df_stock.iloc[similar_stock_index])

JYP Ent.
           name                                              words
74     JYP Ent.  오디오물 출판 및 원판 녹음업 오디오물 출판 및 원판 녹음 관련 제품 방송과엔터테인...
580   와이지엔터테인먼트  오디오물 출판 및 원판 녹음업 음악 및 기타 오디오물 출판, 신인 아티스트 육성 및...
38         큐브엔터  오디오물 출판 및 원판 녹음업 음반음원, 콘서트, 아티스트매니지먼트 방송과엔터테인먼...
154         에스엠  오디오물 출판 및 원판 녹음업 음반(CD,MC),연예 대리 기계 SM 경제 그룹 코...
775         앤씨앤  반도체 제조업 영상처리용 시스템반도체 반도체와반도체장비 넥스트 제품 경제 일본 검출...
350       미스터블루  기타 정보 서비스업 온라인 만화 콘텐츠 서비스 및 제공, 만화 출판 출판 미스터 블...
988         팜스빌  기타 식품 제조업 다이어트 제품 및 건강기능 관련 제품 제약 빌 성장 쇼핑 경제 건...
928        슈프리마  통신 및 방송 장비 제조업 바이오인식 관련 제품 전자장비와기기 프리마 경제 인식 지...
1074         우진  측정, 시험, 항해, 제어 및 기타 정밀기기 제조업; 광학기기 제외 원전용계측기 기...
158      디앤씨미디어  서적, 잡지 및 기타 인쇄물 출판업 웹소설 콘텐츠 출판 디 미디어 경제 웹툰 분기 ...


In [11]:
# 사용자가 입력한 조의 인덱스 값을 찾아내고
# similar_index 에 기록된 유사한 인덱스를 찾아내고
# 유사한 주식 인덱스를 토대로 주식 이름을 찾아내면 된다!
input_stock = input()

stock_index = df_stock[df_stock['name'] ==input_stock].index.values
#print(stock_index)
similar_stock = similar_index[stock_index, :10]
#print(similar_stock)
# 인덱스로 사용하기 위해서는 1차원으로 변형해줘야하기 때문
similar_stock_index = similar_stock.reshape(-1)
#print(similar_stock_index)
print(df_stock.iloc[similar_stock_index])

삼성전자
          name                                              words
1529      삼성전자  통신 및 방송 장비 제조업 IMT2000 서비스용 동기식 기지국,교환국장비,데이터단...
1454      LG전자  통신 및 방송 장비 제조업 이동통신단말기,C-TV,V.C.R.,컴퓨터,완전평면 TV...
293       서원인텍     통신 및 방송 장비 제조업 휴대폰용키패드및부자재 핸드셋 경제 서원 차트 기사 상승세
1485     오이솔루션     통신 및 방송 장비 제조업 광트랜시버 통신장비 솔루션 G 통신 파장 트랜 시버 내년
901    유니온커뮤니티  통신 및 방송 장비 제조업 지문인식출입통제기 전자장비와기기 인식 커뮤니티 유니온 코...
987        뉴지랩  통신 및 방송 장비 제조업 CCTV 카메라 통신장비 랩 경제 임상 코로나 개발 연구 나파
1089       에스맥  통신 및 방송 장비 제조업 휴대폰용키모듈 핸드셋 에스 경제 코로나 다이노 개발 치료...
91    이노인스트루먼트  통신 및 방송 장비 제조업 기업 인수 합병 통신장비 인스트 이노 트 경제 차트 외국...
410       텔레필드     통신 및 방송 장비 제조업 광전송장비 통신장비 장비 경제 금융 텔레 필드 연구 국가
1082      에스코넥  통신 및 방송 장비 제조업 WaferProber 핸드셋 경제 한경 에스코 기관 만주...


In [22]:
# 사용자가 입력한 조의 인덱스 값을 찾아내고
# similar_index 에 기록된 유사한 인덱스를 찾아내고
# 유사한 주식 인덱스를 토대로 주식 이름을 찾아내면 된다!
input_stock = input()

stock_index = df_stock[df_stock['name'] ==input_stock].index.values
#print(stock_index)
similar_stock = similar_index[stock_index, :10]
#print(similar_stock)
# 인덱스로 사용하기 위해서는 1차원으로 변형해줘야하기 때문
similar_stock_index = similar_stock.reshape(-1)
#print(similar_stock_index)
print(df_stock.iloc[similar_stock_index])

나무기술
        name                                              words
133     나무기술  소프트웨어 개발 및 공급업 응용소프트웨어 개발 및 공급업 IT서비스 나무 기술 경제...
1324     가비아  소프트웨어 개발 및 공급업 도메인,호스팅 IT서비스 경제 서비스 클라우드 기관 만주...
545     케이사인         소프트웨어 개발 및 공급업 소프트웨어 보안 기술 개발 스마트 시티 안전 기반
1105  드림시큐리티    소프트웨어 개발 및 공급업 솔루션 소프트웨어 드림 시큐리티 경제 운 아시아 기사 기술
1449   라온시큐어  소프트웨어 개발 및 공급업 소프트웨어 개발 및 공급 소프트웨어 시큐어 라온 인증 경...
975    코닉글로리  소프트웨어 개발 및 공급업 네트워크장비공급및인터넷트래픽솔루션 소프트웨어 글로리 코닉...
1041  한국정보인증  소프트웨어 개발 및 공급업 공인인증서, PKI솔루션 등 IT서비스 경제 정보 인증 ...
249     휴네시온  소프트웨어 개발 및 공급업 망간자료전송(i-oneNet) 소프트웨어 시온 경제 보안...
662      엔텔스  소프트웨어 개발 및 공급업 운용지원솔루션 IT서비스 경제 주주 외국인 최대 에프 네...
981      시큐브  소프트웨어 개발 및 공급업 시스템보안관리솔루션, 정보유출방지솔루션 소프트웨어 경제 ...


In [23]:
# 사용자가 입력한 조의 인덱스 값을 찾아내고
# similar_index 에 기록된 유사한 인덱스를 찾아내고
# 유사한 주식 인덱스를 토대로 주식 이름을 찾아내면 된다!
input_stock = input()

stock_index = df_stock[df_stock['name'] ==input_stock].index.values
#print(stock_index)
similar_stock = similar_index[stock_index, :10]
#print(similar_stock)
# 인덱스로 사용하기 위해서는 1차원으로 변형해줘야하기 때문
similar_stock_index = similar_stock.reshape(-1)
#print(similar_stock_index)
print(df_stock.iloc[similar_stock_index])

카카오
         name                                              words
316       카카오  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 인터넷 서비스(인터넷 광...
1362    NAVER  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 포털 서비스 및 온라인 ...
642   케이아이엔엑스  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 인터넷연동서비스 등 IT...
918      지니뮤직  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 유무선 음악포털서비스 방...
367      카페24  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 쇼핑몰솔루션, 광고솔루션...
358      줌인터넷  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 줌닷컴, 뉴썸 등 양방향...
1198  YG PLUS  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 광고대행,광고물 제작 방...
938      소리바다  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 수도용 및 원예용 상토 ...
1133     텔코웨어  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 소프트웨어(핵심망솔루션,...
14    사람인에이치알  자료처리, 호스팅, 포털 및 기타 인터넷 정보매개 서비스업 온라인 채용광고(취업포털...
