In [100]:
import pandas as pd
from sqlalchemy import create_engine
import yaml

In [101]:
# Read csv
trade_df = pd.read_csv("./data/trade.csv", encoding="utf-8", 
                       dtype={'HSCD': str, "QTY": float, 'BYRADDR2': str, 'SPLYADDR2': str})
trade_df.head()

Unnamed: 0,HSCD,QTY,QTYUNIT,AMT,CUR,USDUNTPRICE,UNTPRICE,ITEM,BYRORGNM1,BYRPRTNUM,...,BYRADDR2,SPLYORGNM1,SPLYPRTNUM,SPLYADDR1,SPLYADDR2,ISSUEDT,TOTQTY,TOTQTYUNIT,TOTAMT,TOTAMTCUR
0,7210491090,84000.0,KG,45360.0,USD,540.0,540.0,GI COIL,주식회사 포스코대우,1318555320,...,주식회사 포스코대우,POSCO,5068100017,"1 GOEDONG-DONG, NAM-GU",,20180227,565475000.0,KG,257732900.0,USD
1,7210491090,1463000.0,KG,821355.0,USD,585.0,585.0,GI COIL,주식회사 포스코대우,1318555320,...,주식회사 포스코대우,POSCO,5068100017,"1 GOEDONG-DONG, NAM-GU",,20180227,565475000.0,KG,257732900.0,USD
2,7210491090,600000.0,KG,398580.0,USD,664.3,664.3,HG COIL - POSCO,주식회사 포스코대우,1318555320,...,주식회사 포스코대우,POSCO,5068100017,"1 GOEDONG-DONG, NAM-GU",,20180227,565475000.0,KG,257732900.0,USD
3,7225509000,2398000.0,KG,416301.78,USD,501.15,501.15,CR COIL (0.5MM<=T<1.0MM),주식회사 포스코대우,1318555320,...,주식회사 포스코대우,POSCO,5068100017,"1 GOEDONG-DONG, NAM-GU",,20180227,565475000.0,KG,257732900.0,USD
4,7209169000,23100000.0,KG,8134262.0,USD,490.0,490.0,CR COIL (3MM<=T),주식회사 포스코대우,1318555320,...,주식회사 포스코대우,POSCO,5068100017,"1 GOEDONG-DONG, NAM-GU",,20180227,565475000.0,KG,257732900.0,USD


In [102]:
csv_company_series = trade_df['BYRORGNM1'].append(trade_df['SPLYORGNM1'], ignore_index=True).drop_duplicates().reset_index(drop=True)
csv_company_series.head()

0         주식회사 포스코대우
1        도레이케미칼 주식회사
2    도레이첨단소재주식회사 4공장
3        도레이첨단소재주식회사
4    도레이첨단소재주식회사 2공장
dtype: object

In [103]:
len(csv_company_list)

53304

In [114]:
stopword_test = csv_company_series.str.replace("주식회사", "").str.replace("케미칼", "")\
        .str.replace("\(주\)", "").str.replace("\(유\)", "").str.replace("㈜", "")
stopword_test.head()

0          포스코대우
1           도레이 
2    도레이첨단소재 4공장
3        도레이첨단소재
4    도레이첨단소재 2공장
dtype: object

In [154]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(analyzer='char', ngram_range=(2,3))
tfidf_matrix = tfidf.fit_transform(stopword_test)

In [155]:
tfidf_matrix.shape

(53304, 98545)

In [156]:
tfidf.vocabulary_

{'웰천안': 66781,
 '송스': 49041,
 '마건데': 34126,
 '스지텍': 50904,
 ')ps': 5505,
 '원 (': 65775,
 '검도': 14423,
 '독자동': 25451,
 '스환': 51728,
 '인아이': 71869,
 '표시': 91069,
 '박이': 38045,
 '데미': 24853,
 'y t': 13022,
 '성침': 46987,
 'dis': 8109,
 '아(v': 54899,
 '브 창': 40853,
 '람s': 29237,
 '더멜라': 24344,
 '토로': 87307,
 '티엘텍': 88948,
 'ngk': 10862,
 '츠(': 81247,
 'l.b': 10192,
 '앤퓨': 57514,
 '굿윌': 17488,
 '성제': 46834,
 '민현': 37603,
 '중앙반': 77264,
 '경동에': 14621,
 '깁트레': 18920,
 '쓰-': 54083,
 '가오토': 13454,
 '콤(f': 83827,
 ' 티엠': 4020,
 'you': 13129,
 '일우정': 72870,
 '주)오': 76383,
 'k상사': 10102,
 '유상사': 67487,
 ')진흥': 5966,
 '웹(t': 66835,
 '에펠컴': 59495,
 ' 코라': 3742,
 '리슨': 32751,
 '세보에': 47541,
 '호성산': 96411,
 '포켐': 90845,
 '엘레더': 60196,
 '세이빙': 47813,
 '본바이': 40020,
 '언켐시': 58558,
 '한국차': 93628,
 '태화칼': 86122,
 '파크큐': 89715,
 '뉴팩상': 21231,
 '올 글': 63482,
 '메탈라': 35371,
 '펫더맨': 90451,
 '푸른교': 91128,
 '루마': 31657,
 '양 지': 57786,
 '대야전': 23406,
 '화인페': 97242,
 '리과학': 32411,
 '경금': 14544,
 '모스물': 36077,
 ' 하

In [160]:
from sklearn.metrics.pairwise import linear_kernel
cosine_sim = linear_kernel(tfidf_matrix[2], tfidf_matrix)
cosine_sim[0]

array([0.        , 0.24826815, 1.        , ..., 0.        , 0.        ,
       0.        ])

In [161]:
sorted_index = sorted(range(len(cosine_sim[0])), key=lambda i: cosine_sim[0][i])[-100:]
sorted_index.reverse()
print(sorted_index)

[2, 43643, 42594, 18323, 52134, 19485, 17097, 3, 4, 5, 25216, 21519, 17692, 26428, 26427, 37437, 2196, 42297, 47109, 52178, 22043, 19484, 26832, 20202, 19981, 17708, 17033, 50826, 27592, 23845, 44467, 35428, 25706, 16114, 50828, 1229, 25218, 29228, 23616, 1, 25290, 21807, 45257, 30108, 36014, 41844, 7552, 26366, 17960, 31009, 25178, 47398, 19212, 48296, 24956, 2247, 28172, 25969, 51544, 17120, 9576, 514, 34940, 51641, 49622, 47964, 42995, 36320, 29460, 50157, 23503, 27220, 29929, 43043, 557, 51645, 15689, 4320, 22379, 16879, 16303, 30375, 29079, 33785, 42385, 23064, 42391, 9955, 40766, 16131, 18376, 33336, 6193, 24653, 42234, 12338, 22516, 50135, 16019, 7519]


In [162]:
for i in sorted_index:
    print(csv_company_series[i])

도레이첨단소재주식회사 4공장
도레이첨단소재  주식회사
도레이첨단소재 (주)
도레이첨단소재 주식회사
(주)도레이첨단소재
도레이첨단소재(주)
도레이첨단소재
도레이첨단소재주식회사
도레이첨단소재주식회사 2공장
도레이첨단소재주식회사 군산공장
도레이첨단소재 (주) 구미2공장
도레이첨단소재(주) 구미3공장
도레이첨단소재(주)구미2
도레이첨단소재(주)구미2공장
도레이첨단소재구미3공장
롯데첨단소재 주식회사
한화첨단소재 주식회사
(주)도레이 첨단소재
(주) 도래이첨단소재
도레이케미칼주식회사
도레이케미칼
도레이케미칼(주)
(주)롯데첨단소재
롯데첨단소재㈜
롯데첨단소재주식회사
롯데첨단소재(주)
롯데첨단소재
한화첨단소재
한화첨단소재(주)
도레이 첨단소재(주)구미3공장
현대첨단소재주식회사
(주)영창첨단소재
(주)로빈첨단소재
롯데첨단소재주
이녹스첨단소재
(주)이녹스첨단소재
주식회사 이녹스첨단소재
도레이 케미칼 주식회사
도레이케미칼 (주)
도레이케미칼 주식회사
주식회사 이녹스 첨단소재
일신소재 주식회사
희성소재 주식회사
현진소재 주식회사
신아소재 주식회사
코스모신소재 (주)
티오케이첨단재료주식회사
도레이케미칼.주
현대위아(주)창원4공장
현대위아㈜ 창원4공장
현대위아(주) 창원4공장
티오케이첨단재료 주식회사
대림산업(주)여수C4공장
지에이치신소재주식회사 포천
도레이인터내셔날코리아㈜
도레이인터내셔날코리아 주식회사
한국유미코아 신소재 유한회사
도레미
도레이배터리세퍼레이터필름한국
도레이배터리세퍼레이터필름한국유한
도레이배터리세퍼레이터필름 한국유한
도레텍스
(주)신도레더
롯데 첨단 소재
한국선재 주식회사
(주)쌍용선재 
(주) 대아선재 녹산공장
첨단유니온
첨단와이어
첨단엔프라
첨단모터스
(주) 첨단정밀
한국소재(주)
신성소재주식회사
신성소재(주)
(주)디에이치글로벌 첨단공장
(주)영진소재
영진소재
희성소재
희성소재(주)
희성소재주식회사
현진소재(주)
현진소재주식회사
(주)우진소재
유니소재
유니소재(주)
(주)대한소재
(주)서울소재
대일소재
대일소재(주)
(주)경원소재
첨단메탈코팅주식회사
이성소재주식회

In [5]:
config = yaml.safe_load(open('dart_config.yml'))
db_url = 'mysql://' + config['DB_USER'] + ':' + config['DB_USER_PASSWORD'] + '@' + config['DB_HOST'] \
                            + '/' + config['DB_NAME'] + '?charset=utf8'
engine = create_engine(db_url, encoding='utf-8')
conn = engine.connect()

In [6]:
db_company_df = pd.read_sql_table(config['DB_TABLE_NAME_1'], con=conn, index_col='id', 
                          columns=['id', 'name', '업종', '상장일', '지역'])
db_company_df.head()

Unnamed: 0_level_0,name,업종,상장일,지역
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,롯데케미칼,기초 화학물질 제조업,1991-05-30,서울특별시
2,대한유화,기초 화학물질 제조업,1999-08-11,서울특별시
3,이화산업,기타 전문 도매업,1994-04-29,서울특별시
4,디케이앤디,플라스틱제품 제조업,2018-11-20,경기도
5,송원산업,기타 화학제품 제조업,1977-06-25,울산광역시


In [8]:
db_company_list = db_company_df['name'].drop_duplicates().reset_index(drop=True)
db_company_list.head()

0    롯데케미칼
1     대한유화
2     이화산업
3    디케이앤디
4     송원산업
Name: name, dtype: object

In [82]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(analyzer='char', ngram_range=(3,3))
tfidf_matrix = tfidf.fit_transform(csv_company_list[:2000])

In [83]:
tfidf_matrix.shape

(2000, 6272)

In [84]:
tfidf.vocabulary_

{')신텍': 608,
 '탈링크': 5516,
 '제작소': 4814,
 '스지텍': 3183,
 '이엔텍': 4452,
 '은푸드': 4317,
 '기주식': 1532,
 '이앤엘': 4434,
 '타임리': 5509,
 '에스 ': 3718,
 '화이바': 6184,
 '티드 ': 5724,
 ' 기신': 36,
 'y t': 1303,
 '로라월': 2087,
 '지월드': 5131,
 'dis': 1051,
 'sco': 1240,
 ')탑스': 865,
 '주)크': 5002,
 'don': 1054,
 '주)혜': 5037,
 '아이디': 3501,
 '자동차': 4699,
 '진통상': 5207,
 '씨엠에': 3431,
 '피파트': 5964,
 '삼원티': 2797,
 'ngk': 1176,
 '벌테크': 2476,
 '군산공': 1472,
 '이노켐': 4334,
 ')피엔': 929,
 ' 대진': 47,
 '세코코': 2993,
 '주)브': 4913,
 '널(주': 1595,
 ')페타': 909,
 ' 토필': 231,
 '디에프': 1940,
 '유피피': 4305,
 '콘웍스': 5441,
 '엔아이': 3845,
 ' 하나': 251,
 '성인 ': 2936,
 '주)오': 4956,
 '세신어': 2972,
 'k상사': 1134,
 '원전선': 4213,
 ')진흥': 822,
 '일신화': 4661,
 ')아프': 646,
 '한백텍': 6055,
 '진현전': 5216,
 '정호섬': 4760,
 '산지사': 2761,
 '화패브': 6206,
 'ksm': 1132,
 '에이코': 3790,
 '미랜드': 2390,
 '호섬유': 6147,
 '프이브': 5911,
 '이글로': 4328,
 ')에프': 665,
 '상방산': 2824,
 ')가비': 337,
 '제이원': 4793,
 '솔코리': 3046,
 '스월드': 3168,
 '이치앤': 4521,
 '회사프': 6230,
 ')빠라': 529,
 '공신테':

In [85]:
from sklearn.metrics.pairwise import linear_kernel
cosine_sim = linear_kernel(tfidf_matrix[1], tfidf_matrix)

In [86]:
cosine_sim[0]

array([0.04649235, 1.        , 0.1422452 , ..., 0.        , 0.        ,
       0.        ])

In [87]:
sorted(range(len(cosine_sim[0])), key=lambda i: cosine_sim[0][i])[-5:]

[35, 3, 220, 18, 1]

In [99]:
csv_company_list[1]

'도레이케미칼 주식회사'

In [57]:
len(csv_company_list)

796