## KoNLPy 형태소 분석기 선정

### 대상
1. hannanum
2. kkma
3. okt

### 선정 방법

책 10권에 대해 각각 10개의 키워드 선정
hannanum,kkma,okt 명사추출 기능으로 해당 키워드가 구분되는지 체크 

### 도서목록
1. 리액트를 다루는 기술 = The art of React : 실무에서 알아야 할 기술은 따로 있다!

2. (Do it!) 장고 + 부트스트랩 파이썬 웹 개발의 정석 : 만들면서 배우는 웹 개발 A to Z
3. 머신러닝 디자인 패턴 : 효율적인 머신러닝 파이프라인과 MLOps를 구축하는 30가지 디자인 패턴
4. 핸즈온 머신러닝
5. 파이썬을 이용한 데이터 분석의 정석 : 넘파이, 판다스, 맷플롯립과 실전 예제로 배우는
6. 스파크 완벽 가이드 : 스파크를 활용한 빅데이터 처리와 분석의 모든 것
7. 처음 시작하는 딥러닝
8. 컴퓨터 사이언스 부트캠프 with 파이썬
9. 케라스 창시자에게 배우는 딥러닝
10. 처음 배우는 리액트 네이티브 크로스 플랫폼 앱 개발을 위한 실전 입문서


In [1]:
from konlpy.tag import Hannanum,Okt,Kkma
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from gensim.models import Word2Vec,KeyedVectors
import re

### 성능 비교에 사용 될 도서 10권 추출

In [2]:
bookinfo = pd.read_csv('./data/bookInfo12.csv',encoding='cp949')
testBooksISBN = [9791160508796,9791163032069,9791162244845,9791162242964,9791186710708,9791162241288,9791162243343,9791160504095,9791160505979,9791162243879]
testBooks = bookinfo[bookinfo['col1'].isin(testBooksISBN)]
han = Hannanum()


def mergeListToString(wordList:list) -> str :
    '''
    wordList = item.astype(str).tolist()
    item = pd.Series()
    '''
    str_list = [re.sub('\d','',str(a)) for a in wordList]
    str_list = list(filter(None, str_list))
    result :str = ' '.join(str_list)
    return result

In [None]:
bookinfo = pd.read_csv('./data/keywordExtraction.csv',encoding='cp949')

bookinfo

### TF-IDF

In [None]:
# list1 = books.iloc[1].tolist()
def TFIDF(wordsList) :
    from operator import itemgetter

    # str_list = [re.sub('\d','',str(a)) for a in wordList]
    # str_list = list(filter(None, str_list))

    # han = Hannanum()
    # word = ' '.join(str_list)
    # konlpword = han.nouns(word)
    # konlpword = ' '.join(konlpword)

    vectorizer = TfidfVectorizer()
    sp_matrix = vectorizer.fit_transform(wordsList)

    # a,b
    a = np.array(vectorizer.get_feature_names_out())
    b = sp_matrix.toarray()[0]
    unique, counts = np.unique(b, return_counts=True)

    ### Top 10 추출
    k = 0
    for num in range(1,100) :
        if k < 10 :
            k += counts[-num]
        else :
            break

    result =[(a,b) for a,b in zip(a,b) if b >= unique[-num]]            
    result = sorted(result,key=itemgetter(1),reverse=True)
    return result

wordsList=[mergeListToString(i[1]) for i in testBooks.iterrows()]
konlpyWordsForTFIDF = list(map(lambda x : ' '.join(han.nouns(x)),wordsList ))
k = TFIDF(konlpyWordsForTFIDF)
TFIDFKeyword = list(map(lambda x : x[0],k))

### TF-IDF 5000개 적용 및 MultiProcessing 사용

In [None]:
from operator import itemgetter

#도서별 모든 문장 하나로 합치기
wordsList=[mergeListToString(i[1].astype(str).tolist()) for i in bookinfo.iterrows()] 

 # 모든 문장 형태소 분석
konlpyWordsForTFIDF = list(map(lambda x : ' '.join(han.nouns(x)),wordsList ))


# 형태소 분석 결과 비지도학습
vectorizer = TfidfVectorizer()
sp_matrix = vectorizer.fit_transform(konlpyWordsForTFIDF) 

# 결과 추출
a = np.array(vectorizer.get_feature_names_out()) # n개 키워드
b = sp_matrix.toarray() ## 책 권수 만큼 array 생성(5237개). / 개별 array shape = shape(n,)

# Keyword Top 10 추출
result = []
for arr in b :
    unique, counts = np.unique(arr, return_counts=True)
    ### Keyword Top 10 추출
    k = 0
    for num in range(1,100) :
        if k < 10 :
            k += counts[-num]
        else :
            break

    try : 
        itemList =[(name,percent) for name,percent in zip(a,arr) if percent >= unique[-num]]            
        itemList = sorted(itemList,key=itemgetter(1),reverse=True)
        result.append(itemList)
    except:
        result.append(None)

# 추출 결과를 column에 넣기 위한 전처리
TFIDFKeyword =[]
for item in result:
    list1=[]
    for x in item:
        list1.append(x[0])
    TFIDFKeyword.append(list1)

In [None]:
## 개별 단어에 Top 10 확보
# TF-IDF 단점 : 매달 TF-IDF를 돌려야함. 비효율적이라 판단
TFIDFKeyword[0]

['도커', '컨테이너', '실습', '쿠버네티스', '컴포즈', '매니페스트', '커맨드', '파드', '리눅스용', '설치', '실행']

### Word2Vec

### 학습과정

In [None]:
def mergeListToString(item:pd.Series) :
    wordList = item.astype(str).tolist()
    str_list = [re.sub('\d','',str(a)) for a in wordList]
    str_list = list(filter(None, str_list))
    result = ' '.join(str_list)
    return result

wordsList=[mergeListToString(i[1]) for i in bookinfo.iterrows()]
print('Complete wordsList Load!!')
konlpyWords = list(map(lambda x : han.nouns(x),wordsList ))
embedding_model = Word2Vec(sentences=konlpyWords, window = 2, min_count=50, workers=7, sg=1)

### 학습된 vec 열기

In [12]:
import re

# 문장 들어오면 단어로 잘라주는 메소드
def separateKeyword(words) :

    if type(words) != str :
        raise ValueError('str only possible')

    k = re.findall(r'\s|,|[^,\s]+', words)
    k = [i for i in k if i not in [',',' ']]
    return k

# 영문을 한글로 변환
def transToHan(words:list) -> list:
    EngToKorDict=pd.read_csv('./data/englist.csv',index_col=0)
    result = []
    for word in words :
        enToko = EngToKorDict[EngToKorDict['0'].isin([word])]
        if enToko.empty is not True :
            result.extend(enToko['1'].tolist())
        else :
            result.append(word)
        
    return list(set(result))

# 영문 문자 리스트 추출
def findEng(text: str) -> str:
    return re.findall("[a-zA-Z]+", text)
    
# 한글 문자 리스트 추출
def findHan(text: str) -> str:
    return re.findall(u'[\u3130-\u318F\uAC00-\uD7A3]+', text)

# 최종 
def searchKeyword(word:list) :
    val = separateKeyword(word)
    keywordItems = transToHan(val)
    engList = list(filter(lambda x : findEng(x),keywordItems))
    hanList = list(filter(lambda x : findHan(x),keywordItems))
    return dict(eng=engList,han=hanList,all=keywordItems)

In [13]:
import ast


def changeStringToList(strList) :
    # strList = strList.replace(' ',', ')
    # result = np.array(ast.literal_eval(strList))
    return ast.literal_eval(strList)

# 중복값 찾기
def findOverlapNum(keywordsOfBook:list,keywordsWord2Vec):
    return np.in1d(keywordsWord2Vec,keywordsOfBook)

# 영문 검색 기능 추가
def searchByKeywords(words:str) :
    #검색 단어 한영 쪼개기
    wordDict : dict = searchKeyword(words)

    #한영 전부 있는 단어
    allList = wordDict['all']
    wordsLen = len(allList)

    #한글만 추출
    hanList = wordDict['han']

    #model load(나중에 밖으로 뺴내야할 듯)
    loaded_model = KeyedVectors.load_word2vec_format("booksTest1")

    #키워드 단어 불러오기 20개 추출
    keywordsWord2Vec = loaded_model.most_similar(positive=hanList,topn=20)
    Word2VecKeyword = list(map(lambda x : x[0],keywordsWord2Vec))

    # 사용자가 검색한 단어와 합치기
    allList.extend(Word2VecKeyword)

    #추출한 키워드를 알고싶다면?
    # print(allList)
    
    # 키워드 일치여부 확인하고 사용자 검색 단어에 가중치 넣기
    val = np.array(list(map(lambda x : findOverlapNum(x,allList) ,result)))
    df = pd.DataFrame(val)
    for i in range(wordsLen) :
        df[i] = df[i]*3
        
    return df.T.sum()

# searchByKeywords 내에 포함되어야 할듯 
dfRaw = pd.read_csv('./data/keywordExtraction2.csv',encoding='cp949',index_col=0)
lists = dfRaw['keywords'].tolist()
result = list(map(changeStringToList,lists))

In [14]:
# df['keywords']의 String을 List로 반환


kkkk=dfRaw.copy()
userkeywords = '데이터베이스, 오라클'
kkkk['sums'] = searchByKeywords(userkeywords)

kkkk[kkkk['sums'] >= 3][['도서명','ISBN','sums']].sort_values(by='sums',ascending=False)

Unnamed: 0,도서명,ISBN,sums
3189,(그림으로 공부하는)오라클 구조,9791188621996,7
5192,그림으로 공부하는 오라클 구조,9791185890302,7
2881,오라클로 배우는 데이터베이스 개론과 실습,9791156645023,7
1645,(전문가를 위한) 오라클 아키텍처 입문,9791188621101,7
1734,(초보자를 위한) Oracle 12c :DBA 편,9791195942534,7
...,...,...,...
2866,데이터베이스 인터널스 (분산 데이터베이스 시스템 심층 분석),9791161754963,3
2874,AWS 공인 솔류션스 아키텍트 올인원 스터디 가이드,9791161754482,3
666,깔끔한 파이썬 탄탄한 백엔드 :지금까지 없었던 백엔드 개발자를 위한 파이썬,9791186697757,3
2919,(PostgreSQL로 시작하는)SQL 코딩입문=SQL Programming in ...,9788995447468,3


## 이제 이걸 SQL로 가능하게 만들어야겠다.

In [None]:
def extracKeywords(words:list) :
    #검색 단어 한영 쪼개기
    wordDict = searchKeyword(words)

    #한영 전부 있는 단어
    allList = wordDict['all']
    wordsLen = len(allList)

    #한글만 추출
    hanList = wordDict['han']

    #model load(나중에 밖으로 뺴내야할 듯)
    loaded_model = KeyedVectors.load_word2vec_format("booksTest1")

    #키워드 단어 불러오기 20개 추출
    keywordsWord2Vec = loaded_model.most_similar(positive=hanList,topn=20)
    Word2VecKeyword = list(map(lambda x : x[0],keywordsWord2Vec))

    # 사용자가 검색한 단어와 합치기
    allList.extend(Word2VecKeyword)

    return allList
    
userkeywords = '데이터베이스, sql'

# extracKeywords(userkeywords)

# csv for sql

In [33]:
# csv = pd.read_csv('./data/keywordExtraction2.csv',encoding='cp949',index_col=0)

# lists = csv['keywords'].tolist()
# result = list(map(changeStringToList,lists))

# k = pd.DataFrame(result)

# asd = pd.merge(csv,k,how='left',left_index=True,right_index=True)
# asd = asd.drop(columns='Unnamed: 0')
# asd.to_csv('./data/keywordExtraction2ForSQL.csv')

In [3]:
csv = pd.read_csv('./data/keywordExtraction2ForSQL.csv',index_col=0)

# csv = csv.drop(columns='39')
# csv.to_csv('./data/keywordExtraction2ForSQL.csv')
csv.head(2)

Unnamed: 0,도서명,저자,출판사,ISBN,주제분류번호,등록일자,이미지주소,keywords,0,1,...,29,30,31,32,33,34,35,36,37,38
0,(그림과 실습으로 배우는) 도커 & 쿠버네티스:개념과 작동 원리가 쏙쏙 이해되는 완...,오가사와라 시게타카 지음 ;심효섭 옮김,위키북스,9791158393038,5.1,2022-06-22,http://image.kyobobook.co.kr/images/book/large...,"['도커', '실습', '컨테이너', '쿠버네티스', '설치', '실행', '사용법...",도커,실습,...,dockerfile,ec,iso,minikube,nginx,ssh,ps,kubectl,commit,nano
1,도메인 주도 설계 첫걸음:소프트웨어 아키텍처와 비즈니스 전략의 일치를 위한 핵심 패...,"블라드 코노노프 지음;김민석,오창윤 옮김",위키북스,9791158393359,5.115,2022-06-22,http://image.kyobobook.co.kr/images/book/large...,"['도메인', '설계', '비즈니스', '컨텍스트', '모델', '바운디드', '결...",도메인,설계,...,variation,,,,,,,,,


In [28]:
# k = np.vectorize(len)
# for col in csv.columns :
#     print(f'{col} : ',k(csv[col].astype(str).values).max())
# ---
# for i in range(39):
#     print(f"key{i} = models.CharField(max_length=20),"),

In [179]:
import pandas as pd
import pymysql
conn=pymysql.connect(host='localhost',port=int(3306),user='root',passwd='',db='dash_test')
cursor = conn.cursor(pymysql.cursors.DictCursor)

In [5]:
cursor.execute(' desc backend_dodomoalibinfo')
result = cursor.fetchall()
pd.DataFrame(result)

Unnamed: 0,Field,Type,Null,Key,Default,Extra
0,id,bigint,NO,PRI,,auto_increment
1,지역,varchar(5),NO,,,
2,ISBN,bigint,NO,MUL,,


### 배운내용 저장(Notion에도 저장했음.)

- WHERE을 사용할 때 Value가 String일 경우 따옴표를 붙여줘야 정상작동한다.

-  isin과 같음 : FIND_IN_SET(column명, 변수) * 변수 = 'a,b,c' 형태여야함 

In [6]:
var = "영등포,동작,양천"
cursor.execute(f'SELECT * FROM backend_dodomoalibinfo WHERE FIND_IN_SET(지역,"{var}") >0')
result = cursor.fetchall()
pd.DataFrame(result).head(3)

Unnamed: 0,id,지역,ISBN
0,1,영등포,9788970936208
1,2,영등포,9788970505411
2,3,영등포,9791197119927


In [7]:
var = "양천"
cursor.execute(f'SELECT ISBN FROM backend_dodomoalibinfo WHERE FIND_IN_SET(지역,"{var}") >0')
result = cursor.fetchall()
pd.DataFrame(result)

Unnamed: 0,ISBN
0,9788934961772
1,9788980783106
2,9788934949541
3,9791165219659
4,9788931556698
...,...
1023,9788956747842
1024,9791162240861
1025,9791158740405
1026,9791162241042


### WHERE 순서에 따른 JOIN 속도 비교하기

In [None]:
# JOIN WHERE FIND_IN_SET
# 18 ms ± 538 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

var = "양천,강서"
cursor.execute(f'''SELECT book.*, lib.지역 FROM backend_dodomoabookinfo AS book
                   LEFT JOIN backend_dodomoalibinfo AS lib
                   ON book.ISBN = lib.ISBN
                   where FIND_IN_SET(지역,"{var}") > 0''')
result = cursor.fetchall()
a = pd.DataFrame(result).drop_duplicates(subset=['id','지역'])
a

In [37]:
%%timeit
# JOIN WHERE IN
# 15.7 ms ± 538 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
var = "양천"
cursor.execute(f'''SELECT book.*, lib.지역 FROM backend_dodomoabookinfo AS book
                   LEFT JOIN backend_dodomoalibinfo AS lib
                   ON book.ISBN = lib.ISBN
                   where 지역 in ("{var}")''' )
result = cursor.fetchall()
a = pd.DataFrame(result).drop_duplicates(subset=['id','지역'])

15.7 ms ± 409 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [9]:
# JOIN On
# 54.1 ms ± 391 µs per loop (mean ± std. dev. of 7 runs, 10 loops each) 
#### and를 넣으니 FIND_IN_SET이 적용되지 않음.
var = "양천"
cursor.execute(f''' SELECT book.*, lib.지역 FROM backend_dodomoabookinfo AS book
                   LEFT JOIN backend_dodomoalibinfo AS lib
                   ON (book.ISBN = lib.ISBN
                   AND FIND_IN_SET(지역,"{var}") > 0)''')
result = cursor.fetchall()
a = pd.DataFrame(result).drop_duplicates(subset='id')

In [10]:
# WHERE 먼저 그다음 Join
# 15 ms ± 331 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

var = "양천"
cursor.execute(f''' SELECT book.*, lib.지역 FROM (SELECT * FROM backend_dodomoalibinfo where FIND_IN_SET(지역,"{var}") > 0) AS lib 
                   LEFT JOIN  backend_dodomoabookinfo AS book
                   ON book.ISBN = lib.ISBN
                   ''')
result = cursor.fetchall()
a = pd.DataFrame(result).drop_duplicates(subset='id')
a.head(2)

Unnamed: 0,id,ISBN,도서명,저자,출판사,주제분류번호,등록일자,이미지주소,지역
0,8.0,9788935000000.0,"전길남, 연결의 탄생: 한국 인터넷의 개척자 전길남 이야기",구본권 지음,김영사,4.58,2022-06-07,http://image.kyobobook.co.kr/images/book/large...,양천
1,4306.0,9788981000000.0,(Python™으로 배우는) OpenCV 프로그래밍 =Image Processing...,김동근 지음,KM(가메출판사),4.77,2022-06-14,http://image.kyobobook.co.kr/images/book/large...,양천


### keyword 찾아서 데이터 반환

In [460]:
def extractKeywords(words:str) :
    #검색 단어 한영 쪼개기
    wordDict : dict = searchKeyword(words)

    #한영 전부 있는 단어
    allList = wordDict['all']
    wordsLen = len(allList)

    #한글만 추출
    hanList = wordDict['han']

    #model load(나중에 밖으로 뺴내야할 듯)
    loaded_model = KeyedVectors.load_word2vec_format("booksTest1")

    #키워드 단어 불러오기 20개 추출
    keywordsWord2Vec = loaded_model.most_similar(positive=hanList,topn=20)
    Word2VecKeyword = list(map(lambda x : x[0],keywordsWord2Vec))

    # 사용자가 검색한 단어와 합치기
    allList.extend(Word2VecKeyword)
    keywords = ' '.join(allList)
    # regex = keywords.replace(' ','|')
    return keywords

In [131]:
var = '도커'
cursor.execute(f'''SELECT * FROM backend_dodomoakeyword2 where keyword like "%도커%" and keyword like "%실습%"  ''') 
result = cursor.fetchall()
pd.DataFrame(result)


Unnamed: 0,id,ISBN,keyword
0,1,9791158393038,도커 실습 컨테이너 쿠버네티스 설치 실행 사용법 컴포즈 이미지 작성 커맨드 매니페스...
1,2908,9791190014953,리눅스 해킹 취약점 도커 실습 환경 칼리 코드 분석 명령어 테스트 기초 활용 루비 ...
2,3200,9791161755786,쿠버네티스 애플리케이션 데브옵스 실습 구성 소개 관리 클러스터 확장 클라우드 업데이...


In [98]:
var = '도커'
cursor.execute(f'''SELECT * FROM backend_dodomoakeyword where FIND_IN_SET(key0,"{var}") > 0 limit 1 ''')
result = cursor.fetchall()
pd.DataFrame(result)


Unnamed: 0,id,ISBN,key0,key1,key2,key3,key4,key5,key6,key7,...,key29,key30,key31,key32,key33,key34,key35,key36,key37,key38
0,1,9791158393038,도커,실습,컨테이너,쿠버네티스,설치,실행,사용법,컴포즈,...,dockerfile,ec,iso,minikube,nginx,ssh,ps,kubectl,commit,nano


In [372]:
keywords, regex, wordsLen = extractKeywords('데이터베이스,sql')

In [373]:

cursor.execute(f''' SELECT 
ISBN,
(CHAR_LENGTH(`keyword`) - CHAR_LENGTH(REGEXP_REPLACE(`keyword`, '{regex}', '')))
 / (CHAR_LENGTH('{keywords}') - {wordsLen}) AS rate
FROM backend_dodomoakeyword2 
WHERE match(keyword) against("{keywords}")''')

result = cursor.fetchall()
k = pd.DataFrame(result).sort_values(by='rate', ascending=False)
len(k)

534

In [462]:
var = '양천,강서'
keywords = extractKeywords('데이터베이스,sql,mysql')
#11.5 ms ± 189 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

cursor.execute(f'''
      SELECT * 
      FROM (SELECT keyword2.ISBN, GROUP_CONCAT(lib.지역) as 지역

            -- 지역을 먼저 골라서 필요한 lib 만 추출 
            FROM (SELECT * 
                  FROM backend_dodomoalibinfo 
                  where FIND_IN_SET(지역,"{var}") > 0) AS lib 

            -- 첫번째 LEFT JOIN 
            LEFT JOIN backend_dodomoakeyword2 AS keyword2 
            ON keyword2.ISBN = lib.ISBN
            where match(keyword) against("{keywords}")
            GROUP BY keyword2.ISBN) AS sortedISBN

      -- 두번째 LEFT JOIN 
      LEFT JOIN backend_dodomoabookinfo AS book
      ON book.ISBN = sortedISBN.ISBN '''

      )
result = cursor.fetchall()
a = pd.DataFrame(result)

len(a)

196

# 최종

In [20]:
### 함수들 
import ast
from curses.ascii import isalpha
import re
import pymysql

conn=pymysql.connect(host='localhost',port=int(3306),user='root',passwd='',db='dash_test')
cursor = conn.cursor(pymysql.cursors.DictCursor)

# 문장 들어오면 단어로 잘라주는 메소드
def separateKeyword(words) :

    if type(words) != str :
        raise ValueError('str only possible')

    k = re.findall(r'\s|,|[^,\s]+', words)
    k = [i for i in k if i not in [',',' ']]
    return k

# 영문을 한글로 변환
def transToHan(words:list) -> list:
    EngToKorDict=pd.read_csv('./data/englist.csv',index_col=0)
    result = []
    for word in words :
        enToko = EngToKorDict[EngToKorDict['0'].isin([word])]
        if enToko.empty is not True :
            result.extend(enToko['1'].tolist())
        else :
            result.append(word)
        
    return list(set(result))

# 영문 문자 리스트 추출
def findEng(text: str) -> str:
    return re.findall("[a-zA-Z]+", text)
    
# 한글 문자 리스트 추출
def findHan(text: str) -> str:
    return re.findall(u'[\u3130-\u318F\uAC00-\uD7A3]+', text)

# 최종 
def searchKeyword(word:list) :
    val = separateKeyword(word)
    keywordItems = transToHan(val)
    engList = list(filter(lambda x : findEng(x),keywordItems))
    hanList = list(filter(lambda x : findHan(x),keywordItems))
    return dict(eng=engList,han=hanList,all=keywordItems)

# 중복값 찾기
def findOverlapNum(keywordsOfBook:list,keywordsWord2Vec):
    return np.in1d(keywordsWord2Vec,keywordsOfBook)

def extractKeywords(words:str) -> list :
    
    #검색 단어 한영 쪼개기
    wordDict : dict = searchKeyword(words)

    #한영 전부 있는 단어
    allList = wordDict['all']

    #한글만 추출
    hanList = wordDict['han']
    if len(hanList) > 0 : 
        #model load(나중에 밖으로 뺴내야할 듯)
        loaded_model = KeyedVectors.load_word2vec_format("w2v")

        #키워드 단어 불러오기 20개 추출
        keywordsWord2Vec = loaded_model.most_similar(positive=hanList,topn=20)
        Word2VecKeyword = list(map(lambda x : x[0],keywordsWord2Vec))

        # 사용자가 검색한 단어와 합치기
        allList.extend(Word2VecKeyword)

    # String으로 변환
    keywords = ' '.join(allList)
    return keywords



### 1. frontend로부터 해당 자료를 받음

# var = '양천,강서,강남,강동'
var = '양천'
userwords = 'bert'

### 2. userwords 외에 추가적인 keyword 추출
keywords= extractKeywords(userwords)
print(keywords)

# 3. 사용자가 선택한 조건 및 키워드로 검색 결과 추출

## Group By를 더 빨리해서 검색해야하는 ISBN 개수를 줄였는데 위에있는 쿼리보다 보다 속도가 느림.
# 16.7 ms ± 868 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
cursor.execute(f'''
      SELECT * 
      FROM (
            SELECT keyword2.ISBN, keyword2.keyword, lib.지역모음

            -- 사용자가 선택한 도서관의 도서 정보를 불러온다.
            FROM (SELECT ISBN, GROUP_CONCAT(지역) AS 지역모음
                  FROM backend_dodomoalibinfo 
                  where FIND_IN_SET(지역,"{var}") > 0
                  GROUP BY ISBN ) AS lib 

            -- 첫번째 LEFT JOIN
            -- keyword가 포함된 ISBN만 추출 
            LEFT JOIN backend_dodomoakeyword2 AS keyword2 
            ON keyword2.ISBN = lib.ISBN
            where match(keyword) against("{keywords}")
            ) AS sortedISBN

      -- 두번째 LEFT JOIN
      -- 추출된 도서의 도서정보(제목, 저자, 청구기호 등) 가져오기
      LEFT JOIN backend_dodomoabookinfo AS book
      ON book.ISBN = sortedISBN.ISBN
      
      ''')


result = cursor.fetchall()
result = pd.DataFrame(result)

### 4. TOP 50개 선정

## 사용자가 직접 검색한 단어 개수
wordsLen = len(userwords.split(',')) 

## keyword str to list
keyList = list(map(lambda x : x.split(' '), result['keyword']))

## 추출한 keyword str to list
allList = keywords.split(' ')

## 추출한 키워드와 일치 개수 찾기 & 유저가 검색한 것 3배 가중
val = np.array(list(map(lambda x : findOverlapNum(x,allList) ,keyList)))
df = pd.DataFrame(val)
for i in range(wordsLen) :
    df[i] = df[i]*4
result['sum'] = df.T.sum()

finish = result.sort_values(by='sum',ascending=False)[:50]

finish = finish[['도서명','저자','지역모음','주제분류번호','이미지주소','sum','keyword']]
finish.head(3)



bert


Unnamed: 0,도서명,저자,지역모음,주제분류번호,이미지주소,sum,keyword
0,(텐서플로와 머신러닝으로 시작하는) 자연어 처리 :로지스틱 회귀부터 트랜스포머 챗봇까지,"전창욱,최태균,조중현 지음",양천,4.73,http://image.kyobobook.co.kr/images/book/large...,4,처리 자연어 모델 데이터 텍스트 분류 소개 기반 문제 사이킷런 활용 딥러닝 유사 분...
1,한국어 임베딩,이기창,양천,4.735,http://image.kyobobook.co.kr/images/book/large...,4,임베딩 모델 자연어 학습 단어 한국어 수준 처리 문장 기법 데이터 의미 네트워크 튜...
2,김기현의 자연어 처리 딥러닝 캠프,김기현 (지은이),양천,4.73,http://image.kyobobook.co.kr/images/book/large...,4,자연어 처리 활용 딥러닝 설명 기술 내용 저자 언어 경험 머신러닝 강화학습 이론 신...


In [13]:
userwords = 'deep learning'
### 2. userwords 외에 추가적인 keyword 추출
# keywords = extractKeywords(userwords)

# keywords

{'eng': ['learning', 'deep'], 'han': [], 'all': ['learning', 'deep']}