# 시나리오

### 1. DB에 논문 Full Text 데이터 저장

1. **데이터 준비:**
   - 논문의 전체 텍스트를 문장 단위로 분리합니다.(후에 문장 유사도 분석을 통해 앞뒤 문장을 포함할지 말지를 결정할 수 있음) 이를 위해 Python의 `nltk` 라이브러리 같은 자연어 처리 도구를 사용할 수 있습니다.

2. **데이터베이스 설계:**
   - MySQL 같은 관계형 데이터베이스를 사용하여 데이터를 저장합니다. 각 문장은 별도의 행으로 저장됩니다.
   - 예를 들어, `papers` 테이블에 `id`, `paper_id`, `sentence` 컬럼을 만들 수 있습니다.

3. **데이터 삽입:**
   - Python을 사용하여 분리된 문장을 데이터베이스에 삽입합니다.

### 2. BERT 모델을 이용한 유의어 추출

1. **BERT 모델 Fine-Tuning:**
   - 특정 도메인의 데이터(예: 논문 데이터)에 맞게 BERT 모델을 Fine-Tuning 합니다. 이를 위해 해당 도메인의 데이터셋이 필요합니다.
   - Fine-Tuning은 일반적으로 대규모 컴퓨팅 자원을 필요로 합니다.

2. **유의어 추출:**
   - 사용자의 요청을 입력으로 받아, Fine-Tuned BERT 모델을 이용하여 유의어를 추출합니다.
   - 추출된 유의어는 상위 5개 정도를 선택합니다.

### 3. 유의어를 포함한 데이터 검색

1. **검색 쿼리 구성:**
   - BERT 모델로부터 얻은 유의어를 이용하여 검색 쿼리를 구성합니다.
   - SQL의 `LIKE` 연산자나 정규 표현식을 사용하여 유의어를 포함하는 문장을 찾을 수 있습니다.

2. **데이터 검색:**
   - 구성된 쿼리를 실행하여 데이터베이스에서 해당 유의어를 포함하는 문장들을 검색합니다.

### 4. 웹상에서 결과 출력

1. **웹 인터페이스 개발:**
   - Streamlit 등과 같은 웹 프레임워크를 사용하여 웹 인터페이스를 개발합니다.
   - 사용자가 요청을 입력하고, 검색 결과를 보여주는 페이지를 구성합니다.

2. **결과 표시:**
   - 검색된 데이터를 사용자에게 표시합니다. 이때, 검색된 문장과 함께 해당 문장이 포함된 논문의 정보(예: 제목, 저자 등)를 함께 보여줄 수 있습니다.

### 주의 사항

- BERT 모델의 Fine-Tuning과 유의어 추출은 상당한 컴퓨팅 자원과 전문 지식을 필요로 합니다.
- 데이터베이스 설계와 쿼리 최적화는 시스템의 성능에 큰 영향을 미칩니다.
- 웹 인터페이스는 사용자 친화적이고 직관적이어야 합니다.

이러한 시스템을 구축하기 위해서는 데이터베이스 관리, 자연어 처리, 머신 러닝, 웹 개발 등 다양한 기술이 필요합니다.

# 1. DB에 논문 Full Text 데이터 저장

## 데이터 로드

In [None]:
# !pip install sentence_transformers

Collecting sentence_transformers
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.0/86.0 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting sentencepiece (from sentence_transformers)
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m20.6 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected packages: sentence_transformers
  Building wheel for sentence_transformers (setup.py) ... [?25l[?25hdone
  Created wheel for sentence_transformers: filename=sentence_transformers-2.2.2-py3-none-any.whl size=125923 sha256=b688892d67cb9abcaba170638115ba1ca446c82e83d4fad81652003e66e8f605
  Stored in directory: /root/.cache/pip/wheels/62/f2/10/1e606fd5f02395388f74e7462910fe851042f97238cbbd902f
Successfully built sentence_tr

In [None]:
# pip install sqlalchemy



In [None]:
#!pip install transformers
from transformers import AutoModel
from numpy.linalg import norm
import json
import pandas as pd
import numpy as np
import torch
import os
from tqdm.auto import tqdm
import sentence_transformers
import sqlalchemy

In [None]:
df = pd.read_csv('/content/drive/MyDrive/koala_common/data3val.csv')

In [None]:
df['article_id'][10]

'1307.1855'

In [None]:
df.shape

(6436, 4)

## 데이터 가공

### df 전처리

In [None]:
# 작은 따옴표와 백슬래시를 제거하는 함수 정의
def remove_quotes_and_backslash(text):
    if isinstance(text, str):
        return text.replace("'", "").replace("\\", "")
    return text

# 데이터프레임의 모든 요소에 함수 적용
df_cleaned = df.applymap(remove_quotes_and_backslash)

print(df_cleaned)

        Unnamed: 0  article_id  \
0                0  PMC3872579   
1                1  PMC3770628   
2                2  PMC5330001   
3                3  PMC4386667   
4                4  PMC4307954   
...            ...         ...   
120775      133209  PMC4410469   
120776      133210  PMC3934811   
120777      133212  PMC4754593   
120778      133213  PMC5317293   
120779      133214  PMC4672074   

                                             article_text  \
0       a recent systematic analysis showed that in 20...   
1       it occurs in more than 50 of patients and may ...   
2       tardive dystonia td a rarer side effect after ...   
3       lepidoptera include agricultural pests that th...   
4       syncope is caused by transient diffuse cerebra...   
...                                                   ...   
120775  the anatomy of the scapular neck may have sign...   
120776  a 48year old woman with a positive brca1 gene ...   
120777  upton and mccomas first reported d

In [None]:
# 'article_id' 열의 중복 제거
df_unique = df_cleaned.drop_duplicates(subset='article_id')


In [None]:
result_list = [(row['article_id'], row['abstract_text']) for index, row in df_unique.iterrows()] # paper.db의 paper테이블에 들어갈 데이터

In [None]:
len(result_list)

120780

In [None]:
# key를 integer로 변경

### sentence 테이블에 들어갈 데이터

In [None]:
import nltk
import pandas as pd

# nltk의 punkt tokenizer를 다운로드합니다. 이 코드는 한 번만 실행하면 됩니다.
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
def sentence_boundary_detection(text):
    # 영어 문장 경계 인식기를 로드합니다
    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

    # 텍스트를 문장 단위로 분할합니다
    return tokenizer.tokenize(text)

# 리스트 컴프리헨션을 사용하여 결과 생성
sentence_result_list = [(article_id, sentence.strip())
                        for article_id, text in zip(df_unique['article_id'], df_unique['article_text'])
                        for sentence in sentence_boundary_detection(text)]


In [None]:
sentence_result_list[1:3][0]

('0708.1996',
 "', 'the twisted nematic liquid crystal cell serves as an example .")

## (무시)임베딩

In [None]:
# from sentence_transformers import SentenceTransformer

# model = SentenceTransformer("jinaai/jina-embeddings-v2-base-en")

.gitattributes:   0%|          | 0.00/1.52k [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/69.0k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/117 [00:00<?, ?B/s]

model.mlmodel:   0%|          | 0.00/136k [00:00<?, ?B/s]

weight.bin:   0%|          | 0.00/551M [00:00<?, ?B/s]

(…)ml/float32_model.mlpackage/Manifest.json:   0%|          | 0.00/617 [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/90.0 [00:00<?, ?B/s]

model-w-mean-pooling.onnx:   0%|          | 0.00/547M [00:00<?, ?B/s]

model.onnx:   0%|          | 0.00/547M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/275M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/275M [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/99.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/712k [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/373 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

configuration_bert.py:   0%|          | 0.00/8.24k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/jinaai/jina-bert-implementation:
- configuration_bert.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


The repository for /root/.cache/torch/sentence_transformers/jinaai_jina-embeddings-v2-base-en/ contains custom code which must be executed to correctly load the model. You can inspect the repository content at https://hf.co//root/.cache/torch/sentence_transformers/jinaai_jina-embeddings-v2-base-en/.
You can avoid this prompt in future by passing the argument `trust_remote_code=True`.

Do you wish to run the custom code? [y/N] y


modeling_bert.py:   0%|          | 0.00/97.5k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/jinaai/jina-bert-implementation:
- modeling_bert.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


In [None]:
# # model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)
# input_data=df['article_text'][:10]

# first_embeddings = []
# for article in tqdm(input_data, desc="Encoding"):
#     first_embeddings.append(model.encode(article))

Encoding:   0%|          | 0/10 [00:00<?, ?it/s]

In [None]:
# import ast
# text_list = ast.literal_eval(df['article_text'][0])
# text_list

# split_lists = [item.split("', '") for item in text_list]
# sub_list=[]
# # 결과 출력
# for sublist in split_lists:
#     sub_list.append(sublist)
# sub_list[0]

SyntaxError: ignored

## (무시) DB

### MySQL 데이터베이스 연결:

In [None]:
from sqlalchemy import create_engine

# MySQL 연결을 위한 예시 연결 문자열
# 이 정보는 실제 데이터베이스 설정에 맞게 수정해야 합니다.
mysql_connection_string = 'mysql+pymysql://username:password@localhost/mydatabase'
engine = create_engine(mysql_connection_string)


### 데이터프레임을 MySQL에 저장:

In [None]:
df.to_sql('my_table', con=engine, if_exists='replace', index=False)


### 데이터프레임을 MySQL에 저장:

`my_table`은 데이터를 저장할 테이블 이름입니다.  
`if_exists` 옵션은 테이블이 이미 존재할 경우 어떻게 처리할지 결정합니다.
'replace'는 기존 테이블을 대체하고, 'append'는 데이터를 추가합니다.  
`index=False`는 데이터프레임의 인덱스를 테이블에 저장하지 않도록 합니다

In [None]:
df.to_sql('my_table', con=engine, if_exists='replace', index=False)

## SQLite3

### 데이터베이스 및 테이블 생성

In [None]:
import sqlite3

# 데이터베이스 연결 생성
conn = sqlite3.connect('papers.db')

# 커서 생성
cursor = conn.cursor()

# papers 테이블 생성
cursor.execute('''
CREATE TABLE IF NOT EXISTS papers (
    paper_id TEXT PRIMARY KEY,
    abstract TEXT
)
''')

# sentences 테이블 생성
cursor.execute('''
CREATE TABLE IF NOT EXISTS sentences (
    sentence_id INTEGER PRIMARY KEY AUTOINCREMENT,
    paper_id TEXT,
    sentence_text TEXT,
    FOREIGN KEY (paper_id) REFERENCES papers (paper_id)
)
''')

# 변경사항 커밋 및 연결 종료
conn.commit()
conn.close()


### 데이터 삽입

In [None]:
# 예시 데이터
papers_data = [
    (1, '논문 제목 1', '2023-01-01'),
    (2, '논문 제목 2', '2023-01-02')
]

sentences_data = [
    (1, '논문 1의 첫 번째 문장입니다.'),
    (1, '논문 1의 두 번째 문장입니다.'),
    (2, '논문 2의 첫 번째 문장입니다.'),
    (2, 'This is second sentece of paper no. 2.'),
    (2, 'This is third sentence of research paper no.2.')
]

# 데이터베이스에 데이터 삽입
conn = sqlite3.connect('papers.db')
cursor = conn.cursor()

cursor.executemany('INSERT INTO papers (paper_id, abstract) VALUES (?, ?)', result_list)
cursor.executemany('INSERT INTO sentences (paper_id, sentence_text) VALUES (?, ?)', sentence_result_list)

conn.commit()
conn.close()


### 데이터 조회

In [None]:
cd /content/drive/MyDrive/koala_common

/content/drive/MyDrive/koala_common


#### (무시) paper.db 전체 데이터 출력

In [None]:
conn = sqlite3.connect('papers.db')
cursor = conn.cursor()

# 모든 논문 조회
cursor.execute('SELECT * FROM papers')
papers = cursor.fetchall()
for paper in papers:
    print(paper)

# 특정 논문의 문장 조회
paper_id = 1
cursor.execute('SELECT * FROM sentences WHERE paper_id = ?', (paper_id,))
sentences = cursor.fetchall()
for sentence in sentences:
    print(sentence)

conn.close()


#### paper.db에서 원하는 단어 포함한 행 추출

In [None]:
import sqlite3

# 데이터베이스 연결
conn = sqlite3.connect('papers.db')
cursor = conn.cursor()

# '논문' 키워드를 포함하는 문장 조회
keyword = '%cardi%'
cursor.execute('SELECT * FROM sentences WHERE sentence_text LIKE ?', (keyword,))

# 조회 결과 출력
sentences = cursor.fetchall()
for sentence in sentences:
    print(sentence)

# 연결 종료
conn.close()


OperationalError: ignored

# 2. BERT 모델을 이용한 유의어 추출

* 이 코드는 toy 예제입니다. bert모델을 사용하지 않았으며 nltk 라이브러리를 활용해 간단하게 구현하였습니다.

In [None]:
!pip install nltk




In [None]:
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [None]:
from nltk.corpus import wordnet as wn

def find_synonyms(word, count=5):
    synonyms = set()

    for syn in wn.synsets(word):
        for lemma in syn.lemmas():
            synonyms.add(lemma.name())
            if len(synonyms) >= count:
                return list(synonyms)[:count]

    return list(synonyms)

# 'paper'에 대한 유의어 찾기
synonyms = find_synonyms('paper')
print(synonyms)


['theme', 'report', 'newspaper', 'composition', 'paper']


# 3. 유의어를 포함한 데이터 검색

In [None]:
import sqlite3
from nltk.corpus import wordnet as wn

def find_synonyms(word, count=5):
    synonyms = set()
    for syn in wn.synsets(word):
        for lemma in syn.lemmas():
            synonyms.add(lemma.name().replace('_', ' '))
            if len(synonyms) >= count:
                return list(synonyms)[:count]
    return list(synonyms)

def find_sentences_with_synonyms(synonyms):
    conn = sqlite3.connect('papers.db')
    cursor = conn.cursor()

    # 유의어를 포함하는 문장을 찾기 위한 쿼리 구성
    query = "SELECT * FROM sentences WHERE " + " OR ".join(["sentence_text LIKE ?" for _ in synonyms])
    params = ['%' + synonym + '%' for synonym in synonyms]

    cursor.execute(query, params)
    results = cursor.fetchall()

    conn.close()
    return results

# 'paper'에 대한 유의어 찾기
synonyms = find_synonyms('disease')

# 유의어를 포함하는 문장 찾기
sentences = find_sentences_with_synonyms(synonyms)
for sentence in sentences:
    print(sentence)


LookupError: ignored

# 4. 웹상에서 결과 출력

## 4.1. 필요한 라이브러리 설치

In [None]:
pip install Flask




## 4.2. Flask 애플리케이션 생성

app.py라는 파일을 생성하고 다음 코드를 작성합니다:

In [None]:
# from flask import Flask, render_template, request
# import sqlite3

# app = Flask(__name__)

# def get_search_results(keyword):
#     conn = sqlite3.connect('papers.db')
#     cursor = conn.cursor()

#     # 검색 쿼리 실행
#     query = '''
#     SELECT sentences.sentence_text, papers.title
#     FROM sentences
#     JOIN papers ON sentences.paper_id = papers.paper_id
#     WHERE sentences.sentence_text LIKE ?
#     '''
#     cursor.execute(query, ('%' + keyword + '%',))
#     results = cursor.fetchall()

#     conn.close()
#     return results

# @app.route('/', methods=['GET', 'POST'])
# def index():
#     search_results = []
#     if request.method == 'POST':
#         keyword = request.form['keyword']
#         search_results = get_search_results(keyword)
#     return render_template('index.html', search_results=search_results)

# if __name__ == '__main__':
#     app.run(debug=True)


 * Serving Flask app '__main__'
 * Debug mode: on


 * Running on http://127.0.0.1:5000
INFO:werkzeug:[33mPress CTRL+C to quit[0m
INFO:werkzeug: * Restarting with stat


## 4.3. HTML 템플릿 생성

Flask 애플리케이션과 같은 디렉토리에 templates라는 폴더를 만들고, 그 안에 index.html 파일을 생성합니다. 다음은 간단한 HTML 템플릿의 예시입니다:

In [None]:
# <!DOCTYPE html>
# <html>
# <head>
#     <title>논문 검색</title>
# </head>
# <body>
#     <h1>논문 검색</h1>
#     <form method="post">
#         <input type="text" name="keyword" placeholder="검색어 입력">
#         <button type="submit">검색</button>
#     </form>
#     <hr>
#     {% if search_results %}
#         <h2>검색 결과</h2>
#         <ul>
#             {% for sentence, title in search_results %}
#                 <li><strong>{{ title }}</strong>: {{ sentence }}</li>
#             {% endfor %}
#         </ul>
#     {% else %}
#         <p>검색 결과가 없습니다.</p>
#     {% endif %}
# </body>
# </html>


## 4.4. 애플리케이션 실행

이제 애플리케이션을 실행할 수 있습니다. 터미널에서 다음 명령어를 실행하세요:

In [None]:
cd /content/drive/MyDrive/koala_common

/content/drive/MyDrive/koala_common


In [None]:
!python app.py

 * Serving Flask app 'app'
 * Debug mode: on
 * Running on http://127.0.0.1:5000
[33mPress CTRL+C to quit[0m
 * Restarting with stat
 * Debugger is active!
 * Debugger PIN: 995-851-124


# 남은 과제

- 1.1 단계에서 문장 앞뒤로 연관된 내용인지 파악하여 추가하기.. ★★★(난이도) ♠(중요도)
- 1.2 단계에서 DB 논리적 설계 다시하기(논문 정보) ★★ ♠♠
- 1.3 단계에서 대용량 데이터 DB 삽입 자동화하기 ★ ♠♠♠
- 2.1 단계에서 BERT모델 찾고, 파인튜닝(한국어 가능 모델) ★★★ ♠♠
- 4단계에서 웹 연결 및 서비스 운영은 더 알아보기 ??? ♠♠♠

# 우선순위
<완료>
- ~~ 1.2 단계에서 DB 논리적 설계 다시하기(논문 정보)~~  
 (가진 정보가 article_id, abstract, text뿐이어서 선택의 여지x)
- ~~1.3 단계에서 대용량 데이터 DB 삽입 자동화하기~~
---
<2023-12-01일 전>

- 2.1 단계에서 사용자의 입력에서 키워드를 추출해 유사어 5개를 찾아 줄 BERT모델 찾고, 우리 데이터에 맞게 파인튜닝(예: java-coffee/ java-python)
- 문장 의미 단위 분할이 어려움..
---
<종강 이후>  
- 4단계에서 웹 연결 및 서비스 운영은 더 알아보기
- 1.1 단계에서 문장 앞뒤로 연관된 내용인지 파악하여 추가하기..

# 일정
- 마감: 12월 08일
- 실질적 마감: 12월 01일
-

## 2023년 12월
|     일     |     월     |     화     |     수     |     목     |     금     |     토     |
|:----------:|:----------:|:----------:|:----------:|:----------:|:----------:|:----------:|
|            |            |            |            |            | 2023-12-01 | 2023-12-02 |
|            |            |            |            |            |            |            |
| 2023-12-03 | 2023-12-04 | 2023-12-05 | 2023-12-06 | 2023-12-07 | 2023-12-08 | 2023-12-09 |
|<-|시|험|일|주|일|전|
| 2023-12-10 | 2023-12-11 | 2023-12-12 | 2023-12-13 | **2023-12-14** | 2023-12-15 | 2023-12-16 |
|->|데이터구조|            |딥러닝응용2|캡스톤마감 |            |            |
| 2023-12-17 | 2023-12-18 | 2023-12-19 | 2023-12-20 | 2023-12-21 | 2023-12-22 | 2023-12-23 |
|            |            |            |            |            |            |            |
| 2023-12-24 | 2023-12-25 | 2023-12-26 | 2023-12-27 | 2023-12-28 | 2023-12-29 | 2023-12-30 |
|            |            |            |            |            |            |            |
| 2023-12-31 |            |            |            |            |            |
           |

# 시나리오 다시보기

### 1. DB에 논문 Full Text 데이터 저장

1. **데이터 준비:**
   - 논문의 전체 텍스트를 문장 단위로 분리합니다.(후에 문장 유사도 분석을 통해 앞뒤 문장을 포함할지 말지를 결정할 수 있음) 이를 위해 Python의 `nltk` 라이브러리 같은 자연어 처리 도구를 사용할 수 있습니다.

2. **데이터베이스 설계:**
   - MySQL 같은 관계형 데이터베이스를 사용하여 데이터를 저장합니다. 각 문장은 별도의 행으로 저장됩니다.
   - 예를 들어, `papers` 테이블에 `id`, `paper_id`, `sentence` 컬럼을 만들 수 있습니다.

3. **데이터 삽입:**
   - Python을 사용하여 분리된 문장을 데이터베이스에 삽입합니다.

### 2. BERT 모델을 이용한 유의어 추출

1. **BERT 모델 Fine-Tuning:**
   - 특정 도메인의 데이터(예: 논문 데이터)에 맞게 BERT 모델을 Fine-Tuning 합니다. 이를 위해 해당 도메인의 데이터셋이 필요합니다.
   - Fine-Tuning은 일반적으로 대규모 컴퓨팅 자원을 필요로 합니다.

2. **유의어 추출:**
   - 사용자의 요청을 입력으로 받아, Fine-Tuned BERT 모델을 이용하여 유의어를 추출합니다.
   - 추출된 유의어는 상위 5개 정도를 선택합니다.

### 3. 유의어를 포함한 데이터 검색

1. **검색 쿼리 구성:**
   - BERT 모델로부터 얻은 유의어를 이용하여 검색 쿼리를 구성합니다.
   - SQL의 `LIKE` 연산자나 정규 표현식을 사용하여 유의어를 포함하는 문장을 찾을 수 있습니다.

2. **데이터 검색:**
   - 구성된 쿼리를 실행하여 데이터베이스에서 해당 유의어를 포함하는 문장들을 검색합니다.

### 4. 웹상에서 결과 출력

1. **웹 인터페이스 개발:**
   - Flask나 Django 같은 Python 웹 프레임워크를 사용하여 웹 인터페이스를 개발합니다.
   - 사용자가 요청을 입력하고, 검색 결과를 보여주는 페이지를 구성합니다.

2. **결과 표시:**
   - 검색된 데이터를 사용자에게 표시합니다. 이때, 검색된 문장과 함께 해당 문장이 포함된 논문의 정보(예: 제목, 저자 등)를 함께 보여줄 수 있습니다.

### 주의 사항

- BERT 모델의 Fine-Tuning과 유의어 추출은 상당한 컴퓨팅 자원과 전문 지식을 필요로 합니다.
- 데이터베이스 설계와 쿼리 최적화는 시스템의 성능에 큰 영향을 미칩니다.
- 웹 인터페이스는 사용자 친화적이고 직관적이어야 합니다.

이러한 시스템을 구축하기 위해서는 데이터베이스 관리, 자연어 처리, 머신 러닝, 웹 개발 등 다양한 기술이 필요합니다.

In [None]:
!pip install -q streamlit

In [None]:
%%writefile app.py

import streamlit as st

st.write('Hello, *World!* :sunglasses:')

Writing app.py


In [None]:
!npm install localtunnel

[K[?25h[37;40mnpm[0m [0m[30;43mWARN[0m [0m[35msaveError[0m ENOENT: no such file or directory, open '/content/package.json'
[K[?25h[37;40mnpm[0m [0m[34;40mnotice[0m[35m[0m created a lockfile as package-lock.json. You should commit this file.
[0m[37;40mnpm[0m [0m[30;43mWARN[0m [0m[35menoent[0m ENOENT: no such file or directory, open '/content/package.json'
[0m[37;40mnpm[0m [0m[30;43mWARN[0m[35m[0m content No description
[0m[37;40mnpm[0m [0m[30;43mWARN[0m[35m[0m content No repository field.
[0m[37;40mnpm[0m [0m[30;43mWARN[0m[35m[0m content No README data
[0m[37;40mnpm[0m [0m[30;43mWARN[0m[35m[0m content No license field.
[0m
+ localtunnel@2.0.2
added 22 packages from 22 contributors and audited 22 packages in 4.374s

3 packages are looking for funding
  run `npm fund` for details

found 1 [93mmoderate[0m severity vulnerability
  run `npm audit fix` to fix them, or `npm audit` for details
[K[?25h

In [None]:
!streamlit run app.py &>/content/logs.txt &

In [None]:
!npx localtunnel --port 8501

[K[?25hnpx: installed 22 in 3.872s
your url is: https://six-hotels-sneeze.loca.lt


In [None]:
import streamlit as st
import sqlalchemy

# 데이터베이스 연결 설정
# 여기서는 예시로 SQLite를 사용합니다. 실제 사용 시에는 해당 데이터베이스에 맞게 조정해야 합니다.
engine = sqlalchemy.create_engine('sqlite:///papers00.db')

# Streamlit 인터페이스
st.title("논문 레퍼런스 검색")
query = st.text_input("무엇을 도와드릴까요?")

if st.button("검색"):
    # 데이터베이스에서 쿼리 실행
    results = engine.execute(f"SELECT * FROM papers WHERE title LIKE '%{query}%'")
    # 결과 표시
    for result in results:
        st.write(result)


2023-11-30 12:29:40.057 
  command:

    streamlit run /usr/local/lib/python3.10/dist-packages/colab_kernel_launcher.py [ARGUMENTS]
