<a href="https://colab.research.google.com/github/J-Seo/BDC103_IR/blob/main/%EC%8B%A4%EC%8A%B52%EA%B0%95_%EC%A0%95%EB%B3%B4%EA%B2%80%EC%83%89.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **실습 2.**

본 실습 자료는 **BDC103(00) 빅데이터와정보검색 강의 실습**을 위해 **고려대학교 자연어처리연구실 (NLP & AI Lab)**에서 제작했습니다.

☠️ 외부로의 무단 배포를 금지합니다. ☠️

```
version 1.0 (2021.03.04)
created by: 서재형, 임희석 (고려대학교 자연어처리 연구실)
email: wolhalang@gmail.com
```


## **정보 검색의 방법 😊**

문서 검색에서 가장 기본적인 형태인 Boolean (0,1)로 구성.

기존의 문서 단위 행렬 Document Term Matrix (DTM)은 단어의 출현 여부에 따라서 0과 1로 표현.

**그러나, DTM은 어떤 문서가 더 중요한지, 더욱 일치햐는지 순위를 부여할 수 없음.**

따라서, **단어 빈도수 Term-Frequency (TF)와 문서 역빈도수 Inverse Document Frquency (IDF)** 를 통해 문서 처리.





### **TF-IDF** 

> **Term Frequency (TF)**는 단어가 문서에 나타난 횟수를 의미하며, 해당 단어가 문서에 자주 등장할 수록 수치가 증가하여 높은 중요도를 나타낼 수 있다.

> **Document Frequency (DF)**는 해당 단어가 나타난 문서의 수를 의미하며, 해당 단어가 다중 문서에 자주 등장할 수록 수치가 증가하여 낮은 중요도를 나타낼 수 있다.

> **Inverse Document Frequency (IDF)**는 DF의 역수로 전체 단어 수를 해당 단어의 DF로 나눈 뒤 로그(log)를 취한 값이다. 즉 값이 클수록 중요해질 수 있도록 역수를 취한다 (TF와의 계산 편의성을 위해)

> **TF-IDF는 TF와 IDF의 곱**으로 구성되며, 두 지표를 동시에 고려하는 가중치 산출 방법이다. 


$$tf(d,t)$$

$$idf(d,t) = {log({n\over 1+df(t)})}$$

$$ w_d,_t = tf(d,t) * idf(d,t) $$


### **TF-IDF 구현** 🤩

In [None]:
import pandas as pd 
import numpy as np

In [None]:
# 고려대학교 호상비문의 구절을 코퍼스로 해봅시다.
epitaph = [
  '민족의 힘으로 민족의 꿈을 가꾸어온',
  '민족의 보람찬 대학이 있어',
  '너 항상 여기에 자유의 불을 밝히고',
  '정의의 길을 달리고 진리의 샘을 지키느니',
  '지축을 박차고 포효하거라 너 불타는 야망',
  '젊은 의욕의 상징아 우주를 향한 너의 부르짖음이',
  '민족의 소리되어 메아리치는 곳에 너의 기개',
  '너의 지조 너의 예지는',
  '조국의 영원한 고동이 되리라'
] 

vocab = []

# 각 라인을 document로 생각해주세요.
for line in epitaph:
    for token in line.split():
        vocab.append(token)

print(vocab)

vocab = list(set(vocab))
print(vocab)

['민족의', '힘으로', '민족의', '꿈을', '가꾸어온', '민족의', '보람찬', '대학이', '있어', '너', '항상', '여기에', '자유의', '불을', '밝히고', '정의의', '길을', '달리고', '진리의', '샘을', '지키느니', '지축을', '박차고', '포효하거라', '너', '불타는', '야망', '젊은', '의욕의', '상징아', '우주를', '향한', '너의', '부르짖음이', '민족의', '소리되어', '메아리치는', '곳에', '너의', '기개', '너의', '지조', '너의', '예지는', '조국의', '영원한', '고동이', '되리라']
['포효하거라', '부르짖음이', '밝히고', '예지는', '불타는', '되리라', '야망', '지조', '민족의', '지축을', '항상', '고동이', '달리고', '너', '박차고', '향한', '자유의', '곳에', '있어', '상징아', '대학이', '여기에', '힘으로', '샘을', '조국의', '지키느니', '가꾸어온', '기개', '길을', '진리의', '메아리치는', '너의', '의욕의', '보람찬', '젊은', '영원한', '우주를', '정의의', '소리되어', '불을', '꿈을']


In [None]:
# TF, IDF 구현 함수
def tf(t,d):
    return d.count(t)

def idf(t,document):
    df_count = 0
    for doc in document:
        if t in doc:
            df_count += 1
    return np.log(len(epitaph)/(df_count+1))

def tfidf(t,d):
    return tf(t,d)*idf(t,epitaph)

In [None]:
# TF-IDF 구현
result = []
for i in range(len(epitaph)):
    result.append([])
    d = epitaph[i]
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tfidf(t,d))

tf_idf = pd.DataFrame(result, columns = vocab)
tf_idf

Unnamed: 0,포효하거라,부르짖음이,밝히고,예지는,불타는,되리라,야망,지조,민족의,지축을,항상,고동이,달리고,너,박차고,향한,자유의,곳에,있어,상징아,대학이,여기에,힘으로,샘을,조국의,지키느니,가꾸어온,기개,길을,진리의,메아리치는,너의,의욕의,보람찬,젊은,영원한,우주를,정의의,소리되어,불을,꿈을
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.62186,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.81093,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.405465,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,1.504077,0.0,0.0,1.504077,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.0
4,1.504077,0.0,0.0,0.0,1.504077,0.0,1.504077,0.0,0.0,1.504077,0.0,0.0,0.0,0.405465,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.405465,0.0,1.504077,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.81093,1.504077,0.0,1.504077,0.0,1.504077,0.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.81093,0.0,0.0,0.0,0.0,0.405465,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,1.504077,0.81093,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0
7,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.81093,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.62186,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.504077,0.0,0.0,0.0,0.0,0.0


### **BM25** 

➀ $f(q_i, D)$: 문서에 존재하는 키워드 갯수

➁ $k_1$: 임의의 상수, default 1.2

➂ $b$: 임의의 상수, default 0.75

➃ $|D|$: 현재 검색된 문서 길이

➄ $avgDL$: 전체 문서의 평균적인 길이


> `score(Document D, Query q)`에 대한 BM25 수식

$$ \sum_{i=1}^{n}IDF(q_i)\cdot\frac{f(q_i, D) \cdot (k_1 + 1)}{f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{avgDL})} $$


> BM25는 TF-IDF와 같은 스코어 계산 방식이지만 **색인화된 평균 문서의 길이**와 **검색된 문서의 길이를 고려**했다고 보면 됩니다.

### **BM25 구현** 🤩

> python의 경우 `rank-bm25` 패키지를 통해서 BM25를 간편하게 사용할 수 있습니다.

```
pip install rank_bm25
```

> 패키지 참조

https://pypi.org/project/rank-bm25/





In [None]:
!pip install rank_bm25



In [None]:
from rank_bm25 import BM25Okapi

## 응원가 제목을 코퍼스화
songs = [
  '민족의 아리아',
  '젊은 그대',
  '들어라 보아라 기억하라',
  '뱃노래',
  '석탑',
  '엘리제를 위하여',
  '고래사냥',
  '지야의 함성',
  '레이몽드 서곡'
]

## 코퍼스에 대해서 BM25 알고리즘 적용을 위해 토큰화하여 색인화
tokenized_songs = [song.split(" ") for song in songs]
bm25 = BM25Okapi(tokenized_songs)

In [None]:
# 질의를 만들어보고 색인화된 문서에 대한 doc_scores를 반환
query = "민족의 노래"
tokenized_query = query.split(" ")
doc_scores = bm25.get_scores(tokenized_query)
print(doc_scores)

[1.64222585 0.         0.         0.         0.         0.
 0.         0.         0.        ]


In [None]:
# 가장 높은 점수의 결과 반환
bm25.get_top_n(tokenized_query, songs, n=1)

['민족의 아리아']

<img src = 'https://miro.medium.com/max/1200/1*zvPL19PUTMslrhXPODj_Og.png' width = 300>

다음은... **BM25 알고리즘**을 기본 방법론으로 사용하는 

**ElasticSearch 검색 엔진**을 **Python**에서 활용하는 방법에 대해서 배우도록 하겠습니다.


## **ElasticSearch를 활용한 정보 검색** 🧐

공식 홈페이지 참조: https://www.elastic.co/kr/what-is/elasticsearch

#### **ElasticSearch란?**

> Elasticsearch는 **텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 무료 검색 및 분석 엔진으로 분산형 및 개방형을 특징**으로 합니다. Elasticsearch는 Apache Lucene을 기반으로 구축되었으며, Elasticsearch N.V.(현재 명칭 Elastic)가 2010년에 최초로 출시했습니다. 간단한 REST API, 분산형 특징, 속도, 확장성으로 유명한 Elasticsearch는 데이터 수집, 보강, 저장, 분석, 시각화를 위한 무료 개방형 도구 모음인 Elastic Stack의 핵심 구성 요소입니다.

#### **ElasticSearch에서 색인이란?**

> Elasticsearch **인덱스는 서로 관련되어 있는 문서들의 모음**입니다. Elasticsearch는 **JSON 문서로 데이터를 저장**합니다. 각 문서는 **일련의 키**(필드나 속성의 이름)와 **그에 해당하는 값**(문자열, 숫자, 부울, 날짜, 값의 배열, 지리적 위치 또는 기타 데이터 유형)을 서로 연결합니다.

> Elasticsearch는 **역 인덱스**라고 하는 데이터 구조를 사용하는데, 이것은 아주 빠른 풀텍스트 검색을 할 수 있도록 설계된 것입니다. 역 인덱스는 **문서에 나타나는 모든 고유한 단어의 목록을 만들고, 각 단어가 발생하는 모든 문서를 식별**합니다.

> 색인 프로세스 중에, **Elasticsearch는 문서를 저장하고 역 인덱스를 구축하여 거의 실시간으로 문서를 검색** 가능한 데이터로 만듭니다. 인덱스 API를 사용해 색인이 시작되며, 이를 통해 사용자는 특정한 인덱스에서 JSON 문서를 추가하거나 업데이트할 수 있습니다.

#### **사용하는 이유?**

> Elasticsearch는 Lucene을 기반으로 구축되기 때문에, **풀텍스트 검색에 뛰어납니다**. Elasticsearch는 또한 거의 **실시간 검색 플랫폼**입니다. 이것은 문서가 색인될 때부터 검색 가능해질 때까지의 대기 시간이 아주 짧다는 뜻입니다. 이 대기 시간은 보통 1초입니다.

> 분산 시스템으로 **병렬적인 처리. 검색 대상의 사이즈가 아주 크더라도 분석 및 처리가 가능**합니다.

**--> 빅데이터 검색에 적합한 검색 엔진**




### **구글 코랩과 구글 드라이브 연동하기** 😎

구글 코랩 환경에서는 로그인되어 있는 구글 계정과 연결되어 있는 '구글 드라이브'와의 연동을 지원합니다.  
연동하는 경우, 자신의 구글 드라이브를 로컬 환경처럼 활용이 가능하며, 원하는 파일이나 이미지를 불러올 수 있습니다.

In [None]:
### Google Drive 패키지와 os 모듈 불러오기
from google.colab import drive
import os

In [None]:
### 본인 구글 드라이브의 최초 경로를 설정하기

# 대부분의 구글 드라이브 최초 경로는 아래와 같습니다. 
# 예외 발생 시 본인의 구글 드라이브에 접속하여 content 폴더나 gdrive 폴더가 어떤 위치에 있으며, 
# 자신이 연결하려는 폴더까지의 경로가 어떻게 되는지 확인해야 합니다.  
drive.mount('/content/gdrive/')

Drive already mounted at /content/gdrive/; to attempt to forcibly remount, call drive.mount("/content/gdrive/", force_remount=True).


In [None]:
### 자신의 현재 경로를 파악하기

os.getcwd() ## 아마도 /content로 나올 것.

'/content'

### **엘라스틱 서버 설치 및 구동하기** 😎

In [None]:
### 구글 클라우드 컴퓨터에 elastic server 서버 설치를 위한 폴더 생성 
!sudo mkdir /content/elasticsearch
### 접근 권한 수정
!chmod 755 -R elasticsearch
### 현재 작업 디렉토리 설정
os.chdir('/content/elasticsearch')

In [None]:
### 리눅스용 엘라스틱서치 서버 설치를 위한 패키지 다운로드
!wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.0.0-linux-x86_64.tar.gz -q

In [None]:
### 위에서 다운로드 받은 압축 파일을 해제
!tar -xzf elasticsearch-7.0.0-linux-x86_64.tar.gz

In [None]:
### 코랩 노트북 환경에서 서버 구동을 위해서 PPID 1의 백그라운드 데몬 프로세스가 해당 폴더에 접근이 가능하도록 소유자 변경
!chown -R daemon:daemon elasticsearch-7.0.0

In [None]:
### 파이썬 환경에서 구동을 위한 elasticsearch 패키지 설치
!pip install elasticsearch

Collecting elasticsearch
[?25l  Downloading https://files.pythonhosted.org/packages/72/68/76c5d46cc6a48fddb759f585bc8728caa11bfc9b812ce6705fc5f99beab2/elasticsearch-7.11.0-py2.py3-none-any.whl (325kB)
[K     |█                               | 10kB 15.9MB/s eta 0:00:01[K     |██                              | 20kB 21.4MB/s eta 0:00:01[K     |███                             | 30kB 10.9MB/s eta 0:00:01[K     |████                            | 40kB 8.4MB/s eta 0:00:01[K     |█████                           | 51kB 4.2MB/s eta 0:00:01[K     |██████                          | 61kB 4.8MB/s eta 0:00:01[K     |███████                         | 71kB 4.6MB/s eta 0:00:01[K     |████████                        | 81kB 4.9MB/s eta 0:00:01[K     |█████████                       | 92kB 5.2MB/s eta 0:00:01[K     |██████████                      | 102kB 4.0MB/s eta 0:00:01[K     |███████████                     | 112kB 4.0MB/s eta 0:00:01[K     |████████████                    | 1

In [None]:
# 데몬 프로세스로 엘라스틱 서버 개시하기
import os
from subprocess import Popen, PIPE, STDOUT
es = Popen(['elasticsearch-7.0.0/bin/elasticsearch'], 
                  stdout=PIPE, stderr=STDOUT,
                  preexec_fn=lambda: os.setuid(1)  # as daemon
                )

### **3분 정도 기다리시면 됩니다!!!** 😄

서버가 안정적으로 열릴 때까지 시간이 조금 걸릴 수 있어요..

`es.info()`를 실행시켰을 때

아래와 같은 결과가 나오면 성공!

```
{'cluster_name': 'elasticsearch',
 'cluster_uuid': 'EOh60gEwRri9A_UruHyQLA',
 'name': '657b2f379e3e',
 'tagline': 'You Know, for Search',
 'version': {'build_date': '2019-04-05T22:55:32.697037Z',
  'build_flavor': 'default',
  'build_hash': 'b7e28a7',
  'build_snapshot': False,
  'build_type': 'tar',
  'lucene_version': '8.0.0',
  'minimum_index_compatibility_version': '6.0.0-beta1',
  'minimum_wire_compatibility_version': '6.7.0',
  'number': '7.0.0'}}
```



In [None]:
# 로컬 서버에 엘라스틱 서버와 python을 연결
from elasticsearch import Elasticsearch
es = Elasticsearch("localhost:9200/")
es.info()

{'cluster_name': 'elasticsearch',
 'cluster_uuid': 'GgL6IF_NRlOFMC9cIxTEUw',
 'name': 'ef098ec87dba',
 'tagline': 'You Know, for Search',
 'version': {'build_date': '2019-04-05T22:55:32.697037Z',
  'build_flavor': 'default',
  'build_hash': 'b7e28a7',
  'build_snapshot': False,
  'build_type': 'tar',
  'lucene_version': '8.0.0',
  'minimum_index_compatibility_version': '6.0.0-beta1',
  'minimum_wire_compatibility_version': '6.7.0',
  'number': '7.0.0'}}

### **Elasticsearch Server 개시 및 Python과 연동**

> /content/gdrive 이후의 경로에는 구글 드라이브 보안으로 인해서
daemon process가 정상적인 방식으로는 서버 구동이 어렵기 때문에 본인 드라이브가 아닌
구글 클라우드 컴퓨터에 엘라스틱 서버를 설치하고 개시했습니다. 




In [None]:
### 현재 작업 환경 재설정하기 (자신만의 작업 디렉토리를 기본 경로로 설정하는 것)

#.ipynb 노트북 파일과 불러오려는 이미지 및 모듈에 해당하는 파일들은 같은 현재 작업 환경 
#또는 그 하위 폴더에 존재하는 것이 좋습니다. 

# 자신만의 기본 경로를 설정하는데, 대부분의 경우에는 Colab Notebooks까지 동일하게 공유하며,
# 이후 경로는 자신이 생성한 폴더에 맞추어서 경로를 설정하면 됩니다.
# 수업에서는 자신의 구글 드라이브에 information_retrieval 폴더를 생성하시면 됩니다. 
os.chdir('/content/gdrive/My Drive/Colab Notebooks/information_retrieval/elastic')

### 🤥💦 모르는 것이 있을 경우에는?

프로그래밍의 첫 걸음은 **`검색`** 입니다.

특히 **`빅데이터와 정보 검색`** 수업을 듣고 있는 여러분들은 **반.드.시** 궁금하거나 모르는 내용에 대해서 **`검색`**하는 습관이 필요합니다.

> Google 검색 엔진 
                
    -> "Python 루프문"
                 
    -> "Python for문 에러"

    -> "What is SyntaxError: invalid syntax in python?"

등의 `에러문장`과 `키워드`를 적극 활용해주세요!😄


### **데이터에 대해서 새롭게 인덱싱하기** 😄

> 딕셔너리 구조의 데이터로 간단하게 연습해보기

In [None]:
# 데이터를 색인화하기 위한 함수
def indexing(es, index_name):
    # 이미 존재할 경우 삭제하고 다시 만들기
    if es.indices.exists(index=index_name):
        es.indices.delete(index=index_name)

    # 인덱스 생성
    print(es.indices.create(index=index_name))

# 인덱스명을 정하기 (자유롭게)
index_name = 'sample_index'
indexing(es, index_name)

{'acknowledged': True, 'shards_acknowledged': True, 'index': 'sample_index'}


### **엘라스틱서치에서 색인화는 어떻게 할까요?** 😊

> 변수명, key, value에 해당하는 부분은 자유롭게 작성하면 됩니다. 딕셔너리 자료형을 기본으로 하기 때문에, 해당 형식에 맞추어서 만들 수 있습니다.





In [None]:
### 새로운 데이터 인덱싱 
## 여기서는 '노래 제목'과 '가사 일부'를 mapping했습니다.
sample1= {'songs': '민족의 아리아', 'lyrics': '지축을 박차고 포효하라 그대'}
sample2= {'songs': '뱃노래', 'lyrics': '즐거운 고연전 날에 지고 가는 연대생이 처량도 하구나'}
sample3= {'songs': '석탑', 'lyrics': '이름모를 석공의 땀과 눈물이 흘러내리네'}
sample4= {'songs': 'Forever', 'lyrics': '우리의 함성은 신화가 되리라 울려라 이곳에 Forever'}
sample5= {'songs': '젊은그대', 'lyrics': '사랑스런 젊은 그대 태양같은 젊은 그대'}

# es 변수에 객체화한 서버는 위에서 정의한 데아터에 대해서
# 이전 셀에서 선언한 'sample_index'로 인덱스명을 정하고
# 데이터의 타입은 문자열인 상태로 색인화를 진행합니다.
es.index(index=index_name, doc_type='string', body = sample1)
es.index(index=index_name, doc_type='string', body = sample2)
es.index(index=index_name, doc_type='string', body = sample3)
es.index(index=index_name, doc_type='string', body = sample4)
es.index(index=index_name, doc_type='string', body = sample5)

es.indices.refresh(index=index_name)



{'_shards': {'failed': 0, 'successful': 1, 'total': 2}}

### **색인화한 검색 엔진에서 정보 검색해보기** 🤩

> es.search를 활용해서 검색해보기

```
es.search(index = '선언한 인덱스명', body = {'from': '몇 위부터 반환할 것인지' , 
'size': '최대 반환할 갯수', 'query' : {'match':{'기준 key' : '검색할 내용'}}})
```

### 결과로는 무엇이 반환되었을까...? 🧐

> 딕셔너리 형태로, 필요한 정보는 딕셔너리 value에 대한 접근 방식을 통해 얻을 수 있습니다.

```
{'took': 3, 'timed_out': False, '_shards': {'total': 1, 'successful': 1, 
'skipped': 0, 'failed': 0}, 'hits': {'total': {'value': 2, 'relation': 'eq'},
'max_score': 1.2037696, 'hits': [{'_index': 'sample_index', '_type': 'string',
'_id': 'zYMJ9HcB0qdz_4P6yRNV', '_score': 1.2037696, '_source': 
{'songs': '젊은그대', 'lyrics': '사랑스런 젊은 그대 태양같은 젊은 그대'}}, 
{'_index': 'sample_index', '_type': 'string', '_id': 'yYMJ9HcB0qdz_4P6yBPd',
'_score': 1.0137007, '_source': {'songs': '민족의 아리아', 'lyrics': '지축을 박차고 
포효하라 그대'}}]}}
```

> 딕셔너리의 접근은..?

```
딕셔너리 변수명['key'] # value를 반환! 
```




In [None]:
# 검색 해보기
results = es.search(index=index_name, body={'from':0, 'size':10, 'query':{'match':{'lyrics':'그대'}}})

# 딕셔너리 안에 딕셔너리: 'hits'라는 key 안에 value는 또 다른 사전형으로 되어있으며, 해당 사전의 key 이름은 'hits'   
for result in results['hits']['hits']:
    print('score:', result['_score'], 'source::', result['_source'])

score: 1.2037696 source:: {'songs': '젊은그대', 'lyrics': '사랑스런 젊은 그대 태양같은 젊은 그대'}
score: 1.0137007 source:: {'songs': '민족의 아리아', 'lyrics': '지축을 박차고 포효하라 그대'}


### **위키 데이터를 사용해서 인덱싱하기** ☺️

> 영어 나무위키 덤프를 다운로드 받은 다음에 전처리하여 사용해보기

https://dumps.wikimedia.org/enwiki/

In [None]:
# 샘플 영어 위키 덤프를 다운로드
!wget https://github.com/AlonEirew/wikipedia-to-elastic/raw/master/dumps/tinywiki-latest-pages-articles.xml.bz2

--2021-03-03 05:16:07--  https://github.com/AlonEirew/wikipedia-to-elastic/raw/master/dumps/tinywiki-latest-pages-articles.xml.bz2
Resolving github.com (github.com)... 13.114.40.48
Connecting to github.com (github.com)|13.114.40.48|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/AlonEirew/wikipedia-to-elastic/master/dumps/tinywiki-latest-pages-articles.xml.bz2 [following]
--2021-03-03 05:16:07--  https://raw.githubusercontent.com/AlonEirew/wikipedia-to-elastic/master/dumps/tinywiki-latest-pages-articles.xml.bz2
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 9731 (9.5K) [application/octet-stream]
Saving to: ‘tinywiki-latest-pages-articles.xml.bz2’


2021-03-03 05:16:07 (7.91 MB/s) - ‘tinywiki-l

### **WikiExtractor를 사용해서 영어 위키데이터 전처리** 👍

<img src = "https://avatars.githubusercontent.com/u/356002?s=460&v=4" width = "300" >

> WikiExtractor https://github.com/attardi/wikiextractor

```
@misc{Wikiextractor2015,
  author = {Giusepppe Attardi},
  title = {WikiExtractor},
  year = {2015},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/attardi/wikiextractor}}
}
```

위키 데이터에 포함되어 있는 불필요한 태그, 특수 문자, 기호, 숫자 등을 제거하고

원하는 부분을 별도로 추출이 가능 ex) 문서 본문, 제목, 저자 등

실습에서는 문서의 제목과 본문 위주로 파싱을 진행.

*더 자세한 내용은 위의 저장소 주소를 통해서 확인하실 수 있습니다.*

In [None]:
# 위키데이터의 노이즈를 제거하고 json 형태로 반환하는 코드를 참조
!git clone https://github.com/attardi/wikiextractor.git

Cloning into 'wikiextractor'...
remote: Enumerating objects: 733, done.[K
remote: Total 733 (delta 0), reused 0 (delta 0), pack-reused 733[K
Receiving objects: 100% (733/733), 1.28 MiB | 4.75 MiB/s, done.
Resolving deltas: 100% (427/427), done.


In [None]:
# 다운로드 받은 샘플 위키 데이터를 전처리하여 검색의 입력으로 사용
# 결과는 elastic 폴더에 'extract_result/AA'라는 새로운 폴더에 저장된다.
!python -m wikiextractor.wikiextractor.WikiExtractor tinywiki-latest-pages-articles.xml.bz2 --json -o extract_result

INFO: Preprocessing 'tinywiki-latest-pages-articles.xml.bz2' to collect template definitions: this may take some time.
INFO: Loaded 0 templates in 0.0s
INFO: Starting page extraction from tinywiki-latest-pages-articles.xml.bz2.
INFO: Using 1 extract processes.
INFO: Finished 1-process extraction of 7 articles in 0.0s (159.5 art/s)


### **전처리한 위키데이터로 검색 시스템 만들기** 🧐

<img src = "https://github.com/facebookresearch/DrQA/raw/master/img/drqa.png" width = "600" >

> This is a PyTorch implementation of the DrQA system described in the ACL 2017 paper Reading Wikipedia to Answer Open-Domain Questions.

> ACL 2017. 페이스북에서 공개한 정보 검색 기반 질의 응답 시스템입니다. 

> 논문 링크: https://arxiv.org/abs/1704.00051

본 실습은 위의 논문에서 제시하는 방식을 기반으로 진행됩니다.



```
@inproceedings{chen2017reading,
  title={Reading {Wikipedia} to Answer Open-Domain Questions},
  author={Chen, Danqi and Fisch, Adam and Weston, Jason and Bordes, Antoine},
  booktitle={Association for Computational Linguistics (ACL)},
  year={2017}
}
```




In [None]:
# 엘라스틱서치 서버와 마찬가지로 구글 드라이브 내부 보안 정책으로 인해,
# DRQA의 필수 설치 패키지인 CoreNLP 서버 연동을 위해서 구글 드라이브 바깥의 구글 클라우드 컴퓨터에 저장소 코드를 다운 받습니다.
os.chdir('/content/elasticsearch/')
!git clone https://github.com/facebookresearch/DrQA.git

Cloning into 'DrQA'...
remote: Enumerating objects: 265, done.[K
remote: Total 265 (delta 0), reused 0 (delta 0), pack-reused 265[K
Receiving objects: 100% (265/265), 562.37 KiB | 1.45 MiB/s, done.
Resolving deltas: 100% (127/127), done.


In [None]:
# 내려받은 저장소 패키지 안에 필수 항목 설치 
os.chdir('/content/elasticsearch/DrQA')
!pip install -r requirements.txt
!python setup.py develop

running develop
running egg_info
writing drqa.egg-info/PKG-INFO
writing dependency_links to drqa.egg-info/dependency_links.txt
writing requirements to drqa.egg-info/requires.txt
writing top-level names to drqa.egg-info/top_level.txt
writing manifest file 'drqa.egg-info/SOURCES.txt'
running build_ext
Creating /usr/local/lib/python3.7/dist-packages/drqa.egg-link (link to .)
drqa 0.1.0 is already the active version in easy-install.pth

Installed /content/elasticsearch/DrQA
Processing dependencies for drqa==0.1.0
Searching for pexpect==4.2.1
Best match: pexpect 4.2.1
Adding pexpect 4.2.1 to easy-install.pth file

Using /usr/local/lib/python3.7/dist-packages
Searching for elasticsearch==7.11.0
Best match: elasticsearch 7.11.0
Adding elasticsearch 7.11.0 to easy-install.pth file

Using /usr/local/lib/python3.7/dist-packages
Searching for nltk==3.2.5
Best match: nltk 3.2.5
Adding nltk 3.2.5 to easy-install.pth file

Using /usr/local/lib/python3.7/dist-packages
Searching for scipy==1.4.1
Best 

### Standford CoreNLP 설치

> 영어 자연어처리에 유용한 툴을 제공하는 패키지

> 참조: https://stanfordnlp.github.io/CoreNLP/

<img src = "https://stanfordnlp.github.io/CoreNLP/assets/images/pipeline.png" width = "600" >

#### **중요!!** 😎

(1) 설치 시의 아래와 같은 항목이 나올 경우 `enter` 또는 `data/corenlp`를 입력

```
Specify download path or enter to use default (data/corenlp): '이 부분!'
```

(2) 설치 시의 아래와 같은 항목이 나올 경우 `yes`를 입력
```
/content/elasticsearch/DrQA Add to ~/.bashrc CLASSPATH (recommended)? [yes/no]: yes
```


In [None]:
# CoreNLP 설치
!./install_corenlp.sh

Specify download path or enter to use default (data/corenlp): data/corenlp
Will download to: data/corenlp
/tmp /content/elasticsearch/DrQA
--2021-03-03 05:21:52--  http://nlp.stanford.edu/software/stanford-corenlp-full-2017-06-09.zip
Resolving nlp.stanford.edu (nlp.stanford.edu)... 171.64.67.140
Connecting to nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://nlp.stanford.edu/software/stanford-corenlp-full-2017-06-09.zip [following]
--2021-03-03 05:21:53--  https://nlp.stanford.edu/software/stanford-corenlp-full-2017-06-09.zip
Connecting to nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 390211140 (372M) [application/zip]
Saving to: ‘stanford-corenlp-full-2017-06-09.zip’


2021-03-03 05:23:35 (3.67 MB/s) - ‘stanford-corenlp-full-2017-06-09.zip’ saved [390211140/390211140]

Archive:  stanford-corenlp-full-2017-06-09.zip
   creat

In [None]:
# python 3.6과 3.7에서의 충돌을 해결하기 위한 코드
# 가볍게 실행하고 넘어가기
!sudo apt-get remove python-pexpect python3-pexpect
!sudo pip3.7 install --upgrade pexpect

Reading package lists... Done
Building dependency tree       
Reading state information... Done
Package 'python3-pexpect' is not installed, so not removed
Package 'python-pexpect' is not installed, so not removed
0 upgraded, 0 newly installed, 0 to remove and 29 not upgraded.
Collecting pexpect
[?25l  Downloading https://files.pythonhosted.org/packages/39/7b/88dbb785881c28a102619d46423cb853b46dbccc70d3ac362d99773a78ce/pexpect-4.8.0-py2.py3-none-any.whl (59kB)
[K     |████████████████████████████████| 61kB 3.0MB/s 
[31mERROR: drqa 0.1.0 has requirement pexpect==4.2.1, but you'll have pexpect 4.8.0 which is incompatible.[0m
Installing collected packages: pexpect
  Found existing installation: pexpect 4.2.1
    Uninstalling pexpect-4.2.1:
      Successfully uninstalled pexpect-4.2.1
Successfully installed pexpect-4.8.0


In [None]:
# WikiExtractor의 결과로 생성한 .json 파일을 db 파일로 변경하여 색인화 준비
os.chdir('/content/elasticsearch/DrQA/scripts/retriever/')
!python build_db.py '/content/gdrive/My Drive/Colab Notebooks/information_retrieval/elastic/extract_result/AA/wiki_00' '/content/gdrive/My Drive/Colab Notebooks/information_retrieval/elastic/sample_wiki.db'

03/03/2021 05:30:32 AM: [ Reading into database... ]
  0% 0/1 [00:00<?, ?it/s]
0it [00:00, ?it/s][A1it [00:00, 28.38it/s]
100% 1/1 [00:00<00:00, 27.69it/s]
03/03/2021 05:30:32 AM: [ Read 6 docs. ]
03/03/2021 05:30:32 AM: [ Committing... ]


In [None]:
os.chdir('/content/elasticsearch/DrQA')

In [None]:
import drqa.tokenizers
import drqa.reader

from drqa.retriever.doc_db import DocDB
from elasticsearch import Elasticsearch
from tqdm import tqdm
from drqa.tokenizers import CoreNLPTokenizer
from drqa.pipeline import DrQA
from drqa.retriever import ElasticDocRanker, TfidfDocRanker

# 새로운 인덱스 생성
def make_index(es, index_name):
    if es.indices.exists(index=index_name):
        es.indices.delete(index=index_name)
    print(es.indices.create(index=index_name))

# 인덱스 명은 자유롭게
index_name = 'test_index'
make_index(es, index_name)

# python build_db.py로 생성한 db의 경로
db = DocDB(db_path='/content/gdrive/My Drive/Colab Notebooks/information_retrieval/elastic/sample_wiki.db')
print(len(db.get_doc_ids())) # 6개

# 색인화 진행
for idx, doc_id in enumerate(tqdm(db.get_doc_ids())):
    doc = {'title': doc_id, 'content': db.get_doc_text(doc_id)}
    es.index(index = index_name, doc_type= 'string', body=doc)

es.indices.refresh(index=index_name)

# 색인된 엘라스틱서치 데이터베이스에서 'content'를 key로 하여, value에 질의를 입력하여 검색 (여기서는 film을 질의로 사용)
results = es.search(index=index_name, body={'from':0, 'size':10, 'query':{'match':{'content':'film'}}})
for result in results['hits']['hits']:
    print('score:', result['_score'], 'source:', result['_source'])

100%|██████████| 6/6 [00:00<00:00, 38.97it/s]

{'acknowledged': True, 'shards_acknowledged': True, 'index': 'test_index'}
6





score: 1.8695081 source: {'title': '4', 'content': "The Royal Cinema is an Art Moderne event venue and cinema in Toronto, Canada. It was built in 1939 and owned by Miss Ray Levinsky.\nWhen it was built in 1939, it was called The Pylon, with an accompanying large sign at the front of the theatre. It included a roller-skating rink at the rear of the theatre, and a dance hall on the second floor.\nIn the 1950's the theatre was purchased by Rocco Mastrangelo. In the 1990s, the theatre was renamed 'the Golden Princess'.\nSince early 2007, Theatre D has owned and operated The Royal.\nDuring the daytime it operates as a film and television post-production studio. It hosts film festivals including the European Union Film Festival and Japanese Movie Week.\nThe Royal was featured in the 2013 film The F Word.\nReferences.\n "}


## 👍 실습 종료!! 정말 고생 많으셨습니다.

## 🤥💦 모르는 것이 있을 경우에는? (Remind)

프로그래밍의 첫 걸음은 `검색` 입니다.

특히 `빅데이터와 정보 검색` 수업을 듣고 있는 여러분들은 반.드.시 궁금하거나 모르는 내용에 대해서 `검색`하는 습관이 필요합니다.

> Google 검색 엔진 
                
    -> "Python 루프문"
                 
    -> "Python for문 에러"

    -> "What is SyntaxError: invalid syntax in python?"

등의 `에러문장`과 `키워드`를 적극 활용해주세요!😄

