# Lesson 2: Embeddings(임베딩)

### Setup
필요한 API 키, 그리고 관련 파이썬 라이브러리를 불러옵니다.

In [None]:
# 로컬이나 외부 환경이면 설치해주세요
# !pip install cohere umap-learn altair datasets

In [None]:
import os
from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

In [None]:
import cohere
co = cohere.Client(os.environ['COHERE_API_KEY'])

In [None]:
import pandas as pd

## 단어 임베딩

임베딩이란 여기서는 텍스트(단어 또는 문장)를 컴퓨터가 이해할 수 있는 숫자(벡터)로 표현하는 것을 말합니다.  
물론 아무렇게나 바꾸는 것은 아니고, 임베딩 공간 내에 유사한 의미를 지닌 것들은 유사한 위치에 모일 수 있도록 세팅해주는 것으로 이해할 수 있습니다. 
아래 이해를 돕는 시각적 표현이 나옵니다.

세 단어의 작은 데이터셋으로 예를 들어봅니다

In [None]:
three_words = pd.DataFrame({'text':
  [
      'joy',
      'happiness',
      'potato'
  ]})

three_words

세 단어의 임베딩을 만들어 봅시다

In [None]:
# embed 함수에 '텍스트'와 '모델'을 넣고 반환된 결과에서 'embedding'을 추출합니다.
three_words_emb = co.embed(texts=list(three_words['text']),
                           model='embed-english-v2.0').embeddings

In [None]:
word_1 = three_words_emb[0]
word_2 = three_words_emb[1]
word_3 = three_words_emb[2]

In [None]:
word_1[:10]

## 문장 임베딩

네 개의 문장 쌍으로 이뤄진 작은 데이터셋을 살펴봅니다.

In [None]:
sentences = pd.DataFrame({'text':
  [
   'Where is the world cup?',
   'The world cup is in Qatar',
   'What color is the sky?',
   'The sky is blue',
   'Where does the bear live?',
   'The bear lives in the the woods',
   'What is an apple?',
   'An apple is a fruit',
  ]})

sentences

네 문장 쌍의 임베딩을 생성해봅니다:

In [None]:
emb = co.embed(texts=list(sentences['text']),
               model='embed-english-v2.0').embeddings

# Explore the 10 first entries of the embeddings of the 3 sentences:
for e in emb:
    print(e[:3])

In [None]:
len(emb[0])

In [None]:
#import umap
#import altair as alt

In [None]:
from utils import umap_plot

문장별 임베딩을 시각화합니다.  
결과를 보면 유사한 문장은 유사한 위치에 모여 있는 것을 알 수 있습니다.

In [None]:
chart = umap_plot(sentences, emb)

In [None]:
chart.interactive()

## 아티클(문서) 임베딩

In [None]:
import pandas as pd
wiki_articles = pd.read_pickle('wikipedia.pkl')
wiki_articles

In [None]:
import numpy as np
from utils import umap_plot_big

위에서와 같은 방식으로 문서를 임베딩합니다.  
유사한 카테고리 단위로 임베딩 벡터들이 모여있다는 것을 확인할 수 있습니다.

In [None]:
articles = wiki_articles[['title', 'text']]
embeds = np.array([d for d in wiki_articles['emb']])

chart = umap_plot_big(articles, embeds)
chart.interactive()