# FAISS DB
- Facebook AI Similarity Search

In [2]:
!pip install faiss-cpu



In [3]:
### 영화 추천 시스템
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('all-MiniLM-L6-v2')

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
movies = [
    {"id": 0, "title": "인셉션", "description": "꿈 속에서 다른 사람의 생각을 조작하는 스토리"},
    {"id": 1, "title": "인터스텔라", "description": "우주를 여행하며 인류의 미래를 구하는 이야기"},
    {"id": 2, "title": "테넷", "description": "시간의 흐름을 역행하며 벌어지는 첩보 액션"},
    {"id": 3, "title": "매트릭스", "description": "가상 현실 세계에서의 저항과 자각"},
    {"id": 4, "title": "아바타", "description": "판도라 행성에서 벌어지는 인간과 나비족의 갈등"},
    {"id": 5, "title": "조커", "description": "한 남자의 광기와 사회의 무관심이 만든 비극"},
    {"id": 6, "title": "타이타닉", "description": "비극적인 운명을 맞은 연인의 러브스토리"},
    {"id": 7, "title": "어벤져스: 엔드게임", "description": "우주를 구하기 위한 마지막 전투"},
    {"id": 8, "title": "아이언맨", "description": "천재 억만장자의 슈퍼히어로 탄생기"},
    {"id": 9, "title": "캡틴 아메리카: 퍼스트 어벤져", "description": "제2차 세계대전에서 깨어난 영웅"},
    {"id": 10, "title": "라라랜드", "description": "꿈과 사랑 사이에서 고민하는 두 사람의 뮤지컬 드라마"},
    {"id": 11, "title": "이터널 선샤인", "description": "기억을 지우며 다시 시작되는 사랑"},
    {"id": 12, "title": "포레스트 검프", "description": "순수한 한 남자의 인생 여정"},
    {"id": 13, "title": "쇼생크 탈출", "description": "희망을 잃지 않고 자유를 찾아가는 이야기"},
    {"id": 14, "title": "다크 나이트", "description": "배트맨과 조커의 정의와 혼돈에 대한 대결"},
    {"id": 15, "title": "기생충", "description": "빈부격차와 인간 본성을 날카롭게 그린 블랙코미디"},
    {"id": 16, "title": "올드보이", "description": "15년의 감금 후 펼쳐지는 복수극"},
    {"id": 17, "title": "곡성", "description": "마을에서 벌어지는 기이한 사건과 미스터리"},
    {"id": 18, "title": "살인의 추억", "description": "실제 사건을 바탕으로 한 연쇄살인범 추적극"},
    {"id": 19, "title": "범죄와의 전쟁", "description": "1980년대 조직과의 전쟁을 배경으로 한 흥미진진한 이야기"},
]

In [5]:
descriptions = [movie["description"] for movie in movies]
desc_embed = np.array([model.encode(description) for description in descriptions], dtype="float32")

In [None]:
dim = desc_embed.shape[1]
idx = faiss.IndexFlatL2(dim)        # index는 collection과 유사한 개념으로 임베딩 차원 수만큼 index를 만들어서 임베딩된 결과만 add
idx.add(desc_embed)

In [None]:
query_text = '로맨스와 사랑 이야기'
query_embed = np.array([model.encode(query_text)], dtype="float32")

In [41]:
top_n=5
distances, indices = idx.search(query_embed, top_n)      # query_embed, top_n   # idx.search는 무언가를 검색하는거고 2가지를 반환해줌

In [42]:
print(distances)    # 거리
print(indices)      # 거리가 가까운 애들에 대한 인덱스를 보여줌

[[0.2703238  0.39109606 0.44037428 0.5044996  0.5306814 ]]
[[11 10  3  0  5]]


In [None]:
for i in range(top_n):
    movie_id = indices[0][i]
    print(f"{i+1}번째 추천: {movies[movie_id]['title']} (유사도 거리: {distances[0][i]: .2f})")     # 임베딩 모델이 한국어를 잘 몰라서 나타나는 잘못된 추천..

1번째 추천: 이터널 선샤인 (유사도 거리:  0.27)
2번째 추천: 라라랜드 (유사도 거리:  0.39)
3번째 추천: 매트릭스 (유사도 거리:  0.44)
4번째 추천: 인셉션 (유사도 거리:  0.50)
5번째 추천: 조커 (유사도 거리:  0.53)


### 사용자 맞춤 뉴스 추천

In [None]:
# 크롤링해서 10-20개 뉴스 타이틀을 크롤링해오고, faiss를 활용해서 맞춤 뉴스 가져오는 실습

# 1. 뉴스의 제목을 10,20개 크롤링

# 2. 사용자가 키워드 입력

# 3. FAISS 활용해 맞춤 뉴스 추천