# 12. Information Retrieval

## Instalacja bibliotek

In [None]:
!pip install langchain==0.3.7 langchain-community==0.3.5 pypdf==5.1.0 wikipedia==1.4.0 openai==1.54.3 tiktoken==0.8.0 chromadb==0.5.18 langchain-openai==0.2.6

## Zadanie 1 - Model Przestrzeni Wektorowej

Napisz funkcję, która przyjmuje listę dokumentów i zapytanie, a zwraca listę dokumentów posortowanych według podobieństwa cosinusowego z zapytaniem. 

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

def tf_idf_retrieval(documents: list[str], query: str) -> pd.DataFrame:
    # Twoje rozwiązanie
    pass

documents = [
    "AI in healthcare improves diagnostics and patient care. AI algorithms analyze medical medical datasets efficiently",
    "AI enhances the e-commerce experience. AI systems recommend products, predict customer preferences, and increase sales. AI also personalizes online shopping",
    "Healthcare and AI are transforming diagnostics. Healthcare diagnostics benefit greatly from AI’s ability to process large datasets efficiently",
    "AI applications in healthcare include diagnostics, treatment planning, and patient monitoring. Healthcare systems increasingly rely on AI advancements",
    "AI in transportation is reshaping the future with self-driving cars, traffic optimization, and route planning. AI is making travel safer and more efficient"
]

query = "AI in healthcare diagnostics"
results = tf_idf_retrieval(documents, query)
print(results)

## Zadanie 2 - Normalizacja

Napisz funkcję, która normalizuje tekst (zmienia na małe litery, usuwa znaki specjalne i nadmiarowe spacje).

In [None]:
import re

def normalize(text: str) -> str:
    # Twoje rozwiązanie
    pass

text = "Information     Retrieval is... FUN!!!"
normalized_text = normalize(text)
print(normalized_text)

## Zadanie 3 - Tokenizacja

Napisz funkcję, która tokenizuje tekst za pomocą biblioteki nltk.

In [None]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt_tab')

def word_tokenization(doc: str) -> list[str]:
    # Twoje rozwiązanie
    pass

text = "Dr. Smith said, 'Information Retrieval is fascinating!'"
tokens = word_tokenization(text)
print(tokens)

## Zadanie 4 - Usuwanie stop-words

Napisz funkcję, która usuwa stop-wordy (słowa nieinformatywne) z listy tokenów.



In [None]:
from nltk.corpus import stopwords

nltk.download('stopwords')

def remove_stop_words(tokens: list[str]) -> list[str]:
    # Twoje rozwiązanie
    pass

tokens = ["this", "is", "an", "example", "of", "stop-word", "removal", "for", "information", "retrieval"]
filtered_tokens = remove_stop_words(tokens)
print(filtered_tokens)

## Zadanie 5 - Embeddingi Zdań (Sentence Embeddings)

Napisz funkcję, która oblicza embeddingi dla listy zdań za pomocą modelu SentenceTransformer. Zobacz jak wyglada wizualizacja tych embeddingów po zmniejszeniu liczby wymiarów.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sentence_transformers import SentenceTransformer

def get_sentence_embeddings(sentences: list[str]) -> np.array:
    # Twoje rozwiązanie
    pass

sentences = [
    "Information Retrieval is fascinating",
    "Retrieval systems retrieve documents",
    "I love playing football",
    "Soccer is a great sport",
    "Cooking is an enjoyable activity",
    "Baking is part of cooking",
    "A lovely day for a picnic",
    "Cats are beautiful animals"
]

sentence_embeddings = get_sentence_embeddings(sentences)
print("Embeddings Shape:", sentence_embeddings.shape)

In [None]:
from sklearn.decomposition import PCA

# Reduce Dimensions to 2D
pca = PCA(n_components=2)
reduced_embeddings = pca.fit_transform(sentence_embeddings)

# Plot the Embeddings
plt.figure(figsize=(10, 6))
for i, sentence in enumerate(sentences):
    x, y = reduced_embeddings[i]
    plt.scatter(x, y, label=f"Sentence {i+1}")
    plt.text(x + 0.01, y + 0.01, sentence, fontsize=9)

plt.title("2D Visualization of Sentence Embeddings")
plt.xlabel("PCA Dimension 1")
plt.ylabel("PCA Dimension 2")
plt.legend(loc='upper left', bbox_to_anchor=(1, 1), fontsize=8)
plt.grid()
plt.show()

## Zadanie 6 - Wektorowa Baza Danych

Napisz dwie funkcje. Jedną która tworzy wektorową bazę danych w ChromaDB, dodaje dokumenty i drugą która przeszukuje ją na podstawie zapytania.

In [None]:
from chromadb import Client

def create_index(index_name: str, documents: list[str]) -> Client:
    # Twoje rozwiązanie
    pass

def query_index(index: Client, query: str, n_results: int) -> pd.DataFrame:
    # Twoje rozwiązanie
    pass

documents = [
    "AI is the future of technology",
    "The world is becoming more digital",
    "Data science is the key to innovation",
    "Remote work is the new normal",
    "OpenAI provides powerful tools for developers",
    "I like to code in Python"
]

index_name = "NAI"
index = create_index(index_name, documents)
query = "What is the future of technology?"
results = query_index(index, query, n_results=3)
print(results)

## Zadanie 7 - Podział Tekstu (Chunking)

Napisz funkcję, która dzieli tekst na chunki o stałej długości za pomocą CharacterTextSplitter.

In [None]:
from langchain_text_splitters import CharacterTextSplitter

def chunk_text(text: str, chunk_size: int, chunk_overlap: int) -> list[str]:
    # Twoje rozwiązanie
    pass

text = "This is a sample document for text chunking. The text will be split into smaller chunks of fixed length."
text_chunks = chunk_text(text, chunk_size=30, chunk_overlap=10)
print("Chunks:")
for i, chunk in enumerate(text_chunks):
    print(f"Chunk {i+1}: {chunk}")

## Zadanie domowe - Image Embeddings

Stwórz system IR, który będzie mógł przeszukiwać tekst książki. Skorzystaj z funkcji z poprzednich zadań.

1.   *Pobierz zawartość strony internetowej.*
2.   Przetwórz tekst (normalizacja, tokenizacja).
3.   Podziel tekst na chunki o stałej długości.
4.   Stwórz bazę danych wektorową w ChromaDB i dodaj chunki.
5.   *Przeszukaj bazę danych wektorową na podstawie zapytania.*




In [None]:
import requests
from bs4 import BeautifulSoup

# Funkcja do pobierania i wyciągania tekstu ze strony
def extract_text_from_url(url: str) -> str:
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    paragraphs = soup.find_all('p')
    text = ' '.join([para.get_text() for para in paragraphs])
    return text

# Funkcja do preprocessingu tekstu
def preprocess_text(text: str) -> str:
    pass

# URL strony z przepisami
url = "https://www.allrecipes.com/recipe/23600/worlds-best-lasagna/"
text = extract_text_from_url(url)

# Twoje rozwiązanie
#__________________

# Przeszukiwanie indeksu
query = "How long to cook lasagna?"
results = query_index(index, query, n_results=10)

# Wyświetlanie wyników
for doc in results["Document"][0]:
    print(doc, end="")
    # print("-"*50)


## Zadanie dodatkowe

Napisz dwie funkcje: jedna oblicza embeddingi obrazów za pomocą modelu CLIP, druga znajduje obraz najbardziej podobny do zapytania.

In [None]:
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import requests

# Przykładowe obrazy
images = [
    "https://images.unsplash.com/2/03.jpg",
    "https://images.unsplash.com/2/01.jpg",
    "https://images.unsplash.com/2/06.jpg",
    "https://images.unsplash.com/2/09.jpg"
]

# query = "Forest"
# query = "Beach"
query = "Path"

# Funkcja do pobierania obrazów
def download_image(url: str) -> Image:
    return Image.open(requests.get(url, stream=True).raw)

# Wyświetlanie obrazów
fig, axs = plt.subplots(1, len(images), figsize=(15, 5))
for i, image_url in enumerate(images):
    image = download_image(image_url)
    axs[i].imshow(image)
    axs[i].axis("off")
    axs[i].set_title(f"Image {i+1}")
plt.show()

# Funkcja do obliczania embeddingów obrazów
def get_clip_image_embeddings(images: list[str]) -> np.array:
    # Twoje rozwiązanie
    pass

# Funkcja do obliczania embeddingu zapytania
def get_clip_text_embeddings(text: str) -> np.array:
    # Twoje rozwiązanie
    pass

# Funkcja do znalezienia najbardziej podobnego obrazu
def find_most_similar_image(image_embeddings: np.array, query_embedding: np.array) -> int:
    # Twoje rozwiązanie
    pass

# Obliczanie embeddingów obrazów i zapytania
image_embeddings = get_clip_image_embeddings(images)
query_embedding = get_clip_text_embeddings(query)

# Znalezienie najbardziej podobnego obrazu
most_similar_idx = find_most_similar_image(image_embeddings, query_embedding)
print(f"Najbardziej podobny obraz: Image {most_similar_idx + 1}")