## CSV dosyasındaki verinin yüklenmesini gerçekleştirme

In [None]:

from langchain_community.document_loaders.csv_loader import CSVLoader

filepath = "IMDb_Top_1000_Movies_Dataset.csv"
loader = CSVLoader(filepath, encoding="utf-8")

data = loader.load()

print(f"Toplam {len(data)} film yüklendi.")

## Veriyi parçalarına ayırma(Chunking işlemi)
## Her film için Document objesi oluştur

In [1]:
from langchain_core.documents import Document
import csv
docs = []
with open("IMDB_Top_1000_Movies_Dataset.csv", 'r', encoding='utf-8') as file:
    csv_reader = csv.DictReader(file)
    
    for row in csv_reader:
        # Runtime'ı sayısal değere çevir (örn: "142 min" -> 142)
        runtime_str = row.get('Movie_Runtime', '0')
        runtime_minutes = int(''.join(filter(str.isdigit, runtime_str))) if runtime_str else 0
        
        # Film bilgilerini yapılandırılmış bir şekilde hazırla
        content = f"""
Film Adı: {row.get('Movie_Name', 'N/A')}
IMDB Puanı: {row.get('Movie_Rating', 'N/A')}
Yıl: {row.get('Movie_Year', 'N/A')}
Süre: {row.get('Movie_Runtime', 'N/A')} ({runtime_minutes} dakika)
Tür: {row.get('Movie_Genre', 'N/A')}
Sertifika: {row.get('Movie_Certificate', 'N/A')}
Oyuncular: {row.get('Movie_Cast', 'N/A')}
Açıklama: {row.get('Movie_Description', 'N/A')}
"""
        
        # Metadata'ya sayısal ve filtrelenebilir alanları ekle
        metadata = {
            'movie_name': row.get('Movie_Name', ''),
            'rating': row.get('Movie_Rating', '0'),
            'year': row.get('Movie_Year', '0'),
            'runtime_minutes': runtime_minutes,
            'runtime_text': row.get('Movie_Runtime', ''),
            'genre': row.get('Movie_Genre', ''),
            'certificate': row.get('Movie_Certificate', ''),
            'cast': row.get('Movie_Cast', ''),
            'source': 'IMDB_Top_1000'
        }
        
        docs.append(Document(page_content=content, metadata=metadata))

## Google Generative AI Embeddings'i kullanarak Embedding Oluşturma İşlemi


In [2]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from dotenv import load_dotenv


  from .autonotebook import tqdm as notebook_tqdm


In [3]:
load_dotenv()  # Load environment variables from .env file
import os
api_key = os.getenv("GOOGLE_API_KEY")
if api_key is None:
    print("HATA: API anahtarı .env dosyasından okunamadı!")
else:
    print(f"Anahtar başarıyla yüklendi. İlk 4 karakter: {api_key[:4]}")

Anahtar başarıyla yüklendi. İlk 4 karakter: AIza


In [4]:
embeddings = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004", task_batch_size=100)
vector = embeddings.embed_query("hello, world!")
vector[:5]

[0.014134909, -0.022324152, -0.05460342, -0.0062845494, -0.033924025]

## ChromaDB üzerine kayıt işlemi

In [5]:
from langchain_chroma import Chroma

In [6]:
vector_store = Chroma.from_documents(documents=docs, embedding=embeddings)

In [7]:
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 10 })

In [8]:
retrieved_docs = retriever.invoke("Movies starring Meryl Streep")     

len(retrieved_docs)

print(retrieved_docs[1].page_content)



Film Adı: Fantastic Mr. Fox
IMDB Puanı: 7.9
Yıl: 2009
Süre: 87 min (87 dakika)
Tür: Animation, Adventure, Comedy            
Sertifika: U
Oyuncular: George Clooney, Meryl Streep, Bill Murray, Jason Schwartzman
Açıklama: An urbane fox cannot resist returning to his farm raiding ways and then must help his community survive the farmers' retaliation.



## Google Gemini API Yapısını Kullanarak LLM Tetikleme İşlemleri

- Düşük Değerler (0.1-0.4): Daha kesin ve daha tutarlı cevaplar verilir. Model daha tahmin edilebilir hale gelir.
- Orta Değerler (0.5-0.7): Hem mantıklı hem de yaratıcı cevaplar verilir.
- Yüksek Değerler (0.7-1): Daha rastgele ve yaratıcı, ancak bazen tutarsız yanıtlar verebilir.

In [9]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash",  # Gemini 2.5 model
    temperature=0.3,  # Gemini 3.0+ defaults to 1.0
    max_tokens=500,
)

In [10]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_classic.chains.combine_documents import create_stuff_documents_chain
from langchain_classic.chains import create_retrieval_chain


In [11]:
system_prompt = (
    "You are a helpful movie recommendation assistant. Use the following movie database context to answer the user's question."
    "Only recommend movies from the provided context"
    "Mention IMDB ratings and year where relevant."
    "If you don't find suitable movies in the context, say so honestly."
    "\n\n"
    "{context}"
)



In [12]:
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("user", "{input}"),
    ]
)


## Soru-Cevap Zinciri Oluşturma (LLM + PROMPT)


In [13]:
question_answering_chain = create_stuff_documents_chain(llm, prompt)

## RAG Zinciri Oluşturma (RAG + LLM)


In [14]:
rag_chain = create_retrieval_chain(retriever, question_answering_chain)

## Kullanıcı sorgusunu çalıştırma

In [15]:
response = rag_chain.invoke({"input": "2 saatten uzun filmler önerir misin?"})

print(response["answer"])

Elbette, 2 saatten (120 dakika) uzun süren filmlerden bazıları şunlardır:

*   **Kis Uykusu** (2014) - 196 dakika süresiyle, Drama türünde ve IMDB puanı 8.1.
*   **The Lord of the Rings: The Two Towers** (2002) - 179 dakika süresiyle, Aksiyon, Macera, Drama türünde ve IMDB puanı 8.8.
*   **Bir Zamanlar Anadolu'da** (2011) - 157 dakika süresiyle, Suç, Drama türünde ve IMDB puanı 7.9.
*   **Serbuan maut 2: Berandal** (2014) - 150 dakika süresiyle, Aksiyon, Suç, Gerilim türünde ve IMDB puanı 7.9.
*   **Kill Bill: Vol. 2** (2004) - 137 dakika süresiyle, Aksiyon, Suç, Gerilim türünde ve IMDB puanı 8.0.
*   **Terminator 2: Judgment Day** (1991) - 137 dakika süresiyle, Aksiyon, Bilim Kurgu türünde ve IMDB puanı 8.6.
*   **Se7en** (1995) - 127 dakika süresiyle, Suç, Drama, Gizem türünde ve IMDB puanı 8.6.
