<a href="https://colab.research.google.com/github/michellzambranohereira/PLN/blob/main/Tp_final_con_rese%C3%B1as_de_harry_potter_csv.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Semana 1: Setup y Pipeline B√°sico

**Objetivos:**
- Tener el entorno configurado
- Pipeline de ingesta funcionando
- Primeras pruebas con ChromaDB

**Tareas:**
- [ ] Crear repositorio en GitHub
- [ ] Configurar entorno virtual y crear requirements.txt
- [ ] Recolectar/generar corpus inicial (5-10 documentos)
- [ ] Instalar y configurar LangChain
- [ ] Implementar carga de documentos (TextLoader, PyPDFLoader, etc.)
- [ ] Implementar chunking con RecursiveCharacterTextSplitter
- [ ] Configurar modelo de embeddings
- [ ] Crear base de datos vectorial con ChromaDB
- [ ] Probar ingesta: documentos ‚Üí chunks ‚Üí embeddings ‚Üí ChromaDB
- [ ] Verificar persistencia (que los datos se guarden)


In [None]:
import pandas as pd

url = "https://raw.githubusercontent.com/michellzambranohereira/PLN/refs/heads/main/TP%20Final%20Integrador/dataset/rese%C3%B1as.csv"
df = pd.read_csv(url)

df.head()

Unnamed: 0,titulo_pelicula,rese√±a,sentimiento
0,Harry Potter,Cada libro de Harry Potter ofrece una evoluci√≥...,positivo
1,Harry Potter,La magia en Harry Potter est√° tan bien constru...,positivo
2,Harry Potter,La magia en Harry Potter est√° tan bien constru...,positivo
3,Harry Potter,La saga de Harry Potter me sorprendi√≥ por su m...,positivo
4,Harry Potter,Sent√≠ que la historia de Harry Potter avanzaba...,negativo


In [None]:
!pip install langchain chromadb sentence-transformers langchain-community


In [None]:
import pandas as pd
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
import warnings
warnings.filterwarnings("ignore")

# URL del dataset
url = "https://raw.githubusercontent.com/michellzambranohereira/PLN/refs/heads/main/TP%20Final%20Integrador/dataset/rese%C3%B1as.csv"

# 1. Cargar el CSV desde la URL
df = pd.read_csv(url)

# 2. Convertir cada fila en Document
documentos = [
    Document(
        page_content=row["rese√±a"],
        metadata={
            "titulo_pelicula": row["titulo_pelicula"],
            "sentimiento": row["sentimiento"]
        }
    )
    for _, row in df.iterrows()
]

print(f"Corpus preparado con {len(documentos)} rese√±as")

# 3. Dividir en chunks
splitter = RecursiveCharacterTextSplitter(chunk_size=400, chunk_overlap=50)
chunks = splitter.split_documents(documentos)

print(f"Corpus dividido en {len(chunks)} chunks")
# 4. Crear embeddings
embeddings = HuggingFaceEmbeddings()

# 5. Guardar en ChromaDB
db = Chroma.from_documents(chunks, embeddings, persist_directory="./rese√±as_db")

print(f"Documentos almacenados en ChromaDB: {db._collection.count()}")

Corpus preparado con 100 rese√±as
Corpus dividido en 100 chunks
Documentos almacenados en ChromaDB: 200


### Semana 2: Integraci√≥n del LLM y Retrieval

**Objetivos:**
- Integrar modelo de lenguaje elegido
- Implementar recuperaci√≥n sem√°ntica
- Cadena RAG funcionando end-to-end

**Tareas:**
- [ ] Configurar LLM elegido (Gemini/Ollama/HuggingFace)
- [ ] Crear retriever desde ChromaDB
- [ ] Configurar par√°metros de b√∫squeda (top-k, similarity threshold)
- [ ] Implementar cadena RetrievalQA con LangChain
- [ ] Dise√±ar prompt template para el contexto
- [ ] Probar recuperaci√≥n + generaci√≥n con consultas manuales
- [ ] Implementar return_source_documents para citaci√≥n
- [ ] Manejar casos donde no hay documentos relevantes
- [ ] Ajustar par√°metros (chunk_size, k, temperature, etc.)


**Checkpoint de fin de semana 2:**
- ¬øEl sistema responde preguntas bas√°ndose en tus documentos?
- ¬øLas respuestas tienen sentido y est√°n fundamentadas?
- ¬øPod√©s ver qu√© documentos se usaron?
- ¬øProbaste con diferentes tipos de consultas?

---

In [None]:
!pip install -q langchain chromadb sentence-transformers transformers accelerate langchain-community

In [None]:
import pandas as pd
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain_community.llms import HuggingFacePipeline
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

# --- 1) Cargar CSV y preparar documentos ---
# URL del dataset
url = "https://raw.githubusercontent.com/michellzambranohereira/PLN/refs/heads/main/TP%20Final%20Integrador/dataset/rese%C3%B1as.csv"
df = pd.read_csv(url)

documentos = [
    Document(
        page_content=row["rese√±a"],
        metadata={
            "titulo_pelicula": row["titulo_pelicula"],
            "sentimiento": row["sentimiento"]
        }
    )
    for _, row in df.iterrows()
]

print(f"Corpus preparado con {len(documentos)} rese√±as")

# --- 2) Chunking ajustado (cada rese√±a completa) ---
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
chunks = splitter.split_documents(documentos)
print(f"Corpus dividido en {len(chunks)} chunks")

# --- 3) Embeddings m√°s robustos ---
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# --- 4) Vector store en memoria (evita error de permisos en Colab) ---
db = Chroma.from_documents(
    chunks,
    embeddings,
    collection_name="resenas_collection_384"  # nombre v√°lido
)
retriever = db.as_retriever(search_kwargs={"k":5})


# --- 5) LLM local con Transformers (Flan-T5 base) ---
model_id = "google/flan-t5-base"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
hf_pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer,
                   max_new_tokens=256, temperature=0)
llm = HuggingFacePipeline(pipeline=hf_pipe)

# --- 6) Cadena RAG con map_reduce ---
qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="map_reduce",   # <- mejora precisi√≥n
    retriever=retriever,
    return_source_documents=True
)

Corpus preparado con 100 rese√±as
Corpus dividido en 100 chunks


Device set to use cpu


In [None]:

# --- 7) Consulta de prueba ---
query = "¬øHay alg√∫n comentario sobre le universo de Harry Potter?"
res = qa({"query": query})

print("Respuesta:")
print(res["result"])
print("\nFuentes:")
for d in res["source_documents"]:
    print(d.metadata)


Respuesta:
content: el universo m√°gico propuesto por Harry Potter es interesante, pese a algunos pasajes extensos verbatim verbatim verbatim

Fuentes:
{'sentimiento': 'neutro', 'titulo_pelicula': 'Harry Potter'}
{'sentimiento': 'neutro', 'titulo_pelicula': 'Harry Potter'}
{'titulo_pelicula': 'Harry Potter', 'sentimiento': 'negativo'}
{'titulo_pelicula': 'Harry Potter', 'sentimiento': 'negativo'}
{'sentimiento': 'negativo', 'titulo_pelicula': 'Harry Potter'}


### Semana 3: Interfaz Streamlit y Deployment

**Objetivos:**
- Aplicaci√≥n Streamlit completa
- Sistema desplegado y accesible
- Documentaci√≥n completa

**Tareas:**
- [ ] Crear aplicaci√≥n Streamlit b√°sica
- [ ] Implementar input de consultas
- [ ] Mostrar respuestas con formato
- [ ] Mostrar fuentes citadas (metadata de documentos)
- [ ] Agregar estados de carga (spinners)
- [ ] Implementar manejo de errores
- [ ] Opcional: Agregar historial de conversaci√≥n (st.session_state)
- [ ] Opcional: Permitir cargar nuevos documentos desde la interfaz
- [ ] Configurar secrets (API keys) de forma segura
- [ ] Deployment seg√∫n opci√≥n elegida
- [ ] Probar en el entorno desplegado
- [ ] Escribir README completo
- [ ] Documentar decisiones de dise√±o
- [ ] Testing con usuarios reales

**Checkpoint final:**
- [ ] ¬øLa aplicaci√≥n funciona en el entorno desplegado?
- [ ] ¬øAlguien puede usarla siguiendo tu README?
- [ ] ¬øCumpl√≠s con TODOS los requisitos de aprobaci√≥n?
- [ ] ¬øEl c√≥digo tiene comentarios claros?
- [ ] ¬øLas fuentes se muestran correctamente?
- [ ] ¬øProbaste casos donde no hay respuesta en el corpus?

In [None]:
import streamlit as st
import pandas as pd

from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA

from langchain_community.llms import HuggingFacePipeline
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline


# =========================
# CONFIG STREAMLIT
# =========================
st.set_page_config(page_title="Chatbot Harry Potter Reviews", page_icon="ü™Ñ")
st.title("ü™Ñ Chatbot RAG: Rese√±as de Harry Potter")


# =========================
# CARGA DATASET
# =========================
@st.cache_data
def load_data():
    url = "https://raw.githubusercontent.com/michellzambranohereira/PLN/refs/heads/main/TP%20Final%20Integrador/dataset/rese%C3%B1as.csv"
    df = pd.read_csv(url)

    documentos = [
        Document(
            page_content=row["rese√±a"],
            metadata={
                "titulo_pelicula": row["titulo_pelicula"],
                "sentimiento": row["sentimiento"]
            }
        )
        for _, row in df.iterrows()
    ]

    return documentos


documentos = load_data()


# =========================
# CONFIG RAG
# =========================
@st.cache_resource
def setup_rag():

    # 1) Chunking
    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
    chunks = splitter.split_documents(documentos)

    # 2) Embeddings LOCALES (NO GEMINI)
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-MiniLM-L6-v2"
    )

    # 3) ChromaDB en memoria
    db = Chroma.from_documents(
        chunks,
        embeddings,
        collection_name="hp_reviews_collection"
    )
    retriever = db.as_retriever(search_kwargs={"k": 5})

    # 4) LLM local (NO GEMINI)
    model_id = "google/flan-t5-base"
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    model = AutoModelForSeq2SeqLM.from_pretrained(model_id)

    text_gen = pipeline(
        "text2text-generation",
        model=model,
        tokenizer=tokenizer,
        max_new_tokens=256,
        temperature=0
    )

    llm = HuggingFacePipeline(pipeline=text_gen)

    # 5) Cadena QA
    qa = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=retriever,
        return_source_documents=True
    )

    return qa


qa_chain = setup_rag()


# =========================
# UI CONSULTA
# =========================
consulta = st.text_input(
    "Escrib√≠ tu consulta:",
    placeholder="Ejemplo: ¬øQu√© comentarios negativos hay sobre Snape?"
)

if st.button("Consultar"):

    if not consulta:
        st.warning("Escrib√≠ una consulta.")
    else:
        with st.spinner("Buscando respuesta..."):
            respuesta = qa_chain({"query": consulta})

            st.subheader("üìå Respuesta:")
            st.write(respuesta["result"])

            st.subheader("üìö Fuentes usadas:")
            for doc in respuesta["source_documents"]:
                st.write(doc.page_content)
                st.caption(doc.metadata)




Overwriting app.py
