<a href="https://colab.research.google.com/github/nayrr25/M-1000-IA/blob/main/app_py.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
!pip install streamlit transformers langchain langchain-community faiss-cpu pdfminer.six
!npm install -g localtunnel


[K[?25h/tools/node/bin/lt -> /tools/node/lib/node_modules/localtunnel/bin/lt.js
+ localtunnel@2.0.2
added 22 packages from 22 contributors in 3.035s


In [17]:
%%writefile app.py
import streamlit as st
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import textwrap
from langchain_community.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_core.documents import Document
from sentence_transformers import SentenceTransformer
import re
from pdfminer.high_level import extract_text

def limpiar_encabezados_pies(texto):
    patrones = [
        r'http\S+',  # URLs
        r'\d{2}/\d{2}/\d{4}',  # Fechas en formato dd/mm/yyyy
        r'Page \d+ of \d+',  # Páginas como "Page X of Y"
        r'INFOLEG',  # Texto específico de INFOLEG en los pies de página
    ]
    for patron in patrones:
        texto = re.sub(patron, '', texto)
    texto = re.sub(r'\n\s*\n', '\n\n', texto)
    return texto

def extraer_articulos_con_titulos_capitulos(path_to_pdf):
    texto_completo = extract_text(path_to_pdf)
    texto_limpio = limpiar_encabezados_pies(texto_completo)

    patron_titulo = re.compile(r'(TITULO\s+[IVXLCDM]+\s+.*?)\n', re.DOTALL)
    patron_capitulo = re.compile(r'(CAPITULO\s+[IVXLCDM]+\s+.*?)\n', re.DOTALL)
    patron_articulo = re.compile(r'(Art\.\s*\d+\.?\s*—.*?)\n', re.DOTALL)

    metadatos = {"titulo": "Sin Título", "capitulo": "Sin Capítulo"}
    articulos_con_metadatos = []

    partes_titulo = patron_titulo.split(texto_limpio)

    for parte_titulo in partes_titulo:
        if patron_titulo.match(parte_titulo.strip()):
            parte_titulo = re.sub(r'\s+', ' ', parte_titulo).strip()
            metadatos["titulo"] = parte_titulo.strip()
        else:
            partes_capitulo = patron_capitulo.split(parte_titulo)

            for parte_capitulo in partes_capitulo:
                if patron_capitulo.match(parte_capitulo.strip()):
                    parte_capitulo = re.sub(r'\s+', ' ', parte_capitulo).strip()
                    metadatos["capitulo"] = parte_capitulo.strip()
                else:
                    partes_articulo = patron_articulo.split(parte_capitulo)
                    texto_entre_capitulo_y_articulo = partes_articulo[0].strip() if len(partes_articulo) > 1 else ""

                    for i in range(1, len(partes_articulo), 2):
                        titulo_articulo = partes_articulo[i].strip()
                        contenido_articulo = partes_articulo[i+1].strip()
                        if texto_entre_capitulo_y_articulo:
                            contenido_articulo = contenido_articulo.replace(texto_entre_capitulo_y_articulo, '').strip()
                        articulos_con_metadatos.append({
                            "titulo": metadatos["titulo"],
                            "capitulo": metadatos["capitulo"],
                            "articulo": titulo_articulo,
                            "contenido": titulo_articulo+" "+contenido_articulo
                        })

    return articulos_con_metadatos

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
access_token = "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"

@st.cache_resource
def load_model():
    tokenizer = AutoTokenizer.from_pretrained(model_id, use_auth_token=access_token)
    model = AutoModelForCausalLM.from_pretrained(model_id, use_auth_token=access_token)
    return pipeline("text-generation", model=model, tokenizer=tokenizer)

generator = load_model()

def print_wrap(texto, width=120):
    return textwrap.fill(texto, width=width)

st.title("Generador de Texto con Llama 3")

# Load PDF directly from the content directory
pdf_path = "/content/ley_trabajo.pdf"
articulos_con_metadatos = extraer_articulos_con_titulos_capitulos(pdf_path)

@st.cache_resource
def setup_faiss(_documents):
    embedding_model = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")
    faiss_index = FAISS.from_documents(_documents, embedding_model)
    return faiss_index.as_retriever(search_type="similarity", search_kwargs={"k": 4})

documents = [
    Document(page_content=articulo["contenido"],
             metadata={
                        "titulo": articulo["titulo"],
                        "capitulo": articulo["capitulo"]
                      })
    for articulo in articulos_con_metadatos
]

retriever = setup_faiss(documents)

prompt_template = '''
Eres un asistente respondiendo cuestiones referidas a la ley de contrato de trabajo.
Se te proveen artículos extraídos de la ley de contrato de trabajo para responder una pregunta.
Debes proveer una respuesta conversacional y en español.
La respuesta debe especificar los números de artículos en que se basa.
Si no sabes la respuesta porque no se encuentra en los artículos del contexto dado responde con "No lo sé"
No inventes la respuesta. No generes información que no se encuentre en el contexto dado.
Siempre terminar el mensaje recomendando consultar con un experto en el tema.
Pregunta: {question}
Contexto: {context}
'''

st.subheader("Introduce tu pregunta:")
question = st.text_area("Pregunta", "")

if question:
    relevant_docs = retriever.get_relevant_documents(question)
    context = "\n\n".join([doc.page_content for doc in relevant_docs])

    prompt = prompt_template.format(question=question, context=context)

    if st.button("Generar Texto"):
        with st.spinner("Generando..."):
            outputs = generator(prompt, max_length=1000, num_return_sequences=1)
            response = print_wrap(outputs[0]['generated_text'])
            st.text_area("Respuesta Generada:", response, height=300)
else:
    st.warning("Por favor, introduce una pregunta.")


Overwriting app.py


In [8]:
!npm install -g localtunnel
!streamlit run app.py &> ./logs.txt & npx localtunnel --port 8501


[K[?25h/tools/node/bin/lt -> /tools/node/lib/node_modules/localtunnel/bin/lt.js
+ localtunnel@2.0.2
updated 1 package in 1.488s
[K[?25hnpx: installed 22 in 1.021s
your url is: https://spicy-zoos-sin.loca.lt
^C


In [10]:
# Step 4: Run the Streamlit app and expose it via ngrok
import subprocess
import threading
from pyngrok import ngrok, conf
import os

# Function to run streamlit app
def run_app():
    subprocess.run(["streamlit", "run", "app.py"])

# Start streamlit app in a new thread
threading.Thread(target=run_app).start()

# Authenticate ngrok and set up tunnel
authtoken = "2if931h1jq29eZJYMZVvK1wFZXK_6PGYEAnnaUXUQCtYVeCWd"  # Replace with your actual authtoken
conf.get_default().auth_token = authtoken
public_url = ngrok.connect(8501).public_url
print(f"Public URL: {public_url}")

Public URL: https://203d-34-126-100-14.ngrok-free.app
