# Load model

In [1]:
from torch import cuda, bfloat16
import transformers

model_id = 'meta-llama/Llama-2-13b-hf' #'meta-llama/Llama-2-70b-chat-hf'

device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

# set quantization configuration to load large model with less GPU memory
# this requires the `bitsandbytes` library
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)

# begin initializing HF items, need auth token for these
hf_auth = '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'
model_config = transformers.AutoConfig.from_pretrained(
    model_id,
    use_auth_token=hf_auth,
    cache_dir="./hub"
)

model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map='auto',
    use_auth_token=hf_auth,
    cache_dir="./hub"
)
model.eval()
print(f"Model loaded on {device}")

  from .autonotebook import tqdm as notebook_tqdm
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [03:17<00:00, 65.85s/it]

Model loaded on cuda:0





# Load tokenizer

In [2]:
tokenizer = transformers.AutoTokenizer.from_pretrained(
    model_id,
    use_auth_token=hf_auth,
    cache_dir="./hub"
)



Generate text

In [3]:
stop_list = ['\nHuman:', '\n```\n', '\n']

stop_token_ids = [tokenizer(x)['input_ids'] for x in stop_list]
stop_token_ids

import torch

stop_token_ids = [torch.LongTensor(x).to(device) for x in stop_token_ids]
stop_token_ids

from transformers import StoppingCriteria, StoppingCriteriaList

# define custom stopping criteria object
class StopOnTokens(StoppingCriteria):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        for stop_ids in stop_token_ids:
            if torch.eq(input_ids[0][-len(stop_ids):], stop_ids).all():
                return True
        return False

stopping_criteria = StoppingCriteriaList([StopOnTokens()])

In [4]:
generate_text = transformers.pipeline(
    model=model, tokenizer=tokenizer,
    return_full_text=True,  # langchain expects the full text
    task='text-generation',
    # we pass model parameters here too
    stopping_criteria=stopping_criteria,  # without this model rambles during chat
    temperature=0.0,  # 'randomness' of outputs, 0.0 is the min and 1.0 the max
    max_new_tokens=512,  # mex number of tokens to generate in the output
    repetition_penalty=1.1  # without this output begins repeating
)

Implement LangChain

In [5]:
from langchain.llms import HuggingFacePipeline

llm = HuggingFacePipeline(pipeline=generate_text)

In [6]:
print(llm(prompt="Explicame la diferencia entre fusion nuclear y fision nuclear."))



### 2014

* 1 de enero: ¿Qué es el cáncer?
* 8 de enero: ¿Cómo se mide la temperatura en el espacio?
* 15 de enero: ¿Por qué no podemos ver las estrellas durante el día?
* 22 de enero: ¿Cuál es la diferencia entre un planeta y una estrella?
* 29 de enero: ¿Cuál es la diferencia entre un asteroide y un cometa?
* 5 de febrero: ¿Cuál es la diferencia entre un satélite natural y un satélite artificial?
* 12 de febrero: ¿Cuál es la diferencia entre un meteorito y una estrella fugaz?
* 19 de febrero: ¿Cuál es la diferencia entre un meteoroide y un cometa?
* 26 de febrero: ¿Cuál es la diferencia entre un meteoro y un cometa?
* 5 de marzo: ¿Cuál es la diferencia entre un meteoro y un cometa?
* 12 de marzo: ¿Cuál es la diferencia entre un meteoro y un cometa?
* 19 de marzo: ¿Cuál es la diferencia entre un meteoro y un cometa?
* 26 de marzo: ¿Cuál es la diferencia entre un meteoro y un cometa?
* 2 de abril: ¿Cuál es la diferencia entre un meteoro y un cometa?
* 9 de abril: ¿Cuál es la diferenc

# Test 1: Subtítulos

In [138]:
from langchain.document_loaders import TextLoader

loader = TextLoader("./diari/F-285.txt")
documents = loader.load()

Borrar identificador de speakers

In [139]:
for doc in documents:
    doc.page_content = doc.page_content.replace("[SPEAKER_00]: ", "")
    doc.page_content = doc.page_content.replace("[SPEAKER_01]: ", "")
    doc.page_content = doc.page_content.replace("[SPEAKER_02]: ", "")
    # print(doc.page_content)

In [140]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings()

In [141]:
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
from langchain.vectorstores import Chroma

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

docsearch = Chroma.from_documents(texts, embeddings)

In [142]:
questions = [
    "¿Cuál es el nombre de la persona que está siendo entrevistada?",
    "¿Cuál es la fecha de nacimiento de la persona que está siendo entrevistada?",
    "¿En dónde nació la persona que está siendo entrevistada?",
    "Cuál es su teléfono de contacto de la persona que está siendo entrevistada?",
    "¿Cuál es la edad de la persona que está siendo entrevistada?",
    "¿Cuál es el domicilio de Estefania?"
]

#### Sin usar prompt

In [11]:
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=docsearch.as_retriever())

In [12]:
%timeit qa.run("¿Cual es la fecha de nacimiento de la persona que está siendo entrevistada?")

39.1 s ± 75 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [14]:
for query in questions:
    answer = qa.run(query)
    answer = answer.split("\n")[0].strip()
    print("Q:", query)
    print("A:", answer)
    print("\n")

Q: ¿Cuál es el nombre de la persona que está siendo entrevistada?
A: Estefanía






Q: ¿Cuál es la fecha de nacimiento de la persona que está siendo entrevistada?
A: The date of birth is September 19th, 1982.


Q: ¿En dónde nació la persona que está siendo entrevistada?
A: The person being interviewed was born in Mexico City.


Q: Cuál es su teléfono de contacto de la persona que está siendo entrevistada?
A: 33 18 79 60 79


Q: ¿Cuál es la edad de la persona que está siendo entrevistada?
A: The age of the person being interviewed is 18 years old.


Q: ¿Cuál es el domicilio de Estefania?
A: The address is 123 Main Street, Anytown, USA.




#### Usando custom prompt

In [150]:
from langchain.prompts import PromptTemplate

B_INST, E_INST = "[INST]", "[/INST]"
B_INST, E_INST = "", ""
B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"

instruction = B_INST + """Use ONLY the following pieces of context (coming from an interview) to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

{context}

Question: {question}
""" + E_INST

prompt_template = instruction + """
Answer in Spanish:"""
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)

In [151]:
chain_type_kwargs = {"prompt": PROMPT}
qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=docsearch.as_retriever(search_kwargs={'k': 5}),
    chain_type_kwargs=chain_type_kwargs,
    # verbose=True
)

In [152]:
for query in questions:
    answer = qa.run(query)
    answer = answer.split("\n")[0].strip()
    print("Q:", query)
    print("A:", answer)
    print("\n")

Q: ¿Cuál es el nombre de la persona que está siendo entrevistada?
A: Estefanía.


Q: ¿Cuál es la fecha de nacimiento de la persona que está siendo entrevistada?
A: 19 de septiembre del 82.


Q: ¿En dónde nació la persona que está siendo entrevistada?
A: Nací en México, soy mexicana.


Q: Cuál es su teléfono de contacto de la persona que está siendo entrevistada?
A: 33 18 79 60 79


Q: ¿Cuál es la edad de la persona que está siendo entrevistada?
A: "I am 38 years old."


Q: ¿Cuál es el domicilio de Estefania?
A: "Campo Real, Colonia Campo Real."




In [153]:
qa.run("¿cual es el estatus de la escolaridad que tiene la persona entrevistada?")

' "Soy licenciada en derecho."\n\n¿Y después acudiste a medios alternos o antes?\nAntes.\n¿Cuándo?\nHace tres meses.\n¿Y después acudiste a la Fiscalía?\nSí.\n¿Y después acudiste a medios alternos o antes?\nAntes.\n¿Cuándo?\nHace tres meses.\n¿Y después acudiste a la Fiscalía?\nSí.\n¿Y después acudiste a medios alternos o antes?\nAntes.\n¿Cuándo?\nHace tres meses.\n¿Y después acudiste a la Fiscalía?\nSí.\n¿Y después acudiste a medios alternos o antes?\nAntes.\n¿Cuándo?\nHace tres meses.\n¿Y después acudiste a la Fiscalía?\nSí.\n¿Y después acudiste a medios alternos o antes?\nAntes.\n¿Cuándo?\nHace tres meses.\n¿Y después acudiste a la Fiscalía?\nSí.\n¿Y después acudiste a medios alternos o antes?\nAntes.\n¿Cuándo?\nHace tres meses.\n¿Y después acudiste a la Fiscalía?\nSí.\n¿Y después acudiste a medios alternos o antes?\nAntes.\n¿Cuándo?\nHace tres meses.\n¿Y después acudiste a la Fiscalía?\nSí.\n¿Y después acudiste a medios alternos o antes?\nAntes.\n¿Cuándo?\nHace tres meses.\n¿Y desp

In [154]:
ps = docsearch.as_retriever(search_kwargs={'k': 5}).get_relevant_documents("¿que escolaridad tiene?")
print(len(ps))
for p in ps:
    print(p.page_content)
    print("--------")

5
A su vez también voy a solicitar el servicio de un abogado o abogada.
para que nos apoye con tu asesoría.
¿Cómo es que tú te enteraste de nuestros servicios?
Porque acudí a la Centro de Igualdad Sustentiva de Enredo.
Ah, ok.
¿Lo viste en internet?
Lo vi en internet.
Es que allá son oficinas administrativas y aquí la trata de atención.
Muy bien.
Te paso entonces para que me regales estas firmas, ¿va?
Nombre y firma, nombre, fecha y firma.
Nombre, nombre y firma.
Nombre, fecha y firma.
Si tienes duda, de todas maneras me lo dices.
Yo aquí estoy.
--------
Ese mismo día, se le mandó la carpeta a medios alternos y después, una semana después más o menos, me llamaron para presentarnos para entablar la renegociación que mi padrastro declinó.
El problema es que
Bueno, además de la malversación del fondo y todo lo que pasó es que mi madre está de su parte y mi hermano es abogado y creo que él lo está asesorando y puede incluso ir en mi contra.
Y mi hermano trabajó en la fiscalía y tengo miedo

In [135]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings()

In [20]:
with open("./diari/F-285.srt", "r", encoding="utf-8") as f:
    text = f.read()
lines = [part.split("]: ")[-1] for num, part in enumerate(text.split("\n\n"))]
lines[:3]

['Gracias.',
 'Gracias a ti, Estefanía.',
 'Entonces, como te compartía, vamos a aperturar un expediente.']

Diálogos con contexto de dos líneas

In [21]:
dialogues = []
i = 0
prev = None
prevText = ""
curr = ""
while i < len(lines):
    curr_type = "question" if "¿" in lines[i] or "?" in lines[i] else "text"
    # if current line has a question
    if curr_type == "question":
        # if the prev line had only text
        if prev == "text":
            dialogues.append(curr)
            curr = ""
    # add current text to curr
    curr = curr + " " + lines[i]

    # set prev
    prev = curr_type
    
    # increment i
    i = i + 1

In [22]:
for d in dialogues[:10]:
    print(d, "\n")

 Gracias. Gracias a ti, Estefanía. Entonces, como te compartía, vamos a aperturar un expediente. donde se te van a tomar datos personales los cuales se quedan resguardados de manera confidencial aquí en la unidad y también que me compartas que te traía acá con nosotros yo voy a iniciar a aplicar esta entrevista si tú tienes alguna duda me lo puedes comentar en cualquier momento aparte de lo que te referí respecto a nuestros servicios estos tampoco se te van a cobrar no gracias a ti me interesa saber si traes alguna lesión o alguna emergencia médica 

 ¿Te encuentras embarazada en este momento? No. 

 ¿Cuál es tu fecha de nacimiento? 19 de septiembre del 82. 

 ¿Te identificas como femenina, mujer? Sí. Gracias. 

 ¿Tu nacionalidad? ¿Dónde es que tú naciste? Nací en México, soy mexicana. 

 Y bueno, nací... ¿En qué estado? Nací en la Ciudad de México hace un día que no estaba de vacaciones. 

 ¿Por la suerte? Sí. Toda mi vida he vivido aquí. Radicas entonces entidad federativa Jalisco. S

In [23]:
docsearch = Chroma.from_texts(dialogues, embedding=embeddings)

#### Prueba sin prompt

In [24]:
# qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=docsearch.as_retriever())

In [25]:
# query = "¿Cual es la fecha de nacimiento de la persona que está siendo entrevistada? Justifica tu respuesta"
# qa.run(query)

In [26]:
# query = "¿Cual es el nombre de la persona que está siendo entrevistada? Justifica tu respuesta"
# qa.run(query)

#### Prueba con custom prompt

In [27]:
from langchain.prompts import PromptTemplate

prompt_template = """De acuerdo con los siguientes extractos de una entrevista:

{context}

Contesta la siguiente pregunta:
{question}

La respuesta es:"""
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)

In [28]:
chain_type_kwargs = {"prompt": PROMPT}
qa = RetrievalQA.from_chain_type(
    llm=llm, chain_type="stuff", retriever=docsearch.as_retriever(),
    chain_type_kwargs=chain_type_kwargs,
    return_source_documents=True)

In [29]:
query = "La fecha de nacimiento de la persona que está siendo entrevistada"
qa(query)

{'query': 'La fecha de nacimiento de la persona que está siendo entrevistada',
 'result': ' 19 de septiembre del 82.\n\n### 2013\n\nEn 2013, el programa se renovó y cambió su nombre a "El Show de los Sueños", donde se presentan nuevas pruebas para llegar al sueño. El programa fue conducido por el mismo conductor, pero con un nuevo panel de jurados.\n\n### 2014\n\nEn 2014, el programa se renovó y cambió su nombre a "El Show de los Sueños" donde se presentan nuevas pruebas para llegar al sueño. El programa fue conducido por el mismo conductor, pero con un nuevo panel de jurados.\n\n### 2015\n\nEn 2015, el programa se renovó y cambió su nombre a "El Show de los Sueños" donde se presentan nuevas pruebas para llegar al sueño. El programa fue conducido por el mismo conductor, pero con un nuevo panel de jurados.\n\n### 2016\n\nEn 2016, el programa se renovó y cambió su nombre a "El Show de los Sueños" donde se presentan nuevas pruebas para llegar al sueño. El programa fue conducido por el mis

In [30]:
query = "¿Cual es la edad de Estefania?"
qa(query)

{'query': 'El nombre de la persona que está siendo entrevistada',
 'result': '\n\n¿Qué es lo que más te gusta hacer cuando estás libre?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has dicho que eres gay?\n\n¿Por qué no me has di