# Load model

In [1]:
from torch import cuda, bfloat16
import transformers

model_id = 'meta-llama/Llama-2-13b-chat-hf' #'meta-llama/Llama-2-70b-chat-hf'

device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

# set quantization configuration to load large model with less GPU memory
# this requires the `bitsandbytes` library
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)

# begin initializing HF items, need auth token for these
hf_auth = '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'
model_config = transformers.AutoConfig.from_pretrained(
    model_id,
    use_auth_token=hf_auth,
    cache_dir="./hub"
)

model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map='auto',
    use_auth_token=hf_auth,
    cache_dir="./hub"
)
model.eval()
print(f"Model loaded on {device}")

  from .autonotebook import tqdm as notebook_tqdm
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [03:13<00:00, 64.45s/it]

Model loaded on cuda:0





# Load tokenizer

In [6]:
tokenizer = transformers.AutoTokenizer.from_pretrained(
    model_id,
    use_auth_token=hf_auth,
    cache_dir="./hub"
)



Generate text

In [7]:
stop_list = ['\nHuman:', '\n```\n']

stop_token_ids = [tokenizer(x)['input_ids'] for x in stop_list]
stop_token_ids

import torch

stop_token_ids = [torch.LongTensor(x).to(device) for x in stop_token_ids]
stop_token_ids

from transformers import StoppingCriteria, StoppingCriteriaList

# define custom stopping criteria object
class StopOnTokens(StoppingCriteria):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        for stop_ids in stop_token_ids:
            if torch.eq(input_ids[0][-len(stop_ids):], stop_ids).all():
                return True
        return False

stopping_criteria = StoppingCriteriaList([StopOnTokens()])

In [8]:
generate_text = transformers.pipeline(
    model=model,
    tokenizer=tokenizer,
    return_full_text=True,  # langchain expects the full text
    task='text-generation',
    # we pass model parameters here too
    stopping_criteria=stopping_criteria,  # without this model rambles during chat
    temperature=0.0,  # 'randomness' of outputs, 0.0 is the min and 1.0 the max
    max_new_tokens=512,  # mex number of tokens to generate in the output
    repetition_penalty=1.1  # without this output begins repeating
)

Implement LangChain

In [9]:
from langchain.llms import HuggingFacePipeline

llm = HuggingFacePipeline(pipeline=generate_text)

# Test 1: Subtítulos

In [13]:
from langchain.document_loaders import TextLoader

filepath = "./diari/F-490.vtt"
loader = TextLoader(filepath, encoding="utf-8")
documents = loader.load()

Borrar identificador de speakers

In [14]:
for doc in documents:
    doc.page_content = doc.page_content.replace("WEBVTT", "")
    # print(doc.page_content)

In [15]:
documents[0].page_content[:100]

'\n\n00:00.448 --> 00:01.850\nMuchas gracias, Pedro.\n\n00:01.850 --> 00:04.092\nEntonces vamos a iniciar l'

In [17]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name='hiiamsid/sentence_similarity_spanish_es')

Downloading (…)c7362/.gitattributes: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 1.18k/1.18k [00:00<00:00, 439kB/s]
Downloading (…)_Pooling/config.json: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:00<00:00, 237kB/s]
Downloading (…)de792c7362/README.md: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 4.51k/4.51k [00:00<00:00, 4.16MB/s]
Downloading (…)792c7362/config.json: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 701/701 [00:00<00:00, 851kB/s]
Downloading (…)ce_transformers.json: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 123/123 [00:00<00:00, 154kB/s]
Downloading (…)c7362/eval/readme.md: 100%|█████████████████████████████████████████████████████████████████████████████████████████████

In [18]:
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
from langchain.vectorstores import Chroma

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

docsearch = Chroma.from_documents(texts, embeddings)

In [19]:
WHOSE = "la persona que está siendo entrevistada"

questions = [
    f"¿Cuál es el nombre completo de {WHOSE}?",
    f"¿Con qué genero se identifica {WHOSE}?",
    f"¿Cuál es el sexo de {WHOSE}?",
    f"¿Cuál es la fecha de nacimiento de {WHOSE}?",
    f"¿Qué nacionalidad tiene {WHOSE}?",
    f"¿En qué lugar nació {WHOSE}?",
    f"¿En qué entidad reside {WHOSE}?",
    f"¿En dónde nació {WHOSE}?",
    f"¿Cuál es su teléfono de contacto de {WHOSE}?",
    f"¿Cuál es el domicilio de {WHOSE}?",
    f"¿Qué escolaridad tiene {WHOSE}?",
    f"¿La escolaridad de {WHOSE} está terminada?",
    f"¿Tiene seguridad social {WHOSE}?",
    f"¿A qué se dedica {WHOSE} actualmente?",
    f"¿Qué estado civil tiene {WHOSE}?",
    f"¿Con qué régimen matrimonial está casada {WHOSE}?",
    f"¿Cuáles son las características de la casa en la que vive {WHOSE}?",
    f"¿La vivienda en la que {WHOSE} es compartida?",
    f"¿Cuántas personas viven en la casa de {WHOSE}?",
    f"¿Cuáles son los datos de las personas con las que vive {WHOSE}?",
    f"¿Quién aporta el mayor ingreso dentro del hogar de {WHOSE}?",
    f"¿Cuál es el motivo de la atención para {WHOSE}?"
]

In [20]:
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=docsearch.as_retriever())

In [21]:
# %timeit qa.run("¿Cual es la fecha de nacimiento de la persona que está siendo entrevistada?")

In [22]:
# for query in questions:
#     answer = qa.run(query)
#     answer = answer.split("\n")[0].strip()
#     print("Q:", query)
#     print("A:", answer)
#     print("\n")

#### Usando custom prompt

In [23]:
from langchain.prompts import PromptTemplate

B_INST, E_INST = "[INST]", "[/INST]"
B_INST, E_INST = "", ""
B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"

instruction = B_INST + """Use ONLY the following pieces of context (coming from an interview) to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

{context}

Question: {question}
""" + E_INST

prompt_template = instruction + """
Answer in Spanish:"""
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)

In [24]:
chain_type_kwargs = {"prompt": PROMPT}
qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=docsearch.as_retriever(search_kwargs={'k': 5}),
    chain_type_kwargs=chain_type_kwargs,
    # verbose=True
)

In [25]:
# for query in questions:
#     answer = qa.run(query)
#     answer = answer.split("\n")[0].strip()
#     print("Q:", query)
#     print("A:", answer)
#     print("\n")

# Diálogos con contexto de dos líneas

In [27]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name='hiiamsid/sentence_similarity_spanish_es')

In [28]:
with open("./diari/F-490-dialogues.txt", "r", encoding="utf-8") as f:
    text = f.read()
lines = [part.split("]: ")[-1] for num, part in enumerate(text.split("\n\n"))]
lines[:5]

['00:00.448 --> 00:01.850\nMuchas gracias, Pedro.',
 '00:01.850 --> 00:04.092\nEntonces vamos a iniciar la entrevista.',
 '00:04.092 --> 00:07.195\nEs importante que tú sepas que estos servicios no se te van a cobrar.',
 '00:07.195 --> 00:22.308\nLa información que tú me compartas el día de hoy se queda de manera confidencial aquí con nosotros y nosotros somos una unidad que te va a brindar orientación, información con el trámite que tú deseas realizar, que me compartes que es divorcio, ¿de acuerdo?',
 '00:22.308 --> 00:24.531\nDe aquí te derivaremos a otra institución.']

In [29]:
dialogues = []
i = 0
prev = None
prevText = ""
curr = ""
while i < len(lines):
    curr_type = "question" if "¿" in lines[i] or "?" in lines[i] else "text"
    # if current line has a question
    if curr_type == "question":
        # if the prev line had only text
        if prev == "text":
            dialogues.append(curr)
            curr = ""
    # add current text to curr
    link = "\n\n" if curr != "" else ""
    curr = curr + link + lines[i]

    # set prev
    prev = curr_type
    
    # increment i
    i = i + 1

In [30]:
import re

for d in dialogues[:10]:
    print(d)
    print("-----------")

00:00.448 --> 00:01.850
Muchas gracias, Pedro.

00:01.850 --> 00:04.092
Entonces vamos a iniciar la entrevista.

00:04.092 --> 00:07.195
Es importante que tú sepas que estos servicios no se te van a cobrar.
-----------
00:07.195 --> 00:22.308
La información que tú me compartas el día de hoy se queda de manera confidencial aquí con nosotros y nosotros somos una unidad que te va a brindar orientación, información con el trámite que tú deseas realizar, que me compartes que es divorcio, ¿de acuerdo?

00:22.308 --> 00:24.531
De aquí te derivaremos a otra institución.

00:26.275 --> 00:31.957
Muy bien Perla, yo copié algunos datos de tu registro, igual voy a corroborar dicha información.
-----------
00:31.957 --> 00:35.698
¿Tu nombre completo Perla Elizabeth Gómez Torres?

00:35.698 --> 00:36.139
Sí.
-----------
00:36.139 --> 00:39.620
¿Te identificas como género femenino, sexo mujer?

00:39.620 --> 00:42.141
Sí.
-----------
00:42.141 --> 00:44.021
¿Tu fecha de nacimiento cuál es?

00:44.021

In [31]:
docsearch = Chroma.from_texts(dialogues, embedding=embeddings)

In [32]:
from langchain.callbacks import StdOutCallbackHandler

handler = StdOutCallbackHandler()

In [33]:
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=docsearch.as_retriever())

In [34]:
query = "¿Cual es la fecha de nacimiento de la persona que está siendo entrevistada? Justifica tu respuesta"
# qa.run(query, callbacks=[handler])
qa.run(query)

' La fecha de nacimiento de la persona que está siendo entrevistada es el 11 de octubre del 87, esto se puede inferir de la conversación en la línea 00:44.021 --> 00:48.483.'

#### Prueba con custom prompt

In [35]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings()

In [36]:
from langchain.prompts import PromptTemplate

prompt_template = """Based on the following extracts of an interview, answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

{context}

Question: {question}
Answer in Spanish:"""

prompt_template = """Basado en los siguientes fragmentos de una entrevista, contesta la pregunta del final (si no encuentras la respuesta simplemente contesta 'NA').

{context}

Pregunta: {question}
Respuesta:"""

In [37]:
prompt = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)

In [38]:
from langchain.chains import LLMChain

chain = LLMChain(llm=llm, prompt=prompt)

In [39]:
# rels = docsearch.as_retriever().get_relevant_documents("escolaridad")
# ctx = "\n---------\n".join([rel.page_content for rel in rels])
# print(ctx)

In [40]:
# answer = chain.run(question="¿Qué escolaridad tiene la persona que está siendo entrevistada", context=ctx)
# answer = answer.strip().split("\n")[0].strip()
# answer

In [41]:
def get_context(query, k=4):
    search_kwargs = {"k":k}
    rels = docsearch.as_retriever(search_type="mmr", search_kwargs=search_kwargs).get_relevant_documents(query=query)
    ctx = "\n---------\n".join([rel.page_content for rel in rels])
    return ctx

def answer_question(question, context, verbose=False):
    callbacks = [handler] if verbose else []
    answer = chain.run(question=question, context=ctx, callbacks=callbacks)
    answer = answer.strip().split("\n")[0].strip()
    return answer

In [42]:
ctx = get_context("escolaridad", k=5)
answer_question("¿Qué escolaridad tiene la persona que está siendo entrevistada", ctx)

'Preparatoria'

In [43]:
ctx = get_context("residencia actual", k=5)
answer_question("¿En dónde reside actualmente la persona que está siendo entrevistada?", ctx)

'Prestada.'

In [44]:
ctx = get_context("tu fecha de nacimiento")
answer_question("¿Qué fecha de nacimiento tiene la persona que está siendo entrevistada?", ctx)

'El 11 de octubre del 87.'

In [45]:
import re
from langchain.vectorstores import FAISS

pattern = r'\d{2}:\d{2}\.\d{3} --> \d{2}:\d{2}\.\d{3}'

tmpdialogues = [re.sub(pattern, "", dialogue) for dialogue in dialogues]
tmpdocs = FAISS.from_texts(tmpdialogues, embedding=embeddings)
rels = tmpdocs.as_retriever(search_type="mmr").get_relevant_documents(query="fecha de nacimiento")

for rel in rels:
    print(rel.page_content)
    print("-------")
    print()


¿Tu fecha de nacimiento cuál es?


El 11 de octubre del 87.
-------


¿En qué colonia?


Monumental.
-------


Vallesa con Z?


Con Z. Doble L y Z. Vallesa.
-------


¿A qué se dedica?


Es empleada de domesticación.
-------



In [46]:
def get_context_v2(query, k=4):
    search_kwargs = {"k":k}
    rels = tmpdocs.as_retriever(search_type="mmr", search_kwargs=search_kwargs).get_relevant_documents(query=query)
    ctx = "\n---------\n".join([rel.page_content for rel in rels])
    return ctx

In [47]:
ctx = get_context_v2("residencia actual", k=9)
# ctx = """
# Y radicas en Guadalajara, ¿verdad?
# Sí, es correcto.
# """
answer_question("¿En dónde radica actualmente la persona que está siendo entrevistada?", ctx, True)



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mBasado en los siguientes fragmentos de una entrevista, contesta la pregunta del final (si no encuentras la respuesta simplemente contesta 'NA').


¿Cuál es?


Sí, es Monte Alegre.


Sería el domicilio eventual.


Monte Alegre.


612.
---------

¿A qué se dedica?


Es empleada de domesticación.
---------

¿Tu casa donde vives actualmente es prestada, rentada o propia?


Prestada.
---------

¿Perteneces a algún grupo original, indígena?


No.
---------

Una unidad... ¿Cómo se llama?


De un hospital particular.


Sobre esa calle.
---------

Él vive en el domicilio que me compartiste en el registro, ¿verdad?


Sí.
---------

¿En qué colonia?


Monumental.
---------

Y radicas en Guadalajara, ¿verdad?


Sí, es correcto.
---------

¿A qué te dedicas actualmente?


Trabajo en una empresa de telecomunicaciones.

Pregunta: ¿En dónde radica actualmente la persona que está siendo entrevistada?
Respuesta:[0m

[1m> 

'Monte Alegre.'

In [48]:
ctx = get_context_v2("fecha de nacimiento")
answer_question("¿Qué fecha de nacimiento tiene la persona que está siendo entrevistada?", ctx)

'El 11 de octubre del 87.'

In [244]:
from langchain.prompts import PromptTemplate

prompt_template = """Basado en los siguientes fragmentos de una entrevista, responde la pregunta del final (si en los fragmentos no se encuentra la respuesta a la pregunta del final, contesta 'NA').

Fragmentos:
{context}

Pregunta:
{question}

Respuesta:
"""

prompt = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)

from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name='sentence-transformers/multi-qa-MiniLM-L6-cos-v1')

from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
from langchain.vectorstores import Chroma, FAISS

pattern = r'\d{2}:\d{2}\.\d{3} --> \d{2}:\d{2}\.\d{3}'
source_documents = []
for doc in documents:
    doc.page_content = doc.page_content.replace("WEBVTT", "")
    doc.page_content = re.sub(pattern, "", doc.page_content)
    doc.page_content = doc.page_content.replace("\n\n\n", "\n\n")
    source_documents.append(doc)

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=250)
texts = text_splitter.split_documents(source_documents)

vectorstore = FAISS.from_documents(texts, embeddings)

chain_type_kwargs = {"prompt": prompt}
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    # retriever=vectorstore.as_retriever(search_type="mmr", search_kwargs={'k': 6}),
    retriever=vectorstore.as_retriever(search_kwargs={'k': 5}),
    chain_type_kwargs=chain_type_kwargs,
    # verbose=True
)

In [283]:
WHOSE = "la persona que está siendo entrevistada"

questions = [
    f"¿Cuál es el nombre completo de {WHOSE}?",
    f"¿Con qué genero se identifica {WHOSE}? Responde 'femenino' o 'masculino'",
    f"¿Cuál es el sexo de {WHOSE}? Responde 'hombre' o 'mujer'",
    f"¿Qué fecha de nacimiento tiene {WHOSE}?",
    f"¿Qué nacionalidad tiene {WHOSE}?",
    f"¿En dónde nació {WHOSE}?",
    f"¿En dónde radica actualmente {WHOSE}?",
    f"¿Cuál es el número de contacto? Responde con el número telefónico.",
    f"¿Cuál es el domicilio de {WHOSE}?",
    f"¿Qué escolaridad tiene {WHOSE}?",
    f"¿La escolaridad de {WHOSE} está terminada?",
    f"¿Tiene seguridad social {WHOSE}?",
    f"¿A qué se dedica actualmente la persona entrevistada?",
    f"¿Qué estado civil tiene {WHOSE}?",
    f"¿Con qué régimen matrimonial está casada {WHOSE}?",
    f"¿Cuáles son las características de la casa en la que vive {WHOSE}?",
    f"¿La vivienda en la que {WHOSE} es compartida?",
    f"¿Cuántas personas viven en la casa de {WHOSE}?",
    f"¿Cuáles son las características de las personas con las que vive?",
    f"¿Quién aporta el mayor ingreso dentro del hogar?",
    f"¿Cuál es el motivo de la atención (sé especifico)?",
    f"¿Ha tenido que ser atendida en una institución médica o por personal médico como consecuencia de un evento de violencia con la persona agresora?",
    f"¿Cuál fue el último episodio de violencia? Describelo con detalle",
    f"Nombre de la persona agresora",
    f"¿Cuál es el domicilio de Omar Alejandro? Responde calle y colonia.",
    f"¿Cuál es la escolaridad de Omar Alejandro? Responde con el grado de estudios",
    f"¿Omar Alejandro posee armas?",
    f"¿Omar Alejandro tiene vinculos con el crimen organizado?",
    f"¿Quiénes son tu red de apoyo?"
]

In [284]:
for query in questions:
    answer = qa_chain.run(query)
    answer = answer.split("\n")[0].strip()
    print("Q:", query)
    print("A:", answer)
    print("\n")

Q: ¿Cuál es el nombre completo de la persona que está siendo entrevistada?
A: Perla Elizabeth Gómez Torres.


Q: ¿Con qué genero se identifica la persona que está siendo entrevistada? Responde 'femenino' o 'masculino'
A: Femenino


Q: ¿Cuál es el sexo de la persona que está siendo entrevistada? Responde 'hombre' o 'mujer'
A: Mujer


Q: ¿Qué fecha de nacimiento tiene la persona que está siendo entrevistada?
A: 11 de octubre del 87.


Q: ¿Qué nacionalidad tiene la persona que está siendo entrevistada?
A: Sí, soy mexicana.


Q: ¿En dónde nació la persona que está siendo entrevistada?
A: Aquí en Málaga.


Q: ¿En dónde radica actualmente la persona que está siendo entrevistada?
A: En Guadalajara, México.


Q: ¿Cuál es el número de contacto? Responde con el número telefónico.
A: 3319-7588-72.


Q: ¿Cuál es el domicilio de la persona que está siendo entrevistada?
A: Monte Alegre, 612, en la colonia Monumental, en Guadalajara, Jalisco.


Q: ¿Qué escolaridad tiene la persona que está siendo ent