# Load model

In [1]:
from torch import cuda, bfloat16
import transformers

model_id = 'meta-llama/Llama-2-13b-hf' #'meta-llama/Llama-2-70b-chat-hf'

device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

# set quantization configuration to load large model with less GPU memory
# this requires the `bitsandbytes` library
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)

# begin initializing HF items, need auth token for these
hf_auth = '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'
model_config = transformers.AutoConfig.from_pretrained(
    model_id,
    use_auth_token=hf_auth,
    cache_dir="./hub"
)

model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map='auto',
    use_auth_token=hf_auth,
    cache_dir="./hub"
)
model.eval()
print(f"Model loaded on {device}")

  from .autonotebook import tqdm as notebook_tqdm
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [03:15<00:00, 65.20s/it]

Model loaded on cuda:0





# Load tokenizer

In [2]:
tokenizer = transformers.AutoTokenizer.from_pretrained(
    model_id,
    use_auth_token=hf_auth,
    cache_dir="./hub"
)



Generate text

In [3]:
stop_list = ['\nHuman:', '\n```\n']

stop_token_ids = [tokenizer(x)['input_ids'] for x in stop_list]
stop_token_ids

import torch

stop_token_ids = [torch.LongTensor(x).to(device) for x in stop_token_ids]
stop_token_ids

from transformers import StoppingCriteria, StoppingCriteriaList

# define custom stopping criteria object
class StopOnTokens(StoppingCriteria):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        for stop_ids in stop_token_ids:
            if torch.eq(input_ids[0][-len(stop_ids):], stop_ids).all():
                return True
        return False

stopping_criteria = StoppingCriteriaList([StopOnTokens()])

In [4]:
generate_text = transformers.pipeline(
    model=model, tokenizer=tokenizer,
    return_full_text=True,  # langchain expects the full text
    task='text-generation',
    # we pass model parameters here too
    stopping_criteria=stopping_criteria,  # without this model rambles during chat
    temperature=0.0,  # 'randomness' of outputs, 0.0 is the min and 1.0 the max
    max_new_tokens=512,  # mex number of tokens to generate in the output
    repetition_penalty=1.1  # without this output begins repeating
)

Implement LangChain

In [5]:
from langchain.llms import HuggingFacePipeline

llm = HuggingFacePipeline(pipeline=generate_text)

# Test 1: Subtítulos

In [7]:
from langchain.document_loaders import TextLoader

filepath = "./diari/F-490.vtt"
loader = TextLoader(filepath, encoding="utf-8")
documents = loader.load()

Borrar identificador de speakers

In [8]:
for doc in documents:
    doc.page_content = doc.page_content.replace("WEBVTT", "")
    # print(doc.page_content)

In [9]:
documents[0].page_content[:100]

'\n\n00:00.448 --> 00:01.850\nMuchas gracias, Pedro.\n\n00:01.850 --> 00:04.092\nEntonces vamos a iniciar l'

In [10]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings()

In [11]:
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
from langchain.vectorstores import Chroma

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

docsearch = Chroma.from_documents(texts, embeddings)

In [12]:
WHOSE = "la persona que está siendo entrevistada"

questions = [
    f"¿Cuál es el nombre completo de {WHOSE}?",
    f"¿Con qué genero se identifica {WHOSE}?",
    f"¿Cuál es el sexo de {WHOSE}?",
    f"¿Cuál es la fecha de nacimiento de {WHOSE}?",
    f"¿Qué nacionalidad tiene {WHOSE}?",
    f"¿En qué lugar nació {WHOSE}?",
    f"¿En qué entidad reside {WHOSE}?",
    f"¿En dónde nació {WHOSE}?",
    f"¿Cuál es su teléfono de contacto de {WHOSE}?",
    f"¿Cuál es el domicilio de {WHOSE}?",
    f"¿Qué escolaridad tiene {WHOSE}?",
    f"¿La escolaridad de {WHOSE} está terminada?",
    f"¿Tiene seguridad social {WHOSE}?",
    f"¿A qué se dedica {WHOSE} actualmente?",
    f"¿Qué estado civil tiene {WHOSE}?",
    f"¿Con qué régimen matrimonial está casada {WHOSE}?",
    f"¿Cuáles son las características de la casa en la que vive {WHOSE}?",
    f"¿La vivienda en la que {WHOSE} es compartida?",
    f"¿Cuántas personas viven en la casa de {WHOSE}?",
    f"¿Cuáles son los datos de las personas con las que vive {WHOSE}?",
    f"¿Quién aporta el mayor ingreso dentro del hogar de {WHOSE}?",
    f"¿Cuál es el motivo de la atención para {WHOSE}?"
]

In [13]:
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=docsearch.as_retriever())

In [16]:
# %timeit qa.run("¿Cual es la fecha de nacimiento de la persona que está siendo entrevistada?")

In [17]:
# for query in questions:
#     answer = qa.run(query)
#     answer = answer.split("\n")[0].strip()
#     print("Q:", query)
#     print("A:", answer)
#     print("\n")

#### Usando custom prompt

In [18]:
from langchain.prompts import PromptTemplate

B_INST, E_INST = "[INST]", "[/INST]"
B_INST, E_INST = "", ""
B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"

instruction = B_INST + """Use ONLY the following pieces of context (coming from an interview) to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

{context}

Question: {question}
""" + E_INST

prompt_template = instruction + """
Answer in Spanish:"""
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)

In [19]:
chain_type_kwargs = {"prompt": PROMPT}
qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=docsearch.as_retriever(search_kwargs={'k': 5}),
    chain_type_kwargs=chain_type_kwargs,
    # verbose=True
)

In [20]:
# for query in questions:
#     answer = qa.run(query)
#     answer = answer.split("\n")[0].strip()
#     print("Q:", query)
#     print("A:", answer)
#     print("\n")

# Diálogos con contexto de dos líneas

In [21]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings()

In [23]:
with open("./diari/F-490-dialogues.txt", "r", encoding="utf-8") as f:
    text = f.read()
lines = [part.split("]: ")[-1] for num, part in enumerate(text.split("\n\n"))]
lines[:5]

['00:00.448 --> 00:01.850\nMuchas gracias, Pedro.',
 '00:01.850 --> 00:04.092\nEntonces vamos a iniciar la entrevista.',
 '00:04.092 --> 00:07.195\nEs importante que tú sepas que estos servicios no se te van a cobrar.',
 '00:07.195 --> 00:22.308\nLa información que tú me compartas el día de hoy se queda de manera confidencial aquí con nosotros y nosotros somos una unidad que te va a brindar orientación, información con el trámite que tú deseas realizar, que me compartes que es divorcio, ¿de acuerdo?',
 '00:22.308 --> 00:24.531\nDe aquí te derivaremos a otra institución.']

In [24]:
dialogues = []
i = 0
prev = None
prevText = ""
curr = ""
while i < len(lines):
    curr_type = "question" if "¿" in lines[i] or "?" in lines[i] else "text"
    # if current line has a question
    if curr_type == "question":
        # if the prev line had only text
        if prev == "text":
            dialogues.append(curr)
            curr = ""
    # add current text to curr
    link = "\n\n" if curr != "" else ""
    curr = curr + link + lines[i]

    # set prev
    prev = curr_type
    
    # increment i
    i = i + 1

In [91]:
for d in dialogues[:10]:
    print(d)
    print("-----------")

00:00.448 --> 00:01.850
Muchas gracias, Pedro.

00:01.850 --> 00:04.092
Entonces vamos a iniciar la entrevista.

00:04.092 --> 00:07.195
Es importante que tú sepas que estos servicios no se te van a cobrar.
-----------
00:07.195 --> 00:22.308
La información que tú me compartas el día de hoy se queda de manera confidencial aquí con nosotros y nosotros somos una unidad que te va a brindar orientación, información con el trámite que tú deseas realizar, que me compartes que es divorcio, ¿de acuerdo?

00:22.308 --> 00:24.531
De aquí te derivaremos a otra institución.

00:26.275 --> 00:31.957
Muy bien Perla, yo copié algunos datos de tu registro, igual voy a corroborar dicha información.
-----------
00:31.957 --> 00:35.698
¿Tu nombre completo Perla Elizabeth Gómez Torres?

00:35.698 --> 00:36.139
Sí.
-----------
00:36.139 --> 00:39.620
¿Te identificas como género femenino, sexo mujer?

00:39.620 --> 00:42.141
Sí.
-----------
00:42.141 --> 00:44.021
¿Tu fecha de nacimiento cuál es?

00:44.021

In [92]:
docsearch = Chroma.from_texts(dialogues, embedding=embeddings)

Make question query

In [27]:
rels = docsearch.as_retriever().get_relevant_documents(query="escolaridad")

for rel in rels:
    print(rel.page_content)
    print("-------")
    print()

04:43.936 --> 04:47.678
¿Qué escolaridades tienen tus niños?

04:47.678 --> 04:51.421
Están primaria, secundaria y preescolar.
-------

14:10.464 --> 14:11.845
¿Qué escolaridad tiene?

14:11.845 --> 14:15.327
También preparatoria.

14:15.327 --> 14:30.817
Bueno, gracias.
-------

02:27.215 --> 02:29.076
¿Tu escolaridad cuál es, perra?

02:29.076 --> 02:29.917
Preparatoria.
-------

02:33.559 --> 02:34.879
¿Tienes seguridad social?

02:34.879 --> 02:37.401
Sí.
-------



In [53]:
from langchain.callbacks import StdOutCallbackHandler

handler = StdOutCallbackHandler()

In [58]:
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="map_rerank", retriever=docsearch.as_retriever(), verbose=True)

In [59]:
query = "¿Cual es la fecha de nacimiento de la persona que está siendo entrevistada? Justifica tu respuesta"
qa.run(query, callbacks=[handler])



[1m> Entering new RetrievalQA chain...[0m


[1m> Entering new MapRerankDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mUse the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

In addition to giving an answer, also return a score of how fully it answered the user's question. This should be in the following format:

Question: [question here]
Helpful Answer: [answer here]
Score: [score between 0 and 100]

How to determine the score:
- Higher is a better answer
- Better responds fully to the asked question, with sufficient level of detail
- If you do not know the answer based on the context, that should be a score of 0
- Don't be overconfident!

Example #1

Context:
---------
Apples are red
---------
Question: what color are apples?
Helpful Answer: red
Score: 100

Example #2

Context:
---------
it was night and the witn

KeyboardInterrupt: 

#### Prueba con custom prompt

In [63]:
from langchain.prompts import PromptTemplate

prompt_template = """Use the following extracts of an interview to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

{context}

Question: {question}
Answer in Spanish:"""

In [64]:
prompt = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)

In [65]:
from langchain.chains import LLMChain

chain = LLMChain(llm=llm, prompt=prompt)

In [66]:
ctx = "\n---------\n".join([rel.page_content for rel in rels])
print(ctx)

04:43.936 --> 04:47.678
¿Qué escolaridades tienen tus niños?

04:47.678 --> 04:51.421
Están primaria, secundaria y preescolar.
---------
14:10.464 --> 14:11.845
¿Qué escolaridad tiene?

14:11.845 --> 14:15.327
También preparatoria.

14:15.327 --> 14:30.817
Bueno, gracias.
---------
02:27.215 --> 02:29.076
¿Tu escolaridad cuál es, perra?

02:29.076 --> 02:29.917
Preparatoria.
---------
02:33.559 --> 02:34.879
¿Tienes seguridad social?

02:34.879 --> 02:37.401
Sí.


In [70]:
answer = chain.run(question="¿Qué escolaridad tiene la persona que está siendo entrevistada", context=ctx)
answer = answer.split("\n")[0].strip()
answer

'Preparatoria.'

In [107]:
def get_context(query, k=4):
    search_kwargs = {"k":k}
    rels = docsearch.as_retriever(search_type="mmr", search_kwargs=search_kwargs).get_relevant_documents(query=query)
    ctx = "\n---------\n".join([rel.page_content for rel in rels])
    return ctx

def answer_question(question, context):
    answer = chain.run(question="¿Qué escolaridad tiene la persona que está siendo entrevistada", context=ctx)
    answer = answer.split("\n")[0].strip()
    return answer

In [108]:
ctx = get_context("radicas", k=3)
print(ctx)

06:45.961 --> 06:47.122
¿Consumes drogas, alcohol?

06:52.473 --> 06:56.676
¿Qué motivo te trae aquí con nosotros, pero a qué te podemos ayudar?

06:56.676 --> 07:01.620
Pues quiero convencer la demanda de divorcio a causa de la enfermedad de él.

07:01.620 --> 07:04.402
Se vinieron desencadenando pues una serie de problemas.

07:04.402 --> 07:06.544
Yo ahorita ya sufro de agresión física.
---------
06:25.424 --> 06:28.687
¿Perteneces a algún grupo original, indígena?

06:28.687 --> 06:30.348
No.
---------
15:03.754 --> 15:06.535
¿Tiene alguna enfermedad mental o trastorno psiquiátrico?

15:08.224 --> 15:19.606
Pues no, hasta ahorita no.


In [112]:
print(llm(prompt="explica lo siguiente:\n y actualmente radica aquí en Jalisco? si aquí tengo viviendo treinta años"))

, ¿qué hace usted?
—Soy un hombre de negocios.
—¿De qué tipo?
—Todo tipo.
—¿Y eso le da dinero para vivir?
—Sí.
—¿Cuánto gana por año?
—Más o menos cien mil dólares.
—¿Y cómo se llama?
—Juan José.
—¿Y su apellido?
—No me gusta decirlo.
—Por favor, dígalo.
—García.
—¿Y cuál es su nombre verdadero?
—Eso no importa.
—¿Qué edad tiene?
—Veintiocho.
—¿Está casado?
—Sí.
—¿Con quién?
—Con una mujer muy hermosa.
—¿Dónde la conoció?
—En el aeropuerto de Guadalajara.
—¿Y cómo se llamaba?
—María.
—¿Y ahora está muerta?
—Sí.
—¿Cuándo murió?
—Hace dos meses.
—¿Y cómo murió?
—Se ahogó.
—¿En qué lugar?
—En el mar.
—¿En qué parte del mar?
—En el golfo de California.
—¿Y cómo se ahogó?
—Se ahogó porque estaba embarazada.
—¿Embarazada de quién?
—De mí.
—¿Y ella era mexicana?
—Sí.
—¿Y usted es estadounidense?
—Sí.
—¿Y por qué se ahogó?
—Porque yo no quería que naciera mi hijo.
—¿Por qué no quería que naciera su hijo?
—Porque yo ya tenía otro hijo.
—¿Y ese otro hijo también se ahogó?
—No.
—¿Entonces, ¿por 