In [1]:
# # Load model
from torch import cuda, bfloat16
import transformers

model_id = "meta-llama/Llama-2-13b-chat-hf"  #'meta-llama/Llama-2-70b-chat-hf'

device = f"cuda:{cuda.current_device()}" if cuda.is_available() else "cpu"

# set quantization configuration to load large model with less GPU memory
# this requires the `bitsandbytes` library
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16,
)

# begin initializing HF items, need auth token for these
hf_auth = "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"
model_config = transformers.AutoConfig.from_pretrained(
    model_id, use_auth_token=hf_auth, cache_dir="./hub"
)

model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map="auto",
    use_auth_token=hf_auth,
    cache_dir="./hub",
)
model.eval()
print(f"Model loaded on {device}")

# # Load tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(
    model_id, use_auth_token=hf_auth, cache_dir="./hub"
)

stop_list = ["\nHuman:", "\n```\n"]

stop_token_ids = [tokenizer(x)["input_ids"] for x in stop_list]

import torch

stop_token_ids = [torch.LongTensor(x).to(device) for x in stop_token_ids]

from transformers import StoppingCriteria, StoppingCriteriaList


# define custom stopping criteria object
class StopOnTokens(StoppingCriteria):
    def __call__(
        self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs
    ) -> bool:
        for stop_ids in stop_token_ids:
            if torch.eq(input_ids[0][-len(stop_ids) :], stop_ids).all():
                return True
        return False


stopping_criteria = StoppingCriteriaList([StopOnTokens()])

generate_text = transformers.pipeline(
    model=model,
    tokenizer=tokenizer,
    return_full_text=True,  # langchain expects the full text
    task="text-generation",
    # we pass model parameters here too
    stopping_criteria=stopping_criteria,  # without this model rambles during chat
    temperature=0.0,  # 'randomness' of outputs, 0.0 is the min and 1.0 the max
    max_new_tokens=512,  # mex number of tokens to generate in the output
    repetition_penalty=1.1,  # without this output begins repeating
)

from langchain.llms import HuggingFacePipeline
from langchain.document_loaders import TextLoader
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.chains import RetrievalQA
from langchain.text_splitter import (
    RecursiveCharacterTextSplitter,
    CharacterTextSplitter,
)
from langchain.vectorstores import Chroma
from langchain.prompts import PromptTemplate
from langchain.vectorstores import Chroma, FAISS
import re
from olivia_questions import questions

llm = HuggingFacePipeline(pipeline=generate_text)

  from .autonotebook import tqdm as notebook_tqdm
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [02:23<00:00, 47.71s/it]


Model loaded on cuda:0


In [None]:
PROMPT_TEMPLATE = """Basado en los siguientes fragmentos de una entrevista, responde la pregunta del final (si en los fragmentos no se encuentra la respuesta a la pregunta del final, responde 'NA').

Fragmentos:
{context}

Pregunta:
{question}

Respuesta:
"""


In [43]:
def get_update(audio_id):
    # load document
    filepath = f"./diari/{audio_id}.vtt"
    loader = TextLoader(filepath, encoding="utf-8")
    documents = loader.load()

    # load embeddings
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/multi-qa-MiniLM-L6-cos-v1"
    )

    # clean documents
    pattern = r"\d{2}:\d{2}\.\d{3} --> \d{2}:\d{2}\.\d{3}"
    source_documents = []
    for doc in documents:
        doc.page_content = doc.page_content.replace("WEBVTT", "")
        doc.page_content = re.sub(pattern, "", doc.page_content)
        doc.page_content = doc.page_content.replace("\n\n\n", "\n\n")
        source_documents.append(doc)

    # split documents into texts
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=250)
    texts = text_splitter.split_documents(source_documents)

    # generate vectore store
    vectorstore = FAISS.from_documents(texts, embeddings)

    # generate QA chain
    prompt = PromptTemplate(
        template=PROMPT_TEMPLATE, input_variables=["context", "question"]
    )
    chain_type_kwargs = {"prompt": prompt}
    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        # retriever=vectorstore.as_retriever(search_type="mmr", search_kwargs={'k': 6}),
        retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
        chain_type_kwargs=chain_type_kwargs,
        # verbose=True
    )

    # generate patch update
    update = {}
    for qn in questions:
        query = qn["question"]
        print("Q:", query)
        answer = qa_chain.run(query)
        answer = answer.split("\n")[0].strip()
        if "categories" in qn.keys():
            print("Available Categories", qn["categories"])
            cats = Chroma.from_texts(qn["categories"], embeddings)
            scores = cats.similarity_search_with_score(answer)
            highest = max(scores, key=lambda x: x[1])
            if highest[1] < 0.5 and qn["otherKey"] is not None:
                update[qn["otherKey"]] = answer
                print("A:", answer)
            else:
                update[qn["key"]] = highest[0]
                print("A:", highest[0].page_content)
        else:
            update[qn["key"]] = answer
            print("A:", answer)
        print("\n")

    return update

import requests


def connect():
    # change endpoint and data
    # url = f"http://localhost:8080/api/login"
    url = f"https://api.olivia-fairlac.org/api/login"
    headers = {
        "Content-Type": "application/json",
        "Accept": "application/json"
    }
    data = {"email": "david@gmail.com", "password": "ol1v14"}
    response = requests.post(url, json=data, headers=headers)
    if response.status_code == 200:
        res = response.json()
        token = res["token"]
    else:
        raise Exception(response.text)
    return token


def get_expedientes(token):
    # TODO: change endpoint
    url = f"https://api.olivia-fairlac.org/api/expediente"
    headers = {
        "Authorization": f"Bearer {token}",
        "Content-Type": "application/json",
        "Accept": "application/json"
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        audio_list = response.json()
    else:
        raise Exception(response.text)
    return audio_list

def update_expediente(token, audio_id, update):
    # TODO: change endpoint
    url = f"https://api.example.com/resource/{audio_id}"
    headers = {
        "Authorization": f"Bearer {token}",
        "Content-Type": "application/json",
        "Accept": "application/json"
    }
    data = update
    response = requests.patch(url, json=data, headers=headers)
    if response.status_code == 200:
        print("PATCH request was successful.")
    else:
        raise Exception(response.text)


import whisperx
import gc
device = "cuda" 
batch_size = 8 # reduce if low on GPU mem
compute_type = "float16" # change to "int8" if low on GPU mem (may reduce accuracy)
# tmodel = whisperx.load_model("large-v2", device, compute_type=compute_type, language="es")
# model_a, metadata = whisperx.load_align_model(language_code="es", device=device)

def transcribe(audiopath):
    # 1. Transcribe with original whisper (batched)
    audio = whisperx.load_audio(audiopath)
    result = tmodel.transcribe(audio, batch_size=batch_size)
    # 2. Align whisper output
    result = whisperx.align(result["segments"], model_a, metadata, audio, device, return_char_alignments=False)
    prediction = " ".join([s["text"] for s in result["segments"]])
    return prediction

from glob import glob
from pathlib import Path
import time

def run():
    update = get_update("F-285")
    # token = connect()
    # audios = glob("audio_samples")
    # print(token)
    # for audio in audios:
    #     print(f"Processing {audio_id}\n")
    #     start_time = time.time()
    #     audiopath = Path(audio)
    #     audio_id = audiopath.stem
    #     transcription = transcribe(audiopath)
    #     try:
    #         update = get_update(audio_id)
    #         update_expediente(token, audio_id, update)
    #     except Exception as error:
    #         print(f"Error when processing {audio_id}:", error)
    #     end_time = time.time()
    #     execution_time = end_time - start_time
    #     print("\nExecution time:", execution_time, "seconds")
    #     print()


def download_audio(exp_id):
    url = f"https://olivia-files.s3.us-east-1.amazonaws.com/{exp_id}/audios/audio_{exp_id}.wav?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAXNHFTEMUZXBPW7NQ%2F20230815%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20230815T175450Z&X-Amz-Expires=86400&X-Amz-Signature=574f38123cd5d7a0370f56adeec1eac099bba2897458ca47ac23af1103f2255e&X-Amz-SignedHeaders=host&x-id=GetObject"
    response = requests.get(url)
    if response.status_code == 200:
        with open(f"{exp_id}.wav", "wb") as file:
            file.write(response.content)
        print("File downloaded successfully.")
    else:
        print(f"Failed to download file. Status code: {response.status_code}")


In [44]:
token = connect()
exps = get_expedientes(token)["docs"]
for exp in exps:
    if exp["audio_procesado"] == False:
        print(exp['_id'])
        download_audio(exp['_id'])
        print()

64dbb5286fbd221ffb8209ec
File downloaded successfully.

64d40e69dcd910569f2ac28a
Failed to download file. Status code: 403

64d3ed62dcd910569f2ac188
Failed to download file. Status code: 403

64d2cd10386122773adc6a19
Failed to download file. Status code: 403

64d27a79386122773adc6967
Failed to download file. Status code: 403

64d27665386122773adc68cc
Failed to download file. Status code: 403

64d2666f386122773adc6826
Failed to download file. Status code: 403

64d12a86849d7160c7314aed
Failed to download file. Status code: 403

64d1150d849d7160c7314ac2
Failed to download file. Status code: 403



In [15]:
run()

Q: ¿Cuál es el nombre completo de la persona que está siendo entrevistada?
A: No se puede determinar con certeza el nombre completo de la persona que está siendo entrevistada basado en los fragmentos proporcionados.


Q: ¿Con qué genero se identifica la persona que está siendo entrevistada? Responde 'femenino' o 'masculino'
A: Femenino


Q: ¿Cuál es el sexo de la persona que está siendo entrevistada? Responde 'hombre' o 'mujer'


Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3


Available Categories ['mujer', 'hombre', 'intersexual']
A: hombre


Q: ¿Qué fecha de nacimiento tiene la persona que está siendo entrevistada?
A: 19 de septiembre del 82.


Q: ¿Qué nacionalidad tiene la persona que está siendo entrevistada?
A: Mexicana


Q: ¿En dónde nació la persona que está siendo entrevistada?
A: No se especifica.


Q: ¿En dónde radica actualmente la persona que está siendo entrevistada?
A: No sé, mi pareja es extranjero.


Q: ¿Cuál es el número de contacto? Responde con el número telefónico.
A: El número de contacto es 3319-71-4459.


Q: ¿Cuál es el domicilio de la persona que está siendo entrevistada?
A: Campo Castillo número 1139.


Q: ¿Qué escolaridad tiene la persona que está siendo entrevistada?
Available Categories ['kinder_o_preescolar', 'primaria', 'secundaria', 'preparatoria_o_bachillerato', 'normal', 'carrera_tecnica_o_comercial', 'licenciatura_o_superior', 'posgrado', 'ninguno']
A: licenciatura_o_superior


Q: ¿La escolaridad de la persona que está siend

Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3


Available Categories ['en_curso', 'terminada', 'trunca']
A: en_curso


Q: ¿Tiene seguridad social la persona que está siendo entrevistada?
Available Categories ['imss', 'issste', 'pemex', 'sedena', 'insabi', 'privado']
A: privado


Q: ¿A qué se dedica actualmente la persona entrevistada?
Available Categories ['jornalera_o_albaniil', 'empleada_o_obrera_o', 'labores_del_hogar', 'estudios', 'negocio_propio', 'deporte', 'jubilado_pensionado', 'ninguna']
A: empleada_o_obrera_o


Q: ¿Qué estado civil tiene la persona que está siendo entrevistada?
Available Categories ['union_libre', 'casada_o', 'separada_o', 'divorciada_o', 'viuda_o', 'soltera_o']
A: separada_o


Q: ¿Con qué régimen matrimonial está casada la persona que está siendo entrevistada?


Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3


Available Categories ['separacion_de_bienes', 'sociedad_legal', 'sociedad_conyugal_o_voluntaria']
A: sociedad_legal


Q: ¿Cuáles son las características de la casa en la que vive la persona que está siendo entrevistada?
Available Categories ['casa_independiente', 'departamento_en_edificio_o_unidad_habitacional', 'departamento_en_vecindad', 'cuarto_en_la_azotea', 'local_no_construido_para_habitacion', 'casa_o_departamento_en_terreno_familiar', 'casa_movil_refugio', 'asilo', 'orfanato_o_convento', 'no_tiene_vivienda']
A: local_no_construido_para_habitacion


Q: ¿La vivienda en la que la persona que está siendo entrevistada es compartida?


Number of requested results 4 is greater than number of elements in index 2, updating n_results = 2


Available Categories ['amistades', 'familiares']
A: familiares


Q: ¿Cuántas personas viven en la casa de la persona que está siendo entrevistada?
A: Tres.


Q: ¿Quién aporta el mayor ingreso dentro del hogar?
A: No sé.


Q: ¿Cuál es el motivo de la atención (sé especifico)?
A: No hay un motivo específico de atención, sino que se trata de una entrevista para recopilar información sobre una situación de defraudación y violencia en el ámbito familiar.


Q: ¿Ha tenido que ser atendida en una institución médica o por personal médico como consecuencia de un evento de violencia con la persona agresora? Responde sí o no.
A: No


Q: ¿Cuál fue el último episodio de violencia? Describelo con detalle
A: No, no ha habido violencia reciente.


Q: Nombre de la persona agresora
A: No se encuentra la respuesta en los fragmentos proporcionados.


Q: Edad de la persona agresora
A: No se menciona la edad de la persona agresora en los fragmentos proporcionados.


Q: ¿Cuál es el domicilio de la persona agr