In [1]:
import whisper
import torch
import yt_dlp as youtube_dl
from pydub import AudioSegment
from IPython.display import Audio
from huggingface_hub import login

import os
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
)

device = "cuda" if torch.cuda.is_available() else "cpu"



# Helper functions

In [33]:
import yt_dlp

def get_youtube_video_title(url):
    ydl_opts = {}
    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        info_dict = ydl.extract_info(url, download=False)
        video_title = info_dict.get('title', None)
    return video_title

def get_youtube_video_metadata(video_url):
    ydl_opts = {
        'skip_download': True,  # Não baixa o vídeo
        'extract_flat': True,   # Não extrai streams de mídia, só metadados
    }
    
    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        info_dict = ydl.extract_info(video_url, download=False)

    return info_dict


In [3]:
import re

def remove_special_characters(text):
    return re.sub(r'[^A-Za-z0-9\s]+', '', text)

In [34]:
import yt_dlp

video_url = 'https://www.youtube.com/watch?v=tvIzBouq6lk'

video_metadata = get_youtube_video_metadata(video_url)


[youtube] Extracting URL: https://www.youtube.com/watch?v=tvIzBouq6lk
[youtube] tvIzBouq6lk: Downloading webpage
[youtube] tvIzBouq6lk: Downloading ios player API JSON
[youtube] tvIzBouq6lk: Downloading web creator player API JSON
[youtube] tvIzBouq6lk: Downloading m3u8 information


In [36]:
video_metadata.keys()

dict_keys(['id', 'title', 'formats', 'thumbnails', 'thumbnail', 'description', 'channel_id', 'channel_url', 'duration', 'view_count', 'average_rating', 'age_limit', 'webpage_url', 'categories', 'tags', 'playable_in_embed', 'live_status', 'release_timestamp', '_format_sort_fields', 'automatic_captions', 'subtitles', 'comment_count', 'chapters', 'heatmap', 'like_count', 'channel', 'channel_follower_count', 'uploader', 'uploader_id', 'uploader_url', 'upload_date', 'timestamp', 'availability', 'original_url', 'webpage_url_basename', 'webpage_url_domain', 'extractor', 'extractor_key', 'playlist', 'playlist_index', 'display_id', 'fulltitle', 'duration_string', 'release_year', 'is_live', 'was_live', 'requested_subtitles', '_has_drm', 'epoch', 'requested_formats', 'format', 'format_id', 'ext', 'protocol', 'language', 'format_note', 'filesize_approx', 'tbr', 'width', 'height', 'resolution', 'fps', 'dynamic_range', 'vcodec', 'vbr', 'stretched_ratio', 'aspect_ratio', 'acodec', 'abr', 'asr', 'audi

In [37]:
video_metadata["title"]

'NLP Demystified 14: Machine Translation With Sequence-to-Sequence and Attention'

In [45]:
video_metadata["heatmap"]

# Fazendo download de vídeo do youtube

In [4]:
VIDEO_URL = 'https://www.youtube.com/watch?v=tvIzBouq6lk'
TRANSCRIPTION_LANGUAGE = "en"

#### Obtendo o nome do vídeo

In [5]:
video_title = get_youtube_video_title(VIDEO_URL)
print(f'Título do vídeo:\n\t"{video_title}"')
video_title = remove_special_characters(video_title).lower().replace(" ","-")
print(f'Formated label:\n\t"{video_title}"')

[youtube] Extracting URL: https://www.youtube.com/watch?v=tvIzBouq6lk
[youtube] tvIzBouq6lk: Downloading webpage
[youtube] tvIzBouq6lk: Downloading ios player API JSON
[youtube] tvIzBouq6lk: Downloading web creator player API JSON
[youtube] tvIzBouq6lk: Downloading m3u8 information
Título do vídeo:
	"NLP Demystified 14: Machine Translation With Sequence-to-Sequence and Attention"
Formated label:
	"nlp-demystified-14-machine-translation-with-sequencetosequence-and-attention"


#### Download do vídeo

In [6]:
%%time

ydl_opts = {
    'format': 'bestaudio/best',
    'postprocessors': [{
        'key': 'FFmpegExtractAudio',
        'preferredcodec': 'mp3',
        'preferredquality': '192',
    }],
    'outtmpl': f'data/{video_title}.%(ext)s',
}

with youtube_dl.YoutubeDL(ydl_opts) as ydl:
    ydl.download([VIDEO_URL])

[youtube] Extracting URL: https://www.youtube.com/watch?v=tvIzBouq6lk
[youtube] tvIzBouq6lk: Downloading webpage
[youtube] tvIzBouq6lk: Downloading ios player API JSON
[youtube] tvIzBouq6lk: Downloading web creator player API JSON
[youtube] tvIzBouq6lk: Downloading m3u8 information
[info] tvIzBouq6lk: Downloading 1 format(s): 251
[download] Destination: data/nlp-demystified-14-machine-translation-with-sequencetosequence-and-attention.webm
[download] 100% of   62.43MiB in 00:00:26 at 2.33MiB/s     
[ExtractAudio] Destination: data/nlp-demystified-14-machine-translation-with-sequencetosequence-and-attention.mp3
Deleting original file data/nlp-demystified-14-machine-translation-with-sequencetosequence-and-attention.webm (pass -k to keep)
CPU times: user 1.84 s, sys: 365 ms, total: 2.2 s
Wall time: 1min 32s


# Text-to-Speech

In [8]:
print(whisper.available_models())

['tiny.en', 'tiny', 'base.en', 'base', 'small.en', 'small', 'medium.en', 'medium', 'large-v1', 'large-v2', 'large-v3', 'large']


In [9]:
%%time

model = whisper.load_model("large").to(device)

CPU times: user 22.3 s, sys: 3.27 s, total: 25.6 s
Wall time: 17.3 s


In [10]:
%%time

audio_filename = f"data/{video_title}.mp3"
raw_text_filename = f"data/raw_{video_title}.txt"


result = model.transcribe(audio_filename, language=TRANSCRIPTION_LANGUAGE)

with open(raw_text_filename, "w") as f:
    f.write(result["text"])

CPU times: user 14min 6s, sys: 3.32 s, total: 14min 9s
Wall time: 14min


In [12]:
import gc

try:
    del model
except:
    pass
    
gc.collect()

torch.cuda.empty_cache()

# Sintetizando o texto

In [16]:
import tiktoken
from langchain.callbacks import get_openai_callback
from langchain_openai import ChatOpenAI

LLM_MODEL = "gpt-4o-mini"
INPUT_PRICE = 0.150 # per million
OUTPUT_PRICE = 0.600 # per million

In [22]:
%%time
from tqdm import tqdm
from langchain.prompts import PromptTemplate
from pathlib import Path

Path(f"data/translate-{video_title}").mkdir(parents=True, exist_ok=True)

sections = [
	"Seq2Seq and Attention",
	"Seq2Seq as a general problem-solving approach",
	"Translating language with a seq2seq model",
	"Machine translation challenges",
	"Effective decoding with Beam Search",
	"Evaluating translation models with BLEU",
	"The information bottleneck",
	"Overcoming the bottleneck with Attention",
	"Additive vs Multiplicative Attention",
	"[DEMO] Neural Machine Translation WITHOUT Attention",
	"[DEMO] Neural Machine Translation WITH Attention",
	"Attention as information retrieval",
]

text_template = (
    "Considere o seguinte texto:\n"
    "<text>{text}</text>\n"
    f"Ele tem as seguintes seções: {str(sections)}"
    "Pode gerar um texto didático que explique a seção {section}"
)

prompt = PromptTemplate(input_variables=["text", "section"], template=text_template)
llm = ChatOpenAI(temperature=0, model=LLM_MODEL)

chain = prompt | llm

CPU times: user 43 ms, sys: 1.01 ms, total: 44 ms
Wall time: 43.4 ms


In [24]:
%%time

section = "Seq2Seq and Attention"

with open(raw_text_filename, "r") as f:
    text = f.read()

cost = 0

with get_openai_callback() as cb:
    summary = chain.invoke({"text": text, "section": section})
    cost += cb.total_cost

print(f"cost = {cost * 6}")

cost = 0.00263235
CPU times: user 75.7 ms, sys: 32.1 ms, total: 108 ms
Wall time: 11.5 s


In [27]:
from IPython.display import Markdown
Markdown(summary.content)

### Seq2Seq and Attention

A arquitetura Seq2Seq (Sequence-to-Sequence) é uma abordagem fundamental em tarefas de processamento de linguagem natural (NLP), especialmente em tradução automática. Essa arquitetura é projetada para transformar uma sequência de entrada em uma sequência de saída, permitindo que o modelo lide com entradas e saídas de comprimentos variáveis. A estrutura básica de um modelo Seq2Seq consiste em dois componentes principais: o **encoder** e o **decoder**.

#### Encoder

O encoder é responsável por processar a sequência de entrada. Ele recebe a sequência, que pode ser uma frase em um idioma, e a transforma em uma representação interna, geralmente chamada de "embedding" ou "vetor de estado". Este vetor captura as informações essenciais da sequência de entrada, permitindo que o modelo compreenda o contexto e as relações entre as palavras. O encoder pode ser implementado usando redes neurais recorrentes (RNNs), como LSTMs ou GRUs, que são eficazes em lidar com dados sequenciais.

#### Decoder

O decoder, por sua vez, utiliza a representação gerada pelo encoder para produzir a sequência de saída. No caso da tradução, isso significa gerar a frase correspondente em outro idioma. O decoder é alimentado com o vetor de estado final do encoder e começa a gerar a saída palavra por palavra. Para cada palavra gerada, o decoder considera a palavra anterior e o vetor de estado, permitindo que ele produza uma sequência coerente.

#### Desafios do Modelo Seq2Seq

Embora a arquitetura Seq2Seq seja poderosa, ela enfrenta um desafio significativo conhecido como **bottleneck de informação**. O encoder deve compactar toda a informação da sequência de entrada em um único vetor de estado, o que pode resultar em perda de informações, especialmente em sequências longas. Isso ocorre porque o vetor final precisa representar toda a complexidade da entrada, o que pode ser difícil de realizar.

#### Introduzindo a Atenção

Para superar esse bottleneck, introduzimos o mecanismo de **atenção**. A atenção permite que o decoder acesse não apenas o vetor de estado final do encoder, mas também todos os estados ocultos gerados durante o processamento da sequência de entrada. Isso significa que, em vez de depender de uma única representação, o decoder pode "prestar atenção" em diferentes partes da sequência de entrada conforme necessário.

O funcionamento do mecanismo de atenção é simples: em cada passo de decodificação, o decoder calcula uma pontuação de atenção para cada estado oculto do encoder, determinando quais partes da entrada são mais relevantes para a palavra que está sendo gerada. Essas pontuações são normalizadas usando uma função softmax, resultando em pesos de atenção que indicam a importância de cada estado oculto. O vetor de contexto é então calculado como uma combinação ponderada dos estados ocultos, permitindo que o decoder utilize informações relevantes de toda a sequência de entrada.

#### Benefícios da Atenção

O uso da atenção traz vários benefícios:

1. **Melhor Captura de Contexto**: O decoder pode acessar informações de diferentes partes da sequência de entrada, melhorando a qualidade da saída.
2. **Flexibilidade**: O modelo pode lidar com sequências de entrada e saída de comprimentos diferentes, sem a necessidade de um vetor de estado fixo.
3. **Desempenho Aprimorado**: Modelos que utilizam atenção tendem a ter um desempenho superior em tarefas de tradução e outras aplicações de NLP.

Em resumo, a arquitetura Seq2Seq, combinada com o mecanismo de atenção, representa um avanço significativo na capacidade dos modelos de aprendizado de máquina de lidar com tarefas complexas de linguagem, permitindo traduções mais precisas e contextualmente relevantes.

# Traduzindo o texto


In [13]:
import tiktoken
from langchain.callbacks import get_openai_callback
from langchain_openai import ChatOpenAI

LLM_MODEL = "gpt-4o-mini"
INPUT_PRICE = 0.150 # per million
OUTPUT_PRICE = 0.600 # per million

In [14]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders.text import TextLoader

book = TextLoader(raw_text_filename).load()
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000, 
    chunk_overlap=0, 
    separators=[". "],
    keep_separator=False,
)
paragraphs = text_splitter.split_documents(book)

In [105]:
%%time
from tqdm import tqdm
from langchain.prompts import PromptTemplate
from pathlib import Path

Path(f"data/translate-{video_title}").mkdir(parents=True, exist_ok=True)

text_template = (
    "Traduza o seguinte para português, mantendo os jargões técnicos em inglês. Não retorne nada exceto a tradução:\n"

    "{text}"

)

prompt = PromptTemplate(input_variables=["text"], template=text_template)
llm = ChatOpenAI(temperature=0, model=LLM_MODEL)

chain = prompt | llm

cost = 0
with tqdm(total=len(paragraphs)) as pbar:
    pbar.set_description(f"Custo = {round(cost*6, 4)} | Percentual")
    for i, p in enumerate(paragraphs):
        with get_openai_callback() as cb:
            summary = chain.invoke({"text": p.page_content+". "})
            cost += cb.total_cost
    
        with open(f"data/translate-{video_title}/{str(i).zfill(2)}.txt", "w") as f:
            f.write(summary.content)
        
        pbar.set_description(f"Custo = {round(cost*6, 4)} | Percentual")
        pbar.update(1)

Custo = 0.0686 | Percentual: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 35/35 [02:21<00:00,  4.05s/it]

CPU times: user 799 ms, sys: 299 ms, total: 1.1 s
Wall time: 2min 21s





In [106]:
text_pieces = []
for i, p in enumerate(paragraphs):
    with open(f"data/translate-{video_title}/{str(i).zfill(2)}.txt", "r") as f:
        text_pieces.append(f.read())

text = " ".join(text_pieces)

with open(f"data/translated-{video_title}.txt", "w") as f:
    f.write(text)


# Gerando Questões

In [None]:
import gc

try:
    del model
except:
    pass
    
gc.collect()

torch.cuda.empty_cache()

In [114]:
class LanguageModel:

    def __init__(self, tokenizer, model, device):
        self.tokenizer = tokenizer
        self.model = model
        self.device = device
        if self.tokenizer.pad_token_id is None:
            self.tokenizer.pad_token_id = self.tokenizer.eos_token_id

    def tokenize(self, messages):
        text = tokenizer.apply_chat_template(
            messages, tokenize=False, add_generation_prompt=True
        )
        model_inputs = tokenizer([text], return_tensors="pt").to(self.device)
        return model_inputs

    def generate(self, messages, max_new_tokens=2000, **kwargs):
        model_inputs = self.tokenize(messages)
        model_inputs["attention_mask"] = model_inputs["attention_mask"].to(
            model_inputs["input_ids"].device
        )
        generated_ids = model.generate(
            model_inputs.input_ids,
            max_new_tokens=max_new_tokens,
            do_sample=True,
            attention_mask=model_inputs["attention_mask"],
            pad_token_id=self.tokenizer.pad_token_id,
            **kwargs
        )
        generated_ids = [
            output_ids[len(input_ids) :]
            for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
        ]
        return tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

In [115]:
compute_dtype = torch.float16
attn_implementation = "flash_attention_2"

In [122]:
from transformers import AutoModelForCausalLM, AutoTokenizer

login(token=os.environ["HUGGINGFACE_TOKEN"])

model_id = "emdemor/question-generator-v2"
commit_hash = None


# A quantização é uma técnica para reduzir o tamanho do modelo e aumentar a eficiência computacional.
# Utilizamos a classe BitsAndBytesConfig para configurar a quantização em 4 bits, o que reduz o uso de memória e acelera o treinamento.
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=True,
)

# Usamos a classe AutoModelForCausalLM para carregar um modelo pré-treinado adequado para modelagem de linguagem causal.
# Parâmetros importantes incluem:
#  - torch_dtype=compute_dtype: Define o tipo de dado para o modelo.
#  - quantization_config=bnb_config: Aplica a configuração de quantização.
#  - device_map="auto": Distribui automaticamente o modelo nos dispositivos disponíveis.
#  - attn_implementation=attn_implementation: Define a implementação da atenção.
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=compute_dtype,
    trust_remote_code=True,
    quantization_config=bnb_config,
    device_map="auto",
    attn_implementation=attn_implementation,
    revision=commit_hash,
)

# # adapta o modelo para o treinamento em k-bits, otimizando ainda mais o desempenho.
# model = prepare_model_for_kbit_training(model)


def set_tokenizer(model_id):
    tokenizer = AutoTokenizer.from_pretrained(model_id, revision=commit_hash)
    tokenizer.padding_side = "right"
    return tokenizer


tokenizer = set_tokenizer(model_id)

llm = LanguageModel(tokenizer, model, device="cuda")

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /root/.cache/huggingface/token
Login successful


A new version of the following files was downloaded from https://huggingface.co/microsoft/Phi-3.5-mini-instruct:
- configuration_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
A new version of the following files was downloaded from https://huggingface.co/microsoft/Phi-3.5-mini-instruct:
- modeling_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [124]:
def generate_question(context, temperature=0.01):
    return llm.generate([{"content": f"{context}", "role": "user"}], temperature=temperature)

In [127]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders.text import TextLoader


book = TextLoader(f"data/translated-{video_title}.txt").load()
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000, 
    chunk_overlap=0, 
    separators=[". "],
    keep_separator=False,
)
paragraphs = text_splitter.split_documents(book)

In [199]:
%%time
import json
from json import JSONDecodeError
from tqdm.notebook import tqdm
import pandas as pd
import json
import re
csv_filename = f"data/questions-{video_title}.csv"
pd.DataFrame().to_csv(csv_filename)

print("Endereço =",csv_filename)



def correct_json(json_string):
    corrected_json_string = json_string
    if json_string[-2:] in ["]]", "]}"]:
        corrected_json_string  = corrected_json_string[:-1]
    return corrected_json_string


def generate(p):
    temperature = 0.01

    for i in range(10):
        try:     
            qa_pairs_string = generate_question(p.page_content, temperature=temperature)
            qa_pairs_string = correct_json(qa_pairs_string)
            qa_pairs = json.loads(qa_pairs_string)
            base_df = pd.read_csv(csv_filename)
            updated_df = pd.concat([base_df, pd.DataFrame(qa_pairs)])
            updated_df.to_csv(csv_filename, index=False)
            return
        except JSONDecodeError as err:
            temperature += 0.05
            continue


for p in tqdm(paragraphs, total=len(paragraphs)):
    generate(p)

Endereço = data/questions-nlp-demystified-13-recurrent-neural-networks-and-language-models.csv


  0%|          | 0/37 [00:00<?, ?it/s]

CPU times: user 23min 9s, sys: 735 ms, total: 23min 10s
Wall time: 23min 9s
