In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
!nvidia-smi

Mon Feb 24 18:20:59 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.144.03             Driver Version: 550.144.03     CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA RTX A5000               Off |   00000000:01:00.0 Off |                  Off |
| 57%   83C    P2            226W /  230W |    6392MiB /  24564MiB |    100%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

In [3]:
import os

if 'notebooks' in os.getcwd():
    os.chdir("..")


from datasets import load_dataset, Dataset
from huggingface_hub import notebook_login
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests
import json
import time
import csv
from concurrent.futures import ThreadPoolExecutor, as_completed
from tqdm import tqdm
from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import aiohttp
import asyncio
from tqdm.asyncio import tqdm
import torch
import scienceplots
plt.style.use(['science', 'no-latex'])
from IPython.display import clear_output

from src.text_utils import trim_text_to_token_limit
from unsloth import FastLanguageModel
from unsloth.chat_templates import get_chat_template
from langdetect import detect

tqdm.pandas()

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!


In [4]:
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct", cache_dir = '/Data')

In [5]:
torch.cuda.set_per_process_memory_fraction(0.6, device=0)


In [4]:
base_data = pd.read_json("data/wikipedia_dataset.json")

## Loading data

In [5]:
generated_df = pd.read_pickle("data/generated_dataset_Qwen2.5-0.5B-Instruct.pkl")

In [12]:
reference_summary = pd.read_pickle("data/generated_dataset_100_Meta-Llama-3.1-8B-Instruct-bnb-4bit_2.pkl")

In [6]:
generated_df['language'] = generated_df['generated_text'].progress_apply(detect)

  0%|          | 0/5000 [00:00<?, ?it/s]

100%|██████████| 5000/5000 [00:13<00:00, 369.93it/s]


In [10]:
print(generated_df.iloc[0]['generated_text'])

A Los Angeles Lakers é uma equipe de basquetebol americana que ganhou vários títulos e recordes. A equipe foi fundada em 1947 em Minneapolis, onde o nome "Lakers" é uma referência ao estado de Minnesota, que é conhecido como "Terra dos Mil Lagos". A equipe foi muito popular, com mais de 56 aparições na temporada de 1960, 33 títulos da Divisão do Pacífico e 32 títulos da Conferência Oeste.

A equipe também é conhecida por ter um time de grande qualidade, com vários recordes. O Lakers é o time mais popular da NBA, com mais vitórias (3000) e mais pontos (3000) do que qualquer outra equipe. O time também é conhecido por ter um jogador de grande qualidade, George Mikan, que foi o general manager do time.

A equipe também é conhecida por ter um jogador de grande qualidade, Elgin Baylor, que foi o jogador de maior média de pontos (24,9 pontos por jogo) e rebotes (15 pontos por jogo) em sua primeira temporada. O time também teve um jogador de grande qualidade, Jerry West, que foi o jogador de 

In [13]:
print(reference_summary.iloc[0]['generated_text'])

O Los Angeles Lakers é um time de basquetebol da NBA com sede em Los Angeles, Califórnia. Fundado em 1947 em Minneapolis, o time venceu cinco títulos da liga antes de se mudar para Los Angeles em 1960. Com estrelas como George Mikan, Jerry West, Wilt Chamberlain, Elgin Baylor e Magic Johnson, o Lakers é uma das franquias mais populares da NBA, com 17 títulos e 56 aparições na pós-temporada. A equipe também é conhecida por sua rivalidade com o Boston Celtics e por ter sido liderada por técnicos como John Kundla e Phil Jackson.<|eot_id|>


In [22]:
mask = generated_df['language'] == 'en'
generated_df[mask]

Unnamed: 0,id,generated_text,language
16,230018,Joseph Priestley (1733-1804) was a British the...,en
110,13261,O rock é um gênero musical que se desenvolveu ...,en
327,1668,Rembrandt van Rijn (1606-1669) was a Dutch pai...,en
337,9019,John Locke (1632-1704) was a British philosoph...,en
361,48024,Johannes Kepler (1571-1630) was a German astro...,en
377,19175,O Celtic Frost foi uma banda de metal formada ...,en
567,7632,Adam Smith (1723-1790) was a Scottish philosop...,en
612,35448,"Sir James Paul McCartney, conhecido como McCar...",en
613,5571703,A série Stranger Things é uma série de televis...,en
615,9902,O Red Hot Chili Peppers é uma banda de rock do...,en


In [27]:
print(base_data.query("id == 230018")['text'].item())

Joseph Priestley (Birstall,  (Velho estilo) – Northumberland, ) foi um teólogo, clérigo dissidente, filósofo natural, educador, teórico e político britânico que publicou mais de 150 obras. A ele normalmente é creditada a descoberta do oxigênio, apesar de Carl Wilhelm Scheele e Antoine Lavoisier também a reivindicarem, por ter Priestley escondido a descoberta do novo gás.

Durante sua vida, a considerável reputação científica de Priestley baseou-se em seu invento da "água carbonatada", seus escritos sobre a electricidade, e sua descoberta de vários "ares" (gases), sendo a mais famosa dentre suas descobertas o "ar deflogisticado" (oxigênio). No entanto, sua determinação em defender a Teoria do flogisto para rejeitar o que passaria a ser a Revolução Química, eventualmente deixava o invento oculto no interior da comunidade científica.

A ciência de Priestley foi sempre associada a sua teologia, e ele tentou consistentemente unir racionalismo iluminista com o teísmo cristão. Em seus textos 

In [23]:
print(generated_df[mask].iloc[0]['generated_text'])

Joseph Priestley (1733-1804) was a British theologian, philosopher, educator, and politician who was a key figure in the development of the field of natural philosophy. He was a prolific writer, and his works include "Observations on Man" (1749), "The Rudiments of English Grammar" (1761), and "The History and Present State of Electricity" (1768). Priestley's influence on the field of natural philosophy was significant, and he was a key figure in the development of the utilitarian philosophy of the Enlightenment. He was a member of the Royal Society and a founding member of the Royal Institute.<|im_end|>
