In [None]:
!pip install pymupdf
!pip install tiktoken
!pip install spacy
!pip install nltk
!python -m spacy download en_core_web_sm

In [2]:
import fitz
import tiktoken
import spacy
from nltk.tokenize import word_tokenize

In [3]:
INSTRUCTION_PDF = "Você é um professor e irá analisar um texto, analise isso no contexto de que esse é um documento em PDF."
PROMPT_PDF = """Identifique até 7 palavras-chave essenciais para fazer a indexação da transcrição de um documento em PDF e forneça-as 
                em uma única string separada por vírgulas, para que os alunos possam localizar facilmente partes relevantes do texto. 
                As palavras-chave devem ser extraídas do seguinte texto: """

In [4]:
def extract_text(pdf_path):
    doc = fitz.open(pdf_path)
    text = ""
    for page_num in range(doc.page_count):
        page = doc.load_page(page_num)
        text += page.get_text()
    return text

In [5]:
def tokenize_tiktoken(text):
    encoder = tiktoken.encoding_for_model("gpt-3.5-turbo")
    tokens = encoder.encode(text)
    return len(tokens)


In [6]:
def tokenize_spacy(text):
    nlp = spacy.load("en_core_web_sm")
    doc = nlp(text)
    return len(doc)

In [7]:
def tokenize_nltk(text):
    tokens = word_tokenize(text)
    return len(tokens)

In [None]:
pdf_path = "pdf.pdf"
text = extract_text(pdf_path)
full_text = INSTRUCTION_PDF +  PROMPT_PDF + text

In [None]:
token_tiktoken = tokenize_tiktoken(full_text)
print("Tiktoken: ", token_tiktoken)

token_spacy = tokenize_spacy(full_text)
print("Spacy: ", token_spacy)

token_nltk = tokenize_nltk(full_text)
print("Nltk: ", token_nltk)