# Processamento de linguagem natural (PLN) - Láb 5

In [None]:
pip install -U langchain sentence_transformers pdfplumber spacy nltk chromadb

In [3]:
! python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m27.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [None]:
pip install langchain-chroma

# PLN com Embedding em VectorDB

## Bibliotecas para PLN

### Chunks e embeddings

In [1]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from sentence_transformers import SentenceTransformer

  from .autonotebook import tqdm as notebook_tqdm


### Leitura de PDF

In [5]:
import pdfplumber

### Tratamento de texto

In [3]:
import re
import spacy
import nltk
from nltk.corpus import stopwords

(Rodar apenas uma vez)

In [4]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/gustavoalves/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

---

### Bibliotecas para Banco de Dados Vetorial (Vector Database)

In [5]:
import chromadb

In [24]:
from langchain_chroma import Chroma

### Aplicando PLN - Preparação de texto

In [4]:
# Carregando PDFs

def read_pdf(pdf_path):
    pdf_reader = pdfplumber.open(pdf_path)

    page = pdf_reader.pages[0]

    text = ''

    for page in pdf_reader.pages:
        text += page.extract_text()
    
    text = text.replace('\n', " ")
    
    return text

In [6]:
# Carregando PDFs

def read_pdf2(pdf_path):
    pdf_reader = pdfplumber.open(pdf_path)

    page = pdf_reader.pages[0]

    text = ''

    for page in pdf_reader.pages:
        text += page.extract_text()
    
    # text = text.replace('\n', " ")
    
    return text

In [8]:
# Carregando PDF

file_path = 'Classificação_de_objetos_celestes.pdf'

pdf_text = read_pdf(file_path)

In [29]:
len(pdf_text)

64064

In [30]:
pdf_text



## PLN

In [25]:
nlp = spacy.load('pt_core_news_sm')

### Definir stopwords

In [31]:
api_stop_words = set(stopwords.words('portuguese'))

minhas_stop_words = {'a', 'e', 'i', 'o', 'u'} # Juntando minhas stopwords com as já definidas no stopwords

stop_words = api_stop_words | minhas_stop_words

In [32]:
# 

def tratamento_pln(text):

    # 1. normalização: todos os caracteres de minúsculas
    text = text.lower()

    # 2. remoção de números, pontuações e caracteres especiais
    text = re.sub(r'[^a-zA-Záéíóú\s]','', text) # na regex estão as exceções 

    # 3. tokenização com spacy 
    doc = nlp(text)
    tokens = [token.text for token in doc]

    # 4. remoção de stopwords, remoção de pontuação
    # e Lematização (clean_tokens = tokens lematizados e sem stopwords)
    clean_tokens = [token.lemma_ for token in doc if token.text not in stop_words and not token.is_punct]

    clean_text = ' '.join(clean_tokens)

    return clean_text


In [33]:
# Visualizando stop words
print("Tamanho do conjunto stop_words:", len(stop_words), "\nStop_words ordenadas: \n", sorted(list(stop_words)))

Tamanho do conjunto stop_words: 209 
Stop_words ordenadas: 
 ['a', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'essa', 'essas', 'esse', 'esses', 'esta', 'estamos', 'estar', 'estas', 'estava', 'estavam', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéramos', 'estivéssemos', 'estou', 'está', 'estávamos', 'estão', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'forem', 'formos', 'fosse', 'fossem', 'fui', 'fôramos', 'fôssemos', 'haja', 'hajam', 'hajamos', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houveram', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houvermos', 'houverá', 'houverão', 'houveríamos', 'houvesse', 'houvessem', '

In [34]:
treated_pdf_text = tratamento_pln(pdf_text)

In [36]:
print("Tamanho do texto em caracteres:",len(pdf_text))

Tamanho do texto em caracteres: 64064


In [35]:
treated_pdf_text



#### Chunks

In [43]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=40, chunk_overlap=15)

In [44]:
chunks = text_splitter.split_text(treated_pdf_text)

In [46]:
print(chunks[:3], len(chunks))

['classificao objeto celeste february', 'february     introduo característica', 'característica espectral so fundamental'] 1769


### Modelo de embedding (all-MiniLM-L6-v2)

In [47]:
model = SentenceTransformer('all-MiniLM-L6-v2')

In [48]:
embeddings = model.encode(chunks)

In [None]:
print(embeddings[1], len(embeddings))

### 

In [53]:
uids = [f'doc_ {i}' for i in range(len(chunks))]

### ChromaDB

In [54]:
# Criando banco de dados
client = chromadb.Client()

collection = client.create_collection(name='teste')

collection.add(documents=chunks, embeddings=embeddings, ids=uids)

In [62]:
query_embedding = model.encode(['Atributos físicos'])

In [67]:
results = collection.query(query_embeddings=query_embedding, n_results=3)

In [68]:
results

{'ids': [['doc_ 1047', 'doc_ 224', 'doc_ 1023']],
 'embeddings': None,
 'documents': [['propriedade unidade físico atributo ir',
   'anosluz via lácteo    atributo físico',
   'físico real havíamos prever grande']],
 'uris': None,
 'data': None,
 'metadatas': [[None, None, None]],
 'distances': [[0.6899502277374268, 0.7843979597091675, 0.8140177726745605]],
 'included': [<IncludeEnum.distances: 'distances'>,
  <IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [69]:
for i in range(len(results['ids'][0])):
    doc_id = results['ids'][0][i]
    distance = results['distances'][0][i]
    document = results['documents'][0][i]

In [70]:
print(f"ID: {doc_id}")
print(f"Distância: {distance}")
print(f"Documento: {document}")
print("-" * 20)

ID: doc_ 1023
Distância: 0.8140177726745605
Documento: físico real havíamos prever grande
--------------------
