# Aula 02 – Introdução ao PLN

## Instalação de bibliotecas

In [None]:
%pip install -U spacy scikit-learn gensim

In [None]:
!python -m spacy download pt_core_news_sm

## Pré-processamento com spaCy

In [None]:
import spacy

# Carregando modelo de português
nlp = spacy.load("pt_core_news_sm")

texto = "O café nos permite desenvolver script e obter conhecimentos computacionais."
doc = nlp(texto)

for token in doc:
    print(f"{token.text:<12} | {token.lemma_:<12} | {token.pos_:<10}")

## Bag of Words (BoW)


O modelo BoW transforma um texto em uma matriz de ocorrência de palavras.
Vamos usar `CountVectorizer` para aplicar BoW em um corpus simples.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["gosto de Café", "Café é legal"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

print("Vocabulário:", vectorizer.get_feature_names_out())
print("Matriz BoW:\n", X.toarray())

## TF-IDF

O TF-IDF calcula a importância de cada palavra no documento levando em conta sua frequência inversa no corpus.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

print("Vocabulário:", vectorizer.get_feature_names_out())
print("Matriz TF-IDF:\n", X.toarray())

## Word Embeddings – Word2Vec

Word2Vec aprende a representação semântica das palavras com base em seus contextos.

Aqui usamos um corpus simples para ilustrar.

In [None]:
from gensim.models import Word2Vec

frases = [["Café", "é", "legal"], ["texto", "vetorial", "modelo"]]
model = Word2Vec(sentences=frases, vector_size=10, min_count=1)

print("Vetor de 'Café':\n", model.wv["Café"])
print("Palavras similares a 'Café':\n", model.wv.most_similar("Café"))
print("Similaridade entre 'Café' e 'legal':", model.wv.similarity("Café", "legal"))

## LDA – Modelagem de Tópicos

LDA (Latent Dirichlet Allocation) é um método de modelagem de tópicos que identifica temas ocultos nos documentos.

In [None]:
from gensim import corpora, models

docs = [["inteligência", "computacional"], ["Café", "texto", "dados"]]
dicionario = corpora.Dictionary(docs)
corpus = [dicionario.doc2bow(doc) for doc in docs]

lda = models.LdaModel(corpus, num_topics=2, id2word=dicionario, passes=10, iterations=50)
for idx, topic in lda.print_topics():
    print(f"Tópico {idx}: {topic}")

## Qual usar?


- Use **BoW** quando quiser simplicidade e velocidade
- Use **TF-IDF** quando palavras comuns atrapalharem seu modelo
- Use **Word2Vec** quando o significado e semântica forem importantes
- Use **LDA** quando quiser identificar temas em muitos documentos

Cada técnica tem seus usos, vantagens e limitações.