# Aula 01 – Introdução ao PLN


O **Processamento de Linguagem Natural (PLN)** é um campo da Inteligência Artificial que permite que máquinas entendam e interajam com linguagem humana.

### Exemplos de uso:
- Chatbots e assistentes virtuais (Siri, Alexa, ChatGPT)
- Análise de sentimento em redes sociais
- Corretores ortográficos e de gramática
- Tradução automática

## Instalação das bibliotecas

In [None]:
%pip install nltk spacy

## Importação de bibliotecas

In [None]:
import nltk
import spacy

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

nltk.download('punkt_tab')
nltk.download('stopwords')

## Texto exemplo para análise

In [None]:
texto = "Mais vale um asno que me carregue que um cavalo que me derrube."
print(texto)

## Tokenização com NLTK

In [None]:
tokens_nltk = word_tokenize(texto, language='portuguese')
print(tokens_nltk)

## Remoção de Stopwords

Stopwords são palavras comuns em textos, como "o", "é", "sou", que têm pouco valor semântico. Elas são filtradas no pré-processamento para melhorar a eficiência
e a precisão nas tarefas de PLN.

In [None]:
stopwords_pt = stopwords.words('portuguese')
filtered = [w for w in tokens_nltk if w not in stopwords_pt]
print(filtered)

## Stemming com NLTK

Stemming são técnicas que reduz às suas raízes (radicais), cortando sufixos. Por exemplo, "amado", "amarei", viram "am". Obs.: o radical pode não ser uma palabra correta e não é a mesma coisa que o lema.

In [None]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

stems = [stemmer.stem(word) for word in filtered]
print(stems)

## Instalação da lib

> pt_core_news_sm

In [None]:
!python -m spacy download pt_core_news_sm

## SpaCy – Tokenização e Lematização

In [None]:
nlp = spacy.load("pt_core_news_sm")

doc = nlp(texto)

print(f"{'Texto':<10} | {'Lema':<10} | {'Gramática':<10}")
print("-" * 35)

for token in doc:
  print(f"{token.text:<10} | {token.lemma_:<10} | {token.pos_:<10}")

## Desafio prático

In [None]:
texto = "O preço do café avança rapidamente, isso é preocupante."
tokens = word_tokenize(texto.lower())
tokens_filtrados = [w for w in tokens if w not in stopwords_pt]
stems = [stemmer.stem(word) for word in tokens_filtrados]
print("Original:", texto, "\n\nTokens:", tokens, "\n\nSem stopwords:", tokens_filtrados, "\n\nStems:", stems)