# **PROJETO INTRO NLP**

**Este projeto utilizado como projeto de estudos para a área de Machine Learning, NLP e Data Science com intuito de demonstrar conhecimento sobre os assuntos.**

**Elaborado por EDMUNDO LOPES SILVA**

[LINKEDIN](https://www.linkedin.com/in/edmundo-lopes-silva-7ab3b4163/)

NLP (Natural Language Processing), ou Processamento de Linguagem Natural, é uma subárea da inteligência artificial (IA) que se concentra em permitir que computadores compreendam, interpretem e respondam à linguagem humana de forma que seja útil. O objetivo do NLP é fazer com que as máquinas interajam com o texto ou fala humana de maneira semelhante ao comportamento humano, utilizando algoritmos de aprendizado de máquina e regras linguísticas.

Aplicações de NLP:

1. Assistentes Virtuais (Chatbots)
2. Análise de Sentimentos
3. Tradução Automática
4. Classificação de Textos
5. Reconhecimento de Fala
6. Resumo Automático de Textos
7. Correção Ortográfica e Gramatical


Principais Tarefas do NLP:
1. Tokenização
  
 - Dividir um texto em unidades menores (palavras, subpalavras ou caracteres) para análise.
2. Lematização:

 - Lematização: Reduzir palavras às suas formas base ou raiz (ex.: "correr" em vez de "correndo").
3. Stemming:

 - Stemming: Cortar as terminações das palavras para chegar à raiz (ex.: "corr" em vez de "correndo").

4. Análise Sintática (Parsing):

 - Analisar a estrutura gramatical de frases para entender como as palavras se relacionam entre si.

5. Reconhecimento de Entidades Nomeadas (NER):

  - Identificar entidades como nomes de pessoas, locais e organizações em um texto.

6. Análise de Sentimentos:

 - Determinar a opinião ou emoção expressa em um texto, como se é positiva, negativa ou neutra.

7. Tradução Automática:

  - Converter textos de um idioma para outro.

8. Detecção de Spam:

 - Identificar automaticamente mensagens de spam.

9. Classificação de Textos:

 - Classificar documentos em categorias, como emails, notícias ou resenhas de produtos.



In [None]:
# pip install nltk spacy
# !python -m spacy download en_core_web_sm # SE PRECISAR BAIXAR O MODELO, NÃO PRECISA NO COLAB NOTEBOOK

In [1]:
# IMPORTAÇÃO DAS BIBLIOTECAS NECESSÁRIAS

import nltk
import spacy
from nltk.util import ngrams # N-GRAMS
from nltk.stem import PorterStemmer, WordNetLemmatizer # STEMMING
from nltk.tokenize import word_tokenize, sent_tokenize # TOKENIZE

In [2]:
# BAIXAR PACOTES NECESSÁRIOS NLTK

nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [3]:
# Carregar o modelo spaCy para lematização

nlp = spacy.load("en_core_web_sm")

In [4]:
# TEXTO QUE IREMOS TRATAR, LEMBRANDO QUE DEVEMOS TER UM TEXTO QUE REFERE AO IDIOMA DO MODELO

text = "The quick brown fox jumps over the lazy dogs. He is running fast, faster than ever before."

## TOKENIZAÇÃO

Tokenização é o processo de dividir um texto em unidades menores chamadas tokens. Esses tokens podem ser palavras, frases ou até mesmo subpalavras e caracteres, dependendo da abordagem. É uma etapa fundamental no Processamento de Linguagem Natural (NLP) porque facilita a análise e manipulação de textos ao separar as informações em partes menores e mais gerenciáveis.

Tipos de Tokenização
- Tokenização de Palavras: O texto é dividido em palavras individuais. Por exemplo:

 - Texto: "A raposa rápida pula sobre o cão preguiçoso."
 - Tokens: ["A", "raposa", "rápida", "pula", "sobre", "o", "cão", "preguiçoso"]

- Tokenização de Frases: O texto é dividido em frases. Isso é útil quando se deseja analisar a estrutura de frases inteiras, como em resumos ou análise de sentimentos.

 - Texto: "A raposa rápida pula sobre o cão preguiçoso. Ele não se mexeu."
 - Tokens: ["A raposa rápida pula sobre o cão preguiçoso.", "Ele não se mexeu."]

- Tokenização Sub-Palavra: Em algumas aplicações (como modelos BERT ou GPT), as palavras são divididas em subunidades menores, como morfemas ou pedaços de palavras. Isso permite o processamento de palavras desconhecidas ou palavras raras.

 - Palavra: "incrível"
 - Tokens: ["in", "cri", "vel"]

- Tokenização de Caracteres: O texto é dividido em caracteres individuais, útil em tarefas como modelagem de linguagens para alfabetos não-latinos ou na geração de texto.

 - Texto: "ChatGPT"
 - Tokens: ["C", "h", "a", "t", "G", "P", "T"]

**Importância da Tokenização**

A tokenização é essencial porque muitos algoritmos de NLP operam em uma sequência de tokens em vez do texto bruto. Ao quebrar o texto em tokens, os modelos conseguem:

- Analisar e processar cada unidade individualmente.
- Entender a relação entre palavras.
- Aplicar técnicas como stemming, lematização ou n-grams a essas unidades.


In [5]:
# AQUI VAMOS FAZER A TOKENIZAÇÃO COM EXEMPLOS DE TOKENIZE DE PALAVRAS E FRASES

word_tokens = word_tokenize(text)
print("Tokens de palavras:", word_tokens)

sentence_tokens = sent_tokenize(text)
print("Tokens de frases:", sentence_tokens)

Tokens de palavras: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dogs', '.', 'He', 'is', 'running', 'fast', ',', 'faster', 'than', 'ever', 'before', '.']
Tokens de frases: ['The quick brown fox jumps over the lazy dogs.', 'He is running fast, faster than ever before.']


## STEMMING

Stemming é uma técnica em Processamento de Linguagem Natural (NLP) usada para reduzir palavras derivadas às suas formas básicas ou "raiz". O objetivo do stemming é remover os sufixos das palavras, deixando apenas o radical, ou seja, a parte mais essencial da palavra. Isso ajuda a normalizar diferentes formas de uma mesma palavra para que possam ser tratadas como equivalentes durante a análise de texto.

O algoritmo de stemming funciona removendo sufixos e, às vezes, prefixos, de uma palavra para chegar à sua forma de raiz. Por exemplo, as palavras "correr", "correndo", "correu", "corre" podem ser todas reduzidas ao radical "corr" através do processo de stemming.

EXEMPLO: RUNNING - RUN

In [10]:
# AQUI TEREMOS O STEMMING

ps = PorterStemmer()
stems = [ps.stem(word) for word in word_tokens]
print("Stemming:", stems)

Stemming: ['the', 'quick', 'brown', 'fox', 'jump', 'over', 'the', 'lazi', 'dog', '.', 'he', 'is', 'run', 'fast', ',', 'faster', 'than', 'ever', 'befor', '.']


## LEMATIZAÇÃO

Lematização é uma técnica de Processamento de Linguagem Natural (NLP) que transforma uma palavra em sua forma base ou dicionária (chamada de lema), considerando o contexto gramatical da palavra. Ao contrário do stemming, que simplesmente remove sufixos para encontrar a raiz da palavra, a lematização usa regras linguísticas e informações morfológicas, como a classe gramatical, para identificar a forma correta de uma palavra.

In [11]:
# AQUI TEREMOS A LEMATIZAÇÃO

# LEMATIZAÇÃO COM SPACY

doc = nlp(text)
lemmas_spacy = [token.lemma_ for token in doc]
print(text)
print("Lematização com spaCy:", lemmas_spacy)

The quick brown fox jumps over the lazy dogs. He is running fast, faster than ever before.
Lematização com spaCy: ['the', 'quick', 'brown', 'fox', 'jump', 'over', 'the', 'lazy', 'dog', '.', 'he', 'be', 'run', 'fast', ',', 'fast', 'than', 'ever', 'before', '.']


## DIFERENÇA ENTRE LEMATIZAÇÃO E STEMMING

Stemming: Simplesmente corta a palavra até o seu radical, sem se preocupar se a forma resultante é um termo real ou uma palavra válida.

- "correndo", "correu", "correrá" → "corr"
- "melhores" → "melhor"

Lematização: Reduz as palavras à sua forma dicionária ou básica, considerando o contexto gramatical para garantir que a palavra resultante seja um termo correto.

- "correndo", "correu", "correrá" → "correr"
- "melhores" → "bom"

## PARSING

Parsing é o processo de análise de uma estrutura linguística ou sintática de uma sequência de palavras ou símbolos, seja em linguagem natural (como inglês ou português) ou em linguagem de programação. O objetivo do parsing é decompor uma frase em seus componentes gramaticais, como substantivos, verbos, preposições, etc., para entender a relação entre esses elementos e a função que desempenham na sentença.


Dada a frase:

 "The quick brown fox jumps over the lazy dog."

Um parser pode identificar:

The (Artigo)
quick (Adjetivo)
fox (Substantivo)
jumps (Verbo)
over (Preposição)
dog (Substantivo)

Além de identificar as partes do discurso, o parser também analisará como essas palavras se relacionam entre si. Por exemplo, pode determinar que "fox" é o sujeito do verbo "jumps", ou que "lazy" está modificando "dog".

In [14]:
# AQUI TEREMOS O PARSING

# PARSING COM SPACY USANDO doc = nlp(text)

print("\nParsing e Análise Sintática:")
for token in doc:
    print(f"Palavra: {token.text} | POS: {token.pos_} | Dependência: {token.dep_} | Raiz: {token.head.text}")


Parsing e Análise Sintática:
Palavra: The | POS: DET | Dependência: det | Raiz: fox
Palavra: quick | POS: ADJ | Dependência: amod | Raiz: fox
Palavra: brown | POS: ADJ | Dependência: amod | Raiz: fox
Palavra: fox | POS: NOUN | Dependência: nsubj | Raiz: jumps
Palavra: jumps | POS: VERB | Dependência: ROOT | Raiz: jumps
Palavra: over | POS: ADP | Dependência: prep | Raiz: jumps
Palavra: the | POS: DET | Dependência: det | Raiz: dogs
Palavra: lazy | POS: ADJ | Dependência: amod | Raiz: dogs
Palavra: dogs | POS: NOUN | Dependência: pobj | Raiz: over
Palavra: . | POS: PUNCT | Dependência: punct | Raiz: jumps
Palavra: He | POS: PRON | Dependência: nsubj | Raiz: running
Palavra: is | POS: AUX | Dependência: aux | Raiz: running
Palavra: running | POS: VERB | Dependência: ROOT | Raiz: running
Palavra: fast | POS: ADV | Dependência: advmod | Raiz: running
Palavra: , | POS: PUNCT | Dependência: punct | Raiz: running
Palavra: faster | POS: ADV | Dependência: advmod | Raiz: running
Palavra: than 

## N-GRAMS

N-gram é um conceito utilizado em Processamento de Linguagem Natural (NLP) para representar uma sequência de elementos (normalmente palavras ou caracteres) em um texto. O número de elementos na sequência é determinado pelo valor de N.

Os N-grams capturam a relação entre palavras que estão próximas umas das outras em um texto. Isso ajuda a capturar o contexto local, especialmente em análises onde a ordem das palavras é importante.

Exemplo de N-grams:

Dada a frase: "Eu gosto de aprender NLP".

- Unigram: ["Eu", "gosto", "de", "aprender", "NLP"]
- Bigram: ["Eu gosto", "gosto de", "de aprender", "aprender NLP"]
- Trigram: ["Eu gosto de", "gosto de aprender", "de aprender NLP"]

Desvantagem do n-grams é uma explosão combinatória, na medida que N aumenta, o número de N-grams possíveis cresce exponencialmente, o que pode levar a modelos grandes e lentos. Além disso, há uma perda de contexto global já que N-grams com N pequeno (como bigram ou trigram) capturam apenas uma visão local, e não conseguem capturar dependências de longo alcance no texto.


In [12]:
# AQUI FAREMOS O N-GRAMS COM BIGRAMS E TRIGRAMS

bigrams = list(ngrams(word_tokens, 2))
print("Bigramas:", bigrams)

trigrams = list(ngrams(word_tokens, 3))
print("Trigramas:", trigrams)

Bigramas: [('The', 'quick'), ('quick', 'brown'), ('brown', 'fox'), ('fox', 'jumps'), ('jumps', 'over'), ('over', 'the'), ('the', 'lazy'), ('lazy', 'dogs'), ('dogs', '.'), ('.', 'He'), ('He', 'is'), ('is', 'running'), ('running', 'fast'), ('fast', ','), (',', 'faster'), ('faster', 'than'), ('than', 'ever'), ('ever', 'before'), ('before', '.')]
Trigramas: [('The', 'quick', 'brown'), ('quick', 'brown', 'fox'), ('brown', 'fox', 'jumps'), ('fox', 'jumps', 'over'), ('jumps', 'over', 'the'), ('over', 'the', 'lazy'), ('the', 'lazy', 'dogs'), ('lazy', 'dogs', '.'), ('dogs', '.', 'He'), ('.', 'He', 'is'), ('He', 'is', 'running'), ('is', 'running', 'fast'), ('running', 'fast', ','), ('fast', ',', 'faster'), (',', 'faster', 'than'), ('faster', 'than', 'ever'), ('than', 'ever', 'before'), ('ever', 'before', '.')]
