
# **NLTK Downloads**

- ## nltk.download("average_perceptron_tagger")
- ## nltk.download("brown")

## **O que é a NLTK?**

### A NLTK (Natural Language Toolkit) é uma biblioteca em Python muito utilizada para Processamento de Linguagem Natural (PLN). Ela oferece várias ferramentas para manipular e analisar textos, desde segmentação de sentenças e palavras até mais avançados, como etiquetagem gramatical e análise sintática.

### Ela é amplamente usada em projetos acadêmicos e comerciais para tarefas como:

- ### Análise de sentimentos
- ### Extração de informações
- ### Tradução automática
- ### Resumo automático de textos


# 1. **nltk.download("average_perceptron_tagger")**

## Divindo em partes para melhor entendimento:

## **O que é e como funciona o Perceptron:**

- ### O Perceptron é um algoritmo de classificação supervisionada, o que significa que ele é treinado com um conjunto de dados previamente etiquetado, e depois usa esse conhecimento para classificar novos dados. Ele ajusta seus parâmetros com base nos erros que comete ao longo do processo de treinamento, buscando minimizar esses erros com o tempo.

## **O que é "Tagging"?:**

- ### "Tagging" é um processo no qual cada palavra de uma frase recebe uma etiqueta (tag) que identifica sua classe gramatical ou parte do discurso ("part-of-speech" - POS), como substantivo, verbo, adjetivo, etc. Isso é importante porque saber a função gramatical de cada palavra ajuda na compreensão do significado geral da frase. Por exemplo:

  - ### **Exemplo**: "O gato correu."
  - ### "O" → Artigo definido
  - ### "gato" → Substantivo
  - ### "correu" → Verbo

## **O que é o Perceptron Tagger?**

- ### O **"average_perceptron_tagger"** é uma técnica de etiquetagem que utiliza o algoritmo do Perceptron, que pertence ao campo de aprendizado de máquina. Esse algoritmo é capaz de "aprender" com exemplos anteriores e, a partir disso, rotular palavras novas de forma precisa.

## **Aplicação prática:**

- ### Quando você executa **nltk.download("average_perceptron_tagger")**, você está baixando um modelo pré-treinado que permite rotular palavras de uma frase com suas classes gramaticais.
- ### Esse modelo é eficaz porque já foi treinado com uma grande quantidade de dados em inglês, o que significa que ele consegue rotular palavras de forma precisa na maioria dos casos.

## **Por que isso é útil?**

### Entender a função gramatical das palavras ajuda em tarefas como análise semântica, onde queremos saber o que as palavras significam e como elas interagem entre si na frase. O etiquetador pode ser usado em várias tarefas de PLN, como análise de sentimentos ou reconhecimento de entidades nomeadas (identificação de nomes de pessoas, lugares, etc.).



# 2. **nltk.download("brown")**

## **O que é um Corpus?**
### Um Corpus (plural: Corpora) é uma coleção estruturada de textos. Esses textos são geralmente organizados para servir de base para pesquisa e análise linguística. Um corpus pode ser composto de textos escritos ou transcrições de fala, e pode incluir anotações linguísticas, como etiquetas de parte do discurso (POS tags).

## **O que é o "Brown Corpus"?**
### O Brown Corpus é um dos primeiros e mais importantes conjuntos de dados linguísticos usados em PLN. Foi criado na década de 1960 e contém cerca de 1 milhão de palavras organizadas em diferentes gêneros de textos, como:

- ### Ficção
- ### Jornalismo
- ### Religião
- ### Literatura científica

## **Para que serve o Brown Corpus?**
### O Brown Corpus é usado para treinar e avaliar modelos de processamento de linguagem. Ele é importante porque contém uma diversidade de gêneros textuais, o que ajuda a garantir que os modelos de PLN sejam versáteis e consigam funcionar bem em diferentes contextos.

### Por exemplo, um modelo que foi treinado apenas com notícias pode não se sair bem em textos de ficção. O Brown Corpus garante que os algoritmos possam lidar com diversos estilos e formas de escrita.

## **Exemplo de uso:**
- ### **Treinamento de modelos:** O Brown Corpus é utilizado para treinar modelos como o tagger de perceptron que mencionamos antes. O corpus já tem suas palavras etiquetadas, então o modelo pode aprender a partir dessas etiquetas.
- ### **Teste de modelos:** Depois que um modelo foi treinado, o corpus pode ser usado para testar o desempenho do modelo. Isso é feito comparando as etiquetas previstas pelo modelo com as etiquetas reais no Brown Corpus.

# **Como esses dois elementos se conectam?**

## Esses dois downloads são usados juntos para realizar tarefas de etiquetagem gramatical. O **"average_perceptron_tagger"** precisa de exemplos para aprender, e o **Brown Corpus** é uma fonte rica desses exemplos. No treinamento, o Perceptron aprende a etiquetar as palavras corretamente com base nos textos já etiquetados do Brown Corpus.

# **Exemplo:**

In [None]:
# Importar a biblioteca NLTK
import nltk

# Carregar o Brown Corpus
from nltk.corpus import brown

In [None]:
# Baixar os recursos necessários
nltk.download('brown')  # Baixa o corpus Brown
nltk.download('punkt')  # Necessário para tokenização
nltk.download('averaged_perceptron_tagger')  # Baixa o etiquetador perceptron

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [None]:
# Obter algumas frases do Brown Corpus (usando as primeiras 2 frases)
frases = brown.sents(categories='news')[:1]

for frase in frases:
    print(frase)

print()

# # # Etiquetar as palavras das frases
for i, frase in enumerate(frases):
    # Etiquetar cada frase
    tags = nltk.pos_tag(frase)
    #print(tags)
    # print(f"\nFrase {i+1} com etiquetas gramaticais (POS tags):")
    # for palavra, tag in tags:
    #     print(f"{palavra}: {tag}")


['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.']



# **Explicação das principais etiquetas:**
- ## **DT (Determinante)**: Exemplo — The, an, no são determinantes que precedem um substantivo.
- ## **NNP (Substantivo próprio singular)**: Exemplo — Fulton, County, Friday, Atlanta's são substantivos próprios, nomes de lugares ou entidades.
- ## **NN (Substantivo singular)**: Exemplo — Jury, investigation, election, evidence, place são substantivos comuns.
- ## **JJ (Adjetivo)**: Exemplo — Grand, recent, primary são adjetivos que descrevem os substantivos.
- ## **VBD (Verbo no passado)**: Exemplo — said, produced, took são verbos conjugados no passado.
- ## **IN (Preposição/Conjunção subordinativa)**: Exemplo — of, that são preposições ou conjunções subordinativas.
- ## **NNS (Substantivo plural)**: Exemplo — irregularities é um substantivo no plural.