### Stemming

Processo de reduzir uma palavra para o seu radical ('stem')

In [1]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()
words = ["program", "programs", "programer", "programing", "programers"]
stems = [ps.stem(word) for word in words]
print(stems)

['program', 'program', 'program', 'program', 'program']


### Lemmatization

Processo de retornar a 'base' de uma palavra

In [10]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
words = ["am", "are", "is", "good", "better"]

''' :param pos: The Part Of Speech tag. Valid options are `"n"` for nouns,
              `"v"` for verbs, `"a"` for adjectives, `"r"` for adverbs and `"s"`
              for satellite adjectives.'''
lemmas_verbs = [lemmatizer.lemmatize(word, pos='v') for word in words]
lemmas_adverbs = [lemmatizer.lemmatize(word, pos='r') for word in words]

print(lemmas_verbs)
print(lemmas_adverbs)

['be', 'be', 'be', 'good', 'better']
['am', 'are', 'is', 'good', 'well']


### POS Tagging

Processo de classificar gramaticalmente as palavras. OBS: Uma dificuldade é lidar com as palavras que podem ter mais de uma classificação gramatical.



In [21]:
#import nltk
#nltk.download('averaged_perceptron_tagger')
#nltk.download('punkt')
#nltk.download('universal_tagset')

from nltk import word_tokenize, pos_tag

sentence = "Natural language processing empowers computational systems to understand human language."
tokens = word_tokenize(sentence)
pos_tags = pos_tag(tokens, tagset='universal')

print(pos_tags)

[('Natural', 'ADJ'), ('language', 'NOUN'), ('processing', 'NOUN'), ('empowers', 'VERB'), ('computational', 'ADJ'), ('systems', 'NOUN'), ('to', 'PRT'), ('understand', 'VERB'), ('human', 'ADJ'), ('language', 'NOUN'), ('.', '.')]


### Named Entity Recognition (NER)

Reconhecimento do contexto das palavras 

In [2]:
import spacy

nlp = spacy.load("en_core_web_sm")

text = "Apple is looking at buying U.K. startup for $1 billion"

doc = nlp(text)

for entity in doc.ents:
    print(entity.text, entity.label_)

Apple ORG
U.K. GPE
$1 billion MONEY


### Parsing

Busca compreender como as partes de uma frase (substantivos, verbos, adjetivos) são organizadas para transmitir significado.

**Constituency Parsing** (*Parsing* de constituintes): identifica os constituintes (frases nominais, sintagmas verbais, etc.) de uma frase e os organiza em uma árvore de análise, que reflete a sintaxe da frase de acordo com uma gramática formal. A árvore mostra como diferentes partes da frase se agrupam para formar frases e orações.

Legenda:
- S: 'Sentence', a raiz da árvore;
- NP: 'Noun Phrase', frase que funciona como substantivo;
- VP: 'Verb Phrase', frase que funciona como verbo;
- NNP: 'Proper Noun', singular;
- VBD: 'Verb', pretérito.

In [6]:
import nltk
'''nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')'''

from nltk import pos_tag, word_tokenize, Tree

sentence = "The quick brown fox jumps over the lazy dog"
tokens = word_tokenize(sentence)
tags = pos_tag(tokens)

grammar = "NP: {<DT>?<JJ>*<NN>}" # onde DT é o determinante, JJ é o adjetivo e NN é o substantivo 
'''NP:
      {<DT|JJ>}          # chunk determiners and adjectives
      }<[\.VI].*>+{      # strip any tag beginning with V, I, or .
      <.*>}{<DT>         # split a chunk at a determiner
      <DT|JJ>{}<NN.*>    # merge chunk ending with det/adj
                          # with one starting with a noun'''

cp = nltk.RegexpParser(grammar)
result = cp.parse(tags)
result.draw()

**Dependency Parsing** (*Parsing* de dependências): estabelece uma árvore de dependências onde os nós são palavras e as arestas representam dependências entre eles. Estas são as relações gramaticais (como sujeito, objeto, modificador) entre palavras, indicando como cada palavra depende ou está conectada a outras.

### Semantic Role Labeling (SRL)

Identificar "quem fez o que pra quem", em outras palavras, quem é o sujeito, quem é o agente e quem é o predicado (e outros).

### Coheference Resolution 

Tarefa de encontrar todas as expressões que se referem à mesma entidade em um texto. É crucial para tarefas como resumo de documentos e resposta a perguntas.

### Relation Extraction 

Identificar e classificar relações semânticas entre entidades dentro de um texto. Em outras palavras, procurar duas coisas que estão relacionadas de alguma forma (por exemplo, membros da família).

### Record Linkage

Tarefa de vincular registros de diferentes bases de dados que se referem a uma mesma entidade.



Por exemplo: você poderia ter um banco de dados gigante de todas as empresas no Canadá – ele realmente existe e é chamado de Registro de Negócios. Freqüentemente, há duplicatas neste conjunto de dados devido a vários registros feitos por diferentes membros da mesma empresa; encontrar essas correspondências seria um exemplo de problema de ligação de registros.