### Custom Tagger 

<br>

In [1]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
# Recebe um texto como input e imprime cada palavra com uma tag default
def learnDefaultTagger(simpleSentence):
    # Tokenização
    wordsInSentence = nltk.word_tokenize(simpleSentence)

    # Etiquetador
    tagger = nltk.DefaultTagger("NN")

    # Aplicando o Etiquetador ao conjunto de palavras
    posEnabledTags = tagger.tag(wordsInSentence)
    print("\nPalavras com a tag default")
    print(posEnabledTags)

In [3]:
# Recebe um texto como input e imprime a lista de tokens com as tags definidas usando expressões regulares
def learnRETagger(simpleSentence):
    customPatterns = [
        (r'.*ing$', 'ADJECTIVE'),             
        (r'.*ly$', 'ADVERB'),                 
        (r'.*ion$', 'NOUN'),                  
        (r'(.*ate|.*en|is)$', 'VERB'),        
        (r'^an$', 'INDEFINITE-ARTICLE'),      
        (r'^(with|on|at)$', 'PREPOSITION'),   
        (r'^\-?[0-9]+(\.[0-9]+)$', 'NUMBER'), 
        (r'.*$', None),
    ]


    # Etiquetador
    tagger = nltk.RegexpTagger(customPatterns)

    # Tokenização
    wordsInSentence = nltk.word_tokenize(simpleSentence)

    # Aplicando o Etiquetador ao conjunto de palavras
    posEnabledTags = tagger.tag(wordsInSentence)
    print("\nPalavras com a tag definida por expressões regulares")
    print(posEnabledTags)

In [4]:
# Recebe um texto como input e imprime a lista de tokens com as tags definidas usando expressões regulares
def learnLookupTagger(simpleSentence):
    mapping = {
        '.': '.', 'place': 'NN', 'on': 'IN',
        'earth': 'NN', 'Mysore' : 'NNP', 'is': 'VBZ',
        'an': 'DT', 'amazing': 'JJ'
    }

    # Etiquetador
    tagger = nltk.UnigramTagger(model=mapping)

    # Tokenização
    wordsInSentence = nltk.word_tokenize(simpleSentence)

    # Aplicando o Etiquetador ao conjunto de palavras
    posEnabledTags = tagger.tag(wordsInSentence)
    print("\nPalavras com a tag definida por mapeamento")
    print(posEnabledTags)

In [5]:
# Executa o programa
if __name__ == '__main__':
    testSentence = "London is an amazing place on earth. I have London 10 times."
    learnDefaultTagger(testSentence)
    learnRETagger(testSentence)
    learnLookupTagger(testSentence)
    print("\n")


Palavras com a tag default
[('London', 'NN'), ('is', 'NN'), ('an', 'NN'), ('amazing', 'NN'), ('place', 'NN'), ('on', 'NN'), ('earth', 'NN'), ('.', 'NN'), ('I', 'NN'), ('have', 'NN'), ('London', 'NN'), ('10', 'NN'), ('times', 'NN'), ('.', 'NN')]

Palavras com a tag definida por expressões regulares
[('London', None), ('is', 'VERB'), ('an', 'INDEFINITE-ARTICLE'), ('amazing', 'ADJECTIVE'), ('place', None), ('on', 'PREPOSITION'), ('earth', None), ('.', None), ('I', None), ('have', None), ('London', None), ('10', None), ('times', None), ('.', None)]

Palavras com a tag definida por mapeamento
[('London', None), ('is', 'VBZ'), ('an', 'DT'), ('amazing', 'JJ'), ('place', 'NN'), ('on', 'IN'), ('earth', 'NN'), ('.', '.'), ('I', None), ('have', None), ('London', None), ('10', None), ('times', None), ('.', '.')]




<br>
<hr>