# Anotação de corpus
Palavras fexíveis x inflexíveis

**Corpus linguístico:** texto base para uma análise
**Linguística de corpus:** uso de textos de exemplo para derivar as regras da linguagem

**Tagging/anotação:** classificação das palavras
* Adiciona mais informações ao texto
* Pode ser feito por humano ou máquina

**Tagset:** conjunto prévio de etiquetas

## Por que anotar?
* Alguns fenômenos linguísticos podem ser muito complexos
    * Conjunto de regras pode ser muito grande
* Aprendizado de máquina pode servir para alimentar métodos de aprendizado

**Exemplo**

        text = nltk.word_tokenize("The pig that John found looked happy")
        tagged = nltk.pos_tag(text)
        print(tagged)
        
        
## Anotação manual

        tagged_token = nltk.tag.str2tuple(‘pig/NN')
        
        sent = ''The/DET pig/N that/CNJ John/NNfound/VD looked/VD happy/ADJ”
        tagged = [nltk.tag.str2tuple(t) for t in sent.split()]
        print(tagged)
        
## Anotador simples
Todas as palavras são classificadas com a tag que mais aparece no texto base

## Anotador baseado em regex

        patterns = [
            (r'.*ing$', 'VBG'), # gerunds
            (r'.*ed$', 'VBD'), # simple past
            (r'.*es$', 'VBZ'), # 3rd singular present
            (r'.*ould$', 'MD'), # modals
            (r'.*\'s$', 'NN$'), # possessive nouns
            (r'.*s$', 'NNS'), # plural nouns
            (r'^-?[0-9]+(.[0-9]+)?$', 'CD'), # cardinal numbers
            (r'.*', 'NN') # nouns (padrão)
        ]

        tokens = nltk.word_tokenize(raw)
        reTagger = nltk.RegexpTagger(patterns)
        reTagger.tag(tokens)
       
## Anotador 1-gram
Atribuir a tag mais provável de acordo com uma base de texto
Cria uma distribuição de frequência para cada palavra
Ao classificar usa a tag que mais apareceu nessa palavra

        brown_tagged_sents = brown.tagged_sents(categories='news')
        size = int(len(brown_tagged_sents) * 0.9)
        train_sents = brown_tagged_sents[:size]
        test_sents = brown_tagged_sents[size:]
        unigram_tagger = nltk.UnigramTagger(train_sents)
        
        print(unigram_tagger.evaluate(test_sents))#Performace do anotador
        
> Não leva em consideração o contexto!        
        
## Anotador n-gram
Classifica usando o contexto: usa as palavras ao redor
Considera a palavra corrente e `n-1` tokens de palavras anteriores

        size = int(len(brown_tagged_sents) * 0.9)
        train_sents = brown_tagged_sents[:size]
        test_sents = brown_tagged_sents[size:]
        bigram_tagger = nltk.BigramTagger(train_sents)
        print(bigram_tagger.evaluate(test_sents))
        

### Bigram

    The population of the
    The population
        population of
                   of the

> **A porcentagem de acertos é menor, por que?** O conjunto de treino não é grande o bastante e


> **Tem uma armadilha:** O classificador quando não encontra uma palavra a classifica como `none`, o próximo gram usa o `none` e o erro se propaga em cascata

**Problema da acurácia e da cobertura**

Maior acurácia = Menor cobertura

## Combinando anotadores
        
        t0 = nltk.DefaultTagger('NN')
        t1 = nltk.UnigramTagger(train_sents, backoff=t0)
        t2 = nltk.BigramTagger(train_sents, backoff=t1)
        t2.evaluate(test_sents)


`Bigram > 1-Gram >  Anotador Simplista`

> Se um anotador com maior acurácia não conseguir passe para um com menos acurácia mas maior cobertura

In [23]:
import nltk
import nltk.corpus

# Ex1 Usar mac_morpho para anotar o texto

In [12]:
raw = """
João amava Teresa que amava Raimundo
que amava Maria que amava Joaquim que amava Lili
que não amava ninguém.
João foi pra os Estados Unidos, Teresa para o convento,
Raimundo morreu de desastre, Maria ficou para tia,
Joaquim suicidou-se e Lili casou com J. Pinto Fernandes
que não tinha entrado na história.
"""

In [10]:
text = nltk.word_tokenize(raw)
tagged = nltk.mac_morpho(raw)
print(tagged)

TypeError: expected string or bytes-like object

# Ex2 - Criar um tokenizador autmático para a língua portuguesa 

        


In [17]:
#er ir ar
patterns = [
            (r'.*ava$','Verb_Pass'),
            (r'.*ou$','Verb_Pass'),
            (r'.*ndo$', 'Gerund'),
            (r'.*er$', 'Verb_inf'),
            (r'.*ir$', 'Verb_inf'),
            (r'.*ar$', 'Verb_inf'),
            (r'.*', 'Noun')
           ]
tokens = nltk.word_tokenize(raw)
reTagger = nltk.RegexpTagger(patterns)
reTagger.tag(tokens)

[('João', 'Noun'),
 ('amava', 'Verb_Pass'),
 ('Teresa', 'Noun'),
 ('que', 'Noun'),
 ('amava', 'Verb_Pass'),
 ('Raimundo', 'Gerund'),
 ('que', 'Noun'),
 ('amava', 'Verb_Pass'),
 ('Maria', 'Noun'),
 ('que', 'Noun'),
 ('amava', 'Verb_Pass'),
 ('Joaquim', 'Noun'),
 ('que', 'Noun'),
 ('amava', 'Verb_Pass'),
 ('Lili', 'Noun'),
 ('que', 'Noun'),
 ('não', 'Noun'),
 ('amava', 'Verb_Pass'),
 ('ninguém', 'Noun'),
 ('.', 'Noun'),
 ('João', 'Noun'),
 ('foi', 'Noun'),
 ('pra', 'Noun'),
 ('os', 'Noun'),
 ('Estados', 'Noun'),
 ('Unidos', 'Noun'),
 (',', 'Noun'),
 ('Teresa', 'Noun'),
 ('para', 'Noun'),
 ('o', 'Noun'),
 ('convento', 'Noun'),
 (',', 'Noun'),
 ('Raimundo', 'Gerund'),
 ('morreu', 'Noun'),
 ('de', 'Noun'),
 ('desastre', 'Noun'),
 (',', 'Noun'),
 ('Maria', 'Noun'),
 ('ficou', 'Verb_Pass'),
 ('para', 'Noun'),
 ('tia', 'Noun'),
 (',', 'Noun'),
 ('Joaquim', 'Noun'),
 ('suicidou-se', 'Noun'),
 ('e', 'Noun'),
 ('Lili', 'Noun'),
 ('casou', 'Verb_Pass'),
 ('com', 'Noun'),
 ('J.', 'Noun'),
 ('Pinto'

In [34]:
from nltk.corpus import brown
brownTS = brown.tagged_words(categories='news')
tags = [tag for (word, tag) in brownTS]

size = int(len(brownTS) * 0.9)

train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]

t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents, backoff=t0)
t2 = nltk.BigramTagger(train_sents, backoff=t1)
t3 = ntlk.TrigramTagger(train_sents, backoff=t2)
        
t3.evaluate(test_sents)

ValueError: not enough values to unpack (expected 2, got 1)