# Características Linguísticas  
Processar texto bruto de forma inteligente é difícil: a maioria das palavras é rara, e é comum que palavras que parecem completamente diferentes signifiquem quase a mesma coisa. As mesmas palavras em uma ordem diferente podem significar algo completamente diferente. Mesmo dividir o texto em unidades semelhantes a palavras pode ser difícil em muitas línguas. Embora seja possível resolver alguns problemas apenas a partir dos caracteres brutos, geralmente é melhor usar conhecimento linguístico para adicionar informações úteis.

# Part-of-speech tagging

In [4]:
import spacy

#!python -m spacy download en_core_web_sm
nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

Apple Apple PROPN NNP nsubj Xxxxx True False
is be AUX VBZ aux xx True True
looking look VERB VBG ROOT xxxx True False
at at ADP IN prep xx True True
buying buy VERB VBG pcomp xxxx True False
U.K. U.K. PROPN NNP dobj X.X. False False
startup startup NOUN NN dep xxxx True False
for for ADP IN prep xxx True True
$ $ SYM $ quantmod $ False False
1 1 NUM CD compound d False False
billion billion NUM CD pobj xxxx True False


# Morfologia

In [5]:
import spacy

nlp = spacy.load("en_core_web_sm")
print("Pipeline:", nlp.pipe_names)
doc = nlp("I was reading the paper.")
token = doc[0]  # 'I'
print(token.morph)  # 'Case=Nom|Number=Sing|Person=1|PronType=Prs'
print(token.morph.get("PronType"))  # ['Prs']

Pipeline: ['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
Case=Nom|Number=Sing|Person=1|PronType=Prs
['Prs']


# Morfologia Estatística

In [9]:
import spacy
# !python -m spacy download de_core_news_sm
nlp = spacy.load("de_core_news_sm")
doc = nlp("Wo bist du?") # English: 'Where are you?'
print(doc[2].morph)  # 'Case=Nom|Number=Sing|Person=2|PronType=Prs'
print(doc[2].pos_) # 'PRON'

Case=Nom|Number=Sing|Person=2|PronType=Prs
PRON


# Morfologia baseada em regra

In [10]:
nlp = spacy.load("en_core_web_sm")
doc = nlp("Where are you?")
print(doc[2].morph)  # 'Case=Nom|Person=2|PronType=Prs'
print(doc[2].pos_)  # 'PRON'

Case=Nom|Person=2|PronType=Prs
PRON


# Lemantização

In [11]:
import spacy

# English pipelines include a rule-based lemmatizer
nlp = spacy.load("en_core_web_sm")
lemmatizer = nlp.get_pipe("lemmatizer")
print(lemmatizer.mode)  # 'rule'

doc = nlp("I was reading the paper.")
print([token.lemma_ for token in doc])
# ['I', 'be', 'read', 'the', 'paper', '.']

rule
['I', 'be', 'read', 'the', 'paper', '.']


# Lookup lemmatizer

In [13]:
import spacy

nlp = spacy.blank("sv")
nlp.add_pipe("lemmatizer", config={"mode": "lookup"})

<spacy.pipeline.lemmatizer.Lemmatizer at 0x7fb589f9ac80>