# Text mining com Spacy

##**Importando biblioteca**

In [0]:
import spacy
from spacy.lang.pt import Portuguese

##**Instância do algorítimo, texto exemplo e tokenização**

In [0]:
nlp = Portuguese()

#texto = "Tudo o que um sonho precisa para ser realizado é alguém que acredite que ele possa ser realizado."
texto = "USO ORAL ACIDO FÓLICO 5MG USO CONTÍNUO TOMAR 1 COMPRIMIDO VIA ORAL /DIA"

#criação do documento com anotações linguisticas
meu_doc = nlp(texto)

#lista dos tokens
token_list = []

for token in meu_doc:
    token_list.append(token.text)
print(token_list)



['USO', 'ORAL', 'ACIDO', 'FÓLICO', '5MG', 'USO', 'CONTÍNUO', 'TOMAR', '1', 'COMPRIMIDO', 'VIA', 'ORAL', '/DIA']


###Tokenização por sentença

In [0]:
nlp = Portuguese()

sent = nlp.create_pipe('sentencizer')

nlp.add_pipe(sent)

texto = "Tudo o que um sonho precisa para ser realizado é alguém que acredite que ele possa ser realizado. Outra sentença"

doc = nlp(texto)

sents_list = []
for sent in doc.sents:
    sents_list.append(sent.text)
print(sents_list)

['Tudo o que um sonho precisa para ser realizado é alguém que acredite que ele possa ser realizado.', 'Outra sentença']


##Removendo stopwords

In [0]:
#importando stopwords da linguangem portuguesa, é importante deixar claro qual linguagem é
import spacy
spacy_stopwords = spacy.lang.pt.stop_words.STOP_WORDS

#quantidade de stopwords existentes:
print('Número de stopwords: %d' % len(spacy_stopwords))

#as primeiras da lsita:
print('stopwords: %s' % list(spacy_stopwords)[:20])

#se 

Número de stop words: 413
stop words: ['nova', 'pôde', 'nunca', 'temos', 'contra', 'dezanove', 'números', 'essas', 'foi', 'tais', 'irá', 'corrente', 'muitos', 'contudo', 'quatro', 'oitavo', 'cedo', 'quer', 'ainda', 'quarta']


###Removendo as stopwords do texto

In [0]:
from spacy.lang.pt.stop_words import STOP_WORDS

sentenca_filtrada=[]

doc = nlp(texto)

# filtering stop words
for palavra in doc:
    if palavra.is_stop==False:
        sentenca_filtrada.append(palavra)
print("Texto sem stopwords:",sentenca_filtrada)
#texto: Tudo o que um sonho precisa para ser realizado é alguém que acredite que ele possa ser realizado. Outra sentença

#removendo caracteres especiais
import re

string_nova = re.sub(r"[^a-zA-Z0-9ÁáÉéÍíÓóÚú: ]+", repl, texto) 
print (string_nova)

Texto sem stopwords: [USO, ORAL, ACIDO, FÓLICO, 5MG, USO, CONTÍNUO, TOMAR, 1, COMPRIMIDO, VIA, ORAL, /DIA]
USO ORAL ACIDO FÓLICO 5MG USO CONTÍNUO TOMAR 1 COMPRIMIDO VIA ORAL DIA


##Lematização com stemming

In [0]:
lem = nlp(texto)

#para cada palavra existe um 'lema', geralmente no português é o infinitivo da palavra
for palavra in lem:
    print(palavra.text,palavra.lemma_)

USO USO
ORAL ORAL
ACIDO ACIDO
FÓLICO FÓLICO
5MG 5MG
USO USO
CONTÍNUO CONTÍNUO
TOMAR TOMAR
1 1
COMPRIMIDO COMPRIMIDO
VIA VIA
ORAL ORAL
/DIA /DIA


##Part of Speech(POS) ou Partes do Discurso (por enquanto em inglês)

In [0]:
#A parte do discurso explica como uma palavra é usada em uma frase. Existem oito partes principais do discurso: 
#substantivos, pronomes, adjetivos, verbos, advérbios, preposições, conjunções e interjeições.


#importando o modelo pt_core_web_sm do português para início de sintaxe e entidades
import en_core_web_sm

texto_ingles  = "You’ll have the view of the top of the mountain that you climb."
nlp = en_core_web_sm.load()

doc = nlp(texto_ingles)

for palavra in doc:
    print(palavra.text,palavra.pos_)

You PRON
’ll AUX
have VERB
the DET
view NOUN
of ADP
the DET
top NOUN
of ADP
the DET
mountain NOUN
that DET
you PRON
climb VERB
. PUNCT
