In [1]:
# Carregue o modelo
import spacy
import pt_core_news_sm

nlp = pt_core_news_sm.load()

In [2]:
texto = nlp('Maria mora em Paris')

# Interando sobre as entidades identificadas na frase
for entidade in texto.ents:
  print(entidade.text, entidade.label_)

Maria PER
Paris LOC


In [3]:
# Destacando visualmente as entidades da frase e seus tipos
spacy.displacy.render(texto, style='ent', jupyter=True)

In [4]:
# Visualização do Analisador de Dependência
spacy.displacy.render(texto, style='dep',jupyter=True)

In [5]:
# Ver a definição do tipo de entidade
print("PER:", spacy.explain('PER'))
print("LOC:", spacy.explain('LOC'))
print("ORG:", spacy.explain('ORG'))
print("MISC:", spacy.explain('MISC'))

PER: Named person or family.
LOC: Non-GPE locations, mountain ranges, bodies of water
ORG: Companies, agencies, institutions, etc.
MISC: Miscellaneous entities, e.g. events, nationalities, products or works of art


In [6]:
text = nlp("Juliana nasceu no dia 18/06/2018 em Fortaleza")
spacy.displacy.render(text, style='ent', jupyter=True)

In [7]:
import pandas as pd  
from collections import Counter #for counting
import seaborn as sns #for visualization

In [8]:
nlp = pt_core_news_sm.load()

In [9]:
tweets = pd.read_csv("ignore_tweets.csv")
tweets.head(2)

Unnamed: 0.1,Unnamed: 0,Created At,Text,Geo Coordinates.latitude,Geo Coordinates.longitude,User Location,Username,User Screen Name,Retweet Count,Classificacao,...,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24
0,0,Sun Jan 08 01:22:05 +0000 2017,���⛪ @ Catedral de Santo Antônio - Governador ...,,,Brasil,Leonardo C Schneider,LeoCSchneider,0,Neutro,...,,,,,,,,,,
1,1,Sun Jan 08 01:49:01 +0000 2017,"� @ Governador Valadares, Minas Gerais https:/...",-41.9333,-18.85,,Wândell,klefnews,0,Neutro,...,,,,,,,,,,


In [10]:
tweets.shape

(8199, 26)

In [11]:
import random
random.seed(44)
text = tweets.Text[random.sample(range(1,100),50)]
text

53    #beta #betalab #mg Pedido ao STF irritou Meire...
67    #EducaçãoMG Governo de Minas Gerais reconhece ...
70    #i5gornascimento @i5gornascimento @cristiano U...
90    #musicagratis Fundação Hospitalar do Estado de...
15    "Los abusos, aun en el estado más sólido, son ...
23    "Praia da Estação" lota neste sábado de verão ...
49    #beta #betalab #mg Nos últimos dois anos: Gove...
29    #Alerta - Nome da CEEE é utilizado em golpe no...
38    #beta #betalab #mg Estado afirma não ter sido ...
4     ��� PSOL vai questionar aumento de vereadores ...
92    #musicagratis Prefeitura de Rodeiro: A Prefeit...
95    #noticiasdorenan Uso de depósitos judiciais pe...
73    #i5gornascimento @i5gornascimento g1 Vereadore...
2     �� @ Governador Valadares, Minas Gerais https:...
13    "La La Land: Cantando Estações" arrasa no Glob...
21    "O governo federal publicou no dia 27 de dezem...
66    #EBC Governo de Minas investiga casos suspeito...
39    #beta #betalab #mg Estado de espírito do p

In [12]:
text_combined = str(text)

In [13]:
doc = nlp(text_combined)

In [14]:
for ent in doc.ents:
  print(ent.text, " -> ", ent.label_)

Pedido  ->  LOC
STF  ->  LOC
Meire  ->  LOC
EducaçãoMG Governo  ->  MISC
Minas Gerais  ->  LOC
Fundação Hospitalar do Estado  ->  LOC
Los  ->  LOC
Praia da Estação  ->  LOC
Gove...
29    #  ->  MISC
Alerta - Nome da CEEE  ->  ORG
Estado  ->  LOC
PSOL  ->  PER
Prefeitura de Rodeiro:  ->  LOC
Prefeit...
95  ->  MISC
Governador Valadares  ->  LOC
Minas Gerais  ->  LOC
La La Land: Cantando Estações  ->  MISC
Glob  ->  LOC
EBC Governo de Minas  ->  LOC
Estado  ->  LOC
ImpeachmentPimentel  ->  MISC
PTNuncaMais  ->  MISC
Pede  ->  LOC
Câmara:  ->  LOC
Massacre  ->  MISC
Man...  ->  MISC
Escalada  ->  MISC
Crim  ->  LOC
Minas  ->  LOC
vcs bh  ->  LOC
Belo Horizonte  ->  LOC
Crise política  ->  MISC
DF  ->  LOC
Servi  ->  LOC
La La Land: Cantando Estações  ->  MISC
Glob  ->  LOC
Ministério Público de Minas Gera...  ->  LOC
Cabo Júlio  ->  LOC
Governo de Minas Gerais  ->  LOC
Estado  ->  LOC
Caos  ->  LOC
UOL  ->  MISC
OperacaoBetaLab #TimBeta #  ->  MISC
Modelo de segurança  ->  MISC
Muitas  ->

In [15]:
spacy.displacy.render(doc, style='ent',jupyter=True)

In [16]:
for token in doc:
  print(token)

53
   
#
beta
#
betalab
#
mg
Pedido
ao
STF
irritou
Meire
...


67
   
#
EducaçãoMG
Governo
de
Minas
Gerais
reconhece
...


70
   
#
i5gornascimento
@i5gornascimento
@cristiano
U
...


90
   
#
musicagratis
Fundação
Hospitalar
do
Estado
de
...


15
   
"
Los
abusos
,
aun
en
el
estado
más
sólido
,
son
...


23
   
"
Praia
da
Estação
"
lota
neste
sábado
de
verão
...


49
   
#
beta
#
betalab
#
mg
Nos
últimos
dois
anos
:
Gove
...


29
   
#
Alerta
-
Nome
da
CEEE
é
utilizado
em
golpe
no
...


38
   
#
beta
#
betalab
#
mg
Estado
afirma
não
ter
sido
...


4
    
�
�
�
PSOL
vai
questionar
aumento
de
vereadores
...


92
   
#
musicagratis
Prefeitura
de
Rodeiro
:
A
Prefeit
...


95
   
#
noticiasdorenan
Uso
de
depósitos
judiciais
pe
...


73
   
#
i5gornascimento
@i5gornascimento
g1
Vereadore
...


2
    
�
�
@
Governador
Valadares
,
Minas
Gerais
https
:
...


13
   
"
La
La
Land
:
Cantando
Estações
"
arrasa
no
Glob
...


21
   
"
O
governo
federal
publicou
no
dia
27
de
dezem
...


66
   
#
EBC


In [17]:
for token in doc:
  print(token.text, token.pos_)

53 NUM
    SPACE
# ADV
beta VERB
# ADV
betalab VERB
# ADV
mg NOUN
Pedido NOUN
ao ADP
STF PROPN
irritou VERB
Meire PROPN
... PUNCT

 SPACE
67 NUM
    SPACE
# ADV
EducaçãoMG PROPN
Governo PROPN
de ADP
Minas PROPN
Gerais PROPN
reconhece VERB
... PUNCT

 SPACE
70 NUM
    SPACE
# ADV
i5gornascimento NOUN
@i5gornascimento NOUN
@cristiano ADJ
U PROPN
... PUNCT

 SPACE
90 NUM
    SPACE
# ADV
musicagratis PROPN
Fundação PROPN
Hospitalar PROPN
do ADP
Estado NOUN
de ADP
... PUNCT

 SPACE
15 NUM
    SPACE
" PUNCT
Los X
abusos ADJ
, PUNCT
aun PROPN
en PROPN
el PROPN
estado NOUN
más ADJ
sólido ADJ
, PUNCT
son INTJ
... PUNCT

 SPACE
23 NUM
    SPACE
" PUNCT
Praia PROPN
da ADP
Estação PROPN
" PUNCT
lota NOUN
neste ADP
sábado NOUN
de ADP
verão NOUN
... PUNCT

 SPACE
49 NUM
    SPACE
# ADV
beta VERB
# ADV
betalab VERB
# ADV
mg NOUN
Nos ADP
últimos ADJ
dois NUM
anos NOUN
: PUNCT
Gove PROPN
... PUNCT

 SPACE
29 NUM
    SPACE
# ADV
Alerta PROPN
- PUNCT
Nome PROPN
da ADP
CEEE PROPN
é AUX
utilizado VERB
em A