### SPACY PORTUGUESE


- STOP WORDS LIST:  https://github.com/explosion/spaCy/blob/master/spacy/lang/pt/stop_words.py

- PUNCTUATION: https://github.com/explosion/spaCy/blob/master/spacy/lang/pt/punctuation.py

- LANGUAGE DATA: https://spacy.io/usage/linguistic-features#language-data

In [1]:
# !pip install -U spacy
# python -m spacy download pt_core_news_lg

import spacy
import pandas as pd
#spacy.cli.download("pt_core_news_lg")


In [2]:
nlp = spacy.load("pt_core_news_lg")

In [12]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [8]:
ents = nlp.get_pipe('ner').labels
ents

('LOC', 'MISC', 'ORG', 'PER')

In [11]:
text = "O Real Mosteiro de Santa Maria de Belém, designado comumente por Mosteiro dos Jerónimos, por ter sido destinado à Ordem de São Jerónimo, é uma obra-prima da arquitetura portuguesa. Classificado Monumento Nacional, em 1907, e inscrito na Lista do Património Mundial da UNESCO, em 1983, está vinculado ao Protocolo do Estado. A igreja, sede da Paróquia de Santa Maria de Belém, com serviço religioso e horário para vistas patrimoniais, e o claustro, secularizado no século XIX, têm acesso distinto e formam o conjunto patrimonial mais visitado do País."

In [16]:
doc = nlp(text)

for ent in doc.ents:
    print(f"     {ent.text} {ent.label_}")
else:
    print("Entity not available")

     Real Mosteiro de Santa Maria de Belém LOC
     Mosteiro dos Jerónimos LOC
     Ordem de São Jerónimo ORG
     Monumento Nacional LOC
     Lista do Património Mundial da UNESCO MISC
     Protocolo do Estado MISC
     Paróquia de Santa Maria de Belém LOC
     País LOC
Entity not available


In [21]:
# for token in doc:
#     print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
#             token.shape_, token.is_alpha, token.is_stop)


tokenized_text = pd.DataFrame()

for i, token in enumerate(doc):
    tokenized_text.loc[i, 'text'] = token.text
    tokenized_text.loc[i, 'lemma'] = token.lemma_,
    tokenized_text.loc[i, 'pos'] = token.pos_
    tokenized_text.loc[i, 'tag'] = token.tag_
    tokenized_text.loc[i, 'dep'] = token.dep_
    tokenized_text.loc[i, 'shape'] = token.shape_
    tokenized_text.loc[i, 'is_alpha'] = token.is_alpha
    tokenized_text.loc[i, 'is_stop'] = token.is_stop
    tokenized_text.loc[i, 'is_punctuation'] = token.is_punct

tokenized_text

Unnamed: 0,text,lemma,pos,tag,dep,shape,is_alpha,is_stop,is_punctuation
0,O,"(O,)",DET,DET,det,X,True,True,False
1,Real,"(Real,)",PROPN,PROPN,nsubj,Xxxx,True,False,False
2,Mosteiro,"(Mosteiro,)",PROPN,PROPN,flat:name,Xxxxx,True,False,False
3,de,"(de,)",ADP,ADP,case,xx,True,True,False
4,Santa,"(Santa,)",PROPN,PROPN,nmod,Xxxxx,True,False,False
...,...,...,...,...,...,...,...,...,...
98,mais,"(mais,)",ADV,ADV,advmod,xxxx,True,True,False
99,visitado,"(visitar,)",VERB,VERB,acl,xxxx,True,False,False
100,do,"(do,)",ADP,ADP,case,xx,True,True,False
101,País,"(País,)",PROPN,PROPN,obl,Xxxx,True,False,False


#### PORTUGUESE TWEETS ANALYSIS

In [6]:
with open("C:\\Test folder\\NoThemeTweets.csv") as csv_file:
    data = pd.read_csv(csv_file)

In [7]:
data.head()

Unnamed: 0,id,tweet_text,tweet_date,sentiment,query_used
0,1031761728445530112,@Tixaa23 14 para eu ir :),Tue Aug 21 04:35:39 +0000 2018,Positivo,:)
1,1031761040462278656,@drexalvarez O meu like eu já dei na época :),Tue Aug 21 04:32:55 +0000 2018,Positivo,:)
2,1031760962372689920,Eu só queria conseguir comer alguma coisa pra ...,Tue Aug 21 04:32:37 +0000 2018,Positivo,:)
3,1031760948250456066,:D que lindo dia !,Tue Aug 21 04:32:33 +0000 2018,Positivo,:)
4,1031760895985246208,"@Primo_Resmungao Pq da pr jeito!!é uma ""oferta...",Tue Aug 21 04:32:21 +0000 2018,Positivo,:)


In [9]:
data.shape

(785814, 5)

In [13]:
ents = nlp.get_pipe('attribute_ruler').
ents

()

In [14]:
ents = nlp.get_pipe('parser').labels
ents

('ROOT',
 'acl',
 'acl:relcl',
 'advcl',
 'advmod',
 'amod',
 'appos',
 'aux',
 'aux:pass',
 'case',
 'cc',
 'ccomp',
 'compound',
 'conj',
 'cop',
 'csubj',
 'dep',
 'det',
 'discourse',
 'expl',
 'fixed',
 'flat',
 'flat:foreign',
 'flat:name',
 'iobj',
 'mark',
 'nmod',
 'nsubj',
 'nsubj:pass',
 'nummod',
 'obj',
 'obl',
 'obl:agent',
 'parataxis',
 'punct',
 'xcomp')

In [15]:
ents = nlp.get_pipe('tok2vec').labels
ents

()

In [27]:
tweets = data['tweet_text'][:100]
tweets

0                             @Tixaa23 14 para eu ir :)
1         @drexalvarez O meu like eu já dei na época :)
2     Eu só queria conseguir comer alguma coisa pra ...
3                                    :D que lindo dia !
4     @Primo_Resmungao Pq da pr jeito!!é uma "oferta...
                            ...                        
95              @rihanney se você não for me ignorar :)
96    Comeu eshilley né safado OKAISUWOSOKSSKSISSJS ...
97      @beamarcelino Aleatórias não, bora construir :)
98                                  Mas fui ao mc :))))
99    vi sua namorada sem voce no role vcs terminara...
Name: tweet_text, Length: 100, dtype: object

In [44]:
tweets = []
type(tweets)

list

In [49]:
tweets = []
for i in data['tweet_text'][:20]:
    #print('working',  i)
    tweets.append(i)
print(tweets)

['@Tixaa23 14 para eu ir :)', '@drexalvarez O meu like eu já dei na época :)', 'Eu só queria conseguir comer alguma coisa pra poder dormir :)', ':D que lindo dia !', '@Primo_Resmungao Pq da pr jeito!!é uma "oferta", ha q aproveitar. :P', '@BadWolf_Wagner @DanieVedo Eu entendi, mas isso foi mais porque eu pensei em outra coisa. :P', '@Chyko661 @g1 [+] Carcinoma Hepatico (Cancer de Figado). Deivison lutou contra a doença por um ano e faleceu ontem a tarde. Espero que minha explicaçao tenha te ajudado. :)', 'Aquela mina da limpeza, que tinha um marido com meu problema me adicionou aqui no face, esquisito a princípio mas ah, nega velha e pa, veio perguntar como eu tô :) Ela deve ter tomado as dor, me viu malzao e pá.', '@narryfools aqui, espero que você melhore logo :) https://t.co/OBiMIrbU9F', '@fefocaires se és feliz trabalhando nisso então não pare se as pessoas se incomodam com sua opinião é pq elas te dão ouvido e seu trabalho tem um grande alcance :)', 'vamos se seguir no insta? se q

In [54]:
# Merge noun phrases and entities for easier analysis
# nlp.add_pipe("merge_entities")
# nlp.add_pipe("merge_noun_chunks")

for doc in nlp.pipe(tweets):
    for token in doc:
        if token.ent_type_ == "PER" or token.ent_type_ == "ORG":
            print(token.ent_type_, "-->", token)

PER --> Carcinoma Hepatico
PER --> Deivison
PER --> @fefocaires
PER --> A Camila
PER --> ATÉ


In [61]:
for doc in nlp.pipe(tweets):
    for token in doc:
        if token.ent_type_ in ents:
            print(ents, "-->", token)