<a href="https://colab.research.google.com/github/FelixEbenezer/NLP_Spacy_Python/blob/main/NLP_Spacy_python_iaexpert.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

A área de Processamento de Linguagem Natural – PLN (Natural Language Processing – NLP) é uma subárea da Inteligência Artificial que tem como objetivo tornar os computadores capazes de entender a linguagem humana, tanto escrita quanto falada. Alguns exemplo de aplicações práticas são: tradutores entre idiomas, tradução de texto para fala ou fala para texto, chatbots, sistemas automáticos de perguntas e respostas, sumarização de textos, geração automática de descrições para imagens, adição de legendas em vídeos, classificação de sentimentos em frases, dentre várias outras!

Atualmente, este setor está cada vez mais necessitando de soluções de Processamento de Linguagem Natural, ou seja, aprender essa área pode ser a chave para trazer soluções reais para necessidades presentes e futuras. Baseado nisso, este curso foi projetado para quem deseja crescer ou iniciar uma nova carreira na área de Processamento de Linguagem Natural, utilizando a biblioteca spaCy e a linguagem Python! O spaCy é uma biblioteca desenvolvida com foco no uso em ambientes de produção, possibilitando a criação de aplicativos que processam e entendem grandes volumes de texto. Ela pode ser usada para extrair informações, entender linguagem natural ou preprocessar textos para posterior uso em modelos de deep learning.

In [None]:
!pip install spacy --upgrade

Collecting spacy
  Downloading spacy-3.2.4-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.0 MB)
[K     |████████████████████████████████| 6.0 MB 5.4 MB/s 
[?25hCollecting spacy-legacy<3.1.0,>=3.0.8
  Downloading spacy_legacy-3.0.9-py2.py3-none-any.whl (20 kB)
Collecting srsly<3.0.0,>=2.4.1
  Downloading srsly-2.4.3-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (457 kB)
[K     |████████████████████████████████| 457 kB 66.6 MB/s 
[?25hCollecting typer<0.5.0,>=0.3.0
  Downloading typer-0.4.1-py3-none-any.whl (27 kB)
Collecting langcodes<4.0.0,>=3.2.0
  Downloading langcodes-3.3.0-py3-none-any.whl (181 kB)
[K     |████████████████████████████████| 181 kB 60.2 MB/s 
Collecting thinc<8.1.0,>=8.0.12
  Downloading thinc-8.0.15-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (653 kB)
[K     |████████████████████████████████| 653 kB 47.7 MB/s 
Collecting typing-extensions<4.0.0.0,>=3.7.4
  Downloading typing_extensions-3.10.0.2-py3-none-any.whl (26 kB)
C

In [None]:
import spacy
spacy.__version__

'3.2.4'

In [None]:
!python -m spacy download fr 

[38;5;3m⚠ As of spaCy v3.0, shortcuts like 'fr' are deprecated. Please use the
full pipeline package name 'fr_core_news_sm' instead.[0m
Collecting fr-core-news-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.2.0/fr_core_news_sm-3.2.0-py3-none-any.whl (17.4 MB)
[K     |████████████████████████████████| 17.4 MB 305 kB/s 
Installing collected packages: fr-core-news-sm
Successfully installed fr-core-news-sm-3.2.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')


Etapa 2: Marcação POS
POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém

In [None]:
pln = spacy.load('fr_core_news_sm')
pln

<spacy.lang.fr.French at 0x7fc94f1aa7d0>

In [None]:
doc = pln('Je suis en train d´apprendre nlp à Paris ce mois ci')

In [None]:
for mot in doc:
  print(mot.text, mot.pos_)

Je PRON
suis AUX
en ADP
train NOUN
d´apprendre VERB
nlp NOUN
à ADP
Paris PROPN
ce DET
mois NOUN
ci NOUN


Legenda

lemma: raiz da palavra
pos: parte da fala
tag: informações morfológicas, como se o verbo está no passado
dep: dependência sintática
shape: formato (maiúsculo, minúsculo, dígitos)
alpha: se é alfabético
stop: se é stopword

In [None]:
for mot in doc:
  print(mot.text, mot.pos_, mot.lemma_, mot.tag_, mot.dep_, mot.shape_, mot.is_alpha, mot.is_stop)

Je PRON je PRON nsubj Xx True True
suis AUX être AUX cop xxxx True True
en ADP en ADP case xx True True
train NOUN train NOUN ROOT xxxx True False
d´apprendre VERB d´apprendre VERB xcomp x´xxxx False False
nlp NOUN nlp NOUN dep xxx True False
à ADP à ADP case x True True
Paris PROPN Paris PROPN nmod Xxxxx True False
ce DET ce DET det xx True True
mois NOUN mois NOUN ROOT xxxx True False
ci NOUN ci NOUN nmod xx True True


In [None]:
#Si je veux par exemple identifier les mots ou textes de type ville dont le pos_ est PROPN, je n ai qu a faire
for mot in doc:
  if mot.pos_ == 'PROPN':
    print(mot.text)

Paris


Etapa 3: Lematização e stemização

Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)

Stemização: Extrair o radical das palavras

In [None]:
[(mot.text,mot.lemma_) for mot in doc]

[('Je', 'je'),
 ('suis', 'être'),
 ('en', 'en'),
 ('train', 'train'),
 ('d´apprendre', 'd´apprendre'),
 ('nlp', 'nlp'),
 ('à', 'à'),
 ('Paris', 'Paris'),
 ('ce', 'ce'),
 ('mois', 'mois'),
 ('ci', 'ci')]

Comparação stemização (NLTK) x lematização (spaCy)

In [None]:
import nltk

In [None]:
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer

In [None]:
stemmer = nltk.stem.SnowballStemmer('french')
stemmer.stem('apprendre, descendre, mangerait')

'apprendre, descendre, mang'

In [None]:
#Alors que avec lemmatization de spacy, ca donne
mot = pln('apprendre, descendre, mangerait')
[mot.lemma_ for mot in mot]

['apprendre', ',', 'descendre', ',', 'manger']

In [None]:
#On voit que lemmatization de spacy offre une lemma mieux comprise que stemmisation de NTLK qui retourne tout au radical du mot

Etapa 4: Reconhecimento de entidades nomeadas

NER (Named-Entity Recognition)
Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
Usado em chatbots para saber o assunto falado
Siglas: https://spacy.io/api/annotation#named-entities

In [None]:
texte = 'je travaille à microsoft dans Paris tous les jours'
texte = pln(texte)

In [None]:
for mot in texte.ents:
  print(mot.text, mot.label_)

microsoft ORG
Paris LOC


In [None]:
from spacy import displacy
displacy.render(texte, style = 'ent', jupyter = True)

Etapa 5: Stopwords

Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc)

In [None]:
from spacy.lang.fr.stop_words import STOP_WORDS

In [None]:
print(STOP_WORDS)

{'rendre', 'sinon', 'voilà', 'siens', 'soi-même', 'plutot', 'toi-meme', 'celui', 'celle-la', 'vers', 'quatorze', 'soi-meme', 'sur', 'suffisant', 'soi', 'son', 'diverse', 'nous-mêmes', 'effet', 'vous', 'cinq', 'moi', 'peu', "l'", 'celle', 'l’', 'quatre-vingt', 'la', 'dedans', 'entre', 'lorsque', 'etc', 'precisement', 'chez', 'bas', 'elles', 'quel', 'précisement', 'onze', 'facon', 'unes', 'ces', 'quinze', 'différent', 'troisièmement', 'sans', 'différents', 'parlent', 'quatre', 'voila', 'sienne', 'avait', 'relativement', 'certains', 'lui-même', 'suffit', 'basee', 'nôtre', 'specifique', 'lors', 'dix', 'pendant', 'prealable', 'hors', 'auxquels', 'ait', 'environ', 'treize', 'rend', 'or', 'trois', 'tiens', 'certaines', 'delà', 'parfois', 'sept', 'houp', 'vôtres', 'celles', 'differentes', 'avaient', 'egalement', 'dix-neuf', 'sixième', 'tellement', 'étais', 'quant', 'na', 'pourquoi', 'tous', 'reste', 'tente', 'ou', 'duquel', 'vont', 'premièrement', 'relative', 'seules', 'spécifique', 'avons', '

In [None]:
print(len(STOP_WORDS))

507


In [None]:
#Si je souhaite vérifier si un mot donné est dans stopwords
pln.vocab['sinon'].is_stop

True

In [None]:
[mot.text for mot in texte if mot.text not in STOP_WORDS]

['travaille', 'microsoft', 'Paris', 'jours']

In [None]:
pln.vocab['travaille'].is_stop

False

Etapa 6: Parsing de dependências

Relação pai-filho entre as palavras

In [None]:
texte

je travaille à microsoft dans Paris tous les jours

In [None]:
origine = texte[5]
origine

Paris

In [None]:
list(origine.ancestors)

[travaille]

In [None]:
texte[8].is_ancestor(texte[2])

False

In [None]:
doc = pln('Reserve d´une table pour un restaurant et d´un taxi pour un hotel')

In [None]:
objets = doc[2], doc[8]
locaux = doc[5], doc[11]
objets, locaux

((table, taxi), (restaurant, hotel))

In [None]:
for n in locaux:
  print(f'------{n}')
  for o in n.ancestors:
    print(o.text)
    for a in n.children:
      print(f'children: {a}')

------restaurant
table
children: pour
children: un
children: d´un
children: taxi
children: hotel
------hotel
restaurant
children: pour
children: un
table
children: pour
children: un


In [None]:
from spacy import displacy

In [None]:
displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

Etapa 7: Semelhanças entre palavras e frases

Verificar se duas palavras são semelhantes ou logicamente relacionadas
Usa o algoritmo GloVe (Global Vectors for Word Representation)

Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

In [None]:
doc1 = pln('Bonjour')
doc2 = pln('salut')
doc3 = pln('la politique')

In [None]:
doc1.similarity(doc2)

  """Entry point for launching an IPython kernel.


-0.09704078209645084

In [None]:
doc2.similarity(doc3)

  """Entry point for launching an IPython kernel.


-0.08855017457859315

In [None]:
texto = pln('chat chien cheval personne')

In [None]:
for texto1 in texto:
  #print('----', texto1)
  for texto2 in texto:
    #print(texto2)
    similaridade = int(texto1.similarity(texto2) * 100)
    print("{} é {} semblable a {}".format(texto1, similaridade, texto2))

chat é 100 semblable a chat
chat é 30 semblable a chien
chat é 58 semblable a cheval
chat é 25 semblable a personne
chien é 30 semblable a chat
chien é 100 semblable a chien
chien é 46 semblable a cheval
chien é 31 semblable a personne
cheval é 58 semblable a chat
cheval é 46 semblable a chien
cheval é 100 semblable a cheval
cheval é 30 semblable a personne
personne é 25 semblable a chat
personne é 31 semblable a chien
personne é 30 semblable a cheval
personne é 100 semblable a personne


  """


In [None]:
#INTERESSANT
https://maelfabien.github.io/machinelearning/NLPfr/#conclusion

SyntaxError: ignored