<a href="https://colab.research.google.com/github/EddyGiusepe/Studying_spaCy_NER/blob/main/NER_with_spaCy_TWEETS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <h2 align="center">[Named Entity Recognition (NER) with spaCy](https://www.youtube.com/watch?v=NK41SHyZIa4)</h2>


Data Scientist Jr.: Eddy Giusepe Chirinos Isidro


Este script foi baseado nos seguintes links de estudo:

* [GEAM 2020-06-17 - Reconhecimento de Entidades Nomeadas utilizando o spaCy](https://www.youtube.com/watch?v=NK41SHyZIa4)

* [How to Train NER with Custom training Data using spaCy](https://manivannan-ai.medium.com/how-to-train-ner-with-custom-training-data-using-spacy-188e0e508c6)

* [A basic Named entity recognition (NER) with spaCy in 10 lines of code in Python](https://python.plainenglish.io/a-basic-named-entity-recognition-ner-with-spacy-in-10-lines-of-code-in-python-c53316ce9c4c)

* [Text analysis with named entity recognition](https://www.depends-on-the-definition.com/text-analysis-with-named-entities/)

* [Reconhecimento de entidade nomeada personalizada usando spCy](https://towardsdatascience.com/custom-named-entity-recognition-using-spacy-7140ebbb3718)

# NER

Em português, Reconhecimento de Entidade Nomeada. É um processo de identificação de entidades predefinidas presentes em um texto, como nome da pessoa, organização, local, etc.


É um modelo estatístico treinado em um conjunto de Dados rotulado e usado para extrair informações de um determinado conjunto de Dados.


<font color="orange">Exemplo:</font>

* Considere a seguinte frase:
```
"Maria mora em Paris"
```

* As entidades da frase acima seriam **Maria** e **Paris**.

O ``NER`` é usado em muitos campos da ``inteligência Artificial`` (IA), inlcuindo o ``Processamento de Linguagem Natural`` (NLP) e o Aprendizado de Máquina.

### Aplicações de NER

* Resumo de grandes documentos: um sistema que utiliza NER poderia aprender a resumir textos grandes em pequenos a partir do conhecimento de entidades relevantes.

* Categorização de reviews: ao aplicar NER em comentários de usuários em portais, pode se gerar categorias que resumem todo o texto. Um <font color="orange">exemplo</font> é a Amazon que resume um review sobre um produto no portal.

* Chatbot de auto-atendimento: diversos Chatbots estão sendo construídos nos quais a base para seu funcionamento é a técnica de NER, com o reconhecimento das entidades os robots tomam ações propícias conforme o usuário fala ou digita.

* Identificação e agendamento de compromissos: usando NER, um sistema consegue aprender o que é data, horário e uma cidade em um e-mail por <font color="orange">exemplo</font>. Com isso nas "mãos" o sistema poderia agendar um compromisso automaticamente na sua agenda.

## [spaCy](https://spacy.io/)

É um framework que contém diversos modelos e uma arquitetura profissional para trabalhar com várias tarefas de ``NLP``. Além disso, este permite integração com outras bibliotecas, o que o torna algo interessante para trabalhos envolvendo Deep Learning.

Alguns dos recursos fornecidos pelo ``spaCy`` são: ``tokenização``, marcação de partes do discurso (PoS), classificação de texto e reconhecimento de entidades nomeadas.

# [Instalando o spaCy](https://www.youtube.com/watch?v=NK41SHyZIa4)

Para instalar o Framework [spaCy] escrevemos o seguinte comando:

```
!pip install -U spacy
```

In [None]:
# Instalando 
!pip install -U spacy==2.3.0

## Download do modelo do Idioma desejado

Realizamos o download de alguns modelos prontos. Esses modelos contém informações sobre linguagens, vocabulários, vetores treinados, sintaxes e entidades.

In [None]:
from google.colab import drive
drive.mount('/content/drive')  

Mounted at /content/drive


In [None]:
# Português
!python -m spacy download pt_core_news_sm


# Inglês
!python -m spacy download en_core_web_sm


## <font color="orange">Exemplo 1</font>

In [None]:
# Carregue o modelo
import spacy
import pt_core_news_sm



nlp = pt_core_news_sm.load()


In [None]:
texto = nlp('Maria mora em Paris')


In [None]:
# Interando sobre as entidades identificadas na frase
for ent in texto.ents:
  print(ent.text + ' - ' + ent.label_ + ' - ' + str(spacy.explain(ent.label_)))


Maria - PER - Named person or family.
Paris - LOC - Non-GPE locations, mountain ranges, bodies of water


In [None]:
# Destacando visualmente as entidades da frase e seus tipos
spacy.displacy.render(texto, style='ent', jupyter=True)

In [None]:
# Visualização do analisador de Dependência
spacy.displacy.render(texto, style='dep', jupyter=True)

In [None]:
# Aqui vamos ver a definição do tipo de Entidade, no PORTUGUÊS

print("PER: ", spacy.explain('PER'))
print("LOC: ", spacy.explain('LOC'))
print("ORG: ", spacy.explain('ORG'))
print("MISC: ", spacy.explain('MISC'))


PER:  Named person or family.
LOC:  Non-GPE locations, mountain ranges, bodies of water
ORG:  Companies, agencies, institutions, etc.
MISC:  Miscellaneous entities, e.g. events, nationalities, products or works of art


## <font color="orange">Exemplo 2</font>

Muita atenção neste exemplo, proque aqui vamos a começar a aprender como re-treinar este modelo para poder identificar novas entidades. Por ``exemplo:`` a entidade data.

In [None]:
text = nlp("Juliana nasceu no dia 18/06/2018 em Fortaleza")

In [None]:
# Destacamos as entidades da frase anterior e seus tipos
spacy.displacy.render(text, style='ent', jupyter=True)

In [None]:
for entidade in text.ents:
  print(entidade.text, entidade.label_)

Juliana PER
Fortaleza LOC


Como pode ser observado acima, o modelo não-indentificou a ``data`` em ``text``. O spaCy permite inserir Dados para re-treinar o algoritmo e com isso melhorar o modelo. Ou até mesmo, gerar modelos novos, caso necessário. 

Então, como a entidade **data** não foi identificada, podemos inserir alguns exemplos e <font color="red">re-treinar</font> o algoritmo para que este aprenda novos padrões.   

# Treinando Dados com o spaCy

In [None]:
import random

## Conjunto de Dados de Treino

Os Dados de treinamento precisam estar no seguinte formato

In [None]:
TRAIN_DATA = [
             ("Almira é uma ótima pessoa, gosto muito dela", {"entities": [(0, 6, "PER")]}),
             ("João foi para Bahia nas férias", {"entities": [(0, 4, "PER")]}),
             ("Carlos foi visitar João na casa de praia", {"entities": [(0, 6, "PER"), (19, 23, "PER")]}),
             ("No meio do ano irei para São Paulo fazer mais um curso", {"entities": [(25, 34, "LOC")]}),
             ("O sonho dela era ir para Austrália visitar seu irmão", {"entities": [(25, 34, "LOC")]}),
             ("Em 15/07/1988 nasceu essa linda criançã", {"entities": [(3, 13, "DATE"), (18, 24, "LOC")]}),
             ("Data de prisão: 10/01/2018", {"entities": [(16, 26, "DATE")]}),
             ("No dia 01/02/2016 foi decretada a sentença", {"entities": [(7, 17, "DATE")]}),
             ("A data da festa foi 07/05/2018", {"entities": [(20, 30, "DATE")]}),
             ("Dia 07/06/2020 choveu pela manhã", {"entities": [(4, 14, "DATE")]}),
             ("Michael Jackson nasceu dia 29/08/1958", {"entities": [(0, 15, "PER"), (27, 37, "DATE")]}),
             ("A viagem foi marcada para o dia 21/03/2021", {"entities": [(32, 42, "DATE")]}),
             ("O casamento, que era dia 12/06/2020, foi adiado para o dia 20/07/2020", {"entities": [(25, 35, "DATE"), (59, 68, "DATE")]}),
             ("Dia 21/04/2020 foi feriado", {"entities": [(4, 14, "DATE")]}),
             ("A entrada foi realizada na manhã do dia 18/03/2020", {"entities": [(40, 50, "DATE")]}),
             ("Na noite do dia 17/05/2019 aconteceu um eclipse", {"entities": [(16, 26, "DATE")]}),
             ("Fortaleza é a capital do Ceará", {"entities": [(0, 9, "LOC"), (25, 30, "LOC")]})
             ]



## Função de treino

In [None]:
def train_spacy(data, n_iter):
  TRAIN_DATA = data
  """Carrega o modelo, configura o pipeline e treina o reconhecedor da entidade."""
  nlp = pt_core_news_sm.load() # Carrega o modelo de spaCy existente
  print("Modelo carregado")

  # Criando os componentes internos do pipeline e adicionando-os ao pipeline
  # nlp.create_pipe funciona para built-ins registrados com spaCy
  if "ner" not in nlp.pipe_names:
    ner = nlp.create_pipe("ner")
    nlp.add_pipe(ner, last=True)
  # Caso contrário, obtenha-o para que possa adicionar as labels
  else:
    ner = nlp.get_pipe("ner")

  # Adicionamos as labels
  for _, annotations in TRAIN_DATA:
    for ent in annotations.get('entities'):
      ner.add_label(ent[2])

  # Obtendo os nomes de outros pipes para desativá-los durante o treinamento
  other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
  with nlp.disable_pipes(*other_pipes): # Treina somente NER               
    spacy.util.fix_random_seed()
    optimizer = nlp.begin_training()

    for itn in range(n_iter):
      random.seed(10)
      random.shuffle(TRAIN_DATA)
      losses = {}

      for texts, annotations in TRAIN_DATA:
        nlp.update(
            [texts], # batch de textos
            [annotations], # batch de anotações
            drop = 0.2, # dropout  - dificulta a memorização de Dados
            sgd = optimizer,
            losses = losses,
        )
      print("Losses", losses)

  # test the trained model
    for text, _ in TRAIN_DATA:
      doc = nlp(text)
      print("Entities", [(ent.text, ent.label_) for ent in doc.ents])
      print("Tokens", [(t.text, t.ent_type_) for t in doc])
      print("\n")
  return nlp




In [None]:
nlp_ = train_spacy(data=TRAIN_DATA, n_iter=100)

Modelo carregado


  gold = GoldParse(doc, **gold)
  gold = GoldParse(doc, **gold)


Losses {'ner': 39.61598721454282}
Losses {'ner': 55.484432003635554}
Losses {'ner': 44.32040596795899}
Losses {'ner': 46.91603397027484}
Losses {'ner': 37.964875121598716}
Losses {'ner': 36.16382461610986}
Losses {'ner': 36.32059884441363}
Losses {'ner': 44.82099674137251}
Losses {'ner': 41.183597052131134}
Losses {'ner': 47.00080533053976}
Losses {'ner': 26.708720936934014}
Losses {'ner': 48.79738893005583}
Losses {'ner': 35.25586789193752}
Losses {'ner': 38.146862466982}
Losses {'ner': 34.06014412104608}
Losses {'ner': 36.25861217177124}
Losses {'ner': 33.98607643201062}
Losses {'ner': 31.990328203294425}
Losses {'ner': 47.87567397926539}
Losses {'ner': 26.712966879150873}
Losses {'ner': 33.71569736585529}
Losses {'ner': 34.76999111470231}
Losses {'ner': 47.19565334923136}
Losses {'ner': 39.8086843298525}
Losses {'ner': 31.534044918789593}
Losses {'ner': 33.999546540443234}
Losses {'ner': 46.808082137540524}
Losses {'ner': 26.83759058091326}
Losses {'ner': 29.68049907996788}
Losses {

In [None]:
text = nlp_("Juliana nasceu no dia 18/06/2018 em Fortaleza")

spacy.displacy.render(text, style='ent', jupyter=True)

In [None]:
for entidade in text.ents:
  print(entidade.text, entidade.label_)

Juliana PER
18/06/2018 DATE
Fortaleza LOC


In [None]:
spacy.displacy.render(text, style='dep',jupyter=True)

# Utilizando um dataset


Dataset do kaggle: [justdoit_tweets](https://www.kaggle.com/nulldata/intro-to-nlp-basics-with-spacy/data?select=justdoit_tweets_2018_09_07_2.csv)

Este conjunto de dados contém vários tweets que acompanham a tag #JustDoIt depois que a Nike lançou a campanha publicitária com Colin Kaepernick, que se tornou controversa.

In [None]:
# Importamos as nossas Bibliotecas

import pandas as pd  
from collections import Counter #for counting
import seaborn as sns #for visualization
import en_core_web_sm

In [None]:
nlp = en_core_web_sm.load()

In [None]:
tweets = pd.read_csv("/content/drive/MyDrive/3_EDDY_ISH_TECNOLOGIA/4_ML_inside_of _MANTIS/1_Tratando_Dados_json_Mantis/Applying_spaCy_to_Mantis/justdoit_tweets_2018_09_07_2.csv")


tweets.head(2)

Unnamed: 0,tweet_contributors,tweet_coordinates,tweet_created_at,tweet_display_text_range,tweet_entities,tweet_extended_entities,tweet_favorite_count,tweet_favorited,tweet_full_text,tweet_geo,...,user_profile_text_color,user_profile_use_background_image,user_protected,user_screen_name,user_statuses_count,user_time_zone,user_translator_type,user_url,user_utc_offset,user_verified
0,,,Fri Sep 07 16:25:06 +0000 2018,"[0, 75]","{'hashtags': [{'text': 'quote', 'indices': [47...","{'media': [{'id': 1038100853872197632, 'id_str...",0,False,Done is better than perfect. — Sheryl Sandberg...,,...,333333,True,False,UltraYOUwoman,91870.0,,none,https://t.co/jGlJswxjwS,,False
1,,,Fri Sep 07 16:24:59 +0000 2018,"[0, 237]","{'hashtags': [{'text': 'hero', 'indices': [90,...",,0,False,Shout out to the Great Fire Department and the...,,...,333333,True,False,yungcutup,618822.0,,none,http://t.co/lVm8vfDbfO,,False


In [None]:
tweets.shape

(5089, 72)

## <font color='orange'>obs:</font>

Vimos que ``tweet_full_text`` é o nome da coluna na qual os ``tweets`` são armazenados, vamos imprimir alguns exemplos de tweets.

In [None]:
tweets['tweet_full_text'].loc[0]

'Done is better than perfect. — Sheryl Sandberg #quote #motivation #justdoit https://t.co/J9lLdszdW6'

In [None]:
tweets['tweet_full_text'].loc[5]

"@realDonaldTrump It's time for me to stock up on some new running apparel. Nike it is! #JUSTDOIT"

In [None]:
tweets['tweet_full_text'].loc[23]

'My kinda Lady ... #Justdoit #Nike !!! https://t.co/GIFmg85rAm'

In [None]:
# Podemos visualizar assim, também:

random.seed(44)

text = tweets.tweet_full_text[random.sample(range(1,100),10)]

text

53    Don’t ask if your dreams are crazy. Ask if the...
67    @realDonaldTrump God bless President Trump! 👍👍...
70    @JWKeady @Kaepernick7 @KillerMike @tmorello #N...
90    Just Did It! \n#justdoit #nike #collinkaeperni...
15    Why be a cat when you can be a lion. #JustDoIt...
23    My kinda Lady ... #Justdoit #Nike !!! https://...
49    New season of #ESG Notes kicks off today. Toda...
29    Don't skip leg day y'all #legday #justdoit #fl...
38    Just do it. #nike #meme #justdoit #justtryit #...
4     One Hand, One Dream: The Shaquem Griffin Story...
Name: tweet_full_text, dtype: object

In [None]:
text_combined = str(text)

In [None]:
doc = nlp(text_combined)

In [None]:
for ent in doc.ents:
  print(ent.text, "  -->  ", ent.label_)

53   -->   CARDINAL
67   -->   CARDINAL
Trump   -->   PERSON
👍   -->   GPE
70   -->   CARDINAL
@Kaepernick7   -->   ORG
90   -->   CARDINAL
\n#justdoit #nike #collinkaeperni   -->   PERSON
15   -->   CARDINAL
23   -->   CARDINAL
kinda Lady   -->   PERSON
#Justdoit #   -->   MONEY
Nike   -->   ORG
49   -->   DATE
today   -->   DATE
29   -->   CARDINAL
#legday #   -->   MONEY
38   -->   CARDINAL
#nike #meme #   -->   MONEY
4   -->   CARDINAL
One   -->   CARDINAL
tweet_full_text   -->   CARDINAL


In [None]:
spacy.displacy.render(doc, style='ent',jupyter=True)


In [None]:
print("GPE:", spacy.explain('GPE'))

print("MONEY:", spacy.explain('MONEY'))

GPE: Countries, cities, states
MONEY: Monetary values, including unit


## Outros recursos do *spaCy*

### Tokenização

In [None]:
for token in doc:
  print(token)

### PoS

In [None]:
for token in doc:
  print(token.text, token.pos_)

53 NUM
    SPACE
Do AUX
n’t PART
ask VERB
if SCONJ
your DET
dreams NOUN
are AUX
crazy ADJ
. PUNCT
Ask VERB
if SCONJ
the DET
... PUNCT

 SPACE
67 NUM
    SPACE
@realDonaldTrump NOUN
God PROPN
bless VERB
President PROPN
Trump PROPN
! PUNCT
👍 ADJ
👍 NOUN
... PUNCT

 SPACE
70 NUM
    SPACE
@JWKeady PUNCT
@Kaepernick7 PROPN
@KillerMike PUNCT
@tmorello PROPN
# SYM
N NUM
... PUNCT

 SPACE
90 NUM
    SPACE
Just ADV
Did AUX
It PRON
! PUNCT
\n#justdoit X
# SYM
nike PROPN
# PROPN
collinkaeperni PROPN
... PUNCT

 SPACE
15 NUM
    SPACE
Why ADV
be AUX
a DET
cat NOUN
when ADV
you PRON
can VERB
be AUX
a DET
lion NOUN
. PUNCT
# SYM
JustDoIt PROPN
... PUNCT

 SPACE
23 NUM
    SPACE
My DET
kinda ADJ
Lady PROPN
... PUNCT
# SYM
Justdoit PROPN
# SYM
Nike PROPN
! PUNCT
! PUNCT
! PUNCT
https:// INTJ
... PUNCT

 SPACE
49 NUM
    SPACE
New ADJ
season NOUN
of ADP
# SYM
ESG PROPN
Notes PROPN
kicks VERB
off ADP
today NOUN
. PUNCT
Toda PROPN
... PUNCT

 SPACE
29 NUM
    SPACE
Do AUX
n't PART
skip VERB
leg NOUN
day 