### Implementando NER - Named Entity Recognition

**Named Entity Recognition (NER)** é uma técnica fundamental no campo de Processamento de Linguagem Natural (NLP), que tem como objetivo identificar e classificar entidades nomeadas dentro de um texto. Essas entidades podem ser nomes de pessoas, organizações, localizações, datas, números, entre outras categorias. O processo de NER é crucial para extrair informações estruturadas de dados textuais não estruturados, permitindo que sistemas automatizados possam entender e utilizar informações importantes contidas em grandes volumes de texto.

Neste notebook Python, o objetivo é implementar a técnica de NER de forma separada, isolando-a como uma parte específica do processo de análise de dados. Essa abordagem modular é importante porque permite que o NER seja integrado de forma flexível dentro de uma pipeline de processamento de dados mais ampla. Ao separar a implementação do NER, garantimos que esse passo possa ser facilmente ajustado, testado e reaproveitado em diferentes etapas ou em outros projetos.

A implementação contida neste notebook irá carregar modelos de NER específicos para o idioma português, aplicar o reconhecimento de entidades em dados textuais fornecidos e armazenar os resultados em um formato estruturado. Isso facilita a análise subsequente e a integração dos dados processados com outras etapas da pipeline, como a análise de sentimentos, categorização de tópicos, ou qualquer outra tarefa de NLP que dependa da extração precisa de entidades nomeadas.

#### Referências:
GHADGE, Mangesh. *Building Your Own Custom Named Entity Recognition (NER) Model with spaCy v3: A Step-by-Step Guide*. Medium, 2021. Disponível em: [https://medium.com/@mjghadge9007/building-your-own-custom-named-entity-recognition-ner-model-with-spacy-v3-a-step-by-step-guide-15c7dcb1c416](https://medium.com/@mjghadge9007/building-your-own-custom-named-entity-recognition-ner-model-with-spacy-v3-a-step-by-step-guide-15c7dcb1c416). Acesso em: 12 ago. 2024.

TOWARDS DATA SCIENCE. *Named Entity Recognition (NER) using spaCy | NLP | Part-4*. Towards Data Science, 2020. Disponível em: [https://towardsdatascience.com/named-entity-recognition-ner-using-spacy-nlp-part-4-28da2ece57c6](https://towardsdatascience.com/named-entity-recognition-ner-using-spacy-nlp-part-4-28da2ece57c6). Acesso em: 12 ago. 2024.

## Importando as bibliotecas necessárias

In [1]:
# Importando o dataset
from google.colab import drive
import pandas as pd

drive.mount('/content/drive')
path = '/content/drive/Shareddrives/grupo3moshi/chats_clients.csv'
df = pd.read_csv(path)

df.head()

Mounted at /content/drive


Unnamed: 0,No,Intencao,Pergunta,Resposta
0,1,Como depositar,Boa dia.tudo bem?eu gostaria de saber sobre aq...,"Bom dia! Sim, o sr pode utilizar o cartão de d..."
1,2,Como fazer remessa,Como enviar dinheiro do Japão?,"Para se inscrever no serviço de remessa, por f..."
2,3,Tempo de remessa,Quanto tempo levará para o beneficiário recebe...,"Via de regra, as remessas serão pagas via PIX ..."
3,4,"Pedido de envio via metodo ""ByPhone""",Boa tarde\nAcabei de fazer a transferência de ...,iremos processar a sua solicitacao.\nMuito obr...
4,5,"Pedido de envio via metodo ""ByPhone""",Poderia fazer a remessa de 22yenes para o BBB ...,iremos processar a sua solicitacao.\nMuito obr...


In [2]:
# Instalando o pacote de suporte a português do Spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m63.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


## Implementando NER com Spacy

In [3]:
# Implementando um simples processamento NER
import spacy
nlp_pt = spacy.load("pt_core_news_sm")

In [6]:
def extract_ents(text):
    # Verificar se o texto é válido (não é NaN ou vazio)
    if not isinstance(text, str):
        return []

    # Processar o texto apenas com o modelo em português
    doc_pt = nlp_pt(text)

    # Extrair e formatar entidades nomeadas em um dicionário
    ents = [{f'{ent.text}': ent.label_} for ent in doc_pt.ents]
    return ents

In [7]:
# Abaixo testamos a função em uma sentença controlada para testar a sanidade da função e sua lógica
sentence = "Maria mora em São Paulo, e trabalha na Brastel Remit."
sentence_ents = extract_ents(sentence)

sentence_ents

[{'Maria': 'PER'}, {'São Paulo': 'LOC'}, {'Brastel Remit': 'LOC'}]

In [8]:
# Abaixo temos o dataset antes de utilizar as funções
df.head()

Unnamed: 0,No,Intencao,Pergunta,Resposta
0,1,Como depositar,Boa dia.tudo bem?eu gostaria de saber sobre aq...,"Bom dia! Sim, o sr pode utilizar o cartão de d..."
1,2,Como fazer remessa,Como enviar dinheiro do Japão?,"Para se inscrever no serviço de remessa, por f..."
2,3,Tempo de remessa,Quanto tempo levará para o beneficiário recebe...,"Via de regra, as remessas serão pagas via PIX ..."
3,4,"Pedido de envio via metodo ""ByPhone""",Boa tarde\nAcabei de fazer a transferência de ...,iremos processar a sua solicitacao.\nMuito obr...
4,5,"Pedido de envio via metodo ""ByPhone""",Poderia fazer a remessa de 22yenes para o BBB ...,iremos processar a sua solicitacao.\nMuito obr...


In [9]:
# Implementando no dataset
df['Pergunta - NER'] = df['Pergunta'].apply(extract_ents)
df['Resposta - NER'] = df['Resposta'].apply(extract_ents)

In [10]:
df.head()

Unnamed: 0,No,Intencao,Pergunta,Resposta,Pergunta - NER,Resposta - NER
0,1,Como depositar,Boa dia.tudo bem?eu gostaria de saber sobre aq...,"Bom dia! Sim, o sr pode utilizar o cartão de d...","[{'Boa': 'LOC'}, {'family mart verde': 'MISC'}...","[{'Sim': 'ORG'}, {'JP Bank': 'MISC'}]"
1,2,Como fazer remessa,Como enviar dinheiro do Japão?,"Para se inscrever no serviço de remessa, por f...",[{'do Japão': 'LOC'}],"[{'Brastel Remit': 'ORG'}, {'Brastel Remit': '..."
2,3,Tempo de remessa,Quanto tempo levará para o beneficiário recebe...,"Via de regra, as remessas serão pagas via PIX ...",[],[{'PIX': 'ORG'}]
3,4,"Pedido de envio via metodo ""ByPhone""",Boa tarde\nAcabei de fazer a transferência de ...,iremos processar a sua solicitacao.\nMuito obr...,"[{'Acabei': 'PER'}, {'Total de 45Yenes ': 'MIS...",[]
4,5,"Pedido de envio via metodo ""ByPhone""",Poderia fazer a remessa de 22yenes para o BBB ...,iremos processar a sua solicitacao.\nMuito obr...,"[{'BBB RRR': 'MISC'}, {'AAAA MMMM VVVVV': 'MIS...",[]
