<a href="https://colab.research.google.com/github/cam2149/FundamentosIA/blob/main/1.1._Named_Entity_Recognition.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción al proyecto Named-Entity Recognition (NER)

###Introducción a Named Entity Recognition (NER)
Named Entity Recognition (NER) es una técnica fundamental en el campo del Procesamiento de Lenguaje Natural (NLP) que se enfoca en identificar y clasificar entidades específicas dentro de textos no estructurados. Este proceso, también conocido como entity identification, entity chunking, o entity extraction, es crucial para extraer información estructurada de textos y permitir que las máquinas comprendan y categoricen entidades de manera significativa.

###Definición y Objetivo de NER
En esencia, NER busca localizar y clasificar entidades nombradas mencionadas en un texto en categorías predefinidas, como nombres de personas, organizaciones, localizaciones, expresiones de tiempo, cantidades, porcentajes, y otros tipos de entidades. El objetivo es identificar, ordenar y clasificar estas entidades por su importancia, lo que facilita la comprensión y el análisis del texto.

###Métodos de NER
Existen varios métodos para implementar NER, cada uno con sus propias ventajas y desventajas. Los métodos incluyen el enfoque basado en diccionarios, que utiliza listas de términos para identificar entidades; el enfoque basado en reglas, que depende de un conjunto de instrucciones predefinidas; y el enfoque basado en aprendizaje automático, que utiliza modelos estadísticos entrenados con datos etiquetados. Además, los sistemas híbridos combinan más de uno de estos enfoques para mejorar la precisión.

###Proceso de NER
El proceso de NER se puede dividir en varias etapas clave. Primero, se realiza la tokenización, donde el texto se divide en unidades más pequeñas como palabras o frases. Luego, se identifican las entidades utilizando métodos estadísticos o reglas semánticas. Posteriormente, estas entidades se clasifican en categorías predefinidas, como persona, organización o localización. Finalmente, se utiliza el análisis contextual para mejorar la precisión de la clasificación, considerando el contexto en el que se mencionan las entidades.

###Aplicaciones y Usos de NER
NER tiene una amplia gama de aplicaciones en diversas industrias, desde entretenimiento y salud hasta finanzas y educación. Se utiliza en sistemas de recomendación, como los de Netflix o Spotify, para analizar el historial de búsqueda y contenido interactuado. También es esencial en la construcción de gráficos de conocimiento, la respuesta a preguntas y la traducción automática. Además, NER mejora la precisión de otras tareas de NLP, como la etiquetación de partes del discurso y el análisis sintáctico.





In [1]:
!pip install transformers



El entorno de ejecución de este código se conserva a lo largo de todo el cuaderno. Esto quiere decir que si definimos una variable en una celda:

In [2]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

In [3]:
tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/distilbert-base-multilingual-cased-ner-hrl")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


__Nota.__ Es importante tener en cuenta que la ejecución del código del cuaderno es a demanda del usuario, es decir, que si ejecutamos una celda esto no quiere decir que las celdas anteriores hayan sido ejecutadas, lo que puede llevar a errores. Veámoslo con un ejemplo:

In [19]:
def ner(text):
 ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer)
 ner_results = ner_pipeline(text)
 #return {'text': text, 'entities': ner_results}
 return ner_results

In [25]:
ner("My name is Carlos and I live in Brasil")

[{'entity': 'B-PER',
  'score': 0.99776375,
  'index': 4,
  'word': 'Carlos',
  'start': 11,
  'end': 17},
 {'entity': 'B-LOC',
  'score': 0.99990225,
  'index': 9,
  'word': 'Brasil',
  'start': 32,
  'end': 38}]

In [26]:
!pip install gradio==4.29.0
import gradio as gr




In [27]:
demo = gr.Interface(
    fn=ner,
    inputs="text",
    outputs=gr.HighlightedText(),
    theme=gr.themes.Soft(),
    )

In [28]:
demo.launch()

Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Running on public URL: https://7cd03c4b4ff1e6fece.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)


