# Taller NLP - Preprocesamiento de texto

NLP son las siglas en inglés para _Procesamiento de Lenguaje Natural_ (_Natural Language Processing_), no confundir con
PNL (_Programación Neurolingüística_), que es una pseudociencia y no tiene nada que ver con esto (pero es un error común).

El NLP es el campo de la informática que trata las técnicas y la teoría necesaria para tratar lenguaje, escrito o hablado,
cuando éste se da en formato natural, es decir, en la manera en que los seres humanos hablamos normalmente, y no en formatos
específicamente creados para ordenadores (como pueden ser los lenguajes de programación).

En resumen, podemos decir que consiste en dotar a los ordenadores de la capacidad para entender o generar lenguaje humano.

Si lo vemos en este bootcamp es porque en los últimos años se ha visto muy beneficiado del auge de la IA.
Igual que en nuestro caso es nuestro cerebro el que procesa el lenguaje, el NLP se ha desarrollado mucho en el contexto del
Machine Learning y las Redes Neuronales, en ocasiones siendo el caballo de batalla de organizaciones de la talla de OpenAI.

El modelo más avanzado con el que contamos hasta ahora, los Transformers, fueron inventados por Google para resolver problemas
de NLP (aunque luego fueran ampliados a la Visión por Computador) y por el desarrollo de algunos de los últimos modelos
de NLP más potentes (como GPT-4 o Llama).

Empezando por el principio, no todo son modelos de redes neuronales. Existe mucho procesado que puede hacerse textos naturales
que no envuelve al Machine Learning pero que es necesario conocer como primeros pasos. Ese es el tema de este taller.

## Funciones básicas con strings

Lo primero son las herramientas básicas que Python nos ofrece para tratar con cadenas o strings.

String es el tipo que python asigna a los objetos que son de tipo "cadena de caracteres" y que indicamos porque escribimos
entre comillas. Cuando leamos un texto, este es el tipo que Python le va a asignar (o que debería asignarle).

Como todo objeto, los strings tienen sus métodos, y esos métodos son nuestro set de herramientas más básico.

In [2]:
cadena = "     Esto es un ejemplo de String en Python    "

In [3]:
print(cadena)

     Esto es un ejemplo de String en Python    


Comprobemos de qué tipo es nuestra nueva variable "cadena" (los espacios antes y después están puestos a propósito)

In [4]:
type(cadena)

str

Efectivamente, es de tipo string, como cabía esperar. Como decía antes, tenemos todo un conjunto de métodos con el que podemos
hacer algún procesamiento básico. Podéis encontrarlos listados aquí:

- https://www.w3schools.com/python/python_ref_string.asp

Por ejemplo, el método .lstrip() (left strip) nos devuelve una versión de la cadena sin espacios a la izquierda. Veámoslo:

In [5]:
print(cadena.lstrip())

Esto es un ejemplo de String en Python    


Como véis, el método me muestra la cadena sin espacios a la izquierda. A la derecha los sigue teniendo, si subrayáis el texto
con el ratón podéis comprobarlo.

Ahora probad otros métodos:

In [6]:
# Printar la cadena pero todo en mayúscula
print(cadena.upper())

     ESTO ES UN EJEMPLO DE STRING EN PYTHON    


In [7]:
# Printar la cadena sin espacios ni a la derecha ni a la izquierda, en una sola línea de código
print(cadena.strip())  # Se utiliza .strip() para eliminar espacios a ambos lados

Esto es un ejemplo de String en Python


In [9]:
# Separar la cadena por los espacios de forma que nos quede una lista de palabras
lista_palabras = cadena.split()  # Utilizamos .split() para separar la cadena en una lista de palabras

In [10]:
# Imprimir la lista de palabras
print(lista_palabras)  # Esto mostrará la lista de palabras separadas

['Esto', 'es', 'un', 'ejemplo', 'de', 'String', 'en', 'Python']


Pensad que podemos combinarlos

In [11]:
# Imprimir la cadena pero todo en minúsculas y además sin espacios a los lados
print(cadena.strip().lower())

esto es un ejemplo de string en python


In [13]:
# Imprimir la cadena como una lista de palabras en mayúsculas
lista_palabras_mayusculas = [palabra.upper() for palabra in lista_palabras]  # Convertir cada palabra a mayúsculas
print(lista_palabras_mayusculas)  # Imprimir la lista de palabras en mayúsculas

['ESTO', 'ES', 'UN', 'EJEMPLO', 'DE', 'STRING', 'EN', 'PYTHON']


Estos métodos son bastante útiles, por ejemplo, para tener todo el texto en minúsculas y así normalizarlo para que por ejemplo en el siguiente texto:

"""

EL MARTILLO

Un martillo es una herramienta muy útil para clavar un clavo

"""

el ordenador no piense que "MARTILLO" (que está en mayúsculas por ser el título) es una palabra diferente a "martillo", ni a
"Martillo", en caso de que en algún momento se diera que fuera la primera palabra después de un punto, por ejemplo.

## Expresiones Regulares

Habréis observado que los métodos de cadenas tienen un método .replace() que te sustituye parte de la cadena por otra cosa.

Por ejemplo:

In [None]:
cadena2 = "Todavía no había salido el sol"
cadena2 = cadena2.replace("el sol", "la luna")
print(cadena2)

Todavía no había salido la luna


Pero, ¿qué pasa si lo que quiero cambiar no es una subcadena en concreto sino un patrón?

Por ejemplo, mi programa está guardando algunos logs de una información que un usuario (Manolo) introduce en lenguaje natural
en una aplicación de citas médicas, entonces, Manolo escribe lo siguiente:

"""
Pues mi nombre es Manolo y soy electricista, me gustaría contactar con vosotros a ver si podemos agendar una cita. Si os
parece bien, os dejo por aquí mi número de teléfono (632147854) y mi correo electrónico manolo@noexisto.com y ya si eso
me mandáis los horarios con la disponibilidad.
"""

Por temas de seguridad queréis que en los logs, los números de teléfono y correos electrónicos se sustituyan por asteriscos.
Pero claro, no podéis programar eso de primeras, porque no podéis escribir a mano todos los números de teléfono posibles, y
mucho menos todos los correos posibles. Aún peor, Manolo ha escrito su número así "632147854", pero Marisa podría poner
"635-28-45-64" y Antonia podría poner "+34 612 254 742". Son muchos casos posibles.

Además no sólo podríamos querer "censurar" esos datos, sino que podríamos hacer un programa que detectara el correo electrónico
automáticamente y mandase un correo a esa dirección diciendo que se ha recibido su petición. Pero necesitamos poder detectarlo
en primer lugar, y aquí separar en palabras y mirar una a una no parece una solución.

Para eso sirven las __expresiones regulares__.

Las expresiones regulares son un lenguaje con el que podemos escribir patrones de texto que luego podemos matchear en un string
para extraer ese match o sustituírlo por otra cosa. Por ejemplo podría detectar el nombre de la persona que ha escrito
el mensaje de antes si construyo una expresión regular que haga match con palabras que empiecen en mayúscula y no vayan
al principio de la oración.

Otra función para las expresiones regulares es por ejemplo validar formularios (comprobar que cuando un usuario se registra
en tu web el correo que ha introducido es válido porque cumple un patrón, como que tiene una sola arroba, texto antes y
después de la arroba o acaba en .com, .es, .it, .org... etc. Si el campo introducido no hace match con la expresión regular,
entonces el formulario se pone en rojo y te pide que introduzcas un e-mail válido. Es increíblemente útil.

En principio, el lenguaje de las expresiones regulares se hace muy raro, pero cuando te acostumbras se hace bastante fácil.
Os dejo la documentación en Python:

https://docs.python.org/3/library/re.html

Y un pequeño tutorial:

https://www.w3schools.com/python/python_regex.asp

Para probar expresiones regulares, tenéis esta página:

https://regexr.com/

Os propongo un ejercicio:

Tenéis un txt con mogollón de texto que no va a ningún lado y no significa nada, es morralla. Pero en ese texto hay información
valiosa, concretamente correos electrónicos, y tenéis que construir una expresión regular que los encuentre todos.

La regla es que solo tienen una arroba, pero tienen que tener una mínimo. Pueden acabar en .com, .org o .es. Cuidado con el
símbolo "-" porque no cuenta como alfanumerico

En total son 20. Cuidado porque hay correos falsos, que deberían ser fácil de identificar.

In [14]:
import re

In [15]:
# Leer el txt
with open("./correos.txt", "r") as file:
    correos_text = file.read()
print(correos_text)

ï»¿Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nullam non tincidunt nisl, sit amet ornare nisi. Fusce vel placerat enim. Pellentesque vestibulum, libero non mollis suscipit, eros nunc pharetra sem, a rhoncus enim erat eget purus. Curabitur gravida sapien at lectus consequat porttitor. Curabitur imperdiet accumsan tellus vel sollicitudin. Donec congue tincidunt odio, at rhoncus sapien dignissim eget. Nulla ultrices dolor turpis, in dapibus augue tristique dignissim. Curabitur ac vehicula elit, eu lacinia mi. Quisque interdum finibus urna a mattis. Vivamus semper nulla tortor, vel pulvinar elit mattis id. Morbi quis scelerisque est. Nullam volutpat enim at enim convallis ultricies. Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. Nunc dictum vel risus in placerat. Phasellus sed rutrum lacus. Quisque elementum imperdiet ipsum sed tempus.


Nulla lobortis, justo sed suscipit lacinia, massa augue convallis risus, ut pulvinar ligula vel

In [17]:
# Construir la RegEx
pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.(com|org|es)"  # Expresión regular para encontrar correos electrónicos

matches = re.findall(pattern, correos_text)
for match in matches:
    print(match)  # Imprimir cada correo encontrado

org
com
com
com
com
es
com
com
com
org
org
com
org
es
es
org
es
com
com
org
com
com


## Encoding de textos

Un concepto importante al tratar con textos en informática, es el encoding de caracteres.

En esencia, el ordenador está tratando con cadenas de unos y ceros. Cuando nosotros vemos caracteres en una pantalla,
realmente el ordenador está mapeando secuencias de ceros y unos a esos diferentes caracteres. Qué secuencias significan
qué caracteres es una cuestión meramente convencional (podemos acordar que 001101 equivale a la letra q y que 110010 equivale
a la letra ñ, pero también podríamos acordarlo al contrario). Ese código que usemos para mapear lo que el ordenador lee con
los caracteres que muestra es importante porque si leemos un texto escrito con un código, por ejemplo _latin1_ con otro
código, por ejemplo _utf-8_, encontraremos que la palabra _Café_ se podría leer como _CafÃ©_

Por convención, es buena práctica utilizar siempre la codificación de UTF-8, que es universal, y forma parte del estándar
Unicode (más información aquí https://es.wikipedia.org/wiki/Unicode#Formas_de_codificaci%C3%B3n), pero cuidado porque es
relativamente común encontrar textos en otro formatos y tendremos que adaptarnos, podremos reconocer el problema cuando empecemos a ver caracteres extraños donde deberían haber tildes o ñ.

## Eliminar tíldes

A veces la tildes son un problema. Imagina que tu corpus de texto son comentarios de gente en internet, por ejemplo twitter.

Hay mucha gente que escribe correctamente en twitter, y otra mucha que no. Habrá quien escriba "camaleón" y habrá quien solo escriba "camaleon". También habrá gente que se equivoque y escriba "camáleon" o "camaleòn" o cualquier cosa que se os ocurra.

Para el ordenador, todas esas palabras son palabras diferentes. A veces conviene eliminar todas las tildes para normalizar
el texto y que sea todo igual (recordad que siempre tenemos que tener en cuenta el corpus).

Si nuestro texto está en algún formato que siga el estándar Unicode, es fácil hacerlo, porque en Unicode estos caracteres
son una composición de caracteres, y por tanto podemos descomponerlos y eliminar lo que no queramos.

Y lo mejor de todo es que Python lo hace por ti:

In [18]:
texto_tildes = """Me gustan los pingüinos, es un animal fantástico. Lo malo es que en Málaga es mejor un camaleón,
porque hace mucho calor"""

In [19]:
# Importamos la librería de unidecode, la cual debemos instalar primero
import unidecode

In [20]:
# Aplicamos la función para eliminar tildes (tendréis que investigar un poco, es una sola línea de código)
texto_no_tildes = unidecode.unidecode(texto_tildes)

In [21]:
print(texto_no_tildes)

Me gustan los pinguinos, es un animal fantastico. Lo malo es que en Malaga es mejor un camaleon,
porque hace mucho calor


## Ejercicio

Con todas las herramientas que hemos visto, os voy a dar una lista con texto. La idea es que lo normalicéis, de modo que más o
menos todo el texto acabe siendo parecido en cuanto a formato.

In [22]:
textos = ["PúEs eL oTró dïA sAlí al PolíGönO dE fIésTa y Kè mÖvìdötE tRônKò", "hijo traeme unas almondigas desas del super cuando vengas", "BUAAAH qué pasada el nuevo temazo del Bizarrap con Duki, pega tremendo"]

In [23]:
def clean_text(text):
    # Convertir a minúsculas
    text = text.lower()
    
    # Eliminar tildes y caracteres especiales
    text = unidecode.unidecode(text)
    
    # Eliminar espacios extra y limpiar
    text = text.strip()
    
    return text

In [24]:
textos_normalizados = []
for text in textos:
    texto_limpio = clean_text(text)
    textos_normalizados.append(texto_limpio)

In [26]:
for text in textos_normalizados:
    print(text)

pues el otro dia sali al poligono de fiesta y ke movidote tronko
hijo traeme unas almondigas desas del super cuando vengas
buaaah que pasada el nuevo temazo del bizarrap con duki, pega tremendo


### NER con Spacy

Entrando en materia, vamos a hablar de un problema clásico del NLP, el NER.

NER son las siglas en inglés de _Named-Entity Recognition_. En castellano, es reconocimiento de entidades.

Cuando tenemos un texto, sobre todo textos largos y en lenguaje natural, una operación que podemos querer realizar es extraer
los temas importantes de los que se está hablando o identificar elementos concretos que no conocemos a priori.

Realmente esto ya lo hemos hecho más arriba, es exactamente lo que hemos hecho con las expresiones regulares. Teníamos un
texto con muchísima información irrelevante y hemos usado una de las herramientas de nuestro toolbox para identificar una
entidad en concreto (en ese caso esa entidad eran correos electrónicos). En ese caso esa era una solución óptima porque
conocemos el patrón con el que se construyen los correos electrónicos. Pero en otros casos puede llegar a ser más complicado
o podemos llegar a soluciones diferentes. Por ejemplo, si queremos reconocer organizaciones internacionales que se mencionen
en el texto podemos usar un diccionario que guarde los nombres de todas las entidades internacionales registradas y diseñar
una función que busque si alguna de esas organizaciones está en el texto.

La cosa se puede complicar, podemos querer encontrar sencillamente entidades relevantes sin tener a priori mucha idea de qué
estamos buscando, es decir, un programa que dado un texto identifique qué cosas son importantes en ese texto. Es una tarea
complicada, pero conocemos ya algunas técnicas para que el ordenador aprenda y reconozca patrones (si, la IA). Además en
función de lo que lo queramos o necesitemos complicar podemos recurrir a una técnica de Machine Learning o de Deep Learning.

Vamos a ver una solución un poco más avanzada y además fácil de implementar con una librería llamada Spacy:

In [28]:
import spacy

In [29]:
# Tendremos que cargar la configuración del modelo en español, la cual hay que instalar. Bichead cómo en la docu
nlp = spacy.load('es_core_news_sm')

In [30]:
sentence = """
La falta de médicos y enfermeras no se puede resolver con más pantallas.
No se pueden atender bien las mismas urgencias con la mitad del personal.
No se puede insultar a quien, abnegadamente y con el viento de cara, se parte
el espinazo para atender a muchos más enfermos de los que puede en el tiempo del que dispone.
Son matemáticas. Es sentido común. La caótica reorganización de las urgencias
de Madrid ha puesto al descubierto, con luces de neón, una situación que era explosiva
por unas carencias materiales y organizativas que se han vuelto crónicas y una gestión política prepotente,
desconectada de la realidad y en muchos aspectos, incompetente.
"""

In [31]:
# Leemos el documento
with open("./boe_covid19_2020.txt", "r", encoding="utf8") as file:
    boe = file.read()

In [33]:
print(boe)

TEXTO ORIGINAL
I


La pandemia de COVID-19 está suponiendo una emergencia sanitaria a nivel global. Tal y como declaró la Organización Mundial de la Salud el pasado 11 de marzo, el brote de COVID-19 se ha convertido en la última semana en una pandemia. Inicialmente localizado en la región china de Hubei, en las últimas semanas el brote de COVID-19 se ha propagado rápidamente por todo el mundo.


La crisis sanitaria se está transmitiendo a la economía y a la sociedad a una velocidad inusitada, afectando tanto a la actividad productiva como a la demanda y al bienestar de los ciudadanos. La economía se está viendo afectada por diversos canales, atendiendo a la evolución temporal y geográfica del brote de COVID-19, pudiendo distinguirse algunos factores:


En primer lugar, una afección inicial concentrada en China, con impacto sobre las cadenas de valor global, procedente de la reducción de plantillas y la capacidad de producción en uno de los principales centros logísticos de carácter int

Como vemos, es el extracto del Boletín Oficial del Estado de cuando se decretó el estado de alarma por la situación con la
pandemia en 2020. Vamos a pasárselo a Spacy para que lo analice y a pedirle las entidades que detecte:

In [34]:
boe_processed = nlp(boe)

In [35]:
for ent in boe_processed.ents:
    print(f"{ent.label_:{10}} - {ent.text.upper()}")

MISC       - ORIGINAL
MISC       - I



LOC        - COVID-19
MISC       - TAL
ORG        - ORGANIZACIÓN MUNDIAL DE LA SALUD
LOC        - COVID-19
LOC        - HUBEI
LOC        - COVID-19
MISC       - LA ECONOMÍA SE ESTÁ
LOC        - COVID-19
LOC        - CHINA
LOC        - HUBEI
LOC        - CHINA
MISC       - EL CIERRE DE LOS COLEGIOS
MISC       - ANTE LA SITUACIÓN DE EMERGENCIA
LOC        - GOBIERNO
MISC       - REAL DECRETO
MISC       - LA PANDEMIA DEL COVID-19 SUPONDRÁ
MISC       - EL OBJETIVO
ORG        - COMISIÓN EUROPEA
MISC       - COMUNICACIÓN
MISC       - LA PANDEMIA DEL COVID-19
LOC        - ESTADOS MIEMBROS
MISC       - EL IMPACTO FINAL
MISC       - ESTAS ÚLTIMAS PUEDEN
LOC        - COVID-19
ORG        - CONSEJO INTERTERRITORIAL
LOC        - SISTEMA NACIONAL DE SALUD
LOC        - GOBIERNO
LOC        - GOBIERNO
PER        - ADEMÁS
LOC        - ADMINISTRACIÓN
MISC       - REAL DECRETO
PER        - TAMBIÉN
LOC        - SISTEMA NACIONAL DE SALUD
MISC       - PRIMERO
MISC      

Como vemos no solo las localiza, sino que además las etiqueta (Miscelánea, localización, organización, persona etc), lo cual
nos puede facilitar un procesado posterior, filtrando por entidades o algo así.

Spacy tiene un submódulo llamado Displacy que nos permite mostrar los resultados de los análisis en formatos agradables:

In [36]:
from spacy import displacy

In [37]:
displacy.render(boe_processed, style="ent")

¿Recordáis los análisis sintácticos en el colegio? corred el siguiente código. El futuro es hoy:

In [38]:
text = "El pangolín dormía plácidamente en su árbol al amanecer"

In [39]:
ptext = nlp(text)

In [40]:
displacy.render(ptext, style="dep")

## Ejercicio

¿Recordáis la introducción de este cuaderno?

Os la paso como texto en la siguiente variable. Hacedle un NER a ver qué tal:

In [41]:
intro = """
NLP son las siglas en inglés para Procesamiento de Lenguaje Natural (Natural Language Processing), no confundir con
PNL (Programación Neurolingüística), que es una pseudociencia y no tiene nada que ver con esto (pero es un error común).

El NLP es el campo de la informática que trata las técnicas y la teoría necesaria para tratar lenguaje, escrito o hablado,
cuando éste se da en formato natural, es decir, en la manera en que los seres humanos hablamos normalmente, y no en formatos
específicamente creados para ordenadores (como pueden ser los lenguajes de programación).

En resumen, podemos decir que consiste en dotar a los ordenadores de la capacidad para entender o generar lenguaje humano.

Si lo vemos en este bootcamp es porque en los últimos años se ha visto muy beneficiado del auge de la IA.
Igual que en nuestro caso es nuestro cerebro el que procesa el lenguaje, el NLP se ha desarrollado mucho en el contexto del
Machine Learning y las Redes Neuronales, en ocasiones siendo el caballo de batalla de organizaciones de la talla de OpenAI.

El modelo más avanzado con el que contamos hasta ahora, los Transformers, fueron inventados por Google para resolver problemas
de NLP (aunque luego fueran ampliados a la Visión por Computador) y por el desarrollo de algunos de los últimos modelos
de NLP más potentes (como GPT-3 o Blossom) se ha observado la aparición de ciertos fenómenos emergentes como el
in context learning, abriendo una posible puerta a la Inteligencia Artificial Fuerte.

Empezando por el principio, no todo son modelos de redes neuronales. Existe mucho procesado que puede hacerse textos naturales
que no envuelve al Machine Learning pero que es necesario conocer como primeros pasos. Ese es el tema de este taller.
"""

In [44]:
# Procesar el texto con spaCy
intro_processed = nlp(intro)


In [45]:
# Mostrar las entidades encontradas
for ent in intro_processed.ents:
    print(f"{ent.label_:{10}} - {ent.text}")

ORG        - NLP
ORG        - Procesamiento de Lenguaje Natural
LOC        - Natural Language Processing
ORG        - PNL
ORG        - Programación Neurolingüística
MISC       - El NLP
LOC        - IA
MISC       - NLP
ORG        - Machine Learning
LOC        - Redes Neuronales
MISC       - OpenAI
MISC       - El modelo más avanzado
MISC       - Transformers
ORG        - Google
MISC       - NLP
LOC        - Visión por Computador
MISC       - NLP
MISC       - GPT-3
MISC       - Blossom
MISC       - Inteligencia Artificial Fuerte
ORG        - Machine Learning
MISC       - Ese


In [46]:
# Para una visualización más bonita, podemos usar displacy
from spacy import displacy
displacy.render(intro_processed, style="ent")

Con spaCy podemos realizar varios tipos de análisis al texto. Aquí muestro algunas opciones adicionales:

In [47]:
# Procesar el texto
doc = nlp(intro)

In [48]:
# 1. Análisis de tokens y lemas
print("=== Tokens y Lemas ===")
for token in doc:
    print(f"Token: {token.text:<20} Lema: {token.lemma_:<20} POS: {token.pos_}")

=== Tokens y Lemas ===
Token: 
                    Lema: 
                    POS: SPACE
Token: NLP                  Lema: NLP                  POS: PROPN
Token: son                  Lema: ser                  POS: AUX
Token: las                  Lema: el                   POS: DET
Token: siglas               Lema: sigla                POS: NOUN
Token: en                   Lema: en                   POS: ADP
Token: inglés               Lema: inglés               POS: NOUN
Token: para                 Lema: para                 POS: ADP
Token: Procesamiento        Lema: Procesamiento        POS: PROPN
Token: de                   Lema: de                   POS: ADP
Token: Lenguaje             Lema: Lenguaje             POS: PROPN
Token: Natural              Lema: Natural              POS: PROPN
Token: (                    Lema: (                    POS: PUNCT
Token: Natural              Lema: Natural              POS: PROPN
Token: Language             Lema: Language             POS: PROPN

In [49]:
# 2. Análisis sintáctico - Dependencias
print("\n=== Dependencias Sintácticas ===")
for token in doc:
    print(f"{token.text:<20} --> {token.dep_:<20} de: {token.head.text}")


=== Dependencias Sintácticas ===

                    --> dep                  de: 

NLP                  --> nsubj                de: siglas
son                  --> cop                  de: siglas
las                  --> det                  de: siglas
siglas               --> ROOT                 de: siglas
en                   --> case                 de: inglés
inglés               --> nmod                 de: siglas
para                 --> case                 de: Procesamiento
Procesamiento        --> nmod                 de: siglas
de                   --> case                 de: Lenguaje
Lenguaje             --> flat                 de: Procesamiento
Natural              --> flat                 de: Lenguaje
(                    --> punct                de: Natural
Natural              --> flat                 de: Procesamiento
Language             --> flat                 de: Natural
Processing           --> flat                 de: Natural
)                    --> punct 

In [50]:
# 3. Detectar frases completas
print("\n=== Frases ===")
for sent in doc.sents:
    print(f"Frase: {sent.text}\n")


=== Frases ===
Frase: 


Frase: NLP son las siglas en inglés para Procesamiento de Lenguaje Natural (Natural Language Processing), no confundir con
PNL (Programación Neurolingüística), que es una pseudociencia y no tiene nada que ver con esto (pero es un error común).



Frase: El NLP es el campo de la informática que trata las técnicas y la teoría necesaria para tratar lenguaje, escrito o hablado,
cuando éste se da en formato natural, es decir, en la manera en que los seres humanos hablamos normalmente, y no en formatos
específicamente creados para ordenadores (como pueden ser los lenguajes de programación).



Frase: En resumen, podemos decir que consiste en dotar a los ordenadores de la capacidad para entender o generar lenguaje humano.



Frase: Si lo vemos en este bootcamp es porque en los últimos años se ha visto muy beneficiado del auge de la IA.


Frase: Igual que en nuestro caso es nuestro cerebro el que procesa el lenguaje, el NLP se ha desarrollado mucho en el contexto del


In [51]:
# 4. Análisis morfológico
print("\n=== Análisis Morfológico ===")
for token in doc:
    if token.pos_ != 'SPACE':
        print(f"Palabra: {token.text}")
        print(f"Características morfológicas: {token.morph}\n")


=== Análisis Morfológico ===
Palabra: NLP
Características morfológicas: 

Palabra: son
Características morfológicas: Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin

Palabra: las
Características morfológicas: Definite=Def|Gender=Fem|Number=Plur|PronType=Art

Palabra: siglas
Características morfológicas: Gender=Fem|Number=Plur

Palabra: en
Características morfológicas: 

Palabra: inglés
Características morfológicas: Gender=Masc|Number=Sing

Palabra: para
Características morfológicas: 

Palabra: Procesamiento
Características morfológicas: 

Palabra: de
Características morfológicas: 

Palabra: Lenguaje
Características morfológicas: 

Palabra: Natural
Características morfológicas: 

Palabra: (
Características morfológicas: PunctSide=Ini|PunctType=Brck

Palabra: Natural
Características morfológicas: 

Palabra: Language
Características morfológicas: 

Palabra: Processing
Características morfológicas: 

Palabra: )
Características morfológicas: PunctSide=Fin|PunctType=Brck

Palabra: ,
C

In [52]:
# 5. Sustantivos y verbos principales
print("\n=== Sustantivos y Verbos ===")
print("Sustantivos:", [token.text for token in doc if token.pos_ == 'NOUN'])
print("Verbos:", [token.text for token in doc if token.pos_ == 'VERB'])


=== Sustantivos y Verbos ===
Sustantivos: ['siglas', 'inglés', 'pseudociencia', 'error', 'campo', 'informática', 'técnicas', 'teoría', 'lenguaje', 'formato', 'es', 'decir', 'manera', 'seres', 'formatos', 'ordenadores', 'lenguajes', 'programación', 'resumen', 'ordenadores', 'capacidad', 'lenguaje', 'años', 'auge', 'caso', 'cerebro', 'lenguaje', 'contexto', 'ocasiones', 'caballo', 'batalla', 'organizaciones', 'talla', 'modelo', 'problemas', 'desarrollo', 'modelos', 'aparición', 'fenómenos', 'puerta', 'principio', 'modelos', 'redes', 'textos', 'pasos', 'tema', 'taller']
Verbos: ['confundir', 'tiene', 'ver', 'trata', 'tratar', 'da', 'hablamos', 'decir', 'consiste', 'dotar', 'entender', 'generar', 'vemos', 'visto', 'procesa', 'desarrollado', 'contamos', 'inventados', 'resolver', 'ampliados', 'observado', 'abriendo', 'Empezando', 'Existe', 'hacerse', 'envuelve', 'conocer']
