# Tema 2: Expresiones regulares para PLN

In [1]:
import re
import nltk
from nltk.corpus import stopwords

# nltk.download('stopwords')
# nltk.download('punkt')

## Ejercicio 1
Tokenización utilizando expresiones regulares.

In [2]:
texto = """La AEMET lanza una alerta por nieve y una nueva ola de frío, será mejor que nos preparemos para lo peor en cuestión de horas. Habrá llegado el momento de empezar a pensar en lo que está por llegar, por lo que, habrá llegado el momento de prepararnos para los últimos coletazos del invierno y hacerlo de tal manera que tendremos que afrontar una recta final de la semana cargada de acción. Tenemos que empezar a pensar en lo que llegue a toda velocidad."""

# Tokenización por espacios en blanco
tokens = re.split(r'\s+', texto)

print(f"Número de tokens: {len(tokens)}")
print("Tokens:")
print(tokens)

Número de tokens: 84
Tokens:
['La', 'AEMET', 'lanza', 'una', 'alerta', 'por', 'nieve', 'y', 'una', 'nueva', 'ola', 'de', 'frío,', 'será', 'mejor', 'que', 'nos', 'preparemos', 'para', 'lo', 'peor', 'en', 'cuestión', 'de', 'horas.', 'Habrá', 'llegado', 'el', 'momento', 'de', 'empezar', 'a', 'pensar', 'en', 'lo', 'que', 'está', 'por', 'llegar,', 'por', 'lo', 'que,', 'habrá', 'llegado', 'el', 'momento', 'de', 'prepararnos', 'para', 'los', 'últimos', 'coletazos', 'del', 'invierno', 'y', 'hacerlo', 'de', 'tal', 'manera', 'que', 'tendremos', 'que', 'afrontar', 'una', 'recta', 'final', 'de', 'la', 'semana', 'cargada', 'de', 'acción.', 'Tenemos', 'que', 'empezar', 'a', 'pensar', 'en', 'lo', 'que', 'llegue', 'a', 'toda', 'velocidad.']


## Ejercicio 2
Normalización de texto con expresiones regulares.

In [3]:
texto = """Francia aspira a jugar un papel protagonista en el auge de los algoritmos. Esta semana, París fue el epicentro de una cumbre mundial sobre IA, donde expertos de todo el mundo se adentraron en las amenazas y promesas de esta tecnología. En el marco de este evento, el presidente Emmanuel Macron y el jeque Mohamed bin Zayed Al Nahyan, líder de los Emiratos Árabes Unidos, presenciaron la firma de un acuerdo de cooperación entre sus países, un pacto que promete potenciar el desarrollo de proyectos conjuntos.

Como recoge la Agencia de Noticias de los Emiratos, la alianza incluye una inversión por parte de la nación rica en petróleo en Francia, así como "la adquisición de chips de vanguardia, la infraestructura de centros de datos y el desarrollo de talento, y mediante el establecimiento de Embajadas de Datos Virtuales para permitir la IA soberana y la infraestructura en la nube en ambos países". El Gobierno francés, por su parte, ha señalado que la iniciativa contempla la construcción de un enorme centro de datos."""

print("Texto original:")
print(texto[:200], "...")

Texto original:
Francia aspira a jugar un papel protagonista en el auge de los algoritmos. Esta semana, París fue el epicentro de una cumbre mundial sobre IA, donde expertos de todo el mundo se adentraron en las amen ...


### Apartado a
Eliminación de signos de puntuación.

In [4]:
# Eliminar signos de puntuación
texto_sin_puntuacion = re.sub(r'[^\w\s]', '', texto)

print("Texto sin puntuación:")
print(texto_sin_puntuacion[:200], "...")

Texto sin puntuación:
Francia aspira a jugar un papel protagonista en el auge de los algoritmos Esta semana París fue el epicentro de una cumbre mundial sobre IA donde expertos de todo el mundo se adentraron en las amenaza ...


### Apartado b
Eliminación de palabras vacías (stopwords).

In [20]:
stop_words = set(stopwords.words('spanish'))

# Tokenizar y filtrar stopwords
palabras = re.findall(r"\w+", texto.lower())
palabras_filtradas = [p for p in palabras if p not in stop_words]

print(f"Palabras originales: {len(palabras)}")
print(f"Palabras sin stopwords: {len(palabras_filtradas)}")
print("\nTexto sin stopwords:")
print(' '.join(palabras_filtradas[:30]), "...")

Palabras originales: 172
Palabras sin stopwords: 87

Texto sin stopwords:
francia aspira jugar papel protagonista auge algoritmos semana parís epicentro cumbre mundial ia expertos mundo adentraron amenazas promesas tecnología marco evento presidente emmanuel macron jeque mohamed bin zayed nahyan líder ...


### Apartado c
Eliminación de palabras con más de 5 caracteres.

In [21]:
# Filtrar palabras con más de 5 caracteres
palabras = re.findall(r"\w+", texto)
palabras_cortas = [p for p in palabras if len(p) <= 5]

print(f"Palabras originales: {len(palabras)}")
print(f"Palabras con <= 5 caracteres: {len(palabras_cortas)}")
print("\nPalabras cortas:")
print(palabras_cortas)

Palabras originales: 172
Palabras con <= 5 caracteres: 109

Palabras cortas:
['a', 'jugar', 'un', 'papel', 'en', 'el', 'auge', 'de', 'los', 'Esta', 'París', 'fue', 'el', 'de', 'una', 'sobre', 'IA', 'donde', 'de', 'todo', 'el', 'mundo', 'se', 'en', 'las', 'y', 'de', 'esta', 'En', 'el', 'marco', 'de', 'este', 'el', 'y', 'el', 'jeque', 'bin', 'Zayed', 'Al', 'líder', 'de', 'los', 'la', 'firma', 'de', 'un', 'de', 'entre', 'sus', 'un', 'pacto', 'que', 'el', 'de', 'Como', 'la', 'de', 'de', 'los', 'la', 'una', 'por', 'parte', 'de', 'la', 'rica', 'en', 'en', 'así', 'como', 'la', 'de', 'chips', 'de', 'la', 'de', 'de', 'datos', 'y', 'el', 'de', 'y', 'el', 'de', 'de', 'Datos', 'para', 'la', 'IA', 'y', 'la', 'en', 'la', 'nube', 'en', 'ambos', 'El', 'por', 'su', 'parte', 'ha', 'que', 'la', 'la', 'de', 'un', 'de', 'datos']


## Ejercicio 3
Reconocimiento de fechas con diferentes formatos.

In [7]:
texto_fechas = """Este es un texto que tiene ejemplos de fechas. Hoy es 09/02/2025, esta es una fecha posterior al 13 de enero de 2025. ¿Nos gustaría estar ya a 5 de julio y empezar las vacaciones? Casi que mejor no, que el tiempo avance a su ritmo. El primer día de clase fue el 30-01-2025, y el último día será el 8 de mayo del 2025."""

print("Texto:")
print(texto_fechas)

Texto:
Este es un texto que tiene ejemplos de fechas. Hoy es 09/02/2025, esta es una fecha posterior al 13 de enero de 2025. ¿Nos gustaría estar ya a 5 de julio y empezar las vacaciones? Casi que mejor no, que el tiempo avance a su ritmo. El primer día de clase fue el 30-01-2025, y el último día será el 8 de mayo del 2025.


Formato DD/MM/AAAA

In [22]:
# Patrón DD/MM/AAAA
patron_slash = r"\d{1,2}/\d{1,2}/\d{4}"
fechas_slash = re.findall(patron_slash, texto_fechas)

print("Fechas formato DD/MM/AAAA:")
print(fechas_slash)

Fechas formato DD/MM/AAAA:
['09/02/2025']


Formato DD-MM-AAAA

In [23]:
# Patrón DD-MM-AAAA
patron_guion = r"\d{1,2}-\d{1,2}-\d{4}"
fechas_guion = re.findall(patron_guion, texto_fechas)

print("Fechas formato DD-MM-AAAA:")
print(fechas_guion)

Fechas formato DD-MM-AAAA:
['30-01-2025']


Formato "DD de MES de AAAA"

In [24]:
# Patrón DD de MES de AAAA
meses = r"(?:enero|febrero|marzo|abril|mayo|junio|julio|agosto|septiembre|octubre|noviembre|diciembre)"
patron_texto = rf"\d{{1,2}}\s+de\s+{meses}(?:\s+(?:de|del)\s+\d{{4}})?"
fechas_texto = re.findall(patron_texto, texto_fechas, re.IGNORECASE)

# findall devuelve solo los grupos, necesitamos finditer para el match completo
fechas_texto_completas = [m.group() for m in re.finditer(patron_texto, texto_fechas, re.IGNORECASE)]

print("Fechas formato 'DD de MES de AAAA':")
print(fechas_texto_completas)

Fechas formato 'DD de MES de AAAA':
['13 de enero de 2025', '5 de julio', '8 de mayo del 2025']


### Apartado d
Expresión regular combinada para todos los formatos.

In [40]:
# Patrón combinado
meses = r'(?:enero|febrero|marzo|abril|mayo|junio|julio|agosto|septiembre|octubre|noviembre|diciembre)'
patron_combinado = rf'\b\d{{1,2}}[/-]\d{{1,2}}[/-]\d{{4}}\b|\b\d{{1,2}} de {meses}(?: del? \d{{4}})?\b'

todas_fechas = re.findall(patron_combinado, texto_fechas, re.IGNORECASE)
todas_fechas_completas = [m.group() for m in re.finditer(patron_combinado, texto_fechas, re.IGNORECASE)]

print("Todas las fechas encontradas:")
for fecha in todas_fechas_completas:
    print(f"  - {fecha}")

Todas las fechas encontradas:
  - 09/02/2025
  - 13 de enero de 2025
  - 5 de julio
  - 30-01-2025
  - 8 de mayo del 2025


## Ejercicio 4
Reconocimiento de números de teléfono españoles.

In [None]:
texto_telefonos = """Contacta con nosotros:
- Oficina Madrid: 912345678
- Oficina Barcelona: 932 456 789
- Móvil comercial: 612345678
- Atención al cliente: 900 123 456
- Fax: 812 345 678
- Móvil: 722-333-444
- Internacional: +34 666777888"""

# Teléfonos fijos (empiezan por 8 o 9) y móviles (empiezan por 6 o 7)
# 9 dígitos en total, pueden tener espacios o guiones
patron_telefono = r'\b[6789]\d{2}[\s-]?\d{3}[\s-]?\d{3}\b'

telefonos = re.findall(patron_telefono, texto_telefonos)

print("Números de teléfono encontrados:")
for tel in telefonos:
    print(f"  - {tel}")

Números de teléfono encontrados:
  - 912345678
  - 932 456 789
  - 612345678
  - 900 123 456
  - 812 345 678
  - 722-333-444
  - 666777888


Clasificar teléfonos por tipo.

In [34]:
patron_fijo = r'\b[89]\d{2}[\s-]?\d{3}[\s-]?\d{3}\b'
patron_movil = r'\b[67]\d{2}[\s-]?\d{3}[\s-]?\d{3}\b'

fijos = re.findall(patron_fijo, texto_telefonos)
moviles = re.findall(patron_movil, texto_telefonos)

print("Teléfonos fijos:")
for tel in fijos:
    print(f"  - {tel}")

print("\nTeléfonos móviles:")
for tel in moviles:
    print(f"  - {tel}")

Teléfonos fijos:
  - 912345678
  - 932 456 789
  - 900 123 456
  - 812 345 678

Teléfonos móviles:
  - 612345678
  - 722-333-444
  - 666777888


## Ejercicio 5
NER para nombres de personas con expresiones regulares.

In [35]:
texto_nombres = """Un premio cantado, el de Eduard Fernández (mejor actor por Marco), y otro que fue una sorpresa, el de Carolina Yuste por La infiltrada, dejaron la puerta abierta a que pudiese suceder cualquier cosa en la recta final de la noche. Incluso lo mejor que podía pasar sucedió. Subió a recoger el Goya a la mejor dirección Pol Rodríguez, uno de los responsables junto a Isaki Lacuesta de la película mejor dirigida del año: Segundo premio."""

# Patrón para nombres de personas (palabras que empiezan por mayúscula)
# Nombre + Apellido (dos palabras capitalizadas seguidas)
patron_nombre = r"[A-ZÁÉÍÓÚÜÑ][a-záéíóúüñ]+ [A-ZÁÉÍÓÚÜÑ][a-záéíóúüñ]+"

nombres = re.findall(patron_nombre, texto_nombres)

print("Posibles nombres de personas encontrados:")
for nombre in nombres:
    print(f"  - {nombre}")

print("\nNota: Las ER pueden encontrar falsos positivos.")
print("También pueden perder nombres compuestos o con formato diferente.")

Posibles nombres de personas encontrados:
  - Eduard Fernández
  - Carolina Yuste
  - Pol Rodríguez
  - Isaki Lacuesta

Nota: Las ER pueden encontrar falsos positivos.
También pueden perder nombres compuestos o con formato diferente.


## Ejercicio 6
Reconocimiento de acrónimos con expresiones regulares.

In [38]:
texto_acronimos = """La URJC es una universidad pública de Madrid. La NASA envió una misión a la ISS. 
El FBI y la CIA son agencias de U.S.A. La ONU tiene su sede en Nueva York.
La UE aprobó nuevas regulaciones sobre IA. El BCE mantiene los tipos de interés."""

# Patrón para acrónimos tipo URJC (letras mayúsculas consecutivas)
patron_acronimo_simple = r"[A-Z]{2,}"

# Patrón para acrónimos tipo U.S.A. (letras con puntos)
patron_acronimo_puntos = r"(?:[A-Z]\.){2,}"

acronimos_simples = re.findall(patron_acronimo_simple, texto_acronimos)
acronimos_puntos = re.findall(patron_acronimo_puntos, texto_acronimos)

print("Acrónimos simples (URJC):")
print(list(set(acronimos_simples)))

print("\nAcrónimos con puntos (U.S.A.):")
print(acronimos_puntos)

Acrónimos simples (URJC):
['URJC', 'ONU', 'FBI', 'IA', 'BCE', 'CIA', 'UE', 'ISS', 'NASA']

Acrónimos con puntos (U.S.A.):
['U.S.A.']


Patrón combinado para todos los tipos de acrónimos.

In [17]:
# Patrón combinado
patron_todos_acronimos = r'\b[A-Z]{2,}\b|\b(?:[A-Z]\.){2,}'

todos_acronimos = re.findall(patron_todos_acronimos, texto_acronimos)

print("Todos los acrónimos encontrados:")
print(list(set(todos_acronimos)))

Todos los acrónimos encontrados:
['URJC', 'ONU', 'FBI', 'IA', 'U.S.A.', 'BCE', 'CIA', 'UE', 'ISS', 'NASA']
