# Expresiones regulares

Las expresiones regulares definen un lenguaje regular $L$, en la forma $L = [[r]]$, donde $r$ es una expresión regular. Para el lenguaje natural, se pueden utilizar las expresiones regulares para encontrar patrones concretos. En este sentido, el lenguaje regular que estamos definiendo no corresponde al lenguaje humano completo, sino sólo a una parte (pequeña) de éste. A continuación revisamos algunos conceptos esenciales sobre expresiones regulares.

In [1]:
#Importa paquetes
import nltk
import re
#NLTK contiene corpus en español
from nltk.corpus import cess_esp

Para obtener el corpus que utilizaremos, lo descargamos con el comando nltk.download(). 

In [2]:
#Descarga de corpus
#nltk.download('cess_esp')

[nltk_data] Downloading package cess_esp to
[nltk_data]     /home/mijangos/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


True

In [3]:
#Obtenemos el corpus como un texto
corpus = ' '.join(cess_esp.words())
print(corpus[:100])

El grupo estatal Electricité_de_France -Fpa- EDF -Fpt- anunció hoy , jueves , la compra del 51_por_c


Para definir el lenguje regular utilizaremos una expresión regular. Esta expresión regular aceptará todo lo que sea parte del lenguaje dentro del corpus. Claramente, el alfabeto que utilizamos es el alfabeto latino. 

En este caso, el lenguaje que buscamos corresponde a todas aquellas palabras que terminen en 'os'. Si bien muchas de estas palabras serán plurales, habrá casos en los que esto no suceda.

In [4]:
#Definimos la expresión regular
regex = re.compile(r'[^ ]+os')

In [5]:
#Buscamos todas las palabras que pertenezcan al lenguaje
#dentro del corpus
matches = re.findall(regex,corpus)

In [6]:
print(matches[:10])

['megavatios', 'años', 'pos', 'dos', 'euros', 'megavatios', 'euros', 'megavatios', 'Celia_Villalobos', 'los']


## Pluralización con expresiones regulares

Las expresiones regulares se pueden utilizar para buscar patrones lingüísticos especificos que obedezcan a reglas muy particulares. Por ejemplo, en el plural del español, en la mayoría de las palabras se concatena un símbolo 's' al final de la palabra. Pero en otros casos (cuando la palabra termina en consonante), lo que se concatena es la subcadena 'es'. Más aún, si la palabra termina en 's', no suele concatenarce nada.

Otro caso particular es cuando las palabras terminan en 'z'. En estos casos, además existe una substitución de 'z' por 'c', además de que se concatena 'es'. 

In [7]:
#Palabras ejemplo
singulares = ['análisis', 'gato', 'niña', 'pasante', 'flor', 'reloj', 'rubí', 'avestruz']

for sg in singulares:
  #Se busca las palabras que terminan en consonante o 'i'
  if re.match(r'[^ ]+[í|b|c|d|g|j|k|l|m|n|p|q|r|t|v|w|y]\b',sg):
    #Se concatena 'es'
    print(sg+'es')
  
  #Se busca palabras que terminen en z
  elif re.match(r'[^ ]+z\b',sg):
    #Se sustituye 'z' por 'c'
    pl = re.sub(r'z\b',r'c',sg)
    #Se concatena 'es'
    print(pl+'es')
    
  #Se busca palabras que terminen en s
  elif re.match(r'[^ ]+s\b',sg):
    #Se deja la palabra tal como es
    print(sg)
    
  #En otro caso, sólo se concatena s
  else:
    print(sg+'s')

análisis
gatos
niñas
pasantes
flores
relojes
rubíes
avestruces
