# Introducción al procesamiento de texto en Python

### Data Science and Machine Learning

#### Noviembre 2022

**Aurora Cobo Aguilera**

**The Valley**


# Trabajando con cadenas de texto en Python 


El tipo de datos básico para representar texto en Python es el *string*. Un objeto cadena o *string* se define generalmente asignando a una variable una cadena de texto definida entre comillas simples (`'`) o dobles (`"`) o convirtiendo otro tipo de datos (como los numéricos) en una cadena utilizando la función `str()`.

In [1]:
# Define string variables
t1='this is a string'
print(t1)
t2 ="t2 too!"
print(t2)

this is a string
t2 too!


In [2]:
# Convert a number to string
n = 500
print(n)
print(type(n))
n_string = str(n)
print(n_string)
print(type(n_string))

500
<class 'int'>
500
<class 'str'>


## Métodos del objeto *string*

Python se considera generalmente una buena opción cuando se trata de trabajar con archivos de texto de cualquier tipo y tamaño, ya que el objeto *string* tiene un gran número de métodos incorporados que facilitan su manipulación.

Para utilizar los objetos predefinidos en Python (como el objeto *string*) y acceder a sus métodos y/o atributos solo necesitamos saber:
* Para utilizar los métodos de un objeto `my_object`, utilizar siempre la sintaxis `my_object.method()`.

* Si queremos saber qué métodos tiene un objeto en Google Colab, podemos escribir `my_object` y esperar, y Google Colab produce una lista de todos los métodos disponibles para ese objeto.

* Todos los métodos del objeto *string* devuelven un nuevo valor como salida. El *string* original no se modifica.

Algunos de estos métodos son:


* `.capitalize ()`: convierte la primera letra de la cadena en mayúscula.

In [3]:
t1.capitalize()

'This is a string'

* `.upper()`/`.lower()`: convierte todos los caracteres de la cadena de texto en mayúsculas/minúsculas.

In [4]:
t_upper = t1.upper()
print(t_upper)
t_lower = t_upper.lower()
print(t_lower)

THIS IS A STRING
this is a string


* `.replace ('s1', 's2')`: sustituye los caracteres de la cadena `'s1'` por los caracteres de la cadena `' s2'`.

In [5]:
t1.replace(' ', ',')

'this,is,a,string'

* `.strip ('s1')`:  directamente elimina de la cadena los caracteres de `'s1'` que estén al principio o final de la cadena.

In [6]:
'http://www.python.org'.strip('/tph:')

'www.python.org'

In [7]:
',,,,,rrttgg.....banana....rr'.strip(",.grt")

'banana'

* .`find ('s') `: dentro del *string* busca la cadena `'s'` y obtiene su posición a partir de la primera letra del *string*. Si hay varias ocurrencias, devuelve la primera posición. En caso de no encontrarla, devuelve un `-1`.

In [8]:
t1.find('string')

10

In [9]:
 t1.find('word')

-1

* `.split ('s')`:  divide el texto en varias cadenas utilizando el carácter `'s'` como separador.

In [10]:
# Split by the character 'i'
print(t1.split('i'))
# Split by the character ' ' (blank space)
print(t1.split(' '))

# If a splitter character is not provided, by default, the blank space is used
print(t1.split())


['th', 's ', 's a str', 'ng']
['this', 'is', 'a', 'string']
['this', 'is', 'a', 'string']


*Nota*: al aplicar el método `.split()`, el carácter separador `s` desaparece de las cadenas resultantes. Y además, el resultado del método es una lista con varios elementos donde cada elemento es un *string*. 

* `s.join ([list])`:  une los elementos de la lista con el carácter `'s'` y crea una nueva cadena. Es decir, permite deshacer lo que hace el método `.split ('s')`.

In [11]:
splitted_list = t1.split(' ')
print(splitted_list)
' '.join(splitted_list)

['this', 'is', 'a', 'string']


'this is a string'

Muchas veces se concatena el uso de `split()` y `.join()` para eliminar múltiples espacios entre las palabras.

In [12]:
t1='This    is a    string'
print(t1)
print(' '.join(t1.split()))

This    is a    string
This is a string


* `.isalpha`: devuelve `True` si todos los caracteres de la cadena son letras del alfabeto (`a`-`z`).

In [13]:
txt = "CompanyX"
x = txt.isalpha()
print(x) 

True


In [14]:
txt = "Company10"
x = txt.isalpha()
print(x) 

False


* `.isalnum`: devuelve `True` si todos los caracteres de la cadena son letras del alfabeto (`a`-`z`) ó dígitos (`0`-`9`).

In [15]:
txt = "Company10"
x = txt.isalnum()
print(x) 

True


In [16]:
name = "M234onica"
print(name.isalnum())

# Now it contains whitespace
name = "M3onica Gell22er "
print(name.isalnum())

name = "Mo3nicaGell22er"
print(name.isalnum())

name = "133"
print(name.isalnum())

True
False
True
True


* `isdecimal()`: devuelve `True` si todos los caracteres de una cadena son dígitos (`0`-`9`).

In [17]:
s = "28212"
print(s.isdecimal())

# contains alphabets
s = "32ladk3"
print(s.isdecimal())

# contains alphabets and spaces
s = "Mo3 nicaG el l22er"
print(s.isdecimal())

True
False
False


* `isdigit()`: también devuelve `True` si todos los caracteres de una cadena son dígitos (`0`-`9`) pero, a diferencia de al anterior, incluye subíndices y superíndices.

In [18]:
s = '\u00B23455'
print(s)
print(s.isdigit())
print(s.isdecimal())

²3455
True
False


* `.startswith()`/ `.endswith()`: comprueban si una cadena comienza/acaba con una subcadena especificada.

In [19]:
t1='This is a string'
print(t1.startswith('This'))
print(t1.endswith('string'))

True
True


Puede encontrar una lista de todos los métodos disponibles de los objetos de cadena en [este enlace](https://www.w3schools.com/python/python_ref_string.asp)

## Longitud de una cadena
Para obtener la longitud de una cadena, utilizamos la función `len ()` .

*Nota:* `len ()` es una función de Python, compartida con otros tipos de datos, no es exclusiva de los strings. Por esta razón, **no** es un método de los objetos string y su sintaxis no es `cadena.len` sino `len(cadena)`.

In [20]:
mystring = "Hello everyone!"
len(mystring)

15

## Comprobar si una cadena está presente o no
Se pueden utilizar las palabras clave `in` o` not in` para comprobar si una determinada frase o carácter está presente o no dentro de una cadena. Estas palabras clave son operadores lógicos, por lo que devuelven un valor booleano (`True` o ` False`).

In [21]:
"everyone" in mystring

True

In [22]:
"everyone" not in mystring

False

In [23]:
"everybody" in mystring

False

## Indexación de *strings*

Las cadenas son como *arrays* de caracteres, donde cada carácter es simplemente una cadena con una longitud de 1. Así que se puede acceder a los elementos de la cadena de varias maneras:
* Podemos recuperar un solo carácter utilizando corchetes e indicando la posición específica de un carácter a recuperar. Por ejemplo, `my_string[position]`  devolvería el carácter situado en `position` dentro de la cadena `my_string`.
* Para obtener una parte de una cadena podemos indicar las posiciones de inicio y fin (`[start:end]`). La cadena devuelta comenzará en el carácter situado en la posición `start` (incluido) y terminará en la posición indicada por `end`, pero esta última no será incluida.

Además, se puede indexar hacia atrás con índices negativos y si la posición inicial no está incluida, se asume que es la primera y si la posición final no está incluida se asume que es la última.

¡¡¡**Importante**: en Python la indexación comienza en 0!!! Es decir, el primer elemento está en la posición 0.



### Ejercicio
Analiza el siguiente código e intenta adivinar lo que devuelve antes de ejecutarlo

In [24]:
mystring = "Hello everyone!"

In [25]:
mystring[0]

'H'

In [26]:
mystring[1:5]

'ello'

In [27]:
mystring[:5]

'Hello'

In [28]:
mystring[8:]

'eryone!'

In [29]:
mystring[-1]

'!'

In [30]:
mystring[-6:]

'ryone!'

## Concatenación de *strings*
Se pueden concatenar o combinar dos o más cadenas de texto con el símbolo `+`. 

In [31]:
t1="Hello"
t2="everyone"
t1+t2

'Helloeveryone'

In [32]:
t1+" "+t2

'Hello everyone'

In [33]:
 t1 +" " + t2 + "!" 

'Hello everyone!'

Y... ¿podemos combinar texto y números? Intentémoslo.

In [35]:
result = 5 + 2
"The result is: " + result

TypeError: ignored

Como podemos ver, ¡¡¡genera un error!!! Esto es porque sólo podemos concatenar cadenas con cadenas. Si queremos hacerlo, tendremos que pasar la variable `result` a cadena con la función `str()`.

*Nota*: Observa cómo Google Colab da formato a la salida de error, indicando exactamente la línea donde falla y el tipo de error `TypeError: must be str, not int`. Además, proporciona un enlace para buscar este error en Stack Overflow y encontrar posibles soluciones.




In [36]:
result = 5 + 2  # Aquí + suma porque combina dos variables de tipo int
"The result is: " + str(result)  # Aquí + contatena porque combina dos string 

'The result is: 7'

##  Formatear cadenas de texto

Una forma más versátil de combinar texto con otros tipos de datos es la que ofrece la función `format()`. Nos permite incluir con `{ }` indicadores de posisicición de variables a incluir en el texto. Los marcadores de posición pueden identificarse utilizando índices con nombre `{variable_name}`, índices numerados `{0}`, o incluso marcadores de posición vacíos `{}`.


In [37]:
quantity = 3
itemno = 567
price = 49.95
myorder = "I want {} pieces of item {} for {} dollars."
print(myorder.format(quantity, itemno, price))

I want 3 pieces of item 567 for 49.95 dollars.


In [38]:
quantity = 3
itemno = 567
price = 49.95
# Now, we include the positions of the variables: 2 (price), 0 (quantity) and 1 (price)
myorder = "I want to pay {2} dollars for {0} pieces of item {1}."
print(myorder.format(quantity, itemno, price))

I want to pay 49.95 dollars for 3 pieces of item 567.


In [39]:
print('Coordinates: {latitude}, {longitude}'.format(latitude='37.24N', longitude='-115.81W'))

Coordinates: 37.24N, -115.81W


In [40]:
print('Coordinates: {%s}, {%s}'%('37.24N','-115.81W'))

Coordinates: {37.24N}, {-115.81W}


In [41]:
print('Coordinates: {%.2f%s}, {%.2f%s}'%(37.24,'N',-115.81,'W'))

Coordinates: {37.24N}, {-115.81W}


In [42]:
print('Coordinates: {%.1f%s}, {%.1f%s}'%(37.24,'N',-115.81,'W'))

Coordinates: {37.2N}, {-115.8W}


### Ejercicio
Completa los siguientes ejercicios

In [43]:
str1 = '"Hola" is how we say "hello" in Spanish.'
str2 = "Strings can also be defined with quotes; try to be sistematic and consistent."

* Imprime la cadena `str1` y comprueba su tipo

In [44]:
#<SOL>

#</SOL>

* Imprime los 5 primeros caracteres de `str1`.

In [45]:
#<SOL>

#</SOL>

* Une `str1` y `str2`

In [46]:
#<SOL>

#</SOL>

* Convierte `str1` a minúsculas.

In [47]:
#<SOL>
print(str1.lower())
#</SOL>

"hola" is how we say "hello" in spanish.


* Convierte `str1` a mayúsculas.

In [48]:
#<SOL>
print(str1.upper())
#</SOL>

"HOLA" IS HOW WE SAY "HELLO" IN SPANISH.


* Obten el número de caracteres en `str1`

In [49]:
#<SOL>
print(len(str1))
#</SOL>

40


* Reemplazar el carácter `h` en `str1` por el carácter `H`

In [50]:
#<SOL>
print(str1.replace('h','H'))
#</SOL>

"Hola" is How we say "Hello" in SpanisH.


* Comprueba si `str1` solo tiene letras 

In [51]:
#<SOL>
print(str1.isalpha())
#</SOL>

False


## Cadenas predefinidas y `translate`

La librería `string` incluye varias cadenas de texto predefinidas, con dígitos, signos de puntuación, etc, que pueden ser de utilidad para procesar otras cadenas de texto. Para acceder a ellas solo tenemos que importar la librería `string` y cargar la cadena que nos interese.

In [52]:
 import string
 string.digits

'0123456789'

In [53]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [54]:
string.whitespace

' \t\n\r\x0b\x0c'

Consideremos ahora que tenemos el siguiente texto:

In [55]:
text = 'Thu Mar 18 09:22:07.436 <airportd[181]> _processIPv4Changes: ARP/NDP offloads disabled, not programming the offload'

y queremos eliminar los signos de puntuación y los dígitos. Lo podemos hacer fácilmente comprobando si cada símbolo de puntuación o dígito está en el texto y remplazandolo por nada `''`:

In [56]:
clean_text = text
print(text)
for punct in string.punctuation:
  clean_text = clean_text.replace(punct,'')
print(clean_text)
for digit in string.digits:
  clean_text = clean_text.replace(digit,'')
for space in string.whitespace:
  clean_text = clean_text.replace(space,'')
print(clean_text)

Thu Mar 18 09:22:07.436 <airportd[181]> _processIPv4Changes: ARP/NDP offloads disabled, not programming the offload
Thu Mar 18 092207436 airportd181 processIPv4Changes ARPNDP offloads disabled not programming the offload
ThuMarairportdprocessIPvChangesARPNDPoffloadsdisablednotprogrammingtheoffload


Aunque esto puede hacerse de manera más eficiente, en una sola línea, con la función `translate`. Para utilizar `translate` tenemos que definir una tabla de traducción definiendo:

`str.maketrans('abcd','0123','xyz')` 

de este modo indica que `'a'` se sustituye por `'0'`, `'b'` por `'1'`, .... y que, además, los caracteres `'x'`, `'y'` y `'z'` se eliminan.

In [57]:
list_exclude = string.punctuation + string.digits
table_translate = str.maketrans('','', list_exclude)
clean_text = text.translate(table_translate)
print(clean_text)


Thu Mar   airportd processIPvChanges ARPNDP offloads disabled not programming the offload


Un uso bastante común de `translate()` es la eliminación de acentos. Así, por ejemplo,

In [58]:
text = '¡El veloz murciélago hindú comía feliz cardillo y kiwi!. La cigüeña tocaba el saxofón detrás del palenque, o ¿no?'
table_translate = str.maketrans('áéíóú','aeiou', string.punctuation+'¿¡')
clean_text = text.translate(table_translate)
print(clean_text)

El veloz murcielago hindu comia feliz cardillo y kiwi La cigüeña tocaba el saxofon detras del palenque o no


*Nota*: en `string.punctuation` solo están los signos de puntuación en inglés.

# Expresiones regulares

Las expresiones regulares (llamadas REs, o regexes, o patrones regex) son esencialmente un pequeño lenguaje de programación altamente especializado y muy eficiente para la búsqueda de patrones en documentos de texto. Para trabajar con ellas solo tenemos que importar la librería `re`.

Esta librería nos permite detectar patrones en nuestras cadenas de texto, contestando a preguntas del tipo *¿Coincide esta cadena con el patrón?*, o *¿Existe una coincidencia del patrón en alguna parte de esta cadena?*. También se puede utilizar `re` para modificar una cadena o dividirla.


In [59]:
import re

## Búsqueda de patrones

Consideremos que definimos un framento de una cadena de texto (`pattern`) como nuestro patrón a buscar, a partir de este patrón la librería `re` nos proporciona las siguientes funciones:

* `match()` : Determina si `pattern` está presente al principio de la cadena.

* `search()` : Recorre una cadena, buscando cualquier lugar en el que esta `pattern` coincida. Si `pattern` aparece en varias posiciones, devuelve la primera coincidencia.

* `findall()` / `finditer()` : Encuentra todas las subcadenas en las que coincide la `pattern`, y las devuelve como una lista/iterador.


In [60]:
pattern = 'this'
text = 'Does this text match the pattern?'

In [61]:
# Example with match
result = re.match(pattern, text)
print(result) 

None


In [62]:
# Example with match
result = re.match('Does', text)
print(result) 

<re.Match object; span=(0, 4), match='Does'>


In [63]:
# Example with search
result = re.search(pattern, text)
print(result) 

<re.Match object; span=(5, 9), match='this'>


Como podemos ver en estos ejemplos, los métodos `match()` y `search()` devuelven `None` si no se encuentra ninguna coincidencia y si tienen éxito, devuelven un Objeto `re.Match` que contiene información sobre la coincidencia:
* `group()`: devuelve el texto que coincide con la expresion regular.
* `start()`: devuelve la posición inicial de la coincidencia.
* `end()`: devuelve la posición final de la coincidencia.
* `span()`: devuelve una tupla con la posición inicial y final de la coincidencia.

Además, incluye el atributo `.string` con la cadena original sobre la que se ha realizado la búsqueda.



In [64]:
# Text matching the regular expression
print(result.group())
# Position where the match starts
print(result.start()) 
# Position where the match ends
print(result.end())  
# Tuple with positions where the match starts and ends
print(result.span())   

# String on which the search has been performed
print(result.string) 

this
5
9
(5, 9)
Does this text match the pattern?


In [65]:
print('Found "{}"\nin "{}"\nfrom {} to {} ("{}")'.format(result.group(), result.string, result.start(), result.end(), text[result.start():result.end()]))

Found "this"
in "Does this text match the pattern?"
from 5 to 9 ("this")


A diferencia de `match()` y `search()`, el método `findall()` devuelve una lista con todos los fragmentos de texto que coinciden con la expresión regular y  `finditer()` que devuelve un iterador de objetos `re.Match`.  Veámoslo con un ejemplo:

In [66]:
# Example with findall() 

text = 'abbaaabbbbaaaaa'
pattern = 'ab'
for match in re.findall(pattern, text):
    print('Found {}'.format(match))  


Found ab
Found ab


In [67]:
# Example with finditer()
for match in re.finditer(pattern, text):
    s = match.start()
    e = match.end()
    print('Found {!r} at {:d}:{:d}'.format(
        text[s:e], s, e))

Found 'ab' at 0:2
Found 'ab' at 5:7


## Definición de patrones 

En ocasones no queremos definir una cadena de texto concreta a buscar, sino definir un patrón que indique  una determinada estructura a buscar. Para definir estos patrones de búsqueda `re` utiliza una serie de *metacaracteres* especiales:

`. ^ $ * + ? { } [ ] \ | ( )`

A continuación, iremos viendo cómo se usan estos metacaracteres y qué funcionalides nos dan.

### Definición del patrón

`[` y `]` se utilizan para especificar un conjunto de caracteres con los que se desea coincidir. Los caracteres se pueden enumerar individualmente, o se puede indicar un rango de caracteres dando dos caracteres y separándolos con un `'-'`. 

Por ejemplo, `[abc]` coincidirá con cualquiera de los caracteres `a`, `b` o `c`; esto es lo mismo que `[a-c]`, que utiliza un rango para expresar el mismo conjunto de caracteres. Por ejemplo, si queremos decir que nuestro patrón es cualquier letra minúscula, podemos definirlo como `[a-z]`.


In [68]:
# Find vowels
text = 'Does this text match the pattern?'
pattern='[aeiou]'
for match in re.finditer(pattern, text):
    s = match.start()
    e = match.end()
    print('Found {} at {}:{}'.format(text[s:e], s, e))

Found o at 1:2
Found e at 2:3
Found i at 7:8
Found e at 11:12
Found a at 16:17
Found e at 23:24
Found a at 26:27
Found e at 29:30


In [69]:
# Find capital letters
text = 'Does This Text Match the Pattern?'
pattern='[A-Z]'
for match in re.finditer(pattern, text):
    s = match.start()
    e = match.end()
    print('Found {} at {}:{}'.format(text[s:e], s, e))

Found D at 0:1
Found T at 5:6
Found T at 10:11
Found M at 15:16
Found P at 25:26


### Códigos escapados 

Si cada vez que quisiéramos definir un patrón variable tuviéramos que crear rangos, acabaríamos generando expresiones regulares gigantes. Por suerte su sintaxis también acepta una serie de caracteres escapados que tienen un significo único. Algunos de los más importantes son:

Código |	Significado
-----| ------
\d |	numérico
\D |	no numérico
\s |	espacio en blanco
\S |	no espacio en blanco
\w |	alfanumérico
\W |	no alfanumérico

El problema que encontraremos en Python a la hora de definir código escapado, es que las cadenas no tienen en cuenta el `'\'` a no ser que especifiquemos que son cadenas en crudo (*raw*), por lo que tendremos que precedir las expresiones regulares con una `'r'`.

*Nota*: por regla general las expresiones regulares las definiremos como raw `'r'` para evitar cualquier mala interpretación de los caracteres escapados.

In [70]:
# Function to analyze the search of several patterns
def buscar(patrones, texto):
    for patron in patrones:
        print(re.findall(patron, texto))


In [71]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0."

patrones = [r'\d', r'\D', r'\s', r'\S', r'\w', r'\W'] 
buscar(patrones, texto)

['1', '9', '9', '1', '0', '9', '0']
['P', 'y', 't', 'h', 'o', 'n', ' ', 's', 'e', ' ', 'c', 'r', 'e', 'ó', ' ', 'e', 'n', ' ', 'e', 'l', ' ', 'a', 'ñ', 'o', ' ', ' ', 'c', 'o', 'n', ' ', 'e', 'l', ' ', 'n', 'ú', 'm', 'e', 'r', 'o', ' ', 'd', 'e', ' ', 'v', 'e', 'r', 's', 'i', 'ó', 'n', ' ', '.', '.', '.']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
['P', 'y', 't', 'h', 'o', 'n', 's', 'e', 'c', 'r', 'e', 'ó', 'e', 'n', 'e', 'l', 'a', 'ñ', 'o', '1', '9', '9', '1', 'c', 'o', 'n', 'e', 'l', 'n', 'ú', 'm', 'e', 'r', 'o', 'd', 'e', 'v', 'e', 'r', 's', 'i', 'ó', 'n', '0', '.', '9', '.', '0', '.']
['P', 'y', 't', 'h', 'o', 'n', 's', 'e', 'c', 'r', 'e', 'ó', 'e', 'n', 'e', 'l', 'a', 'ñ', 'o', '1', '9', '9', '1', 'c', 'o', 'n', 'e', 'l', 'n', 'ú', 'm', 'e', 'r', 'o', 'd', 'e', 'v', 'e', 'r', 's', 'i', 'ó', 'n', '0', '9', '0']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '.', '.', '.']


### Patrones con varios valores

Si queremos comprobar varias posibilidades, podemos utilizar el metacarácter `|` a modo de `OR`:


In [72]:
texto = "hola adios hello bye"
patrones = [r'hola|hello'] 
buscar(patrones, texto)

['hola', 'hello']


### Incluyendo repeticiones

Hay varias formas de expresar la repetición en un patrón. En la siguiente tabla, resumimos como usarlas.

 Metacarácter 	|  Descripción
 --- | ---
`*` | se repite	cero o más, similar a `{0,}`.
`+` |	se repite una o más, similar a `{1,}`.
`?` |	se repite cero o una, similar a `{0,1}`.
`{n}` |	se repite exactamente n veces.
`{n,}` |	se repite por lo menos n veces.
`{n,m}` |	se repite por lo menos n pero no más de m veces.

Así, por ejemplo, un patrón seguido por el metacarácter `*` indica que debe repetirse cero o más veces (permitiendo que un patrón se repita cero veces significa que no necesita aparecer en absoluto para que coincida). 

In [73]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0."

patrones = [r'\d+', r'\D+', r'\s+', r'\S+', r'\w+', r'\W+'] 
buscar(patrones, texto)

['1991', '0', '9', '0']
['Python se creó en el año ', ' con el número de versión ', '.', '.', '.']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
['Python', 'se', 'creó', 'en', 'el', 'año', '1991', 'con', 'el', 'número', 'de', 'versión', '0.9.0.']
['Python', 'se', 'creó', 'en', 'el', 'año', '1991', 'con', 'el', 'número', 'de', 'versión', '0', '9', '0']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '.', '.', '.']


In [74]:
texto = "hla hola hoola hooola hooooola"

In [75]:
patrones = [r'hla', r'hola', r'hoola']
buscar(patrones, texto)

['hla']
['hola']
['hoola']


In [76]:
patrones = [r'ho',r'ho*',r'ho*la',r'hu*la']
buscar(patrones, texto)

['ho', 'ho', 'ho', 'ho']
['h', 'ho', 'hoo', 'hooo', 'hooooo']
['hla', 'hola', 'hoola', 'hooola', 'hooooola']
['hla']


In [77]:
patrones = [r'ho*', r'ho+']  
buscar(patrones, texto)

['h', 'ho', 'hoo', 'hooo', 'hooooo']
['ho', 'hoo', 'hooo', 'hooooo']


In [78]:
patrones = [r'ho*', r'ho+', r'ho?', r'ho?la']
buscar(patrones, texto)

['h', 'ho', 'hoo', 'hooo', 'hooooo']
['ho', 'hoo', 'hooo', 'hooooo']
['h', 'ho', 'ho', 'ho', 'ho']
['hla', 'hola']


In [79]:
patrones = [r'ho{0}la', r'ho{1}la', r'ho{2}la']
buscar(patrones, texto)

['hla']
['hola']
['hoola']


In [80]:
patrones = [r'ho{0,1}la', r'ho{1,2}la', r'ho{2,9}la']
buscar(patrones, texto)

['hla', 'hola']
['hola', 'hoola']
['hoola', 'hooola', 'hooooola']


In [81]:
texto = "haala heeela haaeela hiiiila hoooooola"

patrones = [r'h[ae]la', r'h[ae]*la', r'h[io]{3,9}la']
buscar(patrones, texto)


[]
['haala', 'heeela', 'haaeela']
['hiiiila', 'hoooooola']


### Delimitadores

Esta clase de metacaracteres nos permite delimitar dónde queremos buscar los patrones de búsqueda. Los principales son:

Metacarácter |	Descripción
----| -----
^ |	inicio de texto.
$ |	fin de texto.
. |	cualquier carácter en el texto.
\b |	está al principio (o al final) de una palabra.
\B |	no está al principio (o al final) de una palabra.


In [82]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0. Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python"
# Buscamos "Python" al principio y al final de texto
patrones = [r'^Python', r'Python$'] 
buscar(patrones, texto)

['Python']
['Python']


In [83]:
# Buscamos palabras que comiencen por P y acaben en n y tengan 4 caracteres (los que sean) en medio
patrones = [r'P....n'] 
buscar(patrones, texto)

['Python', 'Python', 'Python']


In [84]:
# Buscamos palabras que comiencen por M seguidas de caracteres (los que sean) y luego lleven la cadena "Python"
patrones = ['M.* Python'] 
buscar(patrones, texto)

['Monty Python']


*Nota*: tenemos que usar '\\.' si queremos indicar que nuestro patrón contiene el caracter '.'

In [85]:
patrones = [r'0\.9\.0'] 
buscar(patrones, texto)

['0.9.0']


**Ejercicio**: Antes de ejecutar la siguiente celda, indique que está buscando cada expresión regular

In [86]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0.  Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python"

patrones = [r'\bP', r'n\b', r'\B[a-o]', r'[a-o]\B'] 
buscar(patrones, texto)

['P', 'P', 'P']
['n', 'n', 'n', 'n', 'n', 'n', 'n']
['h', 'o', 'n', 'e', 'e', 'n', 'l', 'o', 'o', 'n', 'l', 'm', 'e', 'o', 'e', 'e', 'i', 'n', 'h', 'o', 'n', 'e', 'b', 'e', 'o', 'm', 'b', 'e', 'a', 'f', 'i', 'c', 'i', 'n', 'e', 'e', 'a', 'd', 'o', 'o', 'o', 'm', 'o', 'i', 'a', 'i', 'n', 'i', 'c', 'o', 'o', 'n', 'h', 'o', 'n']
['h', 'o', 'c', 'e', 'e', 'e', 'a', 'c', 'o', 'e', 'n', 'm', 'e', 'd', 'e', 'i', 'h', 'o', 'd', 'e', 'b', 'n', 'o', 'm', 'b', 'l', 'a', 'f', 'i', 'c', 'i', 'd', 'c', 'e', 'a', 'd', 'o', 'o', 'l', 'o', 'h', 'm', 'o', 'i', 'a', 'b', 'i', 'n', 'i', 'c', 'o', 'o', 'n', 'h', 'o']


##### Solución


* `r'\bP'`: inicio/fin de palabra seguido `'P'`, es decir, `'P'` al principio de palabra.
* `r'n\b'`:  `'n'` seguido de inicio/fin de palabra, es decir, `'n'` al final de palabra.
* `r'\B[a-o]'`: No está inicio/fin de palabra seguido caracteres entre `a` y `o`. Cualquier caracter entre `a-o` que no esté al principio de palabra.
* `r'[a-o]\B'`: caracteres entre `a` y `o` seguido de no está inicio/fin de palabra. Cualquier caracter entre `a-o` que no esté al final de palabra.

### Patrón por exclusión `[^ ]`

Cuando definimos nuestros patrones podemos utilizar el operador de exclusión `[^ ]` para indicar una búsqueda contraria:

In [87]:
patrones = [r'\b[^P]', r'[^n]\b'] 
buscar(patrones, texto)

[' ', 's', ' ', 'c', ' ', 'e', ' ', 'e', ' ', 'a', ' ', '1', ' ', 'c', ' ', 'e', ' ', 'n', ' ', 'd', ' ', 'v', ' ', '0', '.', '9', '.', '0', '.', ' ', 'd', ' ', 's', ' ', 'n', ' ', 'a', ' ', 'l', ' ', 'a', ' ', 'd', ' ', 's', ' ', 'c', ' ', 'p', ' ', 'l', ' ', 'h', ' ', 'b', ' ', 'M', ' ']
[' ', 'e', ' ', 'ó', ' ', ' ', 'l', ' ', 'o', ' ', '1', ' ', ' ', 'l', ' ', 'o', ' ', 'e', ' ', ' ', '0', '.', '9', '.', '0', ' ', ' ', 'e', ' ', 'u', ' ', 'e', ' ', 'a', ' ', 'a', ' ', ' ', 'e', ' ', 'u', ' ', 'r', ' ', 'r', ' ', 's', ' ', 's', ' ', 's', ' ', 'y', ' ']


*Nota*: en la búsqueda, al indicar principio o final de palabra, también incluye los espacios porque son considerados palabras en sí.

In [88]:
texto = "hala hela hila hola hula"

patrones = [r'hola', r'h[^o]la'] 
buscar(patrones, texto)


['hola']
['hala', 'hela', 'hila', 'hula']


*Nota*: vea la difenrencia entre usar `^` para buscar el patrón al inicio del texto o aquí que va entre `[^ ]` para indicar exclusión.

#### Ejercicio

Escriba las expresiones regulares que le permiten extraer del siguiente texto:
* Las palabras que empienzan por `'P'` (queremos toda la palabra no sólo el carácter `'P'`)
* Los años (secuencias de 4 dígitos)
* Las versiones de código (secuencias de 3 dígitos separadas por `'.'`) 

In [89]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0 en los Países Bajos. A día de hoy ya vamos por la versión 3.X-X. Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python"

#### Solución

In [90]:
#<SOL>

#</SOL>

## Coincidencias con grupos

La búsqueda de coincidencias de patrones es la base de las poderosas capacidades proporcionadas por expresiones regulares. Agregando grupos a un patrón aísla partes del texto que coincide, expandiendo las capacidades para crear un analizador. Los grupos se definen al adjuntar patrones entre paréntesis.



In [91]:
texto = "haala heeela hiiiila hoooooola"

patrones = [r'h(aa)la', r'h(ee)la', r'h(ii)la', r'h(oo)la']
buscar(patrones, texto)

['aa']
[]
[]
[]


Cualquier expresión regular completa se puede convertir en un grupo y ser anidada dentro de una expresión más grande. Todos los modificadores de repetición pueden ser aplicados a un grupo como un todo, requiriendo que todo el patrón de grupo se repita.

In [92]:
texto = "hla hoola hooola hoooola hoooooola"

patrones = [r'h(oo)la', r'h(oo)*la', r'h(oo)+la', r'h(oo)?la']
buscar(patrones, texto)

['oo']
['', 'oo', 'oo', 'oo']
['oo', 'oo', 'oo']
['', 'oo']


De hecho, podemos buscar varios grupos dentro de una misma expresión regular 

In [93]:
# Busqueda de varios grupos
texto = "hla hoola hooola hoooola hoooooola"

patrones = [r'(h(oo)*la)']
buscar(patrones, texto)

[('hla', ''), ('hoola', 'oo'), ('hoooola', 'oo'), ('hoooooola', 'oo')]


Ahora podemos acceder a los diferentes grupos de la búsqueda con la función `group()` e indicando el índice. Veamos esto con el siguiente ejemplo...

In [94]:
# Busqueda de varios grupos
patron = r"(\w+) (\w+)"
busqueda = re.match(patron, "Fernando García")
busqueda

<re.Match object; span=(0, 15), match='Fernando García'>

In [95]:
# Accediendo a los grupos por sus indices
# grupo 1
print(busqueda.group(1))
# grupo 2
print(busqueda.group(2))

Fernando
García


También podemos definir alias en la expresión regular para luego facilitar el acceso. Para ello solo hay que usar esta secuencia `(?P<alias>patron)` al definir el patrón.

In [96]:
# Accediendo a los grupos por nombres
patron = r"(?P<nombre>\w+) (?P<apellido>\w+)"
busqueda = re.match(patron, "Antonio Sánchez")

# grupo nombre
print(busqueda.group("nombre"))

# grupo apellido
print(busqueda.group("apellido"))

Antonio
Sánchez


Incluso, podemos usar el método `.groupdict()` para que esta información nos la devuelvada en un diccionario.

In [97]:
# Generando un diccionario con los  grupos creados
patron = r"(?P<nombre>\w+) (?P<apellido>\w+)"
mydict_busqueda = re.match(patron, "Antonio Sánchez").groupdict()
mydict_busqueda

{'nombre': 'Antonio', 'apellido': 'Sánchez'}

### Repeticiones de grupos: `'\N'`

Incluir `'\N'` en nuestro patrón nos permite encontrar repeticiones de un grupo N veces (donde N es el número indicado en `\N`). Por ejemplo


In [98]:
busqueda = re.search(r'(\b\w+) \1', 'Antonio Sánchez Sánchez')
print(busqueda)

<re.Match object; span=(8, 23), match='Sánchez Sánchez'>


Nos permite encontrar cualquier palabra repetida. Aunque nótese que al incluir un espacio entre el grupo y `'\1'` encuentra `'Sánchez Sánchez'` y no `'SánchezSánchez'`.

In [99]:
busqueda = re.search(r'(\b\w+) \1', 'Antonio SánchezSánchez')
print(busqueda)

None


In [100]:
busqueda = re.search(r'(\b\w+)\1', 'Antonio SánchezSánchez')
print(busqueda)

<re.Match object; span=(8, 22), match='SánchezSánchez'>


## Compiladores de expresiones regulares

Cada vez que definimos la expresión regular y la usamos para buscar nuestro patrón, Python internamente tiene que compilar el patrón para así hacer la búsqueda. Lógicamente, si una misma expresión va a usarse varias veces, estaríamos generando reiteradamente las versiones compiladas de nuestros patrones de manera innecesaria. Para evitar esto podemos compilar al principio (y una sola vez) las expresiones regulares.

In [101]:
import time
texto = "Python se creó en el año 1991 con el número de versión 0.9.0. Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python"

start = time.time()
for i in range(100000):
  re.findall('M.* Python', texto)
delay=time.time()-start 
print(delay)

0.380171537399292


In [102]:
start = time.time()
patrones = re.compile('M.* Python')
for i in range(100000):
  patrones.findall(texto)
delay=time.time()-start 
print(delay)

0.06680679321289062


## Otras utilidades de las expresiones regulares: Modificando el texto de entrada

Además de buscar coincidencias de nuestro patrón de búsqueda en un texto, podemos utilizar ese mismo patrón para realizar modificaciones al texto de entrada. Para estos casos podemos utilizar los siguientes métodos:

 *  `split()`: El cual divide el texto en una lista, realizando las divisiones del texto en cada lugar donde se cumple con la expresion regular.
 *   `sub()`: El cual encuentra todos los subtextos donde existe una coincidencia con la expresion regular y luego los reemplaza con un nuevo texto.
 * `subn()`: El cual es similar al anterior pero además de devolver el nuevo texto, también devuelve el número de reemplazos que realizó.


In [103]:
# texto de entrada
becquer = """Podrá nublarse el sol eternamente; 
Podrá secarse en un instante el mar; 
Podrá romperse el eje de la tierra 
como un débil cristal. 
¡Todo sucederá! Podrá la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí podrá apagarse 
la llama de tu amor."""

In [104]:
# patron para dividir donde no encuentre un carácter alfanumerico
patron = re.compile(r'\W+')

In [105]:
palabras = patron.split(becquer)
palabras[:10]  # 10 primeras palabras

['Podrá',
 'nublarse',
 'el',
 'sol',
 'eternamente',
 'Podrá',
 'secarse',
 'en',
 'un',
 'instante']

In [106]:
re.split(r'\n', becquer)  # Dividiendo por líneas

['Podrá nublarse el sol eternamente; ',
 'Podrá secarse en un instante el mar; ',
 'Podrá romperse el eje de la tierra ',
 'como un débil cristal. ',
 '¡Todo sucederá! Podrá la muerte ',
 'cubrirme con su fúnebre crespón; ',
 'Pero jamás en mí podrá apagarse ',
 'la llama de tu amor.']

In [107]:
# Utilizando un valor máximo de divisiones
patron.split(becquer, 5)

['Podrá',
 'nublarse',
 'el',
 'sol',
 'eternamente',
 'Podrá secarse en un instante el mar; \nPodrá romperse el eje de la tierra \ncomo un débil cristal. \n¡Todo sucederá! Podrá la muerte \ncubrirme con su fúnebre crespón; \nPero jamás en mí podrá apagarse \nla llama de tu amor.']

In [108]:
# Cambiando "Podrá" o "podra" por "Puede"
podra = re.compile(r'\b(P|p)odrá\b')
puede = podra.sub("Puede", becquer)
print(puede)

Puede nublarse el sol eternamente; 
Puede secarse en un instante el mar; 
Puede romperse el eje de la tierra 
como un débil cristal. 
¡Todo sucederá! Puede la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí Puede apagarse 
la llama de tu amor.


In [109]:
# Limitando el número de reemplazos
puede = podra.sub("Puede", becquer, 2)
print(puede)

Puede nublarse el sol eternamente; 
Puede secarse en un instante el mar; 
Podrá romperse el eje de la tierra 
como un débil cristal. 
¡Todo sucederá! Podrá la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí podrá apagarse 
la llama de tu amor.


In [110]:
# Utilizando subn
re.subn(r'\b(P|p)odrá\b', "Puede", becquer)  # se realizaron 5 reemplazos

('Puede nublarse el sol eternamente; \nPuede secarse en un instante el mar; \nPuede romperse el eje de la tierra \ncomo un débil cristal. \n¡Todo sucederá! Puede la muerte \ncubrirme con su fúnebre crespón; \nPero jamás en mí Puede apagarse \nla llama de tu amor.',
 5)

##  *Flags* de compilación

Las banderas o *flags* de compilación permiten modificar algunos aspectos de cómo funcionan las expresiones regulares. 
Algunos de los *flags* de compilación que podemos encontrar son:
*  `IGNORECASE`, `I`: Para realizar búsquedas sin tener en cuenta las minúsculas o mayúsculas.
*   `VERBOSE`, `X`: Que habilita el modo *verbose*, el cual permite organizar el patrón de búsqueda de una forma que sea más sencillo de entender y leer.
*    `MULTILINE`, `M`: Que habilita la coincidencia en múltiples líneas, afectando el funcionamiento de los metacaracteres `^` and `$`.

Como vemos, todas ellas están disponibles en el módulo `re` bajo dos nombres, un nombre largo como `IGNORECASE` y una forma abreviada de una sola letra como `I`. Múltiples banderas pueden ser especificadas utilizando el operador OR `"|"`; por ejemplo, `re.I` | `RE.M` establece la bandera `I` o `M`.


In [111]:
# Ejemplo de IGNORECASE
# Cambiando "Podrá" o "podra" por "Puede"
podra = re.compile(r'podrá\b', re.I)  # el patrón se vuelve más sencillo
puede = podra.sub("puede", becquer)
print(puede)

puede nublarse el sol eternamente; 
puede secarse en un instante el mar; 
puede romperse el eje de la tierra 
como un débil cristal. 
¡Todo sucederá! puede la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí puede apagarse 
la llama de tu amor.


Veamos la utilidad del *flag* verbose definiendo una expresión regular bastante compleja para encontrar emails dentro de un texto:

In [112]:
# Ejemplo de VERBOSE
mail = re.compile(r"""
\b             # comienzo de delimitador de palabra
[\w.%+-]+      # usuario: Cualquier carácter alfanumerico mas los signos (.%+-)
@              # seguido de @
[\w.-]+        # dominio: Cualquier carácter alfanumerico mas los signos (.-)
\.             # seguido de .
[a-zA-Z]{2,6}  # dominio de alto nivel: 2 a 6 letras en minúsculas o mayúsculas.
\b             # fin de delimitador de palabra
""", re.X)

In [113]:
mails = """antonio.perez@hotmail.com, Antonio Perez Lopez,
foo bar, aperez@hotmail.com.ar, mario@github.io, 
https://mariowebpage.com.ar, https://mario.github.io, 
python@python, mario@mydominio.com.ar, pythonAR@python.pythonAR
"""

In [114]:
# filtrando los mails con estructura válida
mail.findall(mails)

['antonio.perez@hotmail.com',
 'aperez@hotmail.com.ar',
 'mario@github.io',
 'mario@mydominio.com.ar']

In [115]:
# Sin dividir por líneas: '^' es el principio de texto
texto = "Python se creó en el año 1991 con el número de versión 0.9.0. \nPython debe su nombre a la afición de su creador por los humoristas británicos Monty Python"
print(texto)
patron =re.compile(r'^Python') 
patron.findall(texto)

Python se creó en el año 1991 con el número de versión 0.9.0. 
Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python


['Python']

In [116]:
# Con división por líneas: '^' es el principio de cada línea
texto = "Python se creó en el año 1991 con el número de versión 0.9.0. \nPython debe su nombre a la afición de su creador por los humoristas británicos Monty Python"
print(texto)
patron =re.compile(r'^Python', re.M) 
patron.findall(texto)


Python se creó en el año 1991 con el número de versión 0.9.0. 
Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python


['Python', 'Python']

### Ejercicio: Validando una fecha

Escriba la expresión regular que le permita validar una fecha con la estructura `dd/mm/yyyy` y compruebe que funciona correctamente sobre los siguiente ejemplos:

In [117]:
# Incluya aquí su expresión regular para validar una fecha
#<SOL>

#</SOL>

In [None]:
# validando 13/02/1982
print(fecha.search("13/02/1982"))

# no valida 13-02-1982
print(fecha.search("13-02-1982"))

# no valida 32/12/2015
print(fecha.search("32/12/2015"))

# no valida 30/14/2015
print(fecha.search("30/14/2015"))

