# Introducción al procesamiento de texto en Python

### Procesamiento del Lenguaje Natural



# Trabajando con cadenas de texto en Python 


El tipo de datos básico para representar texto en Python es el *string*. Un objeto cadena o *string* se define generalmente asignando a una variable una cadena de texto definida entre comillas simples (`'`) o dobles (`"`) o convirtiendo otro tipo de datos (como los numéricos) en una cadena utilizando la función `str()`.

In [None]:
# Define string variables
t1='this is a string'
print(t1)
t2 ="t2 too!"
print(t2)

this is a string
t2 too!


In [None]:
# Convert a number to string
n = 500
print(n)
print(type(n))
n_string = str(n)
print(n_string)
print(type(n_string))

500
<class 'int'>
500
<class 'str'>


## Métodos del objeto *string*

Python se considera generalmente una buena opción cuando se trata de trabajar con archivos de texto de cualquier tipo y tamaño, ya que el objeto *string* tiene un gran número de métodos incorporados que facilitan su manipulación.

Para utilizar los objetos predefinidos en Python (como el objeto *string*) y acceder a sus métodos y/o atributos solo necesitamos saber:
* Para utilizar los métodos de un objeto `my_object`, utilizar siempre la sintaxis `my_object.method()`.

* Si queremos saber qué métodos tiene un objeto en Google Colab, podemos escribir `my_object` y esperar, y Google Colab produce una lista de todos los métodos disponibles para ese objeto.

* Todos los métodos del objeto *string* devuelven un nuevo valor como salida. El *string* original no se modifica.

Algunos de estos métodos son:


* `.capitalize ()`: convierte la primera letra de la cadena en mayúscula.

In [None]:
t1.capitalize()

'This is a string'

* `.upper()`/`.lower()`: convierte todos los caracteres de la cadena de texto en mayúsculas/minúsculas.

In [None]:
t_upper = t1.upper()
print(t_upper)
t_lower = t_upper.lower()
print(t_lower)

THIS IS A STRING
this is a string


* `.replace ('s1', 's2')`: sustituye los caracteres de la cadena `'s1'` por los caracteres de la cadena `' s2'`.

In [None]:
t1.replace(' ', ',')

'this,is,a,string'

* `.strip ('s1')`:  directamente elimina de la cadena los caracteres de `'s1'` que estén al principio o final de la cadena.

In [None]:
'http://www.python.org'.strip('/tph:')

'www.python.org'

In [None]:
',,,,,rrttgg.....banana....rr'.strip(",.grt")

'banana'

* .`find ('s') `: dentro del *string* busca la cadena `'s'` y obtiene su posición a partir de la primera letra del *string*. Si hay varias ocurrencias, devuelve la primera posición. En caso de no encontrarla, devuelve un `-1`.

In [None]:
t1.find('string')

10

In [None]:
 t1.find('word')

-1

* `.split ('s')`:  divide el texto en varias cadenas utilizando el carácter `'s'` como separador.

In [None]:
# Split by the character 'i'
print(t1.split('i'))
# Split by the character ' ' (blank space)
print(t1.split(' '))

# If a splitter character is not provided, by default, the blank space is used
print(t1.split())


['th', 's ', 's a str', 'ng']
['this', 'is', 'a', 'string']
['this', 'is', 'a', 'string']


*Nota*: al aplicar el método `.split()`, el carácter separador `s` desaparece de las cadenas resultantes. Y además, el resultado del método es una lista con varios elementos donde cada elemento es un *string*. Más adelante revisaremos qué son las listas de Python y cómo operar con ellas.

* `s.join ([list])`:  une los elementos de la lista con el carácter `'s'` y crea una nueva cadena. Es decir, permite deshacer lo que hace el método `.split ('s')`.

In [None]:
splitted_list = t1.split(' ')
print(splitted_list)
' '.join(splitted_list)

['this', 'is', 'a', 'string']


'this is a string'

Muchas veces se concatena el uso de `split()` y `.join()` para eliminar múltiples espacios entre las palabras.

In [None]:
t1='This    is a    string'
print(t1)
print(' '.join(t1.split()))

This    is a    string
This is a string


* `.isalpha`: devuelve `True` si todos los caracteres de la cadena son letras del alfabeto (`a`-`z`).

In [None]:
txt = "CompanyX"
x = txt.isalpha()
print(x) 

True


In [None]:
txt = "Company10"
x = txt.isalpha()
print(x) 

False


* `.isalnum`: devuelve `True` si todos los caracteres de la cadena son letras del alfabeto (`a`-`z`) ó dígitos (`0`-`9`).

In [None]:
txt = "Company10"
x = txt.isalnum()
print(x) 

True


In [None]:
name = "M234onica"
print(name.isalnum())

# Now it contains whitespace
name = "M3onica Gell22er "
print(name.isalnum())

name = "Mo3nicaGell22er"
print(name.isalnum())

name = "133"
print(name.isalnum())

True
False
True
True


* `isdecimal()`: devuelve `True` si todos los caracteres de una cadena son dígitos (`0`-`9`).

In [None]:
s = "28212"
print(s.isdecimal())

# contains alphabets
s = "32ladk3"
print(s.isdecimal())

# contains alphabets and spaces
s = "Mo3 nicaG el l22er"
print(s.isdecimal())

True
False
False


* `isdigit()`: también devuelve `True` si todos los caracteres de una cadena son dígitos (`0`-`9`) pero, a diferencia de al anterior, incluye subíndices y superíndices.

In [None]:
s = '\u00B23455'
print(s)
print(s.isdigit())
print(s.isdecimal())

²3455
True
False


* `.startswith()`/ `.endswith()`: comprueban si una cadena comienza/acaba con una subcadena especificada.

In [None]:
t1='This is a string'
print(t1.startswith('This'))
print(t1.endswith('string'))

True
True


Puede encontrar una lista de todos los métodos disponibles de los objetos de cadena en [este enlace](https://www.w3schools.com/python/python_ref_string.asp)

## Longitud de una cadena
Para obtener la longitud de una cadena, utilizamos la función `len ()` .

*Nota:* `len ()` es una función de Python, compartida con otros tipos de datos, no es exclusiva de los strings. Por esta razón, **no** es un método de los objetos string y su sintaxis no es `cadena.len` sino `len(cadena)`.

In [None]:
mystring = "Hello everyone!"
len(mystring)

15

## Comprobar si una cadena está presente o no
Se pueden utilizar las palabras clave `in` o` not in` para comprobar si una determinada frase o carácter está presente o no dentro de una cadena. Estas palabras clave son operadores lógicos, por lo que devuelven un valor booleano (`True` o ` False`).

In [None]:
"everyone" in mystring

True

In [None]:
"everyone" not in mystring

False

In [None]:
"everybody" in mystring

False

## Indexación de *strings*

Las cadenas son como *arrays* de caracteres, donde cada carácter es simplemente una cadena con una longitud de 1. Así que se puede acceder a los elementos de la cadena de varias maneras:
* Podemos recuperar un solo carácter utilizando corchetes e indicando la posición específica de un carácter a recuperar. Por ejemplo, `my_string[position]`  devolvería el carácter situado en `position` dentro de la cadena `my_string`.
* Para obtener una parte de una cadena podemos indicar las posiciones de inicio y fin (`[start:end]`). La cadena devuelta comenzará en el carácter situado en la posición `start` (incluido) y terminará en la posición indicada por `end`, pero esta última no será incluida.

Además, se puede indexar hacia atrás con índices negativos y si la posición inicial no está incluida, se asume que es la primera y si la posición final no está incluida se asume que es la última.

¡¡¡**Importante**: en Python la indexación comienza en 0!!! Es decir, el primer elemento está en la posición 0.



### Ejercicio
Analiza el siguiente código e intenta adivinar lo que devuelve antes de ejecutarlo

In [None]:
mystring = "Hello everyone!"

In [None]:
mystring[0]

'H'

In [None]:
mystring[1:5]

'ello'

In [None]:
mystring[:5]

'Hello'

In [None]:
mystring[8:]

'eryone!'

In [None]:
mystring[-1]

'!'

In [None]:
mystring[-6:]

'ryone!'

## Concatenación de *strings*
Se pueden concatenar o combinar dos o más cadenas de texto con el símbolo `+`. 

In [None]:
t1="Hello"
t2="everyone"
t1+t2

'Helloeveryone'

In [None]:
t1+" "+t2

'Hello everyone'

In [None]:
 t1 +" " + t2 + "!" 

'Hello everyone!'

Y... ¿podemos combinar texto y números? Intentémoslo.

In [None]:
result = 5 + 2
"The result is: " + result

TypeError: ignored

Como podemos ver, ¡¡¡genera un error!!! Esto es porque sólo podemos concatenar cadenas con cadenas. Si queremos hacerlo, tendremos que pasar la variable `result` a cadena con la función `str()`.

*Nota*: Observa cómo Google Colab da formato a la salida de error, indicando exactamente la línea donde falla y el tipo de error `TypeError: must be str, not int`. Además, proporciona un enlace para buscar este error en Stack Overflow y encontrar posibles soluciones.




In [None]:
result = 5 + 2  # Aquí + suma porque combina dos variables de tipo int
"The result is: " + str(result)  # Aquí + contatena porque combina dos string 

'The result is: 7'

##  Formatear cadenas de texto

Una forma más versátil de combinar texto con otros tipos de datos es la que ofrece la función `format()`. Nos permite incluir con `{ }` indicadores de posisicición de variables a incluir en el texto. Los marcadores de posición pueden identificarse utilizando índices con nombre `{variable_name}`, índices numerados `{0}`, o incluso marcadores de posición vacíos `{}`.


In [None]:
quantity = 3
itemno = 567
price = 49.95
myorder = "I want {} pieces of item {} for {} dollars."
print(myorder.format(quantity, itemno, price))

I want 3 pieces of item 567 for 49.95 dollars.


In [None]:
quantity = 3
itemno = 567
price = 49.95
# Now, we include the positions of the variables: 2 (price), 0 (quantity) and 1 (price)
myorder = "I want to pay {2} dollars for {0} pieces of item {1}."
print(myorder.format(quantity, itemno, price))

I want to pay 49.95 dollars for 3 pieces of item 567.


In [None]:
print('Coordinates: {latitude}, {longitude}'.format(latitude='37.24N', longitude='-115.81W'))

Coordinates: 37.24N, -115.81W


In [None]:
print('Coordinates: {%s}, {%s}'%('37.24N','-115.81W'))

Coordinates: {37.24N}, {-115.81W}


In [None]:
print('Coordinates: {%.2f%s}, {%.2f%s}'%(37.24,'N',-115.81,'W'))

Coordinates: {37.24N}, {-115.81W}


In [None]:
print('Coordinates: {%.1f%s}, {%.1f%s}'%(37.24,'N',-115.81,'W'))

Coordinates: {37.2N}, {-115.8W}


### Ejercicio
Completa los siguientes ejercicios

In [None]:
str1 = '"Hola" is how we say "hello" in Spanish.'
str2 = "Strings can also be defined with quotes; try to be sistematic and consistent."

* Imprime la cadena `str1` y comprueba su tipo

In [None]:
#<SOL>
print(str1)
print(type(str1))
#</SOL>

"Hola" is how we say "hello" in Spanish.
<class 'str'>


* Imprime los 5 primeros caracteres de `str1`.

In [None]:
#<SOL>
print(str1[0:5])
#</SOL>

"Hola


* Une `str1` y `str2`

In [None]:
#<SOL>
print(str1 + str2)
#</SOL>

"Hola" is how we say "hello" in Spanish.Strings can also be defined with quotes; try to be sistematic and consistent.


* Convierte `str1` a minúsculas.

In [None]:
#<SOL>
print(str1.lower())
#</SOL>

"hola" is how we say "hello" in spanish.


* Convierte `str1` a mayúsculas.

In [None]:
#<SOL>
print(str1.upper())
#</SOL>

"HOLA" IS HOW WE SAY "HELLO" IN SPANISH.


* Obten el número de caracteres en `str1`

In [None]:
#<SOL>
print(len(str1))
#</SOL>

40


* Reemplazar el carácter `h` en `str1` por el carácter `H`

In [None]:
#<SOL>
print(str1.replace('h','H'))
#</SOL>

"Hola" is How we say "Hello" in SpanisH.


* Comprueba si `str1` solo tiene letras 

In [None]:
#<SOL>
print(str1.isalpha())
#</SOL>

False


## Cadenas predefinidas y `translate`

La librería `string` incluye varias cadenas de texto predefinidas, con dígitos, signos de puntuación, etc, que pueden ser de utilidad para procesar otras cadenas de texto. Para acceder a ellas solo tenemos que importar la librería `string` y cargar la cadena que nos interese.

In [None]:
 import string
 string.digits

'0123456789'

In [None]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [None]:
string.whitespace

' \t\n\r\x0b\x0c'

Consideremos ahora que tenemos el siguiente texto:

In [None]:
text = 'Thu Mar 18 09:22:07.436 <airportd[181]> _processIPv4Changes: ARP/NDP offloads disabled, not programming the offload'

y queremos eliminar los signos de puntuación y los dígitos. Lo podemos hacer fácilmente comprobando si cada símbolo de puntuación o dígito está en el texto y remplazandolo por nada `''`:

In [None]:
clean_text = text
print(text)
for punct in string.punctuation:
  clean_text = clean_text.replace(punct,'')
print(clean_text)
for digit in string.digits:
  clean_text = clean_text.replace(digit,'')
for space in string.whitespace:
  clean_text = clean_text.replace(space,'')
print(clean_text)

Thu Mar 18 09:22:07.436 <airportd[181]> _processIPv4Changes: ARP/NDP offloads disabled, not programming the offload
Thu Mar 18 092207436 airportd181 processIPv4Changes ARPNDP offloads disabled not programming the offload
ThuMarairportdprocessIPvChangesARPNDPoffloadsdisablednotprogrammingtheoffload


Aunque esto puede hacerse de manera más eficiente, en una sola línea, con la función `translate`. Para utilizar `translate` tenemos que definir una tabla de traducción definiendo:

`str.maketrans('abcd','0123','xyz')` 

de este modo indica que `'a'` se sustituye por `'0'`, `'b'` por `'1'`, .... y que, además, los caracteres `'x'`, `'y'` y `'z'` se eliminan.

In [None]:
list_exclude = string.punctuation + string.digits
table_translate = str.maketrans('','', list_exclude)
clean_text = text.translate(table_translate)
print(clean_text)


Thu Mar   airportd processIPvChanges ARPNDP offloads disabled not programming the offload


Un uso bastante común de `translate()` es la eliminación de acentos. Así, por ejemplo,

In [None]:
text = '¡El veloz murciélago hindú comía feliz cardillo y kiwi!. La cigüeña tocaba el saxofón detrás del palenque, o ¿no?'
table_translate = str.maketrans('áéíóú','aeiou', string.punctuation+'¿¡')
clean_text = text.translate(table_translate)
print(clean_text)

El veloz murcielago hindu comia feliz cardillo y kiwi La cigüeña tocaba el saxofon detras del palenque o no


*Nota*: en `string.punctuation` solo están los signos de puntuación en inglés.

# Colecciones de datos en Python

Hay cuatro tipos de colecciones que nos permiten recoger o tener datos agrupados en Python:

* La **lista** es una colección ordenada que podemos modificar y que admite miembros duplicados.

In [None]:
myList = ["apple", "banana", "pear", "orange", "lemon", "cherry", "kiwi", "melon", "mango"]
print(myList)

['apple', 'banana', 'pear', 'orange', 'lemon', 'cherry', 'kiwi', 'melon', 'mango']


* La **tupla** es una colección ordenada e inalterable de elementos que también admite elementos duplicados. La diferencia con las listas es que no permite modificar sus elementos.

In [None]:
myTuple = ("apple", "banana", "pear", "orange")
print(myTuple)

('apple', 'banana', 'pear', 'orange')


 * El **conjunto** es una colección de elementos que no está ordenada ni indexada y en la que no puede haber miembros duplicados.


In [None]:
mySet = {"apple", "banana", "pear", "kiwi", "melon", "mango"}
print(mySet)

{'pear', 'melon', 'mango', 'kiwi', 'apple', 'banana'}


* El **diccionario** es una colección de elementos no ordenados, modificables e indexados que no admite miembros duplicados.

In [None]:
mydict = {
  "name": "Ana",
  "surname": "García",
  "age": 25
}
print(mydict)

{'name': 'Ana', 'surname': 'García', 'age': 25}



Cuando se elige un tipo de colección, es útil entender las propiedades de ese tipo. Elegir el tipo correcto para un conjunto de datos concreto puede significar la conservación del significado, y puede significar una mayor eficiencia o seguridad. A continuación, vamos a revisar las operaciones principales de las listas y los diccionarios ya que son los dos tipos de colecciones con los que más vamos a trabajar en este curso.

## Listas en Python

Como hemos indicado, una lista es una colección ordenada de elementos que podemos modificar y que admite elementos repetidos. Es uno de los tipos más habituales a la hora de programar en Python, por lo que son múltiples las operaciones que podemos realizar con las listas. A continuación  mostramos algunos ejemplos de las más comunes.



### Crear una lista
En Python, las listas se escriben con corchetes `[ ]`. Así que para crear una lista, podemos simplemente incluir una serie de elementos separados por comas entre los corchetes:

In [None]:
myList = ["apple", "banana", "pear", "orange", "lemon", "cherry", "kiwi", "melon", "mango"]
print(myList)

['apple', 'banana', 'pear', 'orange', 'lemon', 'cherry', 'kiwi', 'melon', 'mango']


Podemos definir una lista vacía si no incluimos elementos

In [None]:
myEmpty_List = []
print(myEmpty_List)

[]


También puedes crear una lista con el constructor `list ()`.

In [None]:
myList2 =list([ "lemon", "cherry", "kiwi", "mango"])
print(myList2)

['lemon', 'cherry', 'kiwi', 'mango']


### Indexación de elementos
Podemos acceder a sus elementos indexando la lista de forma similar a los caracteres de un *string* o cadena.

Analiza los siguientes ejemplos intentando adivinar la salida que vamos a obtener antes de ejecutarlos...

In [None]:
print(myList[1])

banana


In [None]:
print(myList[3:5])

['orange', 'lemon']


In [None]:
print(myList[:4])

['apple', 'banana', 'pear', 'orange']


In [None]:
print(myList[5:])

['cherry', 'kiwi', 'melon', 'mango']


In [None]:
print(myList[-1])

mango


In [None]:
print(myList[-5:-1])

['lemon', 'cherry', 'kiwi', 'melon']


### Comprobar la presencia de un elemento
Podemos utilizar la palabra clave `in` para comprobar si un elemento está en una lista:

In [None]:
"melon" in myList

True

In [None]:
"banana" in myList

True

### Calcular la longitud de una lista
Podemos utilizar la función `len ()` para calcular el número de elementos de la lista:

In [None]:
print(len(myList))

9


### Concatenar listas
Podemos utilizar el operador `+` para crear una nueva lista uniendo los elementos de las dos listas


In [None]:
myUnionList = myList + myList2
print(myUnionList)

['apple', 'banana', 'pear', 'orange', 'lemon', 'cherry', 'kiwi', 'melon', 'mango', 'lemon', 'cherry', 'kiwi', 'mango']


### Modificación de elementos de la lista
Podemos modificar el valor de un elemento de la lista, accediendo a él directamente:

In [None]:
myList[1] = "blackberry"
print(myList)

['apple', 'blackberry', 'pear', 'orange', 'lemon', 'cherry', 'kiwi', 'melon', 'mango']


E incluir un elemento repetido:

In [None]:
myList[1] = "apple"
print(myList)

['apple', 'apple', 'pear', 'orange', 'lemon', 'cherry', 'kiwi', 'melon', 'mango']


Podemos añadir elementos al final de una lista utilizando el método `append ()`:

In [None]:
myList.append("higo")
print(myList)

['apple', 'apple', 'pear', 'orange', 'lemon', 'cherry', 'kiwi', 'melon', 'mango', 'higo']


O utilizar el método `insert ()` para añadir un elemento en una posición específica:

In [None]:
myList.insert(1, "banana")
print(myList)

['apple', 'banana', 'apple', 'pear', 'orange', 'lemon', 'cherry', 'kiwi', 'melon', 'mango', 'higo']


Si queremos eliminar elementos de la lista, tenemos varias opciones:

* El método `remove ()` elimina el elemento indicado.


In [None]:
myList.remove("pear")
print(myList)

['apple', 'banana', 'apple', 'orange', 'lemon', 'cherry', 'kiwi', 'melon', 'mango', 'higo']


Si tenemos un elemento que se repite, `remove ()` sólo lo elimina de su primera posición

In [None]:
myList.remove("apple")
print(myList)

['banana', 'apple', 'orange', 'lemon', 'cherry', 'kiwi', 'melon', 'mango', 'higo']


* El método `pop ()` elimina el elemento indicado por su índice o posición (si no indicamos ningún índice, se elimina el último) 



In [None]:
myList.pop(4)
print(myList)

['banana', 'apple', 'orange', 'lemon', 'kiwi', 'melon', 'mango', 'higo']


In [None]:
myList.pop()
print(myList)

['banana', 'apple', 'orange', 'lemon', 'kiwi', 'melon', 'mango']


* La palabra clave `del` nos permite eliminar un elemento indicado por su índice o incluso eliminar toda la lista si no indicamos ningún elemento concreto



In [None]:
del myList[0]
print(myList)

['apple', 'orange', 'lemon', 'kiwi', 'melon', 'mango']


In [None]:
myList2 = ['lemon', 'cherry', 'kiwi']
print(myList2)
del myList2
print(myList2)

['lemon', 'cherry', 'kiwi']


NameError: ignored

* El método `clear ()` nos permite vaciar la lista

In [None]:
myList2 = ['lemon', 'cherry', 'kiwi']
print(myList2)
myList2.clear()
print(myList2)

['lemon', 'cherry', 'kiwi']
[]


## Diccionarios de Python 

Un diccionario es una colección de elementos desordenados, modificables e indexados sin entradas duplicadas. 

Los diccionarios se escriben con llaves `{ }`, y su característica principal radica en que cada elemento tiene una clave para facilitar la indexación de los valores del diccionario. Así, cada elemento del diccionario es un par `{clave:valor}` (`{key:value}`).


### Crear un diccionario
En Python, los diccionarios se escriben con llaves y cada entrada debe indicarse con un par clave-valor. Por ejemplo:

In [None]:
mydict = {
  "name": "Ana",
  "surname": "García",
  "age": 25
}
print(mydict)

{'name': 'Ana', 'surname': 'García', 'age': 25}


Obsérvese el uso de dos puntos `:` para la asignación clave-valor.

De esta forma, podemos crear un diccionario con 3 entradas asociadas a las claves "nombre", "apellido", "edad" y, para cada clave, hemos guardado también su valor asociado. 

De esta forma, los diccionarios nos permiten crear estructuras muy flexibles donde almacenar información de forma estructurada. 

Podemos crear un diccionario vacío si no incluimos ningún elemento:

In [None]:
myemptydict = {}
print(myemptydict)

{}


O utilizar el constructor `dict()`:


In [None]:
mydict2 = dict(name = "Juan", surname ="Pérez", age =30)
print(mydict2)

{'name': 'Juan', 'surname': 'Pérez', 'age': 30}


Tenga en cuenta que ahora las claves no se proporcionan como literales de cadena y que utilizamos el signo `=`   en lugar de `:` para la asignación clave-valor.

### Acceso a las claves y valores

Una vez creado el diccionario, podemos acceder a un valor concreto a través de su clave:

In [None]:
mydict["name"]

'Ana'

Observe que para acceder al elemento, llamamos al diccionario indicando la clave asociada al valor deseado entre corchetes.

Los diccionarios también tienen un método `.get()` que proporcionará el mismo resultado:

In [None]:
mydict.get("name")

'Ana'

Podemos cambiar el valor de una entrada específica accediendo con su clave:

In [None]:
mydict["name"]='Marta'
mydict.get("name")

'Marta'

Obsérvese el uso de `=` en lugar de `:` para la asignación

Si intentamos acceder a una clave que no existe, obtenemos un error

In [None]:
mydict["status"]

KeyError: ignored

Podemos evitar este error, utilizando la función get 

In [None]:
if mydict.get("status") is not None:
  print(mydict["status"])

Si necesitamos acceder a todos los pares clave-valor, puede utilizar el método `.items()`

In [None]:
mydict.items()

dict_items([('name', 'Marta'), ('surname', 'García'), ('age', 25)])

Tenga en cuenta que este método devuelve una lista de todos los pares clave-valor, donde cada par se devuelve como una tupla.

También podemos acceder de forma independiente a todas las claves o a todos los valores utilizando los métodos `.keys()` o `.values()`, respectivamente.

In [None]:
mydict.keys()

dict_keys(['name', 'surname', 'age'])

In [None]:
mydict.values()

dict_values(['Marta', 'García', 25])

Se puede iterar sobre los elementos de un diccionario utilizando un bucle `for`. Para ello, solo hay que tener en cuenta que los elementos devueltos son las claves del diccionario:


In [None]:
for key in mydict:
  print(key)

name
surname
age


In [None]:
# We can use these keys to return the values
for key in mydict:
  print(mydict[key])

Marta
García
25


Pero podemos utilizar los métodos `.items` o `.values` para iterar sobre otros elementos

In [None]:
for value in mydict.values():
  print(value)


Marta
García
25


In [None]:
for key, value in mydict.items():
  print(key, value)

name Marta
surname García
age 25


### Añadir y eliminar elementos

Para añadir una nueva entrada (clave-valor) a un diccionario, podemos simplemente utilizar una nueva clave y asignarle un valor:



In [None]:
mydict["status"] = 'single'
print(mydict)

{'name': 'Marta', 'surname': 'García', 'age': 25, 'status': 'single'}


O podemos utilizar el método `.update()`:

In [None]:
mydict.update({"job":'teacher'})
print(mydict)

{'name': 'Marta', 'surname': 'García', 'age': 25, 'status': 'single', 'job': 'teacher'}


Aunque, en general, este método actualiza el diccionario con elementos de otro diccionario. En caso de que el otro diccionario tenga nuevos valores clave, éstos se añaden como nuevos elementos; en caso contrario, se actualizan los valores asociados. Por ejemplo:

In [None]:
mydict2 = {1: "one", 2: "three"}
dictnew = {2: "two", 3: "three"}

mydict2.update(dictnew)
print(mydict2)

{1: 'one', 2: 'two', 3: 'three'}


Para eliminar elementos de un diccionario, podemos utilizar los siguientes métodos:
* `.pop()` o `del` (esta última es una función de Python): eliminan el elemento asociado a una clave determinada.

* `.popitem()`: elimina el último elemento insertado.


In [None]:
print(mydict)
mydict.popitem() 
print(mydict)

{'name': 'Marta', 'surname': 'García', 'age': 25, 'status': 'single', 'job': 'teacher'}
{'name': 'Marta', 'surname': 'García', 'age': 25, 'status': 'single'}


In [None]:
mydict.pop("age") 
print(mydict)

{'name': 'Marta', 'surname': 'García', 'status': 'single'}


In [None]:
del mydict["name"]
print(mydict)

{'surname': 'García', 'status': 'single'}


O incluso podemos utilizar `del` para eliminar el diccionario completo

In [None]:
del mydict
print(mydict)

NameError: ignored

Si sólo queremos eliminar los elementos del diccionario, sin borrar la variable, podemos utilizar el método `.clear`:

In [None]:
mydict = {
  "name": "Ana",
  "surname": "García",
  "age": 25
}
print(mydict)

{'name': 'Ana', 'surname': 'García', 'age': 25}


In [None]:
mydict.clear()
print(mydict)

{}


## Estructuras anidadas

En Python podemos crear estructuras anidadas. Por ejemplo, podemos crear:

**Diccionarios anidados**: Es un diccionario que contiene muchos diccionarios.

**Lista de diccionarios**: Es una lista donde cada elemento es un diccionario. En estas estructuras es bastante común que todos los diccionarios tengan las mismas claves, aunque esto no es obligatorio.  


In [None]:
# Example of a neted dictionary
children = {
  "child1" : {
    "name" : "Alex",
    "age" : 4
  },
  "child2" : {
    "name" : "Eva",
    "year" : 7
  },
  "child3" : {
    "name" : "Daniel",
    "year" : 11
  }
}
print(children)

{'child1': {'name': 'Alex', 'age': 4}, 'child2': {'name': 'Eva', 'year': 7}, 'child3': {'name': 'Daniel', 'year': 11}}


In [None]:
# Example of a list of dictionaries

children = [{
    "name" : "Alex",
    "age" : 4
  }, {
    "name" : "Eva",
    "year" : 7
  }, {
    "name" : "Daniel",
    "year" : 11
  }]
print(children)

[{'name': 'Alex', 'age': 4}, {'name': 'Eva', 'year': 7}, {'name': 'Daniel', 'year': 11}]


**Ejercicios con diccionarios**

Vamos a crear un diccionario con la información de tus compañeros de clase, utilizando el nombre como clave y sus estudios (titulación) como valores. Para este ejercicio, es suficiente con que incluyas los datos de 5 o 6 compañeros (puedes utilizar el chat para compartir esta información).

In [None]:
#<SOL>
classmates={'Maria':'Telecomunication Eng', 'Pablo': 'Computer Science', 'Marta':'Maths', 'Ana': 'Computer Science', 'Antonio' :'Telecomunication Eng'}
print(classmates)
#</SOL>

{'Maria': 'Telecomunication Eng', 'Pablo': 'Computer Science', 'Marta': 'Maths', 'Ana': 'Computer Science', 'Antonio': 'Telecomunication Eng'}


Ahora resuelve los siguientes ejercicios o preguntas:
* ¿Qué titulación ha estudiado Maria?
* Actualiza el diccionario con información de otro compañero
* Crea una lista con los nombres de todos los compañeros de clase que están en tu diccionario
* ¿Cuánta gente ha estudiado `Computer Science`?


In [None]:
#<SOL>
classmates['Maria']
#</SOL>

'Telecomunication Eng'

In [None]:
#<SOL>
classmates['Vanessa'] = 'Telecomunication Eng'
#</SOL>

In [None]:
#<SOL>
classmates.keys()
#</SOL>

dict_keys(['Maria', 'Pablo', 'Marta', 'Ana', 'Antonio', 'Vanessa'])

In [None]:
#<SOL>
num=0
for val in classmates.values():
  if val ==   'Computer Science':
    num +=1
print(num)
#</SOL>

2


# Comprensión de listas (List Comprehension)

La comprensión de listas es una forma elegante de crear listas en Python a partir de listas (o iteradores) existentes. 

Para definir una nueva lista en Python usando la comprensión de listas definiremos una expresión entre corchetes, pero en lugar de la lista de elementos dentro de ella, definiremos una expresión seguida de un bucle `for`: 

`nueva_lista = [(operación sobre elemento) for elemento in iterador]`

Esta expresión permite tomar elementos de nuestro iterador (que puede ser otra lista), aplicar una operación sobre ellos, y generar los nuevos elementos que se añaden automáticamente en `nueva_lista`.

Esta sintaxis hace que esta nueva forma de definir listas sea más compacta y rápida que la definición normal.

Veamos cómo funciona esto con algunos ejemplos:


**Ejemplo 1**: Vamos a crear una lista con los caracteres de la frase "¡Hello world!" 

In [None]:
# Standard solution
sentence = "Hello world!"
mylist= []
for char in sentence:
  mylist.append(char)

print(mylist)

['H', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd', '!']


In [None]:
# List comprehension
sentence = "Hello world!"
mylist2 = [char for char in sentence]
print(mylist2)

['H', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd', '!']


**Ejemplo 2**: Calculemos el cuadrado del número de 0 a 10

In [None]:
# Standard solution
mylist= []
for num in range(11):
  mylist.append(num**2)

print(mylist)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


In [None]:
# List comprehension
mylist2 = [num**2 for num in range(11)]
print(mylist2)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


#### If...else con la comprensión de listas

La comprensión de listas también nos permite incluir declaraciones `if... else...` en su definición.

Por ejemplo, en el Ejemplo 2, podemos calcular el cuadrado de sólo los números impares entre 0 y 10.

In [None]:
# Standard solution
mylist= []
for num in range(11):
  if (num % 2) != 0:
    mylist.append(num**2)

print(mylist)

[1, 9, 25, 49, 81]


In [None]:
# List comprehension
mylist2 = [num**2 for num in range(11) if (num % 2) != 0]
print(mylist2)

[1, 9, 25, 49, 81]


O podemos calcular el cuadrado de los números impares y el cubo de los pares.

In [None]:
# Standard solution
mylist= []
for num in range(11):
  if (num % 2) != 0:
    mylist.append(num**2)
  else:
    mylist.append(num**3)
print(mylist)

[0, 1, 8, 9, 64, 25, 216, 49, 512, 81, 1000]


In [None]:
# List comprehension
mylist2 = [num**2 if (num % 2) != 0 else num**3 for num in range(11)]
print(mylist2)

[0, 1, 8, 9, 64, 25, 216, 49, 512, 81, 1000]


#### Comprensión de diccionarios / Dictionary Comprehension

Podemos crear un diccionario con el uso de una sintaxis similar utilizando llaves en lugar de corchetes e indicando los pares `clave:valor` en lugar de los elementos de la lista.


**Ejemplo 3**: Vamos a calcular un diccionario con pares `{número: número**2}` donde el número es la clave y el valor su cuadrado.

In [None]:
# Dict comprehension
mydict = {num:num**2 for num in range(11)}
print(mydict)

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81, 10: 100}


In [None]:
mydict[6]

36

## ¿Por qué listas o diccionarios comprimidos?

Este tipo de sintáxis no solo nos permite ahorrar líneas de código, sino que además es más eficiente computacionalmente hablando. Veámoslo con un ejemplo...

In [None]:
import time
MILLION_NUMBERS = list(range(1000000))

output = []
start_time = time.time()
for element in MILLION_NUMBERS:
    if not element % 2:
        output.append(element)
elapsed_time = time.time() - start_time
print(elapsed_time)

0.1503603458404541


In [None]:
start_time = time.time()
output = [number for number in MILLION_NUMBERS if not number % 2]
elapsed_time = time.time() - start_time
print(elapsed_time)

0.08549904823303223


# Expresiones regulares

Las expresiones regulares (llamadas REs, o regexes, o patrones regex) son esencialmente un pequeño lenguaje de programación altamente especializado y muy eficiente para la búsqueda de patrones en documentos de texto. Para trabajar con ellas solo tenemos que importar la librería `re`.

Esta librería nos permite detectar patrones en nuestras cadenas de texto, contestando a preguntas del tipo *¿Coincide esta cadena con el patrón?*, o *¿Existe una coincidencia del patrón en alguna parte de esta cadena?*. También se puede utilizar `re` para modificar una cadena o dividirla.


In [None]:
import re

## Búsqueda de patrones

Consideremos que definimos un framento de una cadena de texto (`pattern`) como nuestro patrón a buscar, a partir de este patrón la librería `re` nos proporciona las siguientes funciones:

* `match()` : Determina si `pattern` está presente al principio de la cadena.

* `search()` : Recorre una cadena, buscando cualquier lugar en el que esta `pattern` coincida. Si `pattern` aparece en varias posiciones, devuelve la primera coincidencia.

* `findall()` / `finditer()` : Encuentra todas las subcadenas en las que coincide la `pattern`, y las devuelve como una lista/iterador.


In [None]:
pattern = 'this'
text = 'Does this text match the pattern?'

In [None]:
# Example with match
result = re.match(pattern, text)
print(result) 

None


In [None]:
# Example with match
result = re.match('Does', text)
print(result) 

<re.Match object; span=(0, 4), match='Does'>


In [None]:
# Example with search
result = re.search(pattern, text)
print(result) 

<re.Match object; span=(5, 9), match='this'>


Como podemos ver en estos ejemplos, los métodos `match()` y `search()` devuelven `None` si no se encuentra ninguna coincidencia y si tienen éxito, devuelven un Objeto `re.Match` que contiene información sobre la coincidencia:
* `group()`: devuelve el texto que coincide con la expresion regular.
* `start()`: devuelve la posición inicial de la coincidencia.
* `end()`: devuelve la posición final de la coincidencia.
* `span()`: devuelve una tupla con la posición inicial y final de la coincidencia.

Además, incluye el atributo `.string` con la cadena original sobre la que se ha realizado la búsqueda.



In [None]:
# Text matching the regular expression
print(result.group())
# Position where the match starts
print(result.start()) 
# Position where the match ends
print(result.end())  
# Tuple with positions where the match starts and ends
print(result.span())   

# String on which the search has been performed
print(result.string) 

this
5
9
(5, 9)
Does this text match the pattern?


In [None]:
print('Found "{}"\nin "{}"\nfrom {} to {} ("{}")'.format(result.group(), result.string, result.start(), result.end(), text[result.start():result.end()]))

Found "this"
in "Does this text match the pattern?"
from 5 to 9 ("this")


A diferencia de `match()` y `search()`, el método `findall()` devuelve una lista con todos los fragmentos de texto que coinciden con la expresión regular y  `finditer()` que devuelve un iterador de objetos `re.Match`.  Veámoslo con un ejemplo:

In [None]:
# Example with findall() 

text = 'abbaaabbbbaaaaa'
pattern = 'ab'
for match in re.findall(pattern, text):
    print('Found {}'.format(match))  


Found ab
Found ab


In [None]:
# Example with finditer()
for match in re.finditer(pattern, text):
    s = match.start()
    e = match.end()
    print('Found {!r} at {:d}:{:d}'.format(
        text[s:e], s, e))

Found 'ab' at 0:2
Found 'ab' at 5:7


## Definición de patrones 

En ocasones no queremos definir una cadena de texto concreta a buscar, sino definir un patrón que indique  una determinada estructura a buscar. Para definir estos patrones de búsqueda `re` utiliza una serie de *metacaracteres* especiales:

`. ^ $ * + ? { } [ ] \ | ( )`

A continuación, iremos viendo cómo se usan estos metacaracteres y qué funcionalides nos dan.

### Definición del patrón

`[` y `]` se utilizan para especificar un conjunto de caracteres con los que se desea coincidir. Los caracteres se pueden enumerar individualmente, o se puede indicar un rango de caracteres dando dos caracteres y separándolos con un `'-'`. 

Por ejemplo, `[abc]` coincidirá con cualquiera de los caracteres `a`, `b` o `c`; esto es lo mismo que `[a-c]`, que utiliza un rango para expresar el mismo conjunto de caracteres. Por ejemplo, si queremos decir que nuestro patrón es cualquier letra minúscula, podemos definirlo como `[a-z]`.


In [None]:
# Find vowels
text = 'Does this text match the pattern?'
pattern='[aeiou]'
for match in re.finditer(pattern, text):
    s = match.start()
    e = match.end()
    print('Found {} at {}:{}'.format(text[s:e], s, e))

Found o at 1:2
Found e at 2:3
Found i at 7:8
Found e at 11:12
Found a at 16:17
Found e at 23:24
Found a at 26:27
Found e at 29:30


In [None]:
# Find capital letters
text = 'Does This Text Match the Pattern?'
pattern='[A-Z]'
for match in re.finditer(pattern, text):
    s = match.start()
    e = match.end()
    print('Found {} at {}:{}'.format(text[s:e], s, e))

Found D at 0:1
Found T at 5:6
Found T at 10:11
Found M at 15:16
Found P at 25:26


### Códigos escapados 

Si cada vez que quisiéramos definir un patrón variable tuviéramos que crear rangos, acabaríamos generando expresiones regulares gigantes. Por suerte su sintaxis también acepta una serie de caracteres escapados que tienen un significo único. Algunos de los más importantes son:

Código |	Significado
-----| ------
\d |	numérico
\D |	no numérico
\s |	espacio en blanco
\S |	no espacio en blanco
\w |	alfanumérico
\W |	no alfanumérico

El problema que encontraremos en Python a la hora de definir código escapado, es que las cadenas no tienen en cuenta el `'\'` a no ser que especifiquemos que son cadenas en crudo (*raw*), por lo que tendremos que precedir las expresiones regulares con una `'r'`.

*Nota*: por regla general las expresiones regulares las definiremos como raw `'r'` para evitar cualquier mala interpretación de los caracteres escapados.

In [None]:
# Function to analyze the search of several patterns
def buscar(patrones, texto):
    for patron in patrones:
        print(re.findall(patron, texto))


In [None]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0."

patrones = [r'\d', r'\D', r'\s', r'\S', r'\w', r'\W'] 
buscar(patrones, texto)

['1', '9', '9', '1', '0', '9', '0']
['P', 'y', 't', 'h', 'o', 'n', ' ', 's', 'e', ' ', 'c', 'r', 'e', 'ó', ' ', 'e', 'n', ' ', 'e', 'l', ' ', 'a', 'ñ', 'o', ' ', ' ', 'c', 'o', 'n', ' ', 'e', 'l', ' ', 'n', 'ú', 'm', 'e', 'r', 'o', ' ', 'd', 'e', ' ', 'v', 'e', 'r', 's', 'i', 'ó', 'n', ' ', '.', '.', '.']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
['P', 'y', 't', 'h', 'o', 'n', 's', 'e', 'c', 'r', 'e', 'ó', 'e', 'n', 'e', 'l', 'a', 'ñ', 'o', '1', '9', '9', '1', 'c', 'o', 'n', 'e', 'l', 'n', 'ú', 'm', 'e', 'r', 'o', 'd', 'e', 'v', 'e', 'r', 's', 'i', 'ó', 'n', '0', '.', '9', '.', '0', '.']
['P', 'y', 't', 'h', 'o', 'n', 's', 'e', 'c', 'r', 'e', 'ó', 'e', 'n', 'e', 'l', 'a', 'ñ', 'o', '1', '9', '9', '1', 'c', 'o', 'n', 'e', 'l', 'n', 'ú', 'm', 'e', 'r', 'o', 'd', 'e', 'v', 'e', 'r', 's', 'i', 'ó', 'n', '0', '9', '0']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '.', '.', '.']


### Patrones con varios valores

Si queremos comprobar varias posibilidades, podemos utilizar el metacarácter `|` a modo de `OR`:


In [None]:
texto = "hola adios hello bye"
patrones = [r'hola|hello'] 
buscar(patrones, texto)

['hola', 'hello']


### Incluyendo repeticiones

Hay varias formas de expresar la repetición en un patrón. En la siguiente tabla, resumimos como usarlas.

 Metacarácter 	|  Descripción
 --- | ---
`*` | se repite	cero o más, similar a `{0,}`.
`+` |	se repite una o más, similar a `{1,}`.
`?` |	se repite cero o una, similar a `{0,1}`.
`{n}` |	se repite exactamente n veces.
`{n,}` |	se repite por lo menos n veces.
`{n,m}` |	se repite por lo menos n pero no más de m veces.

Así, por ejemplo, un patrón seguido por el metacarácter `*` indica que debe repetirse cero o más veces (permitiendo que un patrón se repita cero veces significa que no necesita aparecer en absoluto para que coincida). 

In [None]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0."

patrones = [r'\d+', r'\D+', r'\s+', r'\S+', r'\w+', r'\W+'] 
buscar(patrones, texto)

['1991', '0', '9', '0']
['Python se creó en el año ', ' con el número de versión ', '.', '.', '.']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
['Python', 'se', 'creó', 'en', 'el', 'año', '1991', 'con', 'el', 'número', 'de', 'versión', '0.9.0.']
['Python', 'se', 'creó', 'en', 'el', 'año', '1991', 'con', 'el', 'número', 'de', 'versión', '0', '9', '0']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '.', '.', '.']


In [None]:
texto = "hla hola hoola hooola hooooola"

In [None]:
patrones = [r'hla', r'hola', r'hoola']
buscar(patrones, texto)

['hla']
['hola']
['hoola']


In [None]:
patrones = [r'ho',r'ho*',r'ho*la',r'hu*la']
buscar(patrones, texto)

['ho', 'ho', 'ho', 'ho']
['h', 'ho', 'hoo', 'hooo', 'hooooo']
['hla', 'hola', 'hoola', 'hooola', 'hooooola']
['hla']


In [None]:
patrones = [r'ho*', r'ho+']  
buscar(patrones, texto)

['h', 'ho', 'hoo', 'hooo', 'hooooo']
['ho', 'hoo', 'hooo', 'hooooo']


In [None]:
patrones = [r'ho*', r'ho+', r'ho?', r'ho?la']
buscar(patrones, texto)

['h', 'ho', 'hoo', 'hooo', 'hooooo']
['ho', 'hoo', 'hooo', 'hooooo']
['h', 'ho', 'ho', 'ho', 'ho']
['hla', 'hola']


In [None]:
patrones = [r'ho{0}la', r'ho{1}la', r'ho{2}la']
buscar(patrones, texto)

['hla']
['hola']
['hoola']


In [None]:
patrones = [r'ho{0,1}la', r'ho{1,2}la', r'ho{2,9}la']
buscar(patrones, texto)

['hla', 'hola']
['hola', 'hoola']
['hoola', 'hooola', 'hooooola']


In [None]:
texto = "haala heeela haaeela hiiiila hoooooola"

patrones = [r'h[ae]la', r'h[ae]*la', r'h[io]{3,9}la']
buscar(patrones, texto)


[]
['haala', 'heeela', 'haaeela']
['hiiiila', 'hoooooola']


### Delimitadores

Esta clase de metacaracteres nos permite delimitar dónde queremos buscar los patrones de búsqueda. Los principales son:

Metacarácter |	Descripción
----| -----
^ |	inicio de texto.
$ |	fin de texto.
. |	cualquier carácter en el texto.
\b |	está al principio (o al final) de una palabra.
\B |	no está al principio (o al final) de una palabra.


In [None]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0. Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python"
# Buscamos "Python" al principio y al final de texto
patrones = [r'^Python', r'Python$'] 
buscar(patrones, texto)

['Python']
['Python']


In [None]:
# Buscamos palabras que comiencen por P y acaben en n y tengan 4 caracteres (los que sean) en medio
patrones = [r'P....n'] 
buscar(patrones, texto)

['Python', 'Python', 'Python']


In [None]:
# Buscamos palabras que comiencen por M seguidas de caracteres (los que sean) y luego lleven la cadena "Python"
patrones = ['M.* Python'] 
buscar(patrones, texto)

['Monty Python']


*Nota*: tenemos que usar '\\.' si queremos indicar que nuestro patrón contiene el caracter '.'

In [None]:
patrones = [r'0\.9\.0'] 
buscar(patrones, texto)

['0.9.0']


**Ejercicio**: Antes de ejecutar la siguiente celda, indique que está buscando cada expresión regular

In [None]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0.  Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python"

patrones = [r'\bP', r'n\b', r'\B[a-o]', r'[a-o]\B'] 
buscar(patrones, texto)

['P', 'P', 'P']
['n', 'n', 'n', 'n', 'n', 'n', 'n']
['h', 'o', 'n', 'e', 'e', 'n', 'l', 'o', 'o', 'n', 'l', 'm', 'e', 'o', 'e', 'e', 'i', 'n', 'h', 'o', 'n', 'e', 'b', 'e', 'o', 'm', 'b', 'e', 'a', 'f', 'i', 'c', 'i', 'n', 'e', 'e', 'a', 'd', 'o', 'o', 'o', 'm', 'o', 'i', 'a', 'i', 'n', 'i', 'c', 'o', 'o', 'n', 'h', 'o', 'n']
['h', 'o', 'c', 'e', 'e', 'e', 'a', 'c', 'o', 'e', 'n', 'm', 'e', 'd', 'e', 'i', 'h', 'o', 'd', 'e', 'b', 'n', 'o', 'm', 'b', 'l', 'a', 'f', 'i', 'c', 'i', 'd', 'c', 'e', 'a', 'd', 'o', 'o', 'l', 'o', 'h', 'm', 'o', 'i', 'a', 'b', 'i', 'n', 'i', 'c', 'o', 'o', 'n', 'h', 'o']


##### Solución


* `r'\bP'`: inicio/fin de palabra seguido `'P'`, es decir, `'P'` al principio de palabra.
* `r'n\b'`:  `'n'` seguido de inicio/fin de palabra, es decir, `'n'` al final de palabra.
* `r'\B[a-o]'`: No está inicio/fin de palabra seguido caracteres entre `a` y `o`. Cualquier caracter entre `a-o` que no esté al principio de palabra.
* `r'[a-o]\B'`: caracteres entre `a` y `o` seguido de no está inicio/fin de palabra. Cualquier caracter entre `a-o` que no esté al final de palabra.

### Patrón por exclusión `[^ ]`

Cuando definimos nuestros patrones podemos utilizar el operador de exclusión `[^ ]` para indicar una búsqueda contraria:

In [None]:
patrones = [r'\b[^P]', r'[^n]\b'] 
buscar(patrones, texto)

[' ', 's', ' ', 'c', ' ', 'e', ' ', 'e', ' ', 'a', ' ', '1', ' ', 'c', ' ', 'e', ' ', 'n', ' ', 'd', ' ', 'v', ' ', '0', '.', '9', '.', '0', '.', ' ', 'd', ' ', 's', ' ', 'n', ' ', 'a', ' ', 'l', ' ', 'a', ' ', 'd', ' ', 's', ' ', 'c', ' ', 'p', ' ', 'l', ' ', 'h', ' ', 'b', ' ', 'M', ' ']
[' ', 'e', ' ', 'ó', ' ', ' ', 'l', ' ', 'o', ' ', '1', ' ', ' ', 'l', ' ', 'o', ' ', 'e', ' ', ' ', '0', '.', '9', '.', '0', ' ', ' ', 'e', ' ', 'u', ' ', 'e', ' ', 'a', ' ', 'a', ' ', ' ', 'e', ' ', 'u', ' ', 'r', ' ', 'r', ' ', 's', ' ', 's', ' ', 's', ' ', 'y', ' ']


*Nota*: en la búsqueda, al indicar principio o final de palabra, también incluye los espacios porque son considerados palabras en sí.

In [None]:
texto = "hala hela hila hola hula"

patrones = [r'hola', r'h[^o]la'] 
buscar(patrones, texto)


['hola']
['hala', 'hela', 'hila', 'hula']


*Nota*: vea la difenrencia entre usar `^` para buscar el patrón al inicio del texto o aquí que va entre `[^ ]` para indicar exclusión.

#### Ejercicio

Escriba las expresiones regulares que le permiten extraer del siguiente texto:
* Las palabras que empienzan por `'P'` (queremos toda la palabra no sólo el carácter `'P'`)
* Los años (secuencias de 4 dígitos)
* Las versiones de código (secuencias de 3 dígitos separadas por `'.'`) 

In [None]:
texto = "Python se creó en el año 1991 con el número de versión 0.9.0 en los Países Bajos. A día de hoy ya vamos por la versión 3.X-X. Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python"

#### Solución

In [None]:
#<SOL>
patrones = [r'\bP\w*', r'\d{4}', r'\d\.\d\.\d'] 
buscar(patrones, texto)
#</SOL>

['Python', 'Países', 'Python', 'Python']
['1991']
['0.9.0']


## Coincidencias con grupos

La búsqueda de coincidencias de patrones es la base de las poderosas capacidades proporcionadas por expresiones regulares. Agregando grupos a un patrón aísla partes del texto que coincide, expandiendo las capacidades para crear un analizador. Los grupos se definen al adjuntar patrones entre paréntesis.



In [None]:
texto = "haala heeela hiiiila hoooooola"

patrones = [r'h(aa)la', r'h(ee)la', r'h(ii)la', r'h(oo)la']
buscar(patrones, texto)

['aa']
[]
[]
[]


Cualquier expresión regular completa se puede convertir en un grupo y ser anidada dentro de una expresión más grande. Todos los modificadores de repetición pueden ser aplicados a un grupo como un todo, requiriendo que todo el patrón de grupo se repita.

In [None]:
texto = "hla hoola hooola hoooola hoooooola"

patrones = [r'h(oo)la', r'h(oo)*la', r'h(oo)+la', r'h(oo)?la']
buscar(patrones, texto)

['oo']
['', 'oo', 'oo', 'oo']
['oo', 'oo', 'oo']
['', 'oo']


De hecho, podemos buscar varios grupos dentro de una misma expresión regular 

In [None]:
# Busqueda de varios grupos
texto = "hla hoola hooola hoooola hoooooola"

patrones = [r'(h(oo)*la)']
buscar(patrones, texto)

[('hla', ''), ('hoola', 'oo'), ('hoooola', 'oo'), ('hoooooola', 'oo')]


Ahora podemos acceder a los diferentes grupos de la búsqueda con la función `group()` e indicando el índice. Veamos esto con el siguiente ejemplo...

In [None]:
# Busqueda de varios grupos
patron = r"(\w+) (\w+)"
busqueda = re.match(patron, "Fernando García")
busqueda

<re.Match object; span=(0, 15), match='Fernando García'>

In [None]:
# Accediendo a los grupos por sus indices
# grupo 1
print(busqueda.group(1))
# grupo 2
print(busqueda.group(2))

Fernando
García


También podemos definir alias en la expresión regular para luego facilitar el acceso. Para ello solo hay que usar esta secuencia `(?P<alias>patron)` al definir el patrón.

In [None]:
# Accediendo a los grupos por nombres
patron = r"(?P<nombre>\w+) (?P<apellido>\w+)"
busqueda = re.match(patron, "Antonio Sánchez")

# grupo nombre
print(busqueda.group("nombre"))

# grupo apellido
print(busqueda.group("apellido"))

Antonio
Sánchez


Incluso, podemos usar el método `.groupdict()` para que esta información nos la devuelvada en un diccionario.

In [None]:
# Generando un diccionario con los  grupos creados
patron = r"(?P<nombre>\w+) (?P<apellido>\w+)"
mydict_busqueda = re.match(patron, "Antonio Sánchez").groupdict()
mydict_busqueda

{'apellido': 'Sánchez', 'nombre': 'Antonio'}

### Repeticiones de grupos: `'\N'`

Incluir `'\N'` en nuestro patrón nos permite encontrar repeticiones de un grupo N veces (donde N es el número indicado en `\N`). Por ejemplo


In [None]:
busqueda = re.search(r'(\b\w+) \1', 'Antonio Sánchez Sánchez')
print(busqueda)

<re.Match object; span=(8, 23), match='Sánchez Sánchez'>


Nos permite encontrar cualquier palabra repetida. Aunque nótese que al incluir un espacio entre el grupo y `'\1'` encuentra `'Lopez Lopez'` y no `'LopezLopez'`.

In [None]:
busqueda = re.search(r'(\b\w+) \1', 'Antonio SánchezSánchez')
print(busqueda)

None


In [None]:
busqueda = re.search(r'(\b\w+)\1', 'Antonio SánchezSánchez')
print(busqueda)

<re.Match object; span=(8, 22), match='SánchezSánchez'>


## Compiladores de expresiones regulares

Cada vez que definimos la expresión regular y la usamos para buscar nuestro patrón, Python internamente tiene que compilar el patrón para así hacer la búsqueda. Lógicamente, si una misma expresión va a usarse varias veces, estaríamos generando reiteradamente las versiones compiladas de nuestros patrones de manera innecesaria. Para evitar esto podemos compilar al principio (y una sola vez) las expresiones regulares.

In [None]:
import time
texto = "Python se creó en el año 1991 con el número de versión 0.9.0. Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python"

start = time.time()
for i in range(100000):
  re.findall('M.* Python', texto)
delay=time.time()-start 
print(delay)

0.12301850318908691


In [None]:
start = time.time()
patrones = re.compile('M.* Python')
for i in range(100000):
  patrones.findall(texto)
delay=time.time()-start 
print(delay)

0.046330928802490234


## Otras utilidades de las expresiones regulares: Modificando el texto de entrada

Además de buscar coincidencias de nuestro patrón de búsqueda en un texto, podemos utilizar ese mismo patrón para realizar modificaciones al texto de entrada. Para estos casos podemos utilizar los siguientes métodos:

 *  `split()`: El cual divide el texto en una lista, realizando las divisiones del texto en cada lugar donde se cumple con la expresion regular.
 *   `sub()`: El cual encuentra todos los subtextos donde existe una coincidencia con la expresion regular y luego los reemplaza con un nuevo texto.
 * `subn()`: El cual es similar al anterior pero además de devolver el nuevo texto, también devuelve el número de reemplazos que realizó.


In [None]:
# texto de entrada
becquer = """Podrá nublarse el sol eternamente; 
Podrá secarse en un instante el mar; 
Podrá romperse el eje de la tierra 
como un débil cristal. 
¡Todo sucederá! Podrá la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí podrá apagarse 
la llama de tu amor."""

In [None]:
# patron para dividir donde no encuentre un carácter alfanumerico
patron = re.compile(r'\W+')

In [None]:
palabras = patron.split(becquer)
palabras[:10]  # 10 primeras palabras

['Podrá',
 'nublarse',
 'el',
 'sol',
 'eternamente',
 'Podrá',
 'secarse',
 'en',
 'un',
 'instante']

In [None]:
re.split(r'\n', becquer)  # Dividiendo por líneas

['Podrá nublarse el sol eternamente; ',
 'Podrá secarse en un instante el mar; ',
 'Podrá romperse el eje de la tierra ',
 'como un débil cristal. ',
 '¡Todo sucederá! Podrá la muerte ',
 'cubrirme con su fúnebre crespón; ',
 'Pero jamás en mí podrá apagarse ',
 'la llama de tu amor.']

In [None]:
# Utilizando un valor máximo de divisiones
patron.split(becquer, 5)

['Podrá',
 'nublarse',
 'el',
 'sol',
 'eternamente',
 'Podrá secarse en un instante el mar; \nPodrá romperse el eje de la tierra \ncomo un débil cristal. \n¡Todo sucederá! Podrá la muerte \ncubrirme con su fúnebre crespón; \nPero jamás en mí podrá apagarse \nla llama de tu amor.']

In [None]:
# Cambiando "Podrá" o "podra" por "Puede"
podra = re.compile(r'\b(P|p)odrá\b')
puede = podra.sub("Puede", becquer)
print(puede)

Puede nublarse el sol eternamente; 
Puede secarse en un instante el mar; 
Puede romperse el eje de la tierra 
como un débil cristal. 
¡Todo sucederá! Puede la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí Puede apagarse 
la llama de tu amor.


In [None]:
# Limitando el número de reemplazos
puede = podra.sub("Puede", becquer, 2)
print(puede)

Puede nublarse el sol eternamente; 
Puede secarse en un instante el mar; 
Podrá romperse el eje de la tierra 
como un débil cristal. 
¡Todo sucederá! Podrá la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí podrá apagarse 
la llama de tu amor.


In [None]:
# Utilizando subn
re.subn(r'\b(P|p)odrá\b', "Puede", becquer)  # se realizaron 5 reemplazos

('Puede nublarse el sol eternamente; \nPuede secarse en un instante el mar; \nPuede romperse el eje de la tierra \ncomo un débil cristal. \n¡Todo sucederá! Puede la muerte \ncubrirme con su fúnebre crespón; \nPero jamás en mí Puede apagarse \nla llama de tu amor.',
 5)

##  *Flags* de compilación

Las banderas o *flags* de compilación permiten modificar algunos aspectos de cómo funcionan las expresiones regulares. 
Algunos de los *flags* de compilación que podemos encontrar son:
*  `IGNORECASE`, `I`: Para realizar búsquedas sin tener en cuenta las minúsculas o mayúsculas.
*   `VERBOSE`, `X`: Que habilita el modo *verbose*, el cual permite organizar el patrón de búsqueda de una forma que sea más sencillo de entender y leer.
*    `MULTILINE`, `M`: Que habilita la coincidencia en múltiples líneas, afectando el funcionamiento de los metacaracteres `^` and `$`.

Como vemos, todas ellas están disponibles en el módulo `re` bajo dos nombres, un nombre largo como `IGNORECASE` y una forma abreviada de una sola letra como `I`. Múltiples banderas pueden ser especificadas utilizando el operador OR `"|"`; por ejemplo, `re.I` | `RE.M` establece la bandera `I` o `M`.


In [None]:
# Ejemplo de IGNORECASE
# Cambiando "Podrá" o "podra" por "Puede"
podra = re.compile(r'podrá\b', re.I)  # el patrón se vuelve más sencillo
puede = podra.sub("puede", becquer)
print(puede)

puede nublarse el sol eternamente; 
puede secarse en un instante el mar; 
puede romperse el eje de la tierra 
como un débil cristal. 
¡Todo sucederá! puede la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí puede apagarse 
la llama de tu amor.


Veamos la utilidad del *flag* verbose definiendo una expresión regular bastante compleja para encontrar emails dentro de un texto:

In [None]:
# Ejemplo de VERBOSE
mail = re.compile(r"""
\b             # comienzo de delimitador de palabra
[\w.%+-]+      # usuario: Cualquier carácter alfanumerico mas los signos (.%+-)
@              # seguido de @
[\w.-]+        # dominio: Cualquier carácter alfanumerico mas los signos (.-)
\.             # seguido de .
[a-zA-Z]{2,6}  # dominio de alto nivel: 2 a 6 letras en minúsculas o mayúsculas.
\b             # fin de delimitador de palabra
""", re.X)

In [None]:
mails = """antonio.perez@hotmail.com, Antonio Perez Lopez,
foo bar, aperez@hotmail.com.ar, mario@github.io, 
https://mariowebpage.com.ar, https://mario.github.io, 
python@python, mario@mydominio.com.ar, pythonAR@python.pythonAR
"""

In [None]:
# filtrando los mails con estructura válida
mail.findall(mails)

['antonio.perez@hotmail.com',
 'aperez@hotmail.com.ar',
 'mario@github.io',
 'mario@mydominio.com.ar']

In [None]:
# Sin dividir por líneas: '^' es el principio de texto
texto = "Python se creó en el año 1991 con el número de versión 0.9.0. \nPython debe su nombre a la afición de su creador por los humoristas británicos Monty Python"
print(texto)
patron =re.compile(r'^Python') 
patron.findall(texto)

Python se creó en el año 1991 con el número de versión 0.9.0. 
Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python


['Python']

In [None]:
# Con división por líneas: '^' es el principio de cada línea
texto = "Python se creó en el año 1991 con el número de versión 0.9.0. \nPython debe su nombre a la afición de su creador por los humoristas británicos Monty Python"
print(texto)
patron =re.compile(r'^Python', re.M) 
patron.findall(texto)


Python se creó en el año 1991 con el número de versión 0.9.0. 
Python debe su nombre a la afición de su creador por los humoristas británicos Monty Python


['Python', 'Python']

### Ejercicio: Validando una fecha

Escriba la expresión regular que le permita validar una fecha con la estructura `dd/mm/yyyy` y compruebe que funciona correctamente sobre los siguiente ejemplos:

In [None]:
# Incluya aquí su expresión regular para validar una fecha
#<SOL>
fecha = re.compile(r'^(0?[1-9]|[12][0-9]|3[01])/(0?[1-9]|1[012])/((19|20)\d\d)$')
#</SOL>

In [None]:
# validando 13/02/1982
print(fecha.search("13/02/1982"))

# no valida 13-02-1982
print(fecha.search("13-02-1982"))

# no valida 32/12/2015
print(fecha.search("32/12/2015"))

# no valida 30/14/2015
print(fecha.search("30/14/2015"))



<re.Match object; span=(0, 10), match='13/02/1982'>
None
None
None
