# Rangos

[Pablo A. Haya](https://pablohaya.com)

Veíamos en el tema anterior que una ignorar las mayúsculas y minúsculas es mediante el parámetro `re.IGNORECASE`. Otra forma es emplear el operador `[]` que permite indicar varias alternativas. 

In [1]:
import re

re.findall(r"[Tt]res tristes", "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos")

['Tres tristes', 'tres tristes']

`[Tt]`indica que bien empieza por `T` bien por `t`. 

**Prueba tú mismo**. A comprobar de nuevo cuantas veces aparece la letra `t` incluyendo la `T` mayúscula  con este operador.

Este operador permite incluir todas las alternativas que quieran. Por ejemplo, podemos buscar todas las vocales.

In [2]:
re.findall(r"[aeiou]", "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos")

['e',
 'i',
 'e',
 'i',
 'e',
 'a',
 'a',
 'a',
 'i',
 'o',
 'e',
 'u',
 'i',
 'a',
 'e',
 'e',
 'i',
 'e',
 'a',
 'o']

Cuando los caracteres son consecutivos podemos evitar listarlos individualmente definiendo un rango. Por ejemplo, encontrar cuantas letras minúsculas tiene el trabalenguas sería tan sencillo como: 

In [3]:
len(re.findall(r"[a-z]", "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos"))

59

En este caso `[a-z]` es una notación más compacta, y equivalente a `[abcdefghijklmnopqrstuvwxyz]`. 

Vamos a comprobar que realmente lo está haciendo bien. La longitud del texto tiene que ser igual al número de minúsculas, más el número de mayúsculas, más el número de espacios.

In [4]:
trabalenguas = "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos"
text_len = len(trabalenguas)
minus_len = len(re.findall(r"[a-z]", trabalenguas))
mayus_len = len(re.findall(r"[A-Z]", trabalenguas))
esp_len = len(re.findall(r" ", trabalenguas))
print(text_len, minus_len + mayus_len + esp_len)

71 71


Si queremos encontrar todas las letras podríamos estar tentados a utilizar el rango `[A-z]`.

In [5]:
minus_mayus_len = len(re.findall(r"[A-z]", trabalenguas))
print(text_len, minus_mayus_len + esp_len)

71 71


En este caso funciona, pero en otras situaciones nos puede dar comportamientos inesperados. En el siguiente ejemplo, hemos sustituido los espacios por el caracter `_`.

In [6]:
trabalenguas = "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos"
trabalenguas = trabalenguas.replace(" ", "_")
text_len = len(trabalenguas)
minus_mayus_len = len(re.findall(r"[A-z]", trabalenguas))
subr_len = len(re.findall("_", trabalenguas))
print(text_len, minus_mayus_len + subr_len)

71 82


Ahora, el resultado difere ya que lo que está ocurriendo es que el caracter `_` pertenece también al rango `A-z`, de manera que estos caracteres se cuentan dos veces. Esto lo podemos comprobar en las tablas de [caracteres unicode](https://en.wikipedia.org/wiki/List_of_Unicode_characters#Basic_Latin), o mediante el siguiente código que imprime todos los caracteres entre `A` y `z`.

In [7]:
for i in range(ord('A'), ord('z') + 1):
    print(chr(i), end="")

ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz

Se observa claramente que las letras mayúsculas y minúsculas no están consecutivas, sino que hay una serie de caracteres entre medias. 

Si queremos dejar únicamente las letras, el rango sería `[A-Za-z]`:

In [None]:
minus_mayus_len = len(re.findall(r"[A-Za-z]", trabalenguas))
print(text_len, minus_mayus_len + esp_len)

La expresión anterior es equivalente a `[ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz]`

**Prueba tú mismo**. A comprobar la diferencia entre los rangos `[A-Za-z]`, y `[A-Z][a-z]`

Con los dígitos podemos también emplear el rango `[0-9]` como una notación más compacta, y equivalente a `[0123456789]`. 

**Prueba tú mismo**. Sustituye en el trabalenguas la palabra `tres` (tanto en mayúsculas como en minúsculas) por el número `3`, incluye el rango correspondiente para que encuentre todos los dígitos que hay en el mismo.

Para aquellos rangos, como `[0-9]`, que se emplean muy habiltualmente, se dispone de unas símbolos especiales que actúan como un atajo. En este caso, el rango anterior se puede sustituir por `\d`. 

In [None]:
len(re.findall(r"\d", "3 tristes tigres tragaban trigo en un trigal en 3 tristes trastos"))

Un símbolo equivalente, pero mucho más potente, es `\w`, que incluye todas las letras, **independientemente del idioma**, los dígitos, y el caracter `_`. Esto nos quita mucho quebraderos de cabeza para encontrar todas las letras del alfabeto latino, aunque nos incluya los números y el caracter `_`

In [9]:
print(re.findall(r"\w", "Pablito clavó un clavito. ¿Qué clavito clavó Pablito?"))

['P', 'a', 'b', 'l', 'i', 't', 'o', 'c', 'l', 'a', 'v', 'ó', 'u', 'n', 'c', 'l', 'a', 'v', 'i', 't', 'o', 'Q', 'u', 'é', 'c', 'l', 'a', 'v', 'i', 't', 'o', 'c', 'l', 'a', 'v', 'ó', 'P', 'a', 'b', 'l', 'i', 't', 'o']


mientras que:

In [10]:
print(re.findall(r"[A-Za-z]", "Pablito clavó un clavito. ¿Qué clavito clavó Pablito?"))

['P', 'a', 'b', 'l', 'i', 't', 'o', 'c', 'l', 'a', 'v', 'u', 'n', 'c', 'l', 'a', 'v', 'i', 't', 'o', 'Q', 'u', 'c', 'l', 'a', 'v', 'i', 't', 'o', 'c', 'l', 'a', 'v', 'P', 'a', 'b', 'l', 'i', 't', 'o']


nos deja fuera las vocales acentuadas.

La expresión `\W` sería la inversa a `\w`, es decir, encontrar todos los caracteres que no sean letras, números o el caracter `_`. 

In [None]:
print(re.findall(r"\W", "Pablito clavó un clavito. ¿Qué clavito clavó Pablito?"))

Es posible también indicar que caracteres queremos excluir empleando `^`. El siguiente ejemplo imprime cualquier caracter que no sea mayúscula.

In [16]:
print(re.findall(r"[^A-Z]", "Pablito clavó un clavito. ¿Qué clavito clavó Pablito?"))

['a', 'b', 'l', 'i', 't', 'o', ' ', 'c', 'l', 'a', 'v', 'ó', ' ', 'u', 'n', ' ', 'c', 'l', 'a', 'v', 'i', 't', 'o', '.', ' ', '¿', 'u', 'é', ' ', 'c', 'l', 'a', 'v', 'i', 't', 'o', ' ', 'c', 'l', 'a', 'v', 'ó', ' ', 'a', 'b', 'l', 'i', 't', 'o', '?']


**Prueba tú mismo**. Imprime la lista de todos los caracteres que nos sean minúsculas.

Si queremos evitar intepretar el caracter `^`, y tratarlo como un caracter más tendremos que indicarlo precediendo del caracter `\`

In [20]:
re.findall(r".\^¿", "Pablito clavó un clavito.^¿Qué clavito clavó Pablito?")

['.^¿']

## Ejercicios

**1. Ejercicio** Dado el siguiente texto:

> Beatriz Galindo, llamada la Latina (Salamanca, c. 1465-Madrid, 23 de noviembre de 1535), fue una escritora y humanista española, maestra de latín y gramática de la reina Isabel la Católica y preceptora de sus hijos.

encontrar todas las letras mayúsculas que se emplean.

In [None]:
import re
texto = "Beatriz Galindo, llamada la Latina (Salamanca, c. 1465-Madrid, 23 de noviembre de 1535), fue una escritora y humanista española, maestra de latín y gramática de la reina Isabel la Católica y preceptora de sus hijos."
print(re.findall(r"[A-Z]", texto))

**2. Ejercicio** Siguiendo con el texto anterior, encontrar todas las letras minúsculas.

In [None]:
print(3)

**3. Ejercicio** Siguiendo con el texto anterior, encontrar todas las cifras que se mencionan.

**4. Ejercicio** Siguiendo con el texto anterior, encontrar todas los letras mayúsculas y minúsculas, más los cifras que lo componen. Pista: el total son 171.

**5. Ejercicio** Siguiendo con el texto anterior, encontrar todas los números de cuatro cifras que se mencionan.