# Tema 9: expresiones regulares (IV)
Una de las utilidades más típicas de las regex es la validación de datos. Es decir, con ellas podemos aceptar datos del usuario solo si cumplen determinadas condiciones, lo cual es muy interesante en muchos casos para evitar errores, o para procesarlos más cómodamente.

Hay muchos datos a los que les podemos exigir cumplir cierto formato. Por ejemplo: direcciones de correo electrónico, códigos postales, teléfonos, fechas de nacimiento, números de identificación, números de serie de productos...

Vamos a ver un ejercicio resuelto de validación de datos, para practicar lo aprendido.

## Ejercicio resuelto: validación de datos
En esta ocasión queremos escribir un script que le pida al usuario el código postal y le adivine la provincia en la que vive. Lo primero que tenemos que hacer es el diccionario que contendrá esa información; en una búsqueda rápida por internet encontramos [esta página de la Wikipedia](https://es.wikipedia.org/wiki/Anexo:Provincias_de_Espa%C3%B1a_por_c%C3%B3digo_postal) con todos los datos que necesitamos: prefijos y provincias correspondientes. Solo hay que copiarlo, pero... esto hay que convertirlo a diccionario, y es un rollo hacerlo a mano. ¡Pero podemos hacerlo con regex!

En primer lugar, vamos a copiar el texto que sale cuando nos vamos a Editar el código en la página de Wikipedia, y lo metemos en una variable `raw` como string multilínea:

In [1]:
raw = """
| 01 || [[Álava|Alava]] || VI
|-quqijdjajjd
| 02 || [[Provincia de Albacete|Albacete]] || AB
|-09183
| 03 || [[Provincia de Alicante|Alicante]] || A
|-holk
| 04 || [[Provincia de Almería|Almería]] || AL
|-
| 05 || [[Provincia de Ávila|Ávila]] || AV
|-
| 06 || [[Provincia de Badajoz|Badajoz]] || BA
|-
| 07 || [[Baleares]] || PM / IB
|-
| 08 || [[Provincia de Barcelona|Barcelona]] || B
|-
| 09 || [[Provincia de Burgos|Burgos]] || BU
|-
| 10 || [[Provincia de Cáceres|Cáceres]] || CC
|-
| 11 || [[Provincia de Cádiz|Cádiz]] || CA
|-
| 12 || [[Provincia de Castellón|Castellón]] || CS
|-
| 13 || [[Provincia de Ciudad Real|Ciudad Real]] || CR
|-
| 14 || [[Provincia de Córdoba (España)|Córdoba]] || CO
|-
| 15 || [[Provincia de La Coruña|Coruña]] || C
|-
| 16 || [[Provincia de Cuenca|Cuenca]] || CU
|-
| 17 || [[Provincia de Gerona|Gerona]] || GE / GI
|-
| 18 || [[Provincia de Granada|Granada]] || GR
|-
| 19 || [[Provincia de Guadalajara|Guadalajara]] || GU
|-
| 20 || [[Guipúzcoa]] || SS
|-
| 21 || [[Provincia de Huelva|Huelva]] || H
|-
| 22 || [[Provincia de Huesca|Huesca]] || HU
|-
| 23 || [[Provincia de Jaén (España)|Jaén]] || J
|-
| 24 || [[Provincia de León|León]] || LE
|-
| 25 || [[Provincia de Lérida|Lérida]] || L
|-
| 26 || [[La Rioja (España)|La Rioja]]  || LO
|-
| 27 || [[Provincia de Lugo|Lugo]] || LU
|-
| 28 || [[Provincia de Madrid|Madrid]] || M
|-
| 29 || [[Provincia de Málaga|Málaga]] || MA
|-
| 30 || [[Provincia de Murcia|Murcia]] || MU
|-
| 31 || [[Navarra]] || NA
|-
| 32 || [[Provincia de Orense|Orense]] || OR / OU
|-
| 33 || [[Asturias]]  || O
|-
| 34 || [[Provincia de Palencia|Palencia]] || P
|-
| 35 || [[Provincia de Las Palmas|Las Palmas]] || GC
|-
| 36 || [[Provincia de Pontevedra|Pontevedra]] || PO
|-
| 37 || [[Provincia de Salamanca|Salamanca]] || SA
|-
| 38 || [[Provincia de Santa Cruz de Tenerife|Santa Cruz de Tenerife]] || TF
|-
| 39 || [[Cantabria|Cantabria (Santander)]] || S
|-
| 40 || [[Provincia de Segovia|Segovia]] || SG
|-
| 41 || [[Provincia de Sevilla|Sevilla]] || SE
|-
| 42 || [[Provincia de Soria|Soria]] || SO
|-
| 43 || [[Provincia de Tarragona|Tarragona]] || T
|-
| 44 || [[Provincia de Teruel|Teruel]] || TE
|-
| 45 || [[Provincia de Toledo|Toledo]] || TO
|-
| 46 || [[Provincia de Valencia|Valencia]] || V
|-
| 47 || [[Provincia de Valladolid|Valladolid]] || VA
|-
| 48 || [[Vizcaya|Vizcaya (Bilbao)]] || BI
|-
| 49 || [[Provincia de Zamora|Zamora]] || ZA
|-
| 50 || [[Provincia de Zaragoza|Zaragoza]] || Z
|-
| 51 || [[Ceuta]] || CE
|-
| 52 || [[Melilla]] || ML
"""

Este es el momento de observar bien nuestro texto: qué formato tiene ahora, cuál es el formato deseado, qué elementos debemos convertir en claves y qué elementos en valores, qué operaciones podemos hacer y en qué orden...

En este caso yo lo primero que haría sería quedarme solo con las líneas deseadas. Alguien ha escrito cosas raras en algunas líneas, pero podemos descartar todas las que empiezan por `|-` y ya:

In [2]:
import re

cps = []
for line in raw.splitlines():
    if not re.match("^\|\-", line):
        cps.append(line)

for cp in cps:
    print(cp)


| 01 || [[Álava|Alava]] || VI
| 02 || [[Provincia de Albacete|Albacete]] || AB
| 03 || [[Provincia de Alicante|Alicante]] || A
| 04 || [[Provincia de Almería|Almería]] || AL
| 05 || [[Provincia de Ávila|Ávila]] || AV
| 06 || [[Provincia de Badajoz|Badajoz]] || BA
| 07 || [[Baleares]] || PM / IB
| 08 || [[Provincia de Barcelona|Barcelona]] || B
| 09 || [[Provincia de Burgos|Burgos]] || BU
| 10 || [[Provincia de Cáceres|Cáceres]] || CC
| 11 || [[Provincia de Cádiz|Cádiz]] || CA
| 12 || [[Provincia de Castellón|Castellón]] || CS
| 13 || [[Provincia de Ciudad Real|Ciudad Real]] || CR
| 14 || [[Provincia de Córdoba (España)|Córdoba]] || CO
| 15 || [[Provincia de La Coruña|Coruña]] || C
| 16 || [[Provincia de Cuenca|Cuenca]] || CU
| 17 || [[Provincia de Gerona|Gerona]] || GE / GI
| 18 || [[Provincia de Granada|Granada]] || GR
| 19 || [[Provincia de Guadalajara|Guadalajara]] || GU
| 20 || [[Guipúzcoa]] || SS
| 21 || [[Provincia de Huelva|Huelva]] || H
| 22 || [[Provincia de Huesca|Huesca]] |

Bien, ya solo tenemos las líneas que contienen la información que necesitamos. Ahora vamos a darle formato de diccionario.

Pensemos cómo será. Queremos que tenga esta pinta: `"01": "Álava",` y así con todas las provincias, en distintas líneas, para luego solo tener que darle un nombre y meterlo dentro de unas llaves.

Así pues, podemos convertir todo lo que hay antes del código postal en unas comillas:

In [5]:
cps_clean = []
for cp in cps:
    cp = re.sub('^\| ', '"', cp)
    cps_clean.append(cp)
    
for cp in cps_clean:
    print(cp)


"01 || [[Álava|Alava]] || VI
"02 || [[Provincia de Albacete|Albacete]] || AB
"03 || [[Provincia de Alicante|Alicante]] || A
"04 || [[Provincia de Almería|Almería]] || AL
"05 || [[Provincia de Ávila|Ávila]] || AV
"06 || [[Provincia de Badajoz|Badajoz]] || BA
"07 || [[Baleares]] || PM / IB
"08 || [[Provincia de Barcelona|Barcelona]] || B
"09 || [[Provincia de Burgos|Burgos]] || BU
"10 || [[Provincia de Cáceres|Cáceres]] || CC
"11 || [[Provincia de Cádiz|Cádiz]] || CA
"12 || [[Provincia de Castellón|Castellón]] || CS
"13 || [[Provincia de Ciudad Real|Ciudad Real]] || CR
"14 || [[Provincia de Córdoba (España)|Córdoba]] || CO
"15 || [[Provincia de La Coruña|Coruña]] || C
"16 || [[Provincia de Cuenca|Cuenca]] || CU
"17 || [[Provincia de Gerona|Gerona]] || GE / GI
"18 || [[Provincia de Granada|Granada]] || GR
"19 || [[Provincia de Guadalajara|Guadalajara]] || GU
"20 || [[Guipúzcoa]] || SS
"21 || [[Provincia de Huelva|Huelva]] || H
"22 || [[Provincia de Huesca|Huesca]] || HU
"23 || [[Provinci

Tiene buena pinta. Ahora, fijémonos en todo lo que hay entre el código postal y el nombre de la provincia, para sustituirlo por comillas, dos puntos, espacio y otras comillas:

In [7]:
cps_clean = []
for cp in cps:
    cp = re.sub('^\| ', '"', cp)
    cp = re.sub(' \|\| \[\[', '": "', cp)
    cps_clean.append(cp)
    
for cp in cps_clean:
    print(cp)


"01": "Álava|Alava]] || VI
"02": "Provincia de Albacete|Albacete]] || AB
"03": "Provincia de Alicante|Alicante]] || A
"04": "Provincia de Almería|Almería]] || AL
"05": "Provincia de Ávila|Ávila]] || AV
"06": "Provincia de Badajoz|Badajoz]] || BA
"07": "Baleares]] || PM / IB
"08": "Provincia de Barcelona|Barcelona]] || B
"09": "Provincia de Burgos|Burgos]] || BU
"10": "Provincia de Cáceres|Cáceres]] || CC
"11": "Provincia de Cádiz|Cádiz]] || CA
"12": "Provincia de Castellón|Castellón]] || CS
"13": "Provincia de Ciudad Real|Ciudad Real]] || CR
"14": "Provincia de Córdoba (España)|Córdoba]] || CO
"15": "Provincia de La Coruña|Coruña]] || C
"16": "Provincia de Cuenca|Cuenca]] || CU
"17": "Provincia de Gerona|Gerona]] || GE / GI
"18": "Provincia de Granada|Granada]] || GR
"19": "Provincia de Guadalajara|Guadalajara]] || GU
"20": "Guipúzcoa]] || SS
"21": "Provincia de Huelva|Huelva]] || H
"22": "Provincia de Huesca|Huesca]] || HU
"23": "Provincia de Jaén (España)|Jaén]] || J
"24": "Provinci

¡Esto va tomando forma!

Ahora tenemos una casuística un poco compleja. Lo que vemos que hay siempre, y tiene sentido que sea así, es `]]`, porque así es el cierre de enlaces en Wikipedia. La primera versión de nuestra siguiente regex es, pues: `\]\]`.

Pero antes, en muchas líneas, puede aparecer la pleca (`|`) y el nombre de la provincia, así que tendremos que colocar esto antes de los corchetes de cierre, como elemento opcional: `(\|.*)?\]\]`.

Además, detrás de los corchetes hay todo tipo de cosas hasta el final. Para eso el punto y el asterisco es ideal: `(\|.*)?\]\].*$`. No hace falta hacerla lazy porque ya estamos diciendo que pare de buscar cuando llegue al final.

Vamos a sustituir todo esto por unas comillas para cerrar la string del valor, y una coma que separe los distintos pares clave-valor del diccionario:

In [12]:
cps_clean = []
for cp in cps:
    cp = re.sub('^\| ', '"', cp)
    cp = re.sub(' \|\| \[\[', '": "', cp)
    cp = re.sub('(\|.*)?\]\].*$', '",', cp)
    cps_clean.append(cp)
    
for cp in cps_clean:
    print(cp)


"01": "Álava",
"02": "Provincia de Albacete",
"03": "Provincia de Alicante",
"04": "Provincia de Almería",
"05": "Provincia de Ávila",
"06": "Provincia de Badajoz",
"07": "Baleares",
"08": "Provincia de Barcelona",
"09": "Provincia de Burgos",
"10": "Provincia de Cáceres",
"11": "Provincia de Cádiz",
"12": "Provincia de Castellón",
"13": "Provincia de Ciudad Real",
"14": "Provincia de Córdoba (España)",
"15": "Provincia de La Coruña",
"16": "Provincia de Cuenca",
"17": "Provincia de Gerona",
"18": "Provincia de Granada",
"19": "Provincia de Guadalajara",
"20": "Guipúzcoa",
"21": "Provincia de Huelva",
"22": "Provincia de Huesca",
"23": "Provincia de Jaén (España)",
"24": "Provincia de León",
"25": "Provincia de Lérida",
"26": "La Rioja (España)",
"27": "Provincia de Lugo",
"28": "Provincia de Madrid",
"29": "Provincia de Málaga",
"30": "Provincia de Murcia",
"31": "Navarra",
"32": "Provincia de Orense",
"33": "Asturias",
"34": "Provincia de Palencia",
"35": "Provincia de Las Palmas",


Para acabar, vamos a eliminar `Provincia de ` y `(España)` para que nuestro mensaje quede más natural:

In [13]:
cps_clean = []
for cp in cps:
    cp = re.sub('^\| ', '"', cp)
    cp = re.sub(' \|\| \[\[', '": "', cp)
    cp = re.sub('(\|.*)?\]\].*$', '",', cp)
    cp = re.sub(' ?\(España\)', '', cp)
    cp = re.sub('Provincia de ', '', cp)
    cps_clean.append(cp)
    
for cp in cps_clean:
    print(cp)


"01": "Álava",
"02": "Albacete",
"03": "Alicante",
"04": "Almería",
"05": "Ávila",
"06": "Badajoz",
"07": "Baleares",
"08": "Barcelona",
"09": "Burgos",
"10": "Cáceres",
"11": "Cádiz",
"12": "Castellón",
"13": "Ciudad Real",
"14": "Córdoba",
"15": "La Coruña",
"16": "Cuenca",
"17": "Gerona",
"18": "Granada",
"19": "Guadalajara",
"20": "Guipúzcoa",
"21": "Huelva",
"22": "Huesca",
"23": "Jaén",
"24": "León",
"25": "Lérida",
"26": "La Rioja",
"27": "Lugo",
"28": "Madrid",
"29": "Málaga",
"30": "Murcia",
"31": "Navarra",
"32": "Orense",
"33": "Asturias",
"34": "Palencia",
"35": "Las Palmas",
"36": "Pontevedra",
"37": "Salamanca",
"38": "Santa Cruz de Tenerife",
"39": "Cantabria",
"40": "Segovia",
"41": "Sevilla",
"42": "Soria",
"43": "Tarragona",
"44": "Teruel",
"45": "Toledo",
"46": "Valencia",
"47": "Valladolid",
"48": "Vizcaya",
"49": "Zamora",
"50": "Zaragoza",
"51": "Ceuta",
"52": "Melilla",


¡Ahora ya es mucho más fácil montar nuestro diccionario! Solo tenemos que arreglarlo manualmente dándole un nombre, metiéndolo entre llaves y eliminando la última coma, la de detrás del último elemento:

In [None]:
codigos = {
    "01": "Álava",
    "02": "Albacete",
    "03": "Alicante",
    "04": "Almería",
    "05": "Ávila",
    "06": "Badajoz",
    "07": "Baleares",
    "08": "Barcelona",
    "09": "Burgos",
    "10": "Cáceres",
    "11": "Cádiz",
    "12": "Castellón",
    "13": "Ciudad Real",
    "14": "Córdoba",
    "15": "La Coruña",
    "16": "Cuenca",
    "17": "Gerona",
    "18": "Granada",
    "19": "Guadalajara",
    "20": "Guipúzcoa",
    "21": "Huelva",
    "22": "Huesca",
    "23": "Jaén",
    "24": "León",
    "25": "Lérida",
    "26": "La Rioja",
    "27": "Lugo",
    "28": "Madrid",
    "29": "Málaga",
    "30": "Murcia",
    "31": "Navarra",
    "32": "Orense",
    "33": "Asturias",
    "34": "Palencia",
    "35": "Las Palmas",
    "36": "Pontevedra",
    "37": "Salamanca",
    "38": "Santa Cruz de Tenerife",
    "39": "Cantabria",
    "40": "Segovia",
    "41": "Sevilla",
    "42": "Soria",
    "43": "Tarragona",
    "44": "Teruel",
    "45": "Toledo",
    "46": "Valencia",
    "47": "Valladolid",
    "48": "Vizcaya",
    "49": "Zamora",
    "50": "Zaragoza",
    "51": "Ceuta",
    "52": "Melilla"
}

Ahora vamos a hacer la parte de pedir datos al usuario.

Le pedimos el número postal; si no son 5 dígitos seguidos, no salimos del bucle. Si cumplen esa condición, consultamos en nuestro diccionario a ver con qué provincia se corresponden los 2 primeros dígitos:

In [44]:
cp = ""
while not re.match("^\d{5}$", cp):
    cp = input("Dime tu código postal: ")

print("¡Así que vives en ", codigos[cp[:2]], "!", sep = "")

Dime tu código postal: 432948
Dime tu código postal: fdskofj
Dime tu código postal: 28474
¡Así que vives en Madrid!


Y, si queremos, podemos hacerlo un poco más explicativo y dinámico imprimiendo un mensaje distinto de la primera vez, para que quede más claro que ha habido un error:

In [10]:
cp = input("Dime tu código postal: ")
while not re.match("^\d{5}$", cp):
    cp = input("No has introducido un código postal válido. Asegúrate de escribir las cinco cifras: ")

print("¡Así que vives en ", codigos[cp[:2]], "!", sep="")

Dime tu código postal: ew
No has introducido un código postal válido. Asegúrate de escribir las cinco cifras: fekw
No has introducido un código postal válido. Asegúrate de escribir las cinco cifras: felfm
No has introducido un código postal válido. Asegúrate de escribir las cinco cifras: 213
No has introducido un código postal válido. Asegúrate de escribir las cinco cifras: 23213
¡Así que vives en Jaén!
