# üß© 1.5 ‚Äì Validaciones de formatos comunes con Expresiones Regulares

En este notebook aprender√°s a **validar y filtrar datos** usando expresiones regulares.

Validaremos patrones reales como:
- Correos electr√≥nicos
- DNI/NIE espa√±oles
- Fechas
- Tel√©fonos
- C√≥digos postales
- URLs

---
## üéØ Objetivos
- Aprender patrones comunes de validaci√≥n.
- Aplicar `re.match()` y `re.fullmatch()` para comprobaciones exactas.
- Detectar entradas inv√°lidas en una lista de datos.
- re.fullmatch() comprueba si **todo el texto** coincide con el patr√≥n. Desde el principio hasta el final debe ajustarse al patr√≥n. Si hay algo delante o detr√°s, ya no devuelve coincidencia.

In [5]:
import re
print('‚úÖ M√≥dulo re cargado correctamente.')

‚úÖ M√≥dulo re cargado correctamente.


---
## 1Ô∏è‚É£ Validaci√≥n de correos electr√≥nicos

El formato t√≠pico de un email es:

`usuario@dominio.ext`

### Patr√≥n b√°sico:
```python
^[\w\.-]+@[\w\.-]+\.\w+$
```
- `^[...]$` ‚Üí inicio y fin del texto (coincidencia completa)
- `[\w\.-]+` ‚Üí usuario (letras, n√∫meros, guiones o puntos)
- `@` ‚Üí separador
- `[\w\.-]+` ‚Üí dominio
- `\.\w+` ‚Üí extensi√≥n (al menos una letra)

In [6]:
emails = ['ana@gmail.com', 'maria.perez-123@empresa', 'user@sub.domini-o.es', 'no-valido@']
patron_email = r'^[\w\.-]+@[\w\.-]+\.\w+$'
patron_email_sin_extension = r'^[\w\.-]+@[\w\.-]+$'

for e in emails:
    print(e, '‚úÖ' if re.fullmatch(patron_email_sin_extension, e) else '‚ùå')

ana@gmail.com ‚úÖ
maria.perez-123@empresa ‚úÖ
user@sub.domini-o.es ‚úÖ
no-valido@ ‚ùå


---
## 2Ô∏è‚É£ Validaci√≥n de DNI/NIE espa√±oles

### Formatos v√°lidos:
- DNI: `12345678A`
- NIE: `X1234567L` o `Z1234567M`

### Patr√≥n:
```python
^[XYZ]?[0-9]{7,8}[A-Z]$
```
- `^[XYZ]?` ‚Üí opcional, para NIE.
- `[0-9]{7,8}` ‚Üí 7 u 8 d√≠gitos.
- `[A-Z]$` ‚Üí letra final.

In [7]:
dni_nie = ['12345678Z', 'X2345678L', 'Z8765432M', '1234A', 'A9999999Z']
patron_dni = r'^[XYZ]?[0-9]{7,8}[A-Z]$'

for d in dni_nie:
    print(d, '‚úÖ' if re.fullmatch(patron_dni, d) else '‚ùå')

12345678Z ‚úÖ
X2345678L ‚úÖ
Z8765432M ‚úÖ
1234A ‚ùå
A9999999Z ‚ùå


In [8]:
dni = "12345678Z"

letras = "TRWAGMYFPDXBNJZSQVHLCKE"


patron = r"(\d{8})([A-Z])"
m = re.match(patron, dni)
if m:
    numero = m.group(1)
    letra = m.group(2)
    letra_correcta = letras[int(numero) % 23]
    print(letra, letra_correcta)



Z Z


---
## 3Ô∏è‚É£ Validaci√≥n de fechas (dd/mm/aaaa)

### Patr√≥n:
```python
^(0?[1-9]|[12][0-9]|3[01])/(0?[1-9]|1[0-2])/\d{4}$
```
- D√≠as: 01 a 31.
- Meses: 01 a 12.
- A√±o: 4 d√≠gitos.

> ‚ö†Ô∏è Este patr√≥n no valida meses con 30/31 d√≠as o a√±os bisiestos (solo formato).

In [9]:
fechas = ['01/01/2025', '31/12/2024', '32/01/2024', '15/13/2023']
patron_fecha = r'^(0?[1-9]|[12][0-9]|3[01])/(0?[1-9]|1[0-2])/\d{4}$'

for f in fechas:
    print(f, '‚úÖ' if re.fullmatch(patron_fecha, f) else '‚ùå')

01/01/2025 ‚úÖ
31/12/2024 ‚úÖ
32/01/2024 ‚ùå
15/13/2023 ‚ùå


---
## 4Ô∏è‚É£ Validaci√≥n de tel√©fonos espa√±oles

### Formatos comunes:
- `600123456`
- `+34 600123456`
- `(+34) 600-123-456`

### Patr√≥n simplificado:
```python
^(\+34|0034)?\s?\(?6\d{2}\)?[-\s]?\d{3}[-\s]?\d{3}$
```

In [10]:
telefonos = ['600123456', '+34 600123456', '(+34) 600-123-456', '70012345']
patron_tel = r'^(\+34|0034)?\s?\(?6\d{2}\)?[-\s]?\d{3}[-\s]?\d{3}$'

for t in telefonos:
    print(t, '‚úÖ' if re.fullmatch(patron_tel, t) else '‚ùå')

600123456 ‚úÖ
+34 600123456 ‚úÖ
(+34) 600-123-456 ‚ùå
70012345 ‚ùå


---
## 5Ô∏è‚É£ Validaci√≥n de c√≥digos postales

Los c√≥digos postales espa√±oles tienen **5 d√≠gitos**, de los cuales los dos primeros van de 01 a 52.

### Patr√≥n:
```python
^(0[1-9]|[1-4][0-9]|5[0-2])\d{3}$
```

In [11]:
cps = ['46011', '01002', '99999', '53000']
patron_cp = r'^(0[1-9]|[1-4][0-9]|5[0-2])\d{3}$'

for c in cps:
    print(c, '‚úÖ' if re.fullmatch(patron_cp, c) else '‚ùå')

46011 ‚úÖ
01002 ‚úÖ
99999 ‚ùå
53000 ‚ùå


---
## 6Ô∏è‚É£ Validaci√≥n de URLs

Patr√≥n b√°sico para URLs HTTP/HTTPS:
```python
^(https?://)?(www\.)?[\w\.-]+\.[a-z]{2,}$
```

In [12]:
urls = ['https://openai.com', 'www.google.es', 'ftp://servidor.com', 'http://miweb.com']
patron_url = r'^(https?://)?(www\.)?[\w\.-]+\.[a-z]{2,}$'

for u in urls:
    print(u, '‚úÖ' if re.fullmatch(patron_url, u) else '‚ùå')

https://openai.com ‚úÖ
www.google.es ‚úÖ
ftp://servidor.com ‚ùå
http://miweb.com ‚úÖ


---
## 7Ô∏è‚É£ Ejercicio pr√°ctico ‚Äì Validador mixto

Dada una lista de cadenas variadas, clasifica cada una como:
- `EMAIL`, `TEL`, `DNI`, `CP`, `FECHA`, `URL` o `DESCONOCIDO`.

üí° *Pista:* usa condicionales y `re.fullmatch()` en orden.

In [13]:
datos = ['600123456', 'ana@gmail.com', '46011', '01/01/2024', 'https://python.org', '12345678Z', 'hola mundo']

for d in datos:
    if re.fullmatch(patron_email, d):
        tipo = 'EMAIL'
    elif re.fullmatch(patron_tel, d):
        tipo = 'TEL'
    elif re.fullmatch(patron_dni, d):
        tipo = 'DNI'
    elif re.fullmatch(patron_cp, d):
        tipo = 'CP'
    elif re.fullmatch(patron_fecha, d):
        tipo = 'FECHA'
    elif re.fullmatch(patron_url, d):
        tipo = 'URL'
    else:
        tipo = 'DESCONOCIDO'
    print(f'{d:<25} ‚Üí {tipo}')

600123456                 ‚Üí TEL
ana@gmail.com             ‚Üí EMAIL
46011                     ‚Üí CP
01/01/2024                ‚Üí FECHA
https://python.org        ‚Üí URL
12345678Z                 ‚Üí DNI
hola mundo                ‚Üí DESCONOCIDO


---
## 8Ô∏è‚É£ Resumen del notebook

- Usa `re.fullmatch()` para validaciones exactas.
- Cada patr√≥n debe adaptarse a las reglas de formato reales.
- Las expresiones regulares son muy √∫tiles para limpiar y validar datos antes de procesarlos.

---
**Fin del notebook 1.5 ‚Äì Validaciones de formatos comunes.**