# üìÅ M√≥dulo 8 ‚Äî Ficheros y Expresiones Regulares

En este notebook aprender√°s a manejar archivos y usar expresiones regulares para:

- Leer y escribir ficheros
- Trabajar con rutas (`os`, `pathlib`)
- Buscar patrones en texto
- Validar formatos (emails, DNI, fechas, URLs‚Ä¶)
- Extraer informaci√≥n con grupos de captura

---

## 1Ô∏è‚É£ Lectura de archivos

La forma correcta y segura de abrir archivos en Python es usando `with open()`:

In [None]:
# se abren los archivo (para lectura o escritura) dentro de un contexto
# para que no se bloquee el programa si se bloquea el acceso a disco
with open('ejemplo.txt', 'w', encoding='utf-8') as f:
    f.write('Hola mundo\nLinea 2')

with open('ejemplo.txt', 'r', encoding='utf-8') as f:
    contenido = f.read()

contenido

'Hola mundo\nLinea 2'

---
## 2Ô∏è‚É£ Leer l√≠nea a l√≠nea (eficiente para ficheros grandes)


In [2]:
with open('ejemplo.txt', 'r', encoding='utf-8') as f:
    for linea in f:
        print('‚Üí', linea.strip())

‚Üí Hola mundo
‚Üí Linea 2


---
## 3Ô∏è‚É£ Manejo de rutas (`os`, `pathlib`)


In [None]:
# path es la representacion en objeto del DIR en el que estamos
# al ser un objeto, tiene atributos y operaciones
# recomendable usar el objeto 'path' (antes que desde el SO -'os'-)
import os
from pathlib import Path

Path('.').resolve(), os.listdir('.')[:5]

(PosixPath('/workspaces/curso-python-LPY-102/notebooks/modulo8_ficheros_regex_agregaciones'),
 ['ejemplo.txt',
  '02-teoria_agregaciones_ficheros.ipynb',
  '01-teoria_ficheros_regex.ipynb',
  '03-lab_ficheros_agregaciones.ipynb'])

---
## 4Ô∏è‚É£ Expresiones Regulares (`re`)

Importamos el m√≥dulo:

In [4]:
import re

### Buscar un patr√≥n ‚Üí `re.search()`

Ejemplo: buscar un n√∫mero dentro de un texto.

In [5]:
texto = 'El pedido tiene ID 5342 y estado OK'
re.search(r'\d+', texto)

<re.Match object; span=(19, 23), match='5342'>

### Extraer todos los n√∫meros ‚Üí `re.findall()`

In [6]:
re.findall(r'\d+', texto)

['5342']

### Grupos de captura
Extraer fecha de un texto:

In [None]:
# con los parentesis defines los grupos que quieres que te devuelva la busqueda
# el grupo '0' es el texto completo encontrado
texto_fecha = 'Factura emitida el 2024-01-15 para el cliente X'
m = re.search(r'(\d{4})-(\d{2})-(\d{2})', texto_fecha)
m.group(0), m.group(1), m.group(2), m.group(3)

('2024-01-15', '2024', '01', '15')

In [None]:
# hay un grupo de captura por defecto (si no defines ninguno)
texto_fecha2 = 'Factura emitida el 2024-01-15 para el cliente X'
m2 = re.search(r'(\d{4})-(\d{2})-(\d{2})', texto_fecha2)
m2.group(0)

<re.Match object; span=(19, 29), match='2024-01-15'>

In [None]:
# search busca la 1¬∫ aparicion del texto, findall te devuelve todos.
# pero en vez de por grupos, te devuelve un objeto para iterar
texto_fecha3= 'Factura emitida el 2024-01-15 para el cliente X de 2015-02-24'
m3 = re.findall(r'(\d{4})-(\d{2})-(\d{2})', texto_fecha3)
m3


[('2024', '01', '15'), ('2015', '02', '24')]

---
## 5Ô∏è‚É£ Validaci√≥n de formatos

### Email:

In [22]:
email = 'usuario@example.com'
regexpEmail = r'^[\w.-]+@[\w.-]+\.[a-zA-Z]{2,}$'
bool(re.match(regexpEmail, email))

True

### DNI (Espa√±a):

In [21]:
dni = '12345678Z'
regexpDni = r'^[0-9]{8}[A-Za-z]$'
bool(re.match(regexpDni, dni))

True

### URL:

In [None]:
url = 'https://misitio.com/path?id=123'
regexpUrl = r'^https?://[\w.-]+(?:/[\w.-]*)*'
bool(re.match(regexp, url))

True

---
## 6Ô∏è‚É£ Ejercicio pr√°ctico

Dado el texto:
```
Usuario: Juan P√©rez
Email: juan.perez@example.com
Tel√©fono: +34 612-555-123
Fecha registro: 2024-02-11
``` 

### üß© Objetivos
1. Extraer el email
2. Extraer el tel√©fono
3. Extraer la fecha
4. Validar que la fecha tiene formato YYYY-MM-DD

Escribe tu soluci√≥n abajo:

In [19]:
texto = "Usuario: Perico Palotes" \
"Email: peri.palot@tucuman.es" \
"Tel√©fono: +34 555-696-969" \
"Fecha registro: 2024-02-11"

print("//-- Datos ini: --//")
print(texto)
print()



//-- Datos ini: --//
Usuario: Perico PalotesEmail: peri.palot@tucuman.esTel√©fono: +34 555-696-969Fecha registro: 2024-02-11



---
## ‚úÖ Soluciones (ocultas)

<details>
<summary>Mostrar soluciones</summary>

```python
texto = """
Usuario: Juan P√©rez
Email: juan.perez@example.com
Tel√©fono: +34 612-555-123
Fecha registro: 2024-02-11
"""

re.search(r'[\w.-]+@[\w.-]+', texto).group()
```

```python
re.search(r'\+\d{2} \d{3}-\d{3}-\d{3}', texto).group()
```

```python
re.search(r'\d{4}-\d{2}-\d{2}', texto).group()
```

```python
bool(re.match(r'^\d{4}-\d{2}-\d{2}$', '2024-02-11'))
```

</details>