# 7. Manejo de Cadenas de Texto en Python

- *Autor*: [Dr. Mario Abarca](https://www.knkillname.org/)
- *Objetivo*: Aprender a manipular cadenas de texto y trabajar con archivos de texto

<a href="https://colab.research.google.com/github/knkillname/uaem.notas.introcomp/blob/master/cuadernos/07.TrabajoConTexto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 7.1. Cadenas de Texto

Las cadenas (`str`) en Python son **inmutables** ([Documentaci√≥n de Python](https://docs.python.org/es/3/library/stdtypes.html#text-sequence-type-str)). Cualquier operaci√≥n que las modifique devuelve una nueva cadena.

### Alfabetos y lenguajes

Un **alfabeto** $\Sigma$ es un conjunto finito de s√≠mbolos.

**Est√°ndar ASCII**: El [ASCII](https://es.wikipedia.org/wiki/ASCII) (American Standard Code for Information Interchange) es un c√≥digo de caracteres de 7 bits que representa texto en computadoras y dispositivos de comunicaci√≥n. Aunque ya no se usa ampliamente debido a sus limitaciones (solo puede representar 128 caracteres), tiene importancia hist√≥rica y es la base de muchos otros sistemas de codificaci√≥n.

In [None]:
chr(65)

In [None]:
# Ejemplo de caracteres ASCII
alfabeto_ascii = ''.join(chr(i) for i in range(32, 128))
print(alfabeto_ascii)

**Alfabeto `string.printable`**: Este alfabeto incluye el subconjunto imprimible de caracteres ASCII, es decir, los caracteres que se pueden mostrar en pantalla. Incluye d√≠gitos, letras, signos de puntuaci√≥n y espacios.

In [None]:
import string

alfabeto_imprimible = string.printable
print(alfabeto_imprimible)

**Alfabeto Unicode**: [Unicode](https://es.wikipedia.org/wiki/Unicode) es un est√°ndar de codificaci√≥n de caracteres dise√±ado para soportar el intercambio, procesamiento y visualizaci√≥n de texto en diferentes lenguajes y disciplinas t√©cnicas. Unicode asigna un n√∫mero √∫nico a cada car√°cter, sin importar la plataforma, el programa o el lenguaje. Este est√°ndar incluye m√°s de 143,000 caracteres, cubriendo los sistemas de escritura m√°s utilizados en el mundo.

In [None]:
# Ejemplo de una cadena Unicode
cadena_unicode = "Hola, mundo! üåç"
print(cadena_unicode)

# Obtener el c√≥digo Unicode de un car√°cter
codigo = ord('√°')
print(codigo)

# Obtener el car√°cter a partir de un c√≥digo Unicode
caracter = chr(225)
print(caracter)

**Discusi√≥n**: Investiga y discute con ChatGPT u otro asistente sobre las diferencias y similitudes entre ASCII y Unicode. ¬øPor qu√© es importante Unicode en el contexto de la globalizaci√≥n y la representaci√≥n de m√∫ltiples lenguajes?

Las **potencias del alfabeto** $\Sigma^n$ son el conjunto de todas las secuencias de longitud $n$ formadas por s√≠mbolos de $\Sigma$. Formalmente,

$$\Sigma^0 = \{\epsilon\}$$

donde $\epsilon$ es la cadena vac√≠a, y para $n > 0$, y

$$\Sigma^n = \{a_1a_2\ldots a_n \mid a_i \in \Sigma \text{ para } 1 \leq i \leq n\}$$

A cada uno de los elementos de $\Sigma^n$ se le llama **palabra** o **cadena** de longitud $n$, y a cualquier conjunto arbitrario de palabras se le llama **lenguaje**.

In [None]:
# Ejemplo de un lenguaje (conjunto de palabras) en Python
itacate = {"taco", "quesadilla", "tamal", "pozole", "enchilada"}
print(itacate)

La cadena vac√≠a $\epsilon$ es una palabra de longitud cero, y es la √∫nica palabra en $\Sigma^0$, y en Python se representa como `''`.

**Ejercicio**: Crea el conjunto de todas las palabras de longitud 2 formadas por los s√≠mbolos `'a'` y `'b'`.

In [None]:
for letra1 in 'ab':
    for letra2 in 'ab':
        print(letra1 + letra2)

**Ejercicio**: Investiga `itertools.product` y `''.join`. ¬øC√≥mo se pueden generar todas las palabras de longitud 3 formadas por los s√≠mbolos `'a'` y `'b'`?

In [None]:
' '.join(["Que", "la", "fuerza", "te", "acompa√±e"])

In [None]:
import itertools

for palabra in itertools.product("ab", repeat=3):
    print(''.join(palabra))

**Ejercicio**: Crea una funci√≥n que reciba un alfabeto $\Sigma$ y un entero $n$, y devuelva el conjunto de todas las palabras de longitud $n$ formadas por los s√≠mbolos de $\Sigma$.

In [None]:
import itertools

def palabras_de_longitud_n(alfabeto, n):
    combinaciones = itertools.product(alfabeto, repeat=n)
    palabras = {''.join(combinacion) for combinacion in combinaciones}
    return palabras

alfabeto = "TAGC"
n = 3
resultado = palabras_de_longitud_n(alfabeto, n)
print(resultado)


El **lenguaje estrella** $\Sigma^*$ es el conjunto de todas las secuencias finitas de s√≠mbolos de $\Sigma$, incluyendo la cadena vac√≠a:

$$\Sigma^* = \bigcup_{n=0}^{\infty} \Sigma^n$$

La cadena vac√≠a $\epsilon$ es importante porque act√∫a como el elemento neutro en la concatenaci√≥n de cadenas.

**Ejercicio**: Crea una funci√≥n generadora que reciba un alfabeto $\Sigma$ y produzca todas las palabras del lenguaje estrella $\Sigma^*$ en orden de longitud creciente.

In [None]:
def lenguaje_estrella(alfabeto):
    for n in itertools.count():
        palabras = palabras_de_longitud_n(alfabeto, n)
        if not palabras:
            break
        yield from palabras

alfabeto = "AB"
lenguaje = lenguaje_estrella(alfabeto)
limitado = itertools.islice(lenguaje, 30)
for palabra in limitado:
    print(palabra)

### Creaci√≥n de cadenas

En Python, las cadenas se pueden crear de varias formas:

- Usando comillas simples (`'`):

In [None]:
s1 = 'Hola, mundo!'
s1

- Usando comillas dobles (`"`):

In [None]:
s2 = "Hola, mundo!"
s2

- Usando comillas triples (`'''` o `"""`) para cadenas de m√∫ltiples l√≠neas:

In [None]:
s3 = '''Esta es una cadena
de m√∫ltiples l√≠neas.'''

s4 = """Tambi√©n se puede usar
comillas dobles triples."""

print(s3)
print(s4)

- Cuando dos cadenas est√°n juntas, Python las concatena autom√°ticamente:

In [None]:
s5 = 'Hola, ' 'mundo!'

s6 = ('Esta es una cadena larga que se puede dividir en dos l√≠neas, pero en '
      'realidad contiene un √∫nico rengl√≥n.')

print(s5)
print(s6)

- Si se necesita una cadena con comillas simples o dobles, se pueden usar las otras para delimitarla:

In [None]:
s7 = "Ella dijo: 'Hola, mundo!'"

s8 = '√âl dijo: "Hola, mundo!"'

- A veces se necesita tener ambas comillas en una cadena. En ese caso, se pueden escapar con una barra invertida (`\`):

In [None]:
s9 = "In the 90's, people used to say \"Hello, world!\""

A `\"` se le conoce como *secuencia de escape*. Otras secuencias de escape son:

In [None]:
s10 = "La tabulaci√≥n \t se representa con \\t"
s11 = "La nueva l√≠nea se \nrepresenta con \\n"
s12 = "La retroceso\b se representa con \\b"
s13 = "La barra invertida \\ se representa con \\\\"

print(s10)
print(s11)
print(s12)
print(s13)

**Discusi√≥n**: Explora con ChatGPT u otro asistente las ventajas y desventajas de usar comillas simples, dobles y triples en Python. ¬øEn qu√© situaciones es m√°s conveniente usar cada tipo de comillas?

### Operaciones b√°sicas de cadenas

La **concatenaci√≥n** de dos cadenas $s$ y $t$ es una nueva cadena formada por los caracteres de $s$ seguidos por los caracteres de $t$. En Python, se utiliza el operador `+` para concatenar cadenas.

In [None]:
s = "Cara"
t = "cola"
concatenacion = s + t + "!"
print(concatenacion)

La **potenciaci√≥n** de una cadena $s$ por un entero $n$ es una nueva cadena formada por $s$ repetida $n$ veces. En Python, se utiliza el operador `*` para la potenciaci√≥n de cadenas.

In [None]:
s = "ja "
potenciacion = s * 3
print(potenciacion)

### Indexaci√≥n y rebanado

La indexaci√≥n y el rebanado (slicing) son t√©cnicas poderosas para acceder a partes espec√≠ficas de una cadena. En Python, los √≠ndices comienzan en 0, lo que significa que el primer car√°cter de una cadena tiene el √≠ndice 0. Los √≠ndices negativos se utilizan para contar desde el final de la cadena.

In [None]:
texto = "Python"
print(texto[0], texto[-1])
print(texto[1:4], texto[:2], texto[2:], texto[::2])

- `texto[0]` devuelve el primer car√°cter.
- `texto[-1]` devuelve el √∫ltimo car√°cter.
- `texto[1:4]` devuelve una subcadena desde el √≠ndice 1 hasta el 3 (excluyendo el 4).
- `texto[:2]` devuelve una subcadena desde el inicio hasta el √≠ndice 1 (excluyendo el 2).
- `texto[2:]` devuelve una subcadena desde el √≠ndice 2 hasta el final.
- `texto[::2]` devuelve una subcadena con cada segundo car√°cter.

Tambi√©n se pueden crear objetos `slice` para reutilizar rebanados, incluyendo el uso de `None` para indicar el inicio o el final de la cadena:

In [None]:
texto = "Python"

# Rebanado desde el inicio hasta el √≠ndice 4 (excluyendo el 4)
s1 = slice(None, 4)
print(texto[s1])  # Equialente a texto[:4]

# Rebanado desde el √≠ndice 2 hasta el final
s2 = slice(2, None)
print(texto[s2])

# Rebanado completo
s3 = slice(None, None)
print(texto[s3])

# Rebanado con paso de 2
s4 = slice(None, None, 2)
print(texto[s4])

Dada la cadena `s = "abcdefghij"`, utiliza rebanado para obtener las siguientes subcadenas:

1. `"abc"`
2. `"def"`
3. `"ghi"`
4. `"j"`
5. `"aceg"`
6. `"bdfh"`

In [None]:
s = "abcdefghij"
s[1:8:2]


### M√©todos Comunes

Referencia: [M√©todos de cadena en la documentaci√≥n](https://docs.python.org/es/3/library/stdtypes.html#string-methods).

| M√©todo | Descripci√≥n | Ejemplo |
|---|---|---|
| `.lower()` | Convertir a min√∫sculas | `'ABC'.lower()` |
| `.upper()` | Convertir a may√∫sculas | `'abc'.upper()` |
| `.strip()` | Elimina espacios en extremos | `'  texto  '.strip()` |
| `.replace(a,b)` | Reemplaza subcadenas | `'hola'.replace('h','H')` |
| `.split(sep)` | Divide en lista | `'a,b,c'.split(',')` |
| `.join(iterable)` | Une con separador | `'-'.join(['a','b','c'])` |
| `.startswith(prefix)` | Comienza con prefijo | `'hola'.startswith('h')` |
| `.endswith(suffix)` | Termina con sufijo | `'hola'.endswith('a')` |
| `.find(sub)` | √çndice de subcadena | `'hola'.find('o')` |
| `.count(sub)` | Cuenta subcadenas | `'hola'.count('o')` |
| `.isalpha()` | Solo letras | `'abc'.isalpha()` |
| `.isdigit()` | Solo d√≠gitos | `'123'.isdigit()` |
| `.isalnum()` | Letras y d√≠gitos | `'abc123'.isalnum()` |
| `.isspace()` | Solo espacios | `' '.isspace()` |

Ejemplos:

In [None]:
'ABC'.lower()

In [None]:
texto = "  ¬°√ìrale, cuate! 123 "

# Convertir a min√∫sculas y eliminar espacios en extremos
resultado = texto.lower().strip()
print(resultado)

# Reemplazar subcadenas y contar ocurrencias
resultado = texto.replace("√ìrale", "√Åndale")
print(resultado)
resultado = resultado.count("a")
print(resultado)

# Dividir en lista y unir con separador
lista = texto.split()
resultado = '-'.join(lista)
print(resultado)

# Verificar prefijo y sufijo
print(texto.startswith(" "))
print(texto.strip().endswith("123"))

# Encontrar √≠ndice de subcadena y verificar si es alfanum√©rico
indice = texto.find("cuate")
print(indice)
print(texto.isalnum())
resultado = texto.strip()[-3]
print(resultado.isalnum())

**Ejercicio**: Dada la cadena `s = "¬°Hola, mundo! 123"`, realiza las siguientes operaciones utilizando los m√©todos de cadena:

1. Convierte la cadena a may√∫sculas.
2. Reemplaza "Hola" por "Adi√≥s".
3. Elimina los signos de exclamaci√≥n.
4. Divide la cadena en palabras.
5. Cuenta cu√°ntas veces aparece la letra "o".
6. Verifica si la cadena contiene solo letras y d√≠gitos.
7. Encuentra el √≠ndice de la palabra "mundo".
8. Verifica si la cadena termina con "123".

## 7.2. Interpolaci√≥n y Formato de Cadenas

La interpolaci√≥n y el formato de cadenas permiten insertar valores dentro de una cadena de texto de manera flexible y legible.

### `str.format`

El m√©todo `str.format` permite insertar valores en una cadena utilizando llaves `{}` como marcadores de posici√≥n.

In [None]:
nombre = "Ana"
edad = 30
print("{} tiene {} a√±os".format(nombre, edad))

In [None]:
nombres = ["Ana", "Luis", "Carlos"]
edades = [30, 25, 35]
mensaje = "{} tiene {} a√±os"
for nombre, edad in zip(nombres, edades):
    print(mensaje.format(nombre, edad))


### F‚ÄëStrings

Las f-strings (cadenas formateadas) son una forma m√°s concisa y legible de interpolar valores en una cadena. Se introdujeron en Python 3.6 y utilizan la sintaxis `f"..."`.

In [None]:
nombre = "Ana"
edad = 30
print(f"{nombre} cumple {edad} a√±os")

In [None]:
nombres = ["Ana", "Luis", "Carlos"]
edades = [30, 25, 35]
for nombre, edad in zip(nombres, edades):
    print(f"{nombre} tiene {edad} a√±os")

### Mini‚Äëlenguaje de Formato

El [mini-lenguaje de formato](https://docs.python.org/es/3/library/string.html#format-specification-mini-language) permite especificar c√≥mo se deben presentar los valores interpolados, incluyendo la precisi√≥n de los n√∫meros decimales, el relleno de ceros, y m√°s.

#### Formato Num√©rico

- **Precisi√≥n de decimales**: Se puede especificar el n√∫mero de decimales a mostrar utilizando `.Nf`, donde `N` es el n√∫mero de decimales.

In [None]:
valor = 1234.56789
print(f"{valor:.2f}")

- **Separadores de miles**: Se puede usar `,` para incluir separadores de miles.

In [None]:
valor = 1234567.89
print(f"{valor:,.1f}")

- **Relleno de ceros**: Se puede usar `0` seguido del ancho total del campo para rellenar con ceros a la izquierda.

In [None]:
numero = 42
print(f"{numero:08}")

- **Formato hexadecimal**: Se puede usar `#` para incluir el prefijo `0x` en n√∫meros hexadecimales.

In [None]:
numero = 42
print(f"{numero:#08x}")

#### Alineaci√≥n y Ancho

- **Alineaci√≥n a la izquierda**: Se usa `<` seguido del ancho total del campo.

In [None]:
texto = "Python"
print(f"{texto:<10}")

- **Alineaci√≥n a la derecha**: Se usa `>` seguido del ancho total del campo.

In [None]:
texto = "Python"
print(f"{texto:>10}")

- **Alineaci√≥n centrada**: Se usa `^` seguido del ancho total del campo.

In [None]:
texto = "Python"
print(f"{texto:^10}")

In [None]:
texto = "Python"
print(f"{texto:*^100}")

In [None]:
base = 3
altura = 5
area = base * altura / 2
print(f"{area = }")

**Ejercicio**: Utiliza el mini-lenguaje de formato para realizar las siguientes tareas:

1. Formatea el n√∫mero `9876.54321` para que tenga 3 decimales y separadores de miles.
2. Rellena con ceros a la izquierda el n√∫mero `123` para que tenga un ancho total de 6 caracteres.
3. Muestra el n√∫mero `255` en formato hexadecimal con el prefijo `0x` y un ancho total de 6 caracteres.
4. Centra el texto `"Hola"` en un campo de 20 caracteres de ancho.

## 7.3. Expresiones Regulares (`re`)

Documentaci√≥n: [Expresiones regulares en Python](https://docs.python.org/es/3/library/re.html).

Las **expresiones regulares** son secuencias de caracteres que forman un patr√≥n de b√∫squeda. Se utilizan para realizar coincidencias y manipulaciones de texto basadas en patrones espec√≠ficos.

Formalmente, una expresi√≥n regular es una notaci√≥n que describe un **lenguaje regular**. Los lenguajes regulares son un tipo de lenguaje formal que puede ser descrito por aut√≥matas finitos. Las operaciones b√°sicas en expresiones regulares incluyen:

- **Concatenaci√≥n**: Si $A$ y $B$ son lenguajes, entonces $AB$ es el lenguaje que contiene todas las cadenas formadas por una cadena de $A$ seguida de una cadena de $B$.
- **Uni√≥n**: Si $A$ y $B$ son lenguajes, entonces $A \cup B$ es el lenguaje que contiene todas las cadenas que est√°n en $A$ o en $B$.
- **Cierre de Kleene**: Si $A$ es un lenguaje, entonces $A^*$ es el lenguaje que contiene todas las cadenas formadas por cero o m√°s repeticiones de cadenas de $A$.

En Python, estas operaciones se pueden realizar utilizando concatenaci√≥n con `+`, uni√≥n con `|` (operador `or`), y cierre de Kleene con `*` (operador de repetici√≥n).

In [None]:
import re  # regular expressions

# Concatenaci√≥n: buscar 'abc' seguido de 'def'
patron_concatenacion = re.compile(r'abc' + r'def')
print(patron_concatenacion.search('ffffabcdefxxxxxx').group())

# Uni√≥n: buscar 'abc' o 'def'
patron_union = re.compile(r'abc|def')
print(patron_union.findall('abcdef abc def'))

# Cierre de Kleene: buscar 'abc' repetido cero o m√°s veces
patron_kleene = re.compile(r'(abc)*')
print(patron_kleene.findall('abaabcabcfaff'))

### Expresiones Regulares en Python

En los lenguajes de programaci√≥n modernos como Python existen particularidades en la sintaxis de las expresiones regulares que permiten realizar b√∫squedas y manipulaciones de texto de manera eficiente.
En las expresiones regulares, las secuencias `\w` y `\d` tienen significados espec√≠ficos:

- `\w`: Coincide con cualquier car√°cter alfanum√©rico (letras y d√≠gitos) y el guion bajo (`_`).
- `\d`: Coincide con cualquier d√≠gito (equivalente a `[0-9]`).
- `\W`: Coincide con cualquier car√°cter que no sea alfanum√©rico (es decir, lo opuesto a `\w`).
- `*?`: Es un operador de cuantificaci√≥n no codicioso que coincide con cero o m√°s repeticiones del patr√≥n anterior, pero de la manera m√°s corta posible.
- `^` Coincide s√≥lo con el inicio de la cadena
- `$` Coincide s√≥lo con el final de la cadena

In [None]:
import re

# Buscar una direcci√≥n de correo electr√≥nico
patron = r'[\w\.]+@[\w\.]+\.[a-z]+'
print(re.search(patron, 'ejemplo@mail.com').group())

# Encontrar todos los n√∫meros en una cadena
print(re.findall(r'\d+', '123-456-7890'))

# Reemplazar una direcci√≥n de correo electr√≥nico con '<oculto>'
print(re.sub(patron, '<oculto>', 'Mi correo es correo@example.com; espero te sirva'))

# Buscar caracteres no alfanum√©ricos
print(re.findall(r'\W+', 'Hello, World!'))

# Coincidencia no codiciosa
texto = "<h1>contenido</h1>"
patron_no_codicioso = r'<.*?>'
print(re.findall(patron_no_codicioso, texto))

Otros detalles relevantes de la sintaxis de expresiones regulares en Python incluyen:

- `.`: Coincide con cualquier car√°cter excepto una nueva l√≠nea.
- `^`: Coincide con el inicio de una cadena.
- `$`: Coincide con el final de una cadena.
- `[]`: Define un conjunto de caracteres, por ejemplo, `[a-z]` coincide con cualquier letra min√∫scula.
- `|`: Operador OR, por ejemplo, `a|b` coincide con `a` o `b`.
- `()`: Agrupa patrones y captura coincidencias.

In [None]:
# Coincidir con cualquier car√°cter excepto una nueva l√≠nea
print(re.findall(r'.', 'abc\ndef'))

In [None]:
# Coincidir con el inicio de una cadena
print(re.match(r'^Hola', 'Hola, mundo!'))

In [None]:
# Coincidir con el final de una cadena
print(re.search(r'mundo!$', 'Hola, mundo!'))

In [None]:
# Coincidir con cualquier letra min√∫scula
print(re.findall(r'[a-z]', 'Python 3.8'))

In [None]:
# Coincidir con 'a' o 'b'
print(re.findall(r'a|b', 'abc'))

In [None]:
# Agrupar patrones y capturar coincidencias
patron_grupo = r'(abc|def)'
print(re.findall(patron_grupo, 'abcdef'))

Un uso interesante de las expresiones regulares es validar contrase√±as. Supongamos que queremos una contrase√±a que tenga al menos 8 caracteres, incluya al menos una letra may√∫scula, una letra min√∫scula, un n√∫mero y un car√°cter especial.

In [None]:
import re

def validar_contrase√±a(contrase√±a):
    patron = r'^(?=.*[A-Z])(?=.*[a-z])(?=.*\d)(?=.*[@$!%*?&])[A-Za-z\d@$!%*?&]{8,}$'
    return bool(re.match(patron, contrase√±a))

print(validar_contrase√±a('Password123!'))  # True
print(validar_contrase√±a('password'))      # False

**Ejercicios**

1. Escribe una expresi√≥n regular para validar n√∫meros de tel√©fono en el formato `(123) 456-7890`.
2. Crea una expresi√≥n regular que encuentre todas las palabras que comienzan con una letra may√∫scula en una cadena.
3. Escribe una funci√≥n que use expresiones regulares para extraer todas las direcciones URL de un texto.

## 7.4. Manejo de Archivos

### Sistemas de Archivos

Un **sistema de archivos** organiza y gestiona archivos en dispositivos de almacenamiento como discos duros o unidades SSD. Ejemplos comunes incluyen NTFS, FAT32, ext4 y HFS+.

Un archivo tiene dos partes principales:

1. **Datos del archivo**: El contenido real (texto, im√°genes, audio, etc.).
2. **Metadatos del archivo**: Informaci√≥n sobre el archivo (nombre, tama√±o, permisos, fechas de creaci√≥n y modificaci√≥n, etc.).

Operaciones b√°sicas en archivos:

- **Crear**: Crear un nuevo archivo.
- **Abrir**: Abrir un archivo existente.
- **Leer**: Leer datos de un archivo.
- **Escribir**: Escribir datos en un archivo.
- **Cerrar**: Cerrar un archivo.
- **Eliminar**: Eliminar un archivo.

Al abrir un archivo, el sistema operativo asigna un **manejador de archivos** o **descriptor de archivo**, una referencia √∫nica para realizar operaciones de lectura y escritura.

El **buffering** mejora la eficiencia de las operaciones de E/S al almacenar temporalmente datos en un b√∫fer en memoria, reduciendo la cantidad de operaciones directas en el dispositivo de almacenamiento.

Los permisos de archivos controlan el acceso y pueden incluir:

- **Lectura (r)**: Permite leer el archivo.
- **Escritura (w)**: Permite modificar el archivo.
- **Ejecuci√≥n (x)**: Permite ejecutar el archivo como un programa.

En sistemas Unix, los permisos se gestionan mediante un modelo de propietario-grupo-otros, estableciendo permisos espec√≠ficos para cada uno.

### Uso de `pathlib`

La biblioteca `pathlib` en Python proporciona una forma orientada a objetos de trabajar con rutas de archivos y directorios. Es parte de la biblioteca est√°ndar de Python desde la versi√≥n 3.4.

#### Crear y Manipular Rutas

In [None]:
from pathlib import Path

# Crear un objeto Path
ruta = Path('ej.txt')

In [None]:
ruta

In [None]:
ruta = ruta.absolute()
ruta

In [None]:
# Verificar si la ruta existe
print(ruta.exists())

In [None]:
# Obtener el nombre del archivo
print(ruta.name)

In [None]:
# Obtener la extensi√≥n del archivo
print(ruta.suffix)

In [None]:
# Obtener el directorio padre
print(ruta.parent)

In [None]:
# Cambiar la extensi√≥n del archivo
nueva_ruta = ruta.with_suffix('.md')
print(nueva_ruta)

#### Leer y Escribir Archivos

In [None]:
from pathlib import Path

# Crear un objeto Path
ruta = Path('ej.txt')

# Escribir en un archivo
ruta.write_text('Hola, mundo!', encoding='utf-8')

In [None]:
# Leer desde un archivo
contenido = ruta.read_text(encoding='utf-8')
print(contenido)

#### Trabajar con Directorios

In [None]:
from pathlib import Path

# Crear un objeto Path para un directorio
directorio = Path('mi_directorio')

In [None]:
# Crear el directorio
directorio.mkdir(exist_ok=True)

In [None]:
# Listar archivos en el directorio
for archivo in directorio.iterdir():
    print(archivo)

In [None]:
# Eliminar el directorio
directorio.rmdir()

### Texto

[Leer y escribir archivos en Python](https://docs.python.org/es/3/tutorial/inputoutput.html#reading-and-writing-files).

In [None]:
f = open('ej.txt', 'w', encoding='utf-8')
f.write('En un lugar de La Mancha, de cuyo nombre '
                'no quiero acordarme')
f.close()

In [None]:
# Escribir en un archivo de texto
with open('ej.txt', 'w', encoding='utf-8') as f:
    f.write('En un lugar de La Mancha, de cuyo nombre '
                'no quiero acordarme')

# Leer desde un archivo de texto
with open('ej.txt', 'r', encoding='utf-8') as f:
    contenido = f.read()
    print(contenido)

#### Leer y escribir l√≠neas

In [None]:
# Escribir m√∫ltiples l√≠neas en un archivo de texto
with open('ej.txt', 'w', encoding='utf-8') as f:
    lineas = ['Primera l√≠nea\n', 'Segunda l√≠nea\n', 'Tercera l√≠nea\n']
    f.writelines(lineas)

# Leer l√≠neas desde un archivo de texto
with open('ej.txt', 'r', encoding='utf-8') as f:
    for linea in f:
        print(linea, end='')

### JSON

JSON (JavaScript Object Notation) es un formato ligero de intercambio de datos que es f√°cil de leer y escribir para los humanos, y f√°cil de parsear y generar para las m√°quinas. JSON se utiliza com√∫nmente para transmitir datos en aplicaciones web (por ejemplo, enviar datos desde el servidor al cliente, para que puedan ser mostrados en una p√°gina web, o viceversa). [Documentaci√≥n oficial de JSON](https://www.json.org/json-es.html)

#### Estructura de JSON

Un documento JSON es una colecci√≥n de pares clave/valor. Las claves son cadenas (strings) y los valores pueden ser cadenas, n√∫meros, objetos, arreglos, booleanos (`true` o `false`) o `null`.

Ejemplo de un objeto JSON:

```json
{
    "nombre": "Ana",
    "edad": 30,
    "ciudad": "M√©xico",
    "hobbies": ["leer", "viajar", "cocinar"],
    "casado": false
}
```

#### Trabajar con JSON en Python

Python proporciona el m√≥dulo `json` para trabajar con datos JSON. Este m√≥dulo permite convertir datos de Python a JSON y viceversa.

##### Convertir de Python a JSON

Para convertir un diccionario de Python a una cadena JSON, se utiliza la funci√≥n `json.dumps()`:

In [None]:
import json

# Diccionario de Python
datos = {
    "nombre": "Ana",
    "edad": 30,
    "ciudad": "M√©xico",
    "hobbies": ["leer", "viajar", "cocinar"],
    "casado": False
}

# Convertir a JSON
json_datos = json.dumps(datos, ensure_ascii=False, indent=2)
print(json_datos)

##### Convertir de JSON a Python

Para convertir una cadena JSON a un diccionario de Python, se utiliza la funci√≥n `json.loads()`:

In [None]:
import json

# Cadena JSON
json_datos = '''
{
    "nombre": "Ana",
    "edad": 30,
    "ciudad": "M√©xico",
    "hobbies": ["leer", "viajar", "cocinar"],
    "casado": false
}
'''

# Convertir a diccionario de Python
datos = json.loads(json_datos)
print(datos)

##### Leer y Escribir Archivos JSON

Para escribir un diccionario de Python en un archivo JSON, se utiliza la funci√≥n `json.dump()`:

In [None]:
import json

# Diccionario de Python
datos = {
    "nombre": "Ana",
    "edad": 30,
    "ciudad": "M√©xico",
    "hobbies": ["leer", "viajar", "cocinar"],
    "casado": False
}

# Escribir en un archivo JSON
with open('datos.json', 'w', encoding='utf-8') as f:
    json.dump(datos, f, ensure_ascii=False, indent=2)

Para leer un archivo JSON y convertirlo a un diccionario de Python, se utiliza la funci√≥n `json.load()`:

In [None]:
import json

# Leer desde un archivo JSON
with open('datos.json', 'r', encoding='utf-8') as f:
    datos = json.load(f)
    print(datos)

**Discusi√≥n**: Investiga y discute con ChatGPT u otro asistente sobre las ventajas y desventajas de usar JSON en comparaci√≥n con otros formatos de intercambio de datos como XML o YAML. ¬øEn qu√© situaciones es m√°s adecuado usar JSON?

### CSV

CSV (Comma-Separated Values) es un formato simple y com√∫nmente utilizado para almacenar datos tabulares en texto plano. Cada l√≠nea en un archivo CSV corresponde a una fila en la tabla, y los valores en cada fila est√°n separados por comas (u otros delimitadores como punto y coma o tabulaciones). [Documentaci√≥n oficial de CSV](https://tools.ietf.org/html/rfc4180)

#### Estructura de CSV

Un archivo CSV t√≠pico puede verse as√≠:

```csv
Nombre,Edad,Ciudad
Ana,30,M√©xico
Luis,25,Guadalajara
```

Cada l√≠nea representa una fila de datos, y cada valor est√° separado por una coma.

#### Trabajar con CSV en Python

Python proporciona el m√≥dulo `csv` para trabajar con archivos CSV. Este m√≥dulo permite leer y escribir archivos CSV de manera eficiente.

##### Leer Archivos CSV

Para leer un archivo CSV, se utiliza la funci√≥n `csv.reader()`:

In [None]:
import csv

# Leer desde un archivo CSV
with open('datos.csv', 'r', encoding='utf-8') as f:
    lector = csv.reader(f)
    for fila in lector:
        print(fila)

##### Escribir Archivos CSV

Para escribir en un archivo CSV, se utiliza la funci√≥n `csv.writer()`:

In [None]:
import csv

# Escribir en un archivo CSV
with open('datos.csv', 'w', encoding='utf-8') as f:
    escritor = csv.writer(f)
    escritor.writerow(['Nombre', 'Edad', 'Ciudad'])
    escritor.writerow(['Ana', 30, 'M√©xico'])
    escritor.writerow(['Luis', 25, 'Guadalajara'])

##### Usar `DictReader` y `DictWriter`

El m√≥dulo `csv` tambi√©n proporciona las clases `DictReader` y `DictWriter` para trabajar con archivos CSV utilizando diccionarios. Esto puede ser √∫til cuando se trabaja con archivos CSV que tienen encabezados.

In [None]:
import csv

# Escribir en un archivo CSV usando DictWriter
with open('datos_dict.csv', 'w', newline='', encoding='utf-8') as f:
    campos = ['Nombre', 'Edad', 'Ciudad']
    escritor = csv.DictWriter(f, fieldnames=campos)
    escritor.writeheader()
    escritor.writerow({'Nombre': 'Ana', 'Edad': 30, 'Ciudad': 'M√©xico'})
    escritor.writerow({'Nombre': 'Luis', 'Edad': 25, 'Ciudad': 'Guadalajara'})

# Leer desde un archivo CSV usando DictReader
with open('datos_dict.csv', 'r', encoding='utf-8') as f:
    lector = csv.DictReader(f)
    for fila in lector:
        print(fila)

**Discusi√≥n**: Explora con ChatGPT u otro asistente las ventajas y desventajas de usar CSV en comparaci√≥n con otros formatos de almacenamiento de datos tabulares como Excel o bases de datos SQL. ¬øEn qu√© situaciones es m√°s adecuado usar CSV?

### Ejercicio

1. Crea un archivo de texto llamado `notas.txt` y escribe en √©l las calificaciones de tres estudiantes en tres materias diferentes. Luego, lee el archivo y muestra las calificaciones en la consola.
2. Crea un archivo JSON llamado `estudiantes.json` que contenga una lista de diccionarios, cada uno representando a un estudiante con su nombre, edad y calificaciones. Luego, lee el archivo y muestra la informaci√≥n de los estudiantes en la consola.
3. Crea un archivo CSV llamado `productos.csv` que contenga una lista de productos con sus nombres, precios y cantidades. Luego, lee el archivo y muestra la informaci√≥n de los productos en la consola.
