# Strings y archivos de texto
![](https://studymachinelearning.com/wp-content/uploads/2019/11/python_string.png)

Ref: https://studymachinelearning.com/python-string/

<div style="text-align: right">Autor: Luis A. Muñoz - 2024 </div>

Ideas clave:
* Los strings representan cadenas de caracteres y son objetos inmutables
* Los strings soportan indexación como las listas y tuplas.
* Los caracteres en Python son datos codificados en utf-8 como valores enteros.
* La manipulación de strings se realiza por medio de los métodos de la clase string
* Los archivos son objetos almacenados en el File System del Sistema Operativo.
* Un archivo puede ser de texto o de datos binarios.
* Python puede acceder a los archivos utilizando la instrucción open() y luego cerrarlos con la instucción close(). No se debe dejar un archivo abierto en el sistema.
* Se puede utilizar un Context Manager (with) para controlar el acceso a los archivos.
* Al abrir un archivo en Python se genera un cursor, un puntero que "apunta" a la primera linea de un archivo de texto.
* Los métodos read(), readline() y readlines() permiten leer el texto de un archivo de texto.
* Lo métodos write() y writelines() permiten escribir en un archivo de texto.
* El cursor de un archivo de texto es un iterable; esto es, que si se incluye en un lazo for leera cada línea de un archivo de texto hasta el final.

Informacion:
* https://www.programiz.com/python-programming/string
* https://apuntes.de/python/trabajo-con-archivos-en-python-lectura-y-escritura-simplificada/#gsc.tab=0
---

## strings (`str`) en Python
Un string es una secuencia de caracteres (aunque esta secuencia tenga cero elementos, como una cadena vacia ""). Este puede ser especificado utilizando comillas doblas, simples o inclusive triple comilla.

In [1]:
print("Soy un string")
print('También soy un string')
print("""Y yo tambien soy un string""")
print('''Y por supuesto yo tambien''')

print(type(""))

Soy un string
También soy un string
Y yo tambien soy un string
Y por supuesto yo tambien
<class 'str'>


No existe diferencia entre utilizar "" o '' aunque si en los casos de triple comilla, ya que aqui se define un bloque string con formato incluido. Por ejemplo:

In [2]:
print("""Esto se imprimira en una linea
y esto en la segunda linea""")

Esto se imprimira en una linea
y esto en la segunda linea


Esto, con una sola comilla, generará un error:

In [3]:
print("Esto se imprimira en una linea
y esto en la segunda linea")

SyntaxError: unterminated string literal (detected at line 1) (2004609760.py, line 1)

Aunque se puede utilizar el caracter de escape `\` para indicar que la instrucción continúa en la línea de abajo, pero la impresión se mantiene en la misma linea porque no existe un caracter de escape de nueva línea (como `\n`).

In [4]:
print("Esto se imprimirá en una linea \
y esto también")

Esto se imprimirá en una linea y esto también


Las cadenas son tipos de datos que son indexables, es decir que al igual que las tuplas y listas, soportan índices e index slicing. Revise las siguientes instrucciones y evalúe los resultados obtenidos:

In [5]:
texto = "Soy un texto de prueba"

print(texto[0])
print(texto[-1])
print(texto[:10])
print(texto[::3])
print(texto[::-1])

S
a
Soy un tex
S  x  ua
abeurp ed otxet nu yoS


Una característica importante a considerar es que los string __son inmutables__: 

In [6]:
texto[0] = 's'

TypeError: 'str' object does not support item assignment

El error que arroja el intérprete de Python es el mismo que se obtenía al intentar asignar un valor a un elemento de una tupla: este objeto no soporta asignación de items.

Por otro lado, un string es un *iterable*, es decir que puede formar parte de un lazo `for` y retornará cada caracter de un string (incluyendo los espacios en blanco: también son caracteres).

In [8]:
for char in 'STRING':
    print(char)

S
T
R
I
N
G


## Operaciones y funciones útiles con strings

Los strings soportan los operadores `+` y `*`:

In [None]:
print("z" * 3 + "." * 6)

Así también, la función `len()` permite conocer el número de caracteres de un string (de forma semejante a el número de elementos de una tupla/lista). Combinado con lo anterior, por ejemplo, se puede subrayar un texto de forma interactiva:

In [17]:
titulo = "MENSAJE A SUBRAYAR"
print(titulo)
print("=" * len(titulo))

MENSAJE A SUBRAYAR


Los caracteres son almacenados en un sistema informático como valores enteros. Los caracteres en idioma inglés se pueden representar con 8 bits y están especificados bajo el estándar ASCII. Sin embargo, los demás juegos de caracteres (como el español, portugués, ruso, etc.) amplian el estándar (llamado Unicode) y el número de bits necesarios por caracter, de forma tal que hay caracteres de 1 byte y otros de hasta 4 bytes. El estándar UTF-8 soporta una codificación de tamaño variable y es el estándar utilizado por Python.

Para conocer el codigo Unicode de un caracter se recurre a la funcion `ord()`, y para conocer el caracter al que le corresponde un código Unicode se utiliza `chr()`:

In [10]:
print("A =", ord("A"))
print("65 =", chr(65))

A = 65
65 = A


## Métodos de un str
La lista de métodos de un string es bastante amplia:

In [11]:
dir(str)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',


Así que vamos a revisar los de uso más común y separarlos por categorías. 

### Métodos que eliminan caracteres
Vamos a revisar los métodos que modifican un `str` eliminando caracteres innecesarios. Aqui debemos entender que "modificar" un `str` significa obtener un nuevo  `str` modificado (no como en las listas, en donde se modificaba la lista misma). Entonces podemos utilizar estos métodos con `print` ya que generamos una cadena de caracteres nueva que puede ser impresa.

Tenemos los métodos que eliminan los caracteres de "cabeza" y "cola" en un `str`. Por defecto, estos son los espacios en blanco.

    * str.strip()      : Elimina los caracteres adicionales 
                         al inicio y al final de una cadena
    * str.lstrip()     : Elimina los caracteres adicionales al 
                         inicio de una cadena (es decir, a la izquierda. "l": left)
    * str.rstrip()     : Elimina los caracteres adicionales al 
                         final de una cadena (es decir, a la derecha. "r": right)
    
Veamos algunos ejemplos:

In [12]:
texto = "       este es un texto de prueba    "

print("|{}|".format(texto))            # texto original (como caracteres de limites)
print("|{}|".format(texto.strip()))    # strip: despojar (no tiene espacios en blanco antes ni despues)
print("|{}|".format(texto.lstrip()))   # l: left (no tiene caracteres especiales antes)
print("|{}|".format(texto.rstrip()))   # r: right (no tiene caracteres especiales despues)

|       este es un texto de prueba    |
|este es un texto de prueba|
|este es un texto de prueba    |
|       este es un texto de prueba|


Estos métodos permiten especificar los caracteres que se quieran eliminar al principio y/o al final. Por ejemplo:

In [13]:
print(",,,,,rrttgg.....banana....rrr".strip(",.grt"))

banana


Esto también es válido para los caracteres de escape como `\n`. Por ejemplo:

In [14]:
print("Al final de este mensaje hay un caracter de nueva linea\n", end='')   # end='' es para evitar el \n del print()
print("...")
print("Al final de este mensaje ya no hay un caracter de nueva línea\n".strip(), end='')
print("...")

Al final de este mensaje hay un caracter de nueva linea
...
Al final de este mensaje ya no hay un caracter de nueva línea...


### Métodos de cambian los caracteres de un str
Otros métodos modifican los caracteres de un str:
    
    * str.capitalize()      : Capitaliza un str, es decir, convierte el primer caracter del str en mayuscula
    * str.title()           : Convierte un str en un "titulo", es decir, la primer letra de cada palabra en mayuscula
    * str.upper()           : Convierte todo el str en MAYUSCULAS
    * str.lower()           : Convierte todo el str en minusculas
    * str.swapcase()        : Intercambia MAYUSCULAS por minúsculas y viceversa

In [15]:
texto = "       este es un texto de prueba    "
print(texto.strip().capitalize())
print(texto.strip().upper())
print(texto.strip().lower())
print(texto.strip().title())
print(texto.strip().title().swapcase())

Este es un texto de prueba
ESTE ES UN TEXTO DE PRUEBA
este es un texto de prueba
Este Es Un Texto De Prueba
eSTE eS uN tEXTO dE pRUEBA


Considere un detalle de los ejemplos anteriores: como los métodos de un `str` retornan un nuevo `str`, se pueden encadenar en secuencia como en `texto.strip().capitalize()`. Esto, elimina los espacios en blanco al principio y al final de texto y luego capitaliza el `str` anterior.

### Métodos asociados a ocurencias en un str o substrings
Otros métodos cuentan ocurrencias dentro de un `str` (es decír, substrings) o reemplazan su contenido según un criterio de búsqueda:

    * str.count(substring)           : Cuenta el número de veces que un substring esta en un string
    * str.replace(subtring, str_rep) : Reemplaza un substring por otro string str_rep
    * str.find(substring)            : Retorna el indice del string donde se encuentre el caracter 
                                       inicial de un substring
    * str.rfind(substring)           : Retorna el indice del string donde se encuentre el caracter inicial 
                                       de un substring. Busca el substring de derecha a izquierda

In [16]:
texto = "este es un texto de prueba"
print(texto.count("es"))
print(texto.replace("es ", "no es "))
print(texto.find("es")) 
print(texto.rfind("es"))   # Entiende porque se obtiene el 5 como resultado?

2
este no es un texto de prueba
0
5


### Los métodos `strip` y `join`
Tenemos un método que ya es conocido: split(), pero esta vez vamos a formalizarlo:

    * str.strip()      : Retorna una lista de substring separados por algun caracter 
                         (por defecto, espacio en blanco)

In [None]:
l_palabras = "una golondrina no hace verano".split()
print(l_palabras)

El proceso inverso se puede realizar con el método join():

    * str.join(lista)  : Retorna un cadena con los substring de una lista, unidos por el str

In [None]:
print(" ".join(l_palabras))    # Toma las palabras de l_palabras y las une utilizando el " "

### Métodos que consultan por los caracteres
Otros métodos de una string incluyen aquellos que consultan si la cadena esta compuesta por caracteres especiales. estos retornan valores booleanos:

    * str.isspace()    : True si str esta compuesta de espacios en blanco
    * str.isupper()    : True si todos los caracteres de str con MAYUSCULAS
    * str.islower()    : True si todos los caracteres de str son minusculas
    * str.isdigit()    : True si todos los catracteres de str son digitos
    * str.isalpha()    : True si todos los caracteres de str son letras alfabeticas
    * str.isalnum()    : True si todos los caracteres de str son letras o números
    * str.isprintable(): True si todos los caracteres de str son imprimibles (no son Tab \n, Enter \n, etc)

In [None]:
print("abcde".isalpha())
print("abc123".isalpha())
print("123".isdigit())
print("dina4ever".isalnum())
print("Hola\ntexto".isprintable())
print("hola".islower())
print("HOLA".isupper())
print("123".isupper())
print("   ".isspace())

---
# Archivos en Python
Python puede acceder al File System del Sistema Operativo para leer o escribír archivos, ya sea de texto o binarios. vamos a trabajar con archivos del primer tipo.

Para Python, un archivo es un recurso al que se accede por medio de un Objeto Archivo (_file object_). Este objeto o manejador (_handler_) es el que permite realizar las operaciones de lectura/escritura (_read/write_) sobre un archivo.

NOTA: ¡Tenga precaución al momento de operar con archivos! Puede borrar información importante en el sistema Operativo.

Para abrir un archivo de texto utilizamos la función `open`. El acceso a un archivo de texto se da en diferentes modos que deben ser especificados:

    mode = 'r'      Se desea leer (read) el archivo. Este archivo debe de existír
    mode = 'w'      Se desea escribir (write) en el arvhivo. Si el archivo no existe este se crea y si existe se sobreescribe
    mode = 'a'      Se desea agregar (append) sobre un archivo. Si el archivo no existe se crea
    
Otra especificación opcional es el interprete de codificación de los caracteres. A veces se leen archivos de texto cuyas caracteres no son reconocidos (nos arroja un error `charmap`):

    encoding = 'utf-8'    Interpreta los caracteres segun la codificación UTF-8
    encoding = 'latin-1'  Interpreta los caracteres segun la codificacion en español en casos especiales
    
Consideremos, como ejemplos, que se quiere almacenar esta información en un archivo que llamaremos `meses.txt` que tenga el siguiente formato:
    
    1  ene
    2  feb
    3  mar
    .
    .
    .
    10 oct
    11 nov
    12 dic
    
La secuencia de acciones al momento de trabajar con archivos de texto es la siguiente:

<img src="https://ucarecdn.com/c0f593fb-5ab5-4c5d-aa03-4fc15b480a69/" alt="Drawing" style="width: 500px;"/>

In [18]:
meses = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 'jul', 'ago', 'set', 'oct', 'nov', 'dic']

# Se abre el archivo de texto en modo escritura (si no existe se crea un archivo nuevo)
file = open("meses.txt", mode='w', encoding='utf-8')

# Se modifica el archivo
for idx, etiqueta in enumerate(meses):
    file.write(f"{idx+1:2} {etiqueta}")

# Se cierra el archivo
file.close()

Debe de haberse generado un nuevo archivo en el directorio de trabajo. Reviselo. ¿Tiene la información según lo esperado? Vamos a leer el archivo generado utilizando Python:

In [19]:
file = open("meses.txt", mode='r', encoding='utf-8')
texto = file.read()
file.close()

print(texto)

 1 ene 2 feb 3 mar 4 abr 5 may 6 jun 7 jul 8 ago 9 set10 oct11 nov12 dic


¿Qué es lo que esta faltando? Los saltos de línea. Estos son caracteres que son parte de la información y también tienen  que considerarse.

In [21]:
meses = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 'jul', 'ago', 'set', 'oct', 'nov', 'dic']

# El modo 'w' sobreescribe el archivo...
file = open("meses.txt", mode='w', encoding='utf-8')

# Se modifica el archivo
for idx, etiqueta in enumerate(meses):
    file.write(f"{idx+1:2} {etiqueta}\n")

# Se cierra el archivo
file.close()

In [22]:
file = open("meses.txt", mode='r', encoding='utf-8')
texto = file.read()
file.close()

print(texto)

 1 ene
 2 feb
 3 mar
 4 abr
 5 may
 6 jun
 7 jul
 8 ago
 9 set
10 oct
11 nov
12 dic



## Context Manager: with
Otra forma de realizar lo mismo (y la forma preferida en Python) es utilizar un Context Manager, lo que es equivalente a crear un bloque `with`. Un bloque `with` asocia un objeto a un bloque y este se administra segun el contexto. Cuando el bloque termina, el objeto asociado se cierra de forma automática. Esto quiere decir que el archivo abierto, controlado por un bloque `with`, se cierra una vez terminado el bloque.

Consideremos resolver el ejemplo anterior utilizando un bloque `with`:

In [28]:
# Creamos el cursor con un bloque with y cuando este termine el archivo se cerrara
meses = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 'jul', 'ago', 'set', 'oct', 'nov', 'dic']

with open("meses.txt", mode='w', encoding='utf-8') as file:
    for idx, etiqueta in enumerate(meses):
        file.write(f"{idx+1:2} {etiqueta}\n")     # \n: Salto de linea

In [29]:
# No utilizaremos el modo ya que por defecto es 'r' (lectura)
with open("meses.txt", encoding='utf-8') as file:
    texto = file.read()

print(texto)

 1 ene
 2 feb
 3 mar
 4 abr
 5 may
 6 jun
 7 jul
 8 ago
 9 set
10 oct
11 nov
12 dic



Note que el archivo se abre con `open` y se cierra con `close` y que entre estas funciones se realiza la escritura con `write` o la lectura con `read`.

## Un archivo como iterador
Así como se puede escribír el archivo línea por línea, también se puede acceder a cada línea, una por una, utilizando algunos métodos de un objeto archivo:

    * readline()         Retorna el str al que esta apuntando el cursor hasta \n 
                         (incluyendo el \n)
    * readlines()        Retorna una lista con las líneas del archivo de texto, 
                         incluyendo el \n al final de cada elemento
    
Probemos estos métodos:

In [30]:
# Utilizemos los parametros por defecto: lectura, encoding estandar
with open("meses.txt") as file:
    print(file.readline())
    print(file.readline())
    print(file.readline())


 1 ene

 2 feb

 3 mar



In [31]:
with open("meses.txt") as file:
    print(file.readlines())


[' 1 ene\n', ' 2 feb\n', ' 3 mar\n', ' 4 abr\n', ' 5 may\n', ' 6 jun\n', ' 7 jul\n', ' 8 ago\n', ' 9 set\n', '10 oct\n', '11 nov\n', '12 dic\n']


Note que el ejemplo de `readline()` (así como el de `readlines()`) incluye el caracter `\n`. Esto hace, por ejemplo, que la impresión de cada línea tenga un espacio en blanco entre cada línea (ya que la función `print` también incluye un salto de línea. Lo normal al momento de leer cada línea es no incluir el salto de línea. Para esto utiliremos el métodos de los string `strip()`:

In [32]:
with open("meses.txt") as file:
    print(file.readline().strip())
    print(file.readline().strip())
    print(file.readline().strip())

1 ene
2 feb
3 mar


El problema con esta última aproximación es que, si se utiliza un lazo para tener acceso a cada una de las lineas, es necesario condicionar este lazo para saber en que momento debemos de dejar de leer las líneas del archivo. Una forma mejor de tener acceso a cada línea es utilizar el cursor de un archivo como un iterable, es decir, como parte de un lazo for:

In [37]:
with open("meses.txt") as file:
    for line in file:
        print(line.strip())

1 ene
2 feb
3 mar
4 abr
5 may
6 jun
7 jul
8 ago
9 set
10 oct
11 nov
12 dic


Recuerde que al trabajar con un archivo de texto se esta operando con valores tipo `str` (un `str` de entrada para la escritura, un `str` de salida para la lectura. Esto último es importante: para trabajar con los valores puede ser necesario hacer una conversion de valores. Por ejemplo, el archivo `numeros.txt` contiene la siguiente información:

In [36]:
with open("numeros.txt") as file:
    text = file.read()

print(text)

1 1
1 2
1 3
1 4
1 5
1 6
1 7
1 8
1 9
1 10


Si generamos una tabla de multiplicación a partir de esta información, tendremos el siguiente resultado:

In [41]:
with open("numeros.txt") as file:
    for line in file:
        num1, num2 = line.strip().split()
        print(f"{num1} x {num2} = {num1 * num2}")

TypeError: can't multiply sequence by non-int of type 'str'

Esto error se debe a que las variables `num1` y `num2` son de tipo `str`. Hay que hacer la conversión si se desea operar con ellos como si fueran valores numéricos:

In [42]:
with open("numeros.txt") as file:
    for line in file:
        num1, num2 = line.strip().split()
        print(f"{num1} x {num2} = {int(num1) * int(num2)}")

1 x 1 = 1
1 x 2 = 2
1 x 3 = 3
1 x 4 = 4
1 x 5 = 5
1 x 6 = 6
1 x 7 = 7
1 x 8 = 8
1 x 9 = 9
1 x 10 = 10


Así también, si se quiere guardar datos sobre un archivo de texto, la información debe de ser tipo `str` y nos estamos asegurando de eso a cada momento utilizando un f-string para generar las lineas con información.

In [45]:
# mode 'a' anexa nuevas lineas sobre un archivo
with open("numeros.txt", mode='a') as file:
    for mult in range(11, 21):
        # El valor entero generado por range se convierte en parte de un str
        file.write(f"1 {mult}\n")    