
<img style="float: left;;" src='Figures/alinco.png' /></a>

# Introducción: Trabajando Con Archivos de Texto
___

En esta sección trabajaremos:

 * Con f-strings para impresión de texto
 * Con archivos: abrir, leer, escribir y agregar archivos de texto

## f-strings

Introducido en Python 3.6, <strong> f-strings </strong> ofrece varios beneficios sobre el antiguo método de impresión de una cadena `.format ()`. <br> Por un lado, puede traer variables externas inmediatamente a la cadena en lugar de pasarlas como argumentos en la función:

In [2]:
name='Gaddiel'

# Using the old .format() method:
print('Mi nombre es {var}'.format(var=name))

# Using f-strings:
print(f'Mi nombre es: {name}')

Mi nombre es Gaddiel
Mi nombre es: Gaddiel


Agregando `!r` se obtiene <strong>la representación de la cadena</strong>:

In [3]:
print(f'Mi nombre es: {name!r}')

Mi nombre es: 'Gaddiel'


Hay que tener cuidado de no permitir que las comillas en los campos de reemplazo entren en conflicto con las comillas utilizadas en la cadena exterior:

In [4]:
d = {'a':123, 'b':456}
print(f'dirección: {d['a']} calle')

SyntaxError: invalid syntax (Temp/ipykernel_39416/1704976406.py, line 2)

En vez de eso, hay que usar diferentes estilos de comillas:

In [5]:
d = {'a':123, 'b':456}
print(f"dirección: {d['a']} calle")

dirección: 123 calle


### Anchos mínimos, alineación y rellenado
Podemos pasar argumentos dentro de un conjunto anidado de llaves para establecer un ancho mínimo para el campo, la alineación e incluso los caracteres de relleno.

In [6]:
biblioteca = [('Autor', 'Tipo', 'Páginas'),('Twain', 'Rafting', 601),('Feyman', 'Physisc', 95),
              ('Hamilton', 'Mythology',144)]

In [7]:
biblioteca

[('Autor', 'Tipo', 'Páginas'),
 ('Twain', 'Rafting', 601),
 ('Feyman', 'Physisc', 95),
 ('Hamilton', 'Mythology', 144)]

In [8]:
for libros in biblioteca:
    print(f'{libros[0]:{10}} {libros[1]:{8}} {libros[2]:{7}}')

Autor      Tipo     Páginas
Twain      Rafting      601
Feyman     Physisc       95
Hamilton   Mythology     144


Aquí las primeras tres líneas se alinean, excepto que `Pages` sigue una alineación predeterminada a la izquierda, mientras que los números están alineados a la derecha. Además, el número de página de la cuarta línea se desplaza hacia la derecha ya que "Mitología" supera el ancho de campo mínimo de "8". Al configurar los anchos de campo mínimos, asegúrese de tener en cuenta el elemento más largo.

Para establecer la alineación, utilice el carácter `<` para alinear a la izquierda, `^` para el centro, `>` para la derecha. <br>
Para configurar el relleno, preceda el carácter de alineación con el carácter de relleno (`-` y` .` son opciones comunes).

Hagamos algunos ajustes:

In [9]:
for libros in biblioteca:
    print(f'{libros[0]:{10}} {libros[1]:{10}} {libros[2]:.>{7}}')
    

Autor      Tipo       Páginas
Twain      Rafting    ....601
Feyman     Physisc    .....95
Hamilton   Mythology  ....144


### Formato de fecha

In [10]:
from datetime import datetime

today = datetime(year=2024, month=1, day=19)
print(f'{today: %B %d, %Y}')

 January 19, 2024


Para mayor información: https://docs.python.org/3/reference/lexical_analysis.html#f-strings

***

# Archivos

Python usa objetos de archivo para interactuar con archivos externos en su computadora. Estos objetos de archivo pueden ser cualquier tipo de archivo que tenga en su computadora, ya sea un archivo de audio, un archivo de texto, correos electrónicos, documentos de Excel, etc. Nota: Probablemente necesitará instalar ciertas bibliotecas o módulos para interactuar con esas diversas tipos de archivos, pero están fácilmente disponibles. 

Python tiene una función de apertura incorporada que nos permite abrir y jugar con tipos de archivos básicos. Sin embargo, primero necesitaremos un archivo. ¡Usaremos algo de magia de IPython para crear un archivo de texto!

## Creación de un archivo con IPython
#### ¡Esta función es específica de los cuadernos jupyter! Una manera alternativa es crear rápidamente un archivo .txt simple con algún editor de texto.

In [11]:
%%writefile primer_archivo.txt
Hola, este es un archivo de texto de prueba rápida.
Esta es una segunda lína del archivo

Writing primer_archivo.txt


## Abriendo un archivo en Python

### Hay que conocer la ubicación de nuestro archivo

Es fácil obtener un error en este paso:

In [12]:
myfile = open('archivo1.txt')

FileNotFoundError: [Errno 2] No such file or directory: 'archivo1.txt'

Para evitar este error, asegúrese de que su archivo .txt esté guardado en la misma ubicación que su computadora portátil. Para verificar la ubicación de su computadora portátil, use ** pwd **:

In [13]:
pwd

'C:\\Users\\uie70742\\OneDrive - ITESO\\ALINNCO\\IA_Master\\Procesamiento_Natural_del_Lenguaje_2024\\Modulo I'

**Alternativamente, para tomar archivos de cualquier ubicación en su computadora, simplemente pase la ruta completa del archivo.**

Para Windows, debe usar doble \ para que Python no trate el segundo \ como un carácter de escape, una ruta de archivo tiene la forma:

    myfile = open("C:\\Users\\YourUserName\\Home\\Folder\\myfile.txt")

Para MacOS y Linux hay que usar las diagonales invertidas:

    myfile = open("/Users/YourUserName/Folder/myfile.txt")

In [14]:
# Abrir el archivo text.txt creado anteriormente
myfile = open('C:\\Users\\uie70742\\OneDrive - ITESO\\ALINNCO\\IA_Master\\Procesamiento_Natural_del_Lenguaje_2024\\Modulo I\\primer_archivo.txt')

In [15]:
myfile

<_io.TextIOWrapper name='C:\\Users\\uie70742\\OneDrive - ITESO\\ALINNCO\\IA_Master\\Procesamiento_Natural_del_Lenguaje_2024\\Modulo I\\primer_archivo.txt' mode='r' encoding='cp1252'>

`my_file` es ahora un objeto de archivo abierto almacenado en la memoria. Realizaremos algunos ejercicios de lectura y escritura, y luego tendremos que cerrar el archivo para liberar memoria.

### .read() y .seek()

In [16]:
# Ahora podemos leer el archivo
myfile.read()

'Hola, este es un archivo de texto de prueba rÃ¡pida.\nEsta es una segunda lÃ\xadna del archivo\n'

In [17]:
# Pero que pasa si volvemos a leerla de nuevo?
myfile.read()

''

Esto sucede porque puedes imaginar que el "cursor" de lectura está al final del archivo después de haberlo leído. Entonces no queda nada por leer. Podemos restablecer el "cursor" así:

In [18]:
# Buscar el inicio del archivo (índice 0)
myfile.seek(0)

0

In [19]:
# Ahora lo leemos de nuevo
myfile.read()

'Hola, este es un archivo de texto de prueba rÃ¡pida.\nEsta es una segunda lÃ\xadna del archivo\n'

In [20]:
myfile.seek(5)

5

In [21]:
myfile.read()

' este es un archivo de texto de prueba rÃ¡pida.\nEsta es una segunda lÃ\xadna del archivo\n'

In [22]:
myfile.seek(1000)

1000

In [23]:
myfile.read()

''

### .readlines()
Puede leer un archivo línea por línea utilizando el método readlines. Tenga cuidado con los archivos grandes, ya que todo se guardará en la memoria. Aprenderemos cómo iterar sobre archivos grandes más adelante en el curso.

In [24]:
# Readlines devuelve una lista de las líneas en el archivo
myfile.seek(0)

0

In [25]:
myfile.readlines()

['Hola, este es un archivo de texto de prueba rÃ¡pida.\n',
 'Esta es una segunda lÃ\xadna del archivo\n']

In [28]:
myfile.seek(0)

0

In [29]:
lineas = myfile.readlines()

In [30]:
lineas

['Hola, este es un archivo de texto de prueba rÃ¡pida.\n',
 'Esta es una segunda lÃ\xadna del archivo\n']

Cuando haya terminado de usar un archivo, siempre es una buena práctica cerrarlo.

In [31]:
myfile.close()

## Escribir en un archivo

Por defecto, la función `open ()` solo nos permitirá leer el archivo. Necesitamos pasar el argumento `'w'` para escribir sobre el archivo. Por ejemplo:

In [32]:
# Agregue un segundo argumento a la función, 'w' que significa escribir.
# Agregando 'w +' nos permite leer y escribir en el archivo
myfile = open('test.txt', 'w+')



<div class="alert alert-danger" style="margin: 20px">**Cuidado!**<br>
Abrir un archivo con 'w' o 'w +' * trunca el original *, lo que significa que todo lo que estaba en el archivo original ** se elimina **.</div>

In [33]:
# Escribir en un archivo
myfile.write('Esta es una nueva linea en el archivo.')

38

In [34]:
# Leer el archivo
myfile.seek(0)

0

In [35]:
myfile.read()

'Esta es una nueva linea en el archivo.'

In [36]:
 # siempre haz esto cuando hayas terminado con un archivo
myfile.close()    

## Agregar a un archivo
Pasar el argumento `'a'` abre el archivo y coloca el puntero al final, por lo que se agrega todo lo escrito. Como `` 'w +' '', `` 'a +' 'nos permite leer y escribir en un archivo. Si el archivo no existe, se creará uno.

In [37]:
myfile = open('test.txt','a+')
myfile.write('\nEsta linea es el comienzo del archivo')
myfile.write('\n aquí tienes otra linea')

24

In [38]:
myfile.seek(0)
print(myfile.read())

Esta es una nueva linea en el archivo.
Esta linea es el comienzo del archivo
 aquí tienes otra linea


In [39]:
myfile.close()

### Anexando con `%% writefile`
Con jupyter notebook también se pueden hacer lo mismo con una celda mágica de IPython:

In [40]:
%%writefile -a test.txt

esta es otra linea con writefile en jupyter notebook.
y aqui otra linea con jupyter

Appending to test.txt


Agregamos un espacio en blanco si desea que la primera línea comience en su propia línea, ya que Jupyter no reconocerá secuencias de escape como `\ n`

In [41]:
myfile = open('test.txt','a+')

In [43]:
myfile.seek(0)

0

In [44]:
myfile.read()

'Esta es una nueva linea en el archivo.\nEsta linea es el comienzo del archivo\n aquí tienes otra linea\nesta es otra linea con writefile en jupyter notebook.\ny aqui otra linea con jupyter\n'

In [45]:
myfile.close()

## Alias y gestores de contexto
Podemos asignar nombres de variables temporales como alias y administrar la apertura y el cierre de archivos automáticamente utilizando un administrador de contexto:

In [47]:
with open('test.txt', 'r') as txt:
    first_line = txt.readlines()[0]
print(first_line)

Esta es una nueva linea en el archivo.



Tenga en cuenta que el administrador de contexto `with ... as ...:` cerró automáticamente `test.txt` después de asignar la primera línea de texto a first_line:

In [48]:
txt.read()

ValueError: I/O operation on closed file.

## Iterar sobre un archivo

In [49]:
  # the end='' argument removes extra linebreaks
with open('test.txt', 'r') as txt:
    for line in txt:
        print(line, end='')

Esta es una nueva linea en el archivo.
Esta linea es el comienzo del archivo
 aquí tienes otra linea
esta es otra linea con writefile en jupyter notebook.
y aqui otra linea con jupyter


In [51]:
with open('test.txt', 'r') as txt:
    lines = txt.readlines()
print(lines)

['Esta es una nueva linea en el archivo.\n', 'Esta linea es el comienzo del archivo\n', ' aquí tienes otra linea\n', 'esta es otra linea con writefile en jupyter notebook.\n', 'y aqui otra linea con jupyter\n']


In [53]:
lines[0].split()

['Esta', 'es', 'una', 'nueva', 'linea', 'en', 'el', 'archivo.']