<h1>Leyendo y Escribiendo archivos en Python</h1>

Este cuaderno le enseñará a leer y escribir un archivo en Python. Al final de este laboratorio, sabrá cómo leer archivos de texto salvar las variables de su interés en un archivo etc.

<h2>Contenido</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li><a href="dwnld">Bajar datos</a></li>
        <li><a href="read">Leer archivos de texto</a></li>
        <li><a href="better">Una mejor forma de abrir archivos</a></li>
        <li><a href="write">Escribir y Guardar archivos</a></li>
        <li><a href="shelve">Uso de Pickle y Shelve para salvar datos</a></li>     
    </ul>
    <p>
        Tiempo estimado: <strong>40 min</strong>
    </p>
</div>

<hr>

<h3 id="dwnld"> Bajar datos de una URL de internet</h3>

Vamos a bajar un archivo de internet con wget, noten que para correr un comando de shell debo anteponer un <code>!</code> para que el interpreter lo tome como comando del sistema no de Python

In [None]:
# Bajar un archivo del repositorio de GitHub

!wget -O untexto.txt https://github.com/joiinar35/curso_ML/blob/main/untexto.txt

<h3 id='read'>Leyendo archivos de texto</h3>

Una forma de leer o escribir un archivo en Python es usar la función <code>open</code> incorporada. La función <code>open</code> proporciona un objeto File que contiene los métodos y atributos que necesita para leer, guardar y manipular el archivo. En este cuaderno, solo cubriremos archivos txt y csv. El primer parámetro que necesita es la ruta del archivo y el nombre del archivo. A continuación se muestra un ejemplo:

<img src="https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/PY0101EN/Chapter%204/Images/ReadOpen.png" width="500" />

 El argumento de modo es opcional y su valor por defecto es <b>r</b>. Aqui solo cubiremos los modos: 
<ul>
    <li><b>r</b> Read mode para leer archivos </li>
    <li><b>w</b> Write mode para escritura</li>
    <li><b>a</b> Append mode para adicionar info a un archivo ya existente</li>
</ul>

In [None]:
# Leer el archivo untext.txt y asignarlo a la variable example1

example1 = "untexto.txt"
file1 = open(example1, "r")

<p>Podemos checar los atributos de un archivo</p>

In [None]:
# imprime el path del archivo

file1.name

In [None]:
# imprime el modo del archivo,  'r', 'w' o 'a'

file1.mode

In [None]:
# Leemos el archivo y lo asaignamos a una variable

FileContent = file1.read()
FileContent

<p>El <code>\n</code> significa que fin de línea. Podemos imprimir el archivo en una forma mas prolija

In [None]:
# Imprime el archivo formateado correctamente

print(FileContent)

In [None]:
# Tipo del archivo FileContent

type(FileContent)

Debemos cerrar el objeto file1

In [None]:
# Cierro el objeto file1 al terminar

file1.close()

Esta forma de operar es un poco peligrosa debido a que si olvide cerrar el archivo al terminar u ocurre un fallo en la lectura/escritura del archivo puede que el proceso quede colgado indefinidamente.

<h3 id='better'>Una mejor manera de abrir un archivo</h3>
<p>El uso de la instrucción <code>with</code> es una práctica recomendada, ya que cierra automáticamente el archivo incluso si el código encuentra una excepción. El código ejecutará todo lo que haya en el bloque de sangría y, a continuación, cerrará el objeto de archivo.</p>

In [None]:
# Abre un archivo usando  "with"

with open(example1, "r") as file1:
    FileContent = file1.read()
    print(FileContent)

Podemos checar que el objeto file1 esta cerrado haciendo:

In [None]:
# Verifico que el objeto file1 esta cerrado

file1.closed

In [None]:
# Imprimimos el contenido del archivo

print(FileContent)

La sintaxis puede resultar un poco confusa ya que el objeto de archivo está después de la instrucción <code>as</code>. Tampoco cerramos explícitamente el archivo. Por lo tanto, resumimos los pasos en una figura:

<img src="https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/PY0101EN/Chapter%204/Images/ReadWith.png" width="500" />

No tenemos que leer todo el archivo, por ejemplo, podemos leer los primeros 4 caracteres introduciendo tres como parámetro en el método **.read()**:

In [None]:
# Leer los primeros cuatro caracteres

with open(example1, "r") as file1:
    print(file1.read(4))

Una vez que se invoca el método <code>.read(4)</code>, se devuelven los primeros 4 caracteres. Si volvemos a invocar al método, se llama a los siguientes 4 caracteres. La salida de la siguiente celda demostrará el proceso para diferentes entradas al método <code>read()</code>:

In [None]:
# Leer cierta cantidades de caracateres

with open(example1, "r") as file1:
    print(file1.read(4))
    print(file1.read(4))
    print(file1.read(7))
    print(file1.read(15))

El proceso se ilustra en la siguiente figura, y cada color representa la parte del archivo que se lee después de que se llama al método <code>read()</code>:

<img src="https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/PY0101EN/Chapter%204/Images/ReadChar.png" width="500" />

Aquí hay un ejemplo usando el mismo archivo, pero en su lugar leemos 16, 5 y luego 9 caracteres a la vez:

In [None]:
# Leer cierta cantidades de caracateres

with open(example1, "r") as file1:
    print(file1.read(16))
    print(file1.read(5))
    print(file1.read(9))

In [None]:
# Read certain amount of characters

with open(example1, "r") as file1:
    print(file1.read(16))
    print(file1.read(5))
    print(file1.read(9))

También podemos leer una línea del archivo a la vez usando el método <code>readline()</code>:

In [None]:
# Leer una linea

with open(example1, "r") as file1:
    print("first line: " + file1.readline())

Podemos usar un bucle para iterar a través de cada línea:

In [None]:
# Itera a traves de las lineas

with open(example1,"r") as file1:
        i = 0;
        for line in file1:
            print("Iteration", str(i), ": ", line)
            i = i + 1;

Podemos usar el método <code>readlines()</code> para guardar el archivo de texto en una lista:

In [None]:
# Lee todas las lineas de texto y lo salva como una lista

with open(example1, "r") as file1:
    FileasList = file1.readlines()

Cada elemento de la lista corresponde a una línea de texto:

In [None]:
# Imprimir la 1a linea

FileasList[0]

In [None]:
# Imprime la 2da Linea

FileasList[1]

In [None]:
# Imprime la 3ra linea

FileasList[2]

<h3> Escribir y Guardar Archivos</h3>

Podemos abrir un objeto de archivo usando el método <code>write()</code> para guardar el archivo de texto en una lista. Para escribir el modo, el argumento debe establecerse en escribir <b>w</b>. Escribamos un archivo <b>Example2.txt</b> con la línea: "Esta es la línea A"

In [None]:
# Escribe una linea al archivo 

with open('/resources/data/Example2.txt', 'w') as writefile:
    writefile.write("Esta es la linea A")

Podemos leer el archivo para ver si funcionó:

In [None]:
# Leo el archivo

with open('/resources/data/Example2.txt', 'r') as testwritefile:
    print(testwritefile.read())

Podemos escribir multiple lineas:

In [None]:
# Escribo lineas al archivo

with open('/resources/data/Example2.txt', 'w') as writefile:
    writefile.write("Esta es la linea A\n")
    writefile.write("Esta es la linea B\n")

El método <code>.write()</code> funciona de manera similar al método <code>.readline()</code>, excepto que en lugar de leer una nueva línea, escribe una nueva línea. El proceso se ilustra en la figura, el código de colores diferente de la cuadrícula representa una nueva línea agregada al archivo después de cada llamada al método.

<img src="https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/PY0101EN/Chapter%204/Images/WriteLine.png" width="500" />

Podemos checar si el resultado es el correcto

In [None]:
# Checo si escribio el archivo

with open('/resources/data/Example2.txt', 'r') as testwritefile:
    print(testwritefile.read())

 Al establecer el argumento mode para anexar **a**, puede anexar una nueva línea de la siguiente manera:

In [None]:
# Anexa una nueva liena de texto al archivo

with open('/resources/data/Example2.txt', 'a') as testwritefile:
    testwritefile.write("This is line C\n")

Puede verificar que el archivo ha cambiado ejecutando la siguiente celda:

In [None]:
# Verifique si la nueva línea está en el archivo de texto

with open('/resources/data/Example2.txt', 'r') as testwritefile:
    print(testwritefile.read())

Podemos salvar la lista a un archivo de texto <b>.txt</b> como sigue:

In [None]:
# Lista de textos

Lines = ["This is line A\n", "This is line B\n", "This is line C\n"]
Lines

In [None]:
# Escriba los elementos de la lista en un archivo de texto

with open('Example2.txt', 'w') as writefile:
    for line in Lines:
        print(line)
        writefile.write(line)

 Podemos verificar que el archivo está escrito leyéndolo e imprimiendo los valores:

In [None]:
# Comprobar si la escritura en el archivo se ha ejecutado correctamente

with open('Example2.txt', 'r') as testwritefile:
    print(testwritefile.read())

Podemos volver a añadir al archivo cambiando el segundo parámetro <b>r</b> a <b>a</b>. Esto agrega el código:

In [None]:
# Anexa una linea mas al archivo

with open('Example2.txt', 'a') as testwritefile:
    testwritefile.write("This is line D\n")

We can see the results of appending the file: 

In [None]:
# Compruebe si la anexión se ha ejecutado correctamente

with open('Example2.txt', 'r') as testwritefile:
    print(testwritefile.read())

<h3 id='shelve'>Uso de Pickle y Shelve para salvar datos</h3>

En Python podemos slavar nuestras variables luego de una sesión de trabajo mediante dos formas:
- <b>Mediante el uso de pickle:</b> los objetos se salvan como un flujo de bits en un único archivo binario
- <b>Mediante el uso de shelve:</b>  Shelve actúa sobre pickle e implementa un diccionario de serialización donde los objetos son "pickleados" y asociados con una clave. Por los tanto, podemos cargar nuestros datos "shelved" y acceder a cada uno de los objetos guardados mediante claves com0o si se tratara de un diccionario.

Pikle es útil para salvar una variable. Como alternativa para salvar muchas variables con Pickle, es construir un diccionario con las variables que deseamos guardar y serializar el diccionario entero.
Desde el punto de vista operativo la cantidad de trabajo es similar, PERO shelve a algunos les resulta más intuitivo.

Todos los archivos pickle y shelve se guardan en general con extensión <b>.p</b> y <b>.db</b> en Python 3

In [None]:
# importamos el modulo pickle
import pickle

# creamos una lista de nombres
name_list = ['Ana', 'Monica', 'Juan', 'Pedro', 'Carlos', 'Tita']

# Salvamos el objeto 'names'

with open('arch_pickle.p', 'wb') as pfile:
    pickle.dump(name_list, pfile)
    pfile.close()

Checamos que se haya creado el archivo <b>.p</b>

In [None]:
# importamos el modulo pickle (si ya se importo no lo hacemos)

import pickle

with open('arch_pickle.p', 'rb') as pfile:
    name_list = pickle.load(pfile)
    print(name_list)
    pfile.close()

Ahora usaremos <b>shelve</b> para salvar un par de variables predefinidas

In [None]:
# Creamos un par de objetos

# Una lista de nombres
name_list = ['Ana', 'Monica', 'Juan', 'Pedro', 'Carlos', 'Tita']

# Un archivo de texto


!wget -O untexto.txt  https://github.com/joiinar35/curso_ML/raw/refs/heads/main/untexto.txt

with open('untexto.txt', 'r') as txtfile:
    example = txtfile.read()
    print(example)
    
    


In [None]:
# Salvo amba variables en un archivo shelve
import shelve

with shelve.open('arch_shelve.dat', 'c') as shelf:
    shelf['name_list'] = name_list
    shelf['example'] = example    


Checamos que se haya creado el archivo <b>.dat.db</b> y listamos las claves

In [None]:
import shelve

with shelve.open('arch_shelve.dat', 'r') as shelf:
    for key in shelf.keys():
        print(shelf[key])

Podemos ir recuperando las variables mediante sus claves 

In [None]:
with shelve.open('arch_shelve.dat', 'r') as shelf:
    name_list = shelf['name_list']
    example = shelf['example']

### Funciones disponibles con Shelve

|Method| Description |
|------|-------------------------------------|
|<b>open()</b>| Open persistent dictionary object |
|<b>close()</b>| Synchronize and close persistent dictionary objects. |
|<b>sync()</b>| Write back all entries in the cache since the shelf was opened with the writeback set to True. |
|<b>get()</b>| Returns value associated with a key |
|<b>items()</b>| Tuples list |
|<b>keys()</b>|	List of shelf keys |
|<b>pop()</b>| Remove the specified key and return the corresponding value.|
|<b>update()</b>| Update shelf from another dictionary/iterable |
|<b>values()</b>| List of shelf values |

<b>Felicidades!</b> llegaste al ultimo ejercicio