# Archivos

Las variables proveen únicamente almacenamiento *temporal* de los valores, para almacenar dichos valores de manera persistente es necesario utilizar archivos.

Los archivos:

* Proveen almacenamiento persistente
* Permiten el intercambio de información entre diferentes programas
* Pueden albergar los reportes generados por el programa

## Abrir un archivo

Para abrir un archivo, se utiliza la función `open`:

```python
open(nombre_archivo, modo="r")
```

| `modo` | Descripción |
|:-------:|:------------|
| `"r"`   | Abre el archivo en modo lectura (*read*).<br>Esta es la opción predeterminada.|
| `"w"`   | Abre el archivo en modo escritura (*write*).<br>Si el archivo ya existe, su contenido se sobreescribe.|
| `"a"`   | Abre el archivo en modo de adición (*append*).<br>Si el archivo ya existe, lo que se escribe, se añade al final del contenido previo.|
| `"r+"`  | Abre el archivo para leer y escribir.|

De manera predeterminada, los archivos se abren en **modo texto**, para abrirlos en modo binario, hay que agregar `"b"` al `modo` (`"rb"`, `"wb"`, etc.).

## Lectura de archivos

Para propósitos del ejercicio, vamos a crear un archivo de texto para, posteriormente, leerlo.

En la interfaz del *notebook*, podemos regresarnos a la página principal y seleccionar `Add file` y, después, `Create new file`.

![Create new file](assets\create-new-file.png "Crear un archivo nuevo")

Le damos un nombre, en este caso: `beatles.txt`, y escribimos el contenido del archivo:
```
John Lennon
Paul McCarthy
George Harrison
Ringo Star
```
![Create new text file](assets\beatles.png "Crear un archivo de texto")

Al final, hay que desplazarse hasta abajo de la página y dar clic en el botón `Commit new file`.

![Commit new file](assets\commit.png "Guardar el archivo")

Si trabajas en tu computadora, puedes usar tu editor favorito de archivos ***de texto*** (por ejemplo, el bloc de notas) para crear el archivo. No utilices ningún editor de archivos binarios (por ejemplo, Word) porque los programas no funcionarían.

A continuación, podemos leer el archivo de texto recién creado ejecutando la siguiente celda.

In [None]:
f = open("beatles.txt", "r")
for line in f:
    print(line)
f.close()   # Siempre hay que cerrar el archivo al terminar de trabajar con él.

Puedes observar que *los archivos son iterables* y que *cada una de las líneas* del archivo *es un elemento* del iterable.

También puedes observar que las líneas se imprimieron a doble espacio. ¿Por qué? 

Lo que sucede es que cada línea del archivo de texto termina con un carácter nueva línea (`"\n"`) que, al imprimirse, cambia de línea. Queda a doble espacio porque el `print`, de manera predeterminada, también termina las cadenas impresas con un carácter nueva línea.

El siguiente código nos permite visualizarlo utilizando la función `repr` (*representación*).

In [None]:
f = open("beatles.txt", "r")
for line in f:
    for caracter in line:
        print(repr(caracter), end=" ")
    print()
f.close()

Puedes observar, al final de cada línea, el carácter `"\n"`. 

Dependiendo del sistema operativo, algunos archivos de texto pueden terminar cada línea con la combinación de caracteres `"\r\n"`. También es posible que la última línea no tenga un carácter de fin de línea, dependiendo de cómo se haya creado.

Podemos usar el método `.strip` de la clase `str` para eliminar ese carácter de salto de línea al final. `.strip` también elimina la combinación `"\r\n"`. En realidad, `,strip` elimina el [espacio en blanco](https://docs.python.org/3/library/string.html#string.whitespace) al principio y al final de la cadena, como se indica en la [documentación de Python](https://docs.python.org/3/library/stdtypes.html#str.strip). 


In [None]:
f = open("beatles.txt", "r")
for line in f:
    print(line.strip())
f.close()


## Mejor práctica

Aunque el código anterior funciona, se considera una mejor práctica utilizar la función `open` dentro de un bloque `with`. De esta manera, el archivo se cierra automáticamente al terminar el bloque `with`.

De la siguiente manera:

In [None]:
with  open("beatles.txt", "r") as f:
    for line in f:
        print(line.strip())
# No se necesita f.close()

## Abrir varios archivos en un bloque `with`

Se pueden enumerar los archivos:

```python
with open(...) as f1, open(...) as f2, ...:
```

Por ejemplo:
```python
with (
    open("entrada.txt", "r") as f_in,
    open("salida.txt, "w") as f_out
    ):
    for line in f_in:
        f_out.write(line)
```

O se pueden anidar los bloques `with`:

```python
with open(...) as f1:
    with open(...) as f2:
        ...
```
Por ejemplo:
```python
with open("entrada.txt", "r") as f_in:
    with open("salida.txt, "w") as f_out:
        for line in f_in:
            f_out.write(line)
```


## Métodos del objeto archivo (`TextFile`)

| Método | Descripción |
| -------------- | ----------- |
| `.read(size)`  | Lee `size` bytes.<br>Si se omite `size`, lee todo el archivo. |
| `.readline()`  | Lee una línea del archivo, incluyendo el carácter nueva línea (`"\n"`) al final. |
| `.readlines()` | Lee a una lista todas las líneas deñ archivo, incluyendo los caracteres nueva línea. |
| `.write(string)`| Escribe el contenido de la variable `string` en el archivo.<br> Hay que añadir el carácter nueva línea (`"\n"`) si se requiere.<br>La variable `string` debe ser de tipo texto.<br>Regresa la cantidad de bytes escritos.|
| `.seek(offset,`<br>&nbsp;&nbsp;&nbsp;&nbsp;`from_what)`| Mueve el puntero del archivo `offset` bytes.<br>En modo texto sólo se usa `from_what=0`, para moverse relativo al inicio del archivo, o la forma `f.seek(0, 2)`, para moverse hasta el final. |
| `.close()` | Cierra el archivo. |

Recordar que los archivos se pueden iterar por línea sin necesidad de utilizar los métodos `read` y relacionados.

## Verificar la existencia de un archivo

Existen dos bibliotecas (*libraries*) populares para el manejo de archivos: `os.path` y `pathlib`.

Para verificar la existencia de un archivo con el módulo `os.path` [(documentación)](https://docs.python.org/3/library/os.path.html), podemos hacer algo como:

In [None]:
import os.path

file = "beatles.txt"
if os.path.isfile(file):
    print(f"El archivo '{file}' existe.")
else:
    print(f"El archivo '{file}' no existe.")

O podemos usar el módulo más moderno (y orientado a objetos) `pathlib` [(documentación)](https://docs.python.org/3/library/pathlib.html):

In [None]:
from pathlib import Path

files = ["beatles.txt", "data", "data/ejemplo.txt"]
for file in files:
    file = Path(file)
    if file.exists():
        if file.is_dir():
            print(f"{file.name} es una carpeta.")
        elif file.is_file():
            print(f"{file.name} es un archivo.")
    else:
        print(f"{file.name} no existe.")

## Ejemplo: Verificar la frecuencia de palabras en un archivo

Escribir una función que analice la frecuencia de las diferentes palabras contenidas en un archivo. La función recibirá como parámetros el nombre del archivo a analizar y el nombre del archivo de salida. En el archivo de salida, se escribira, en cada línea, una palabra, seguida de dos puntos y la cantidad de veces que la misma aparece en el archivo de entrada, en orden de mayor frecuencia de aparición. Adicionalmente, la función regresará como valor un diccionario con las palabras (clave) y sus frecuencias (valor), en el mismo orden.

Probar la función con el archivo `Asimov, Isasc - Cómo ocurrió.txt` de la carpeta `data`. Imprimir las diez palabras más frecuentes y las veces que aparecen en el archivo.

In [None]:
# -*- coding: utf-8 -*-

def frecuencia_palabras_en_archivo(archivo_entrada, archivo_salida):
    """Analiza la frecuencia con que ocurren diferentes palabras en un archivo
    de texto."""
    frecuencias = {}
    with open(archivo_entrada, "r") as f:
        # Leer cada línea
        for linea in f:
            # Dejar únicamente letras y espacios
            linea = linea.lower()
            letras = ""
            for caracter in linea:
                if caracter.isalpha() or caracter == " ":
                    letras += caracter
            palabras = letras.split()
            for palabra in palabras:
                if palabra in frecuencias:
                    frecuencias[palabra] += 1
                else:
                    frecuencias[palabra] = 1

    # Ordenar el diccionario por frecuencia
    # La colección .items() de un diccionario son las tuplas (clave, valor) que
    # lo conforman
    items = frecuencias.items()
    # Ordenarlo: sorted
    # en orden descendente: reverse=True
    # por frecuencia: la frecuencia es el segundo elemento de la tupla: item[1]
    # el parámetro key indica en base a qué se hace el ordenamiento,
    # lambda crea una función "anónima", es decir, sin nombre.
    # lambda item: item[1]
    # sería el equivalente a definir una función como la siguiente
    # (excepto por el nombre):
    # def nombre(item):
    #     return item[1]
    items = sorted(items, key=lambda item: item[1], reverse=True)
    # Convertir la colección de tuplas ordenadas en diccionario
    frecuencias = dict(items)

    # Escribir el archivo de salida
    with open(archivo_salida, "w") as f:
        for palabra in frecuencias:
            linea = f"{palabra}: {frecuencias[palabra]}\n"
            f.write(linea)
    # Regresar el diccionario
    return frecuencias

def main():
    """Probar la función"""
    archivo = "data/Asimov - How It Happened.txt"
    salida = "data/Asimov-análisis.txt"
    prueba = frecuencia_palabras_en_archivo(archivo, salida)
    # Mostrar las diez palabras más frecuentes
    i = 0
    for palabra in prueba:
        print(f"{palabra}: {prueba[palabra]}")
        i += 1
        if i >= 10:
            break

main()

## Ejemplo: Encriptar un archivo

El siguiente ejemplo utiliza una técnica muy sencilla de encriptamiento por desplazamiento. A cada carácter se le aplica un desplazamiento `x` y se reemplaza por el carácter que corresponda a dicho desplazamiento. Por ejemplo, si el desplazamiento es `2`, cada letra "A" se reemplazará por "C"; las "B" por "D", etc.

In [None]:
def encriptar(cadena, desplazamiento):
    """
    Encriptar una cadena aplicando el desplazamiento indicado. 
    Solo se encriptan letras y números, los signos de puntuación se dejan sin afectar.
    """
    salida = ""
    for letra in cadena:
        if letra.isalnum():
            letra = chr(ord(letra) +  desplazamiento)
        salida += letra
    return salida

In [None]:
from pathlib import Path

def encriptar_archivo(entrada, desplazamiento):
    """
    Encripta el archivo de entrada aplicando el desplazamiento indicado.
    El archivo de salida tiene el mismo nombre que el de entrada más
    la cadena: -CRIPTO.
    """
    archivo = Path(entrada)
    salida = str(archivo.with_stem(archivo.stem + "-CRIPTO"))
    with open(archivo, "r") as f_in, open(salida, "w") as f_out:
        for linea in f_in:
            f_out.write(encriptar(linea, desplazamiento))

Con las dos funciones definidas más arriba, podemos encriptar, por ejemplo, el archivo trabajado en el ejemplo anterior.

In [None]:
encriptar_archivo("data/Asimov - How It Happened.txt", 2)

## Ejercicio

El archivo `data\calificaciones.txt` contiene los nombres y calificaciones de los alumnos del curso de Algoritmos y Programación con el siguiente formato:

`Peter Parker 100 95 98 92`

Las calificaciones aparecen separadas del apellido y entre sí por un espacio. El número de calificaciones por alumno es variable.

Procesarlo y generar un archivo `data\promedios.txt` con el formato:

`PARKER, Peter: 96.3`

El formato consiste en el apellido del alumno en mayúsculas, separado por una coma de su nombre, dos puntos y, enseguida, el promedio de las calificaciones a un decimal.

Todos los alumnos tienen un solo nombre y un solo apellido.