<p><img src="https://progra-fing-usach.github.io/IMGs/logo-fing.png" alt="LogoUSACH" width="40%" align="right" hspace="10px" vspace="0px"></p>

# Archivos

## Definición

In [None]:
# Importación para cargar el propio directorio de Drive en Google Colab
from google.colab import drive
# La cuenta de Google Drive estará en la carpeta señalada
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Hasta ahora solo se ha trabajado obteniendo información solicitándola al usuario mediante el uso del teclado (con ayuda de la función `input()`), pero existen otras fuentes de donde poder obtener datos para poder realizar los procesos solicitados. En esta unidad, se extraerá la información desde archivos (también conocidos como ficheros). Estos se caracterizan por tener una **ruta** o dirección, un **nombre** específico y un formato determinado. Esta información es de vital importancia al momento de querer generar una extracción de datos, puesto que, de no tenerla o escribirla de manea errada, puede ocasionar que Python no logre la comunicación con el documento y, por ende, falle la extracción de información.

Considerando que este curso es una introducción a la programación, solo se trabajará con archivos de texto plano, los que pueden ser de solo texto (cuya extensión tradicional es `.txt`) y archivos de valores separados por coma (con extensión `.csv`, normalmente).

Para lograr extraer la información desde el documento, se debe trabajar con un nuevo tipo de objeto, el cual se conoce como **`File`**, y entrega las herramientas necesarias (métodos) para poder interactuar con los archivos mencionados.

## Generalidades sobre archivos

## Sistemas de Archivos

En términos burdos, un **archivo** es un compartimiento de almacenamiento en el computador, que es manejado por el sistema operativo. Estos compartimientos corresponden a cadenas de datos (en forma de cadenas de bytes) que residene en algún sistema de almacenamiento, generalmente persistente (como un disco duro, uno de estado sólido, una memoria flash, etc.), es decir, que no se pierde cuando uno apaga el sistema (como es el caso de la memoria RAM: una vez apagamos el computador, todo lo que tenía esta, se pierde).

Llamamos **sistema de archivos** a la forma en que se organizan los archivos y carpetas dentro de un sistema computacional. Un **directorio** o **carpeta** es una colección de archivos y otros directorios. Esto significa que hay una jerarquía de directorios: el más alto es la **raíz**, que viene de que tratamos la relación entre directorios como un árbol, donde los archivos son las "hojas" y los directorios, las "ramas".

Dos de los modelos de sistema de archivos más importantes son los utilizados por sistemas Windows y por sistemas basados en Unix, como Linux o MacOS:
- Windows utiliza una organización donde, por defecto, cada unidad de disco tiene su propia raíz. Por ejemplo, el disco donde normalmente está instalado el sistema en equipos nuevos es `C:` y el directorio con el sistema operativo es `C:\Windows` y la que contiene a los usuarios, `C:\Users`. Si tenemos el directorio de usuarios en otra unidad de disco, por ejemplo, `D:`, entonces la ubicación de esta sería `D:\Users`. Si tenemos un usuario llamado "Fulano", sus archivos estarán en `D:\Users\Fulano`. Nota que el nombre de cada directorio se separa de su padre o su hijo con el caracter *backslash* (`\`).

<div style="text-align:center">
    <img src="http://www.eprisner.de/CPT105/PicFiles/tree.gif" />
</div>

**Figura 1:** Ejemplo de árbol de directorios en un sistema Windows. Cada unidad es una raíz independiente.

- Los sistemas basados en Unix utilizan un único árbol de directorios, donde las diferentes unidades de discos se "montan" en carpetas dentro de esta estructura. El directorio raíz es `/` y suelen tener una carpeta llamada `home` para los datos de los distintos usuarios. Si tenemos un usuario llamado "fulano" (los nombres de usuario en Linux son en minúsculas), su carpeta de usuario estaría en `/home/fulano`. Si tenemos un disco duro que hemos llamado "datos", podemos montarlo en alguna carpeta como `/mount` y su ubicación sería `/mount/datos`.

<div style="text-align:center">
    <img src="https://4.bp.blogspot.com/-iU-fdru9JEQ/XJVIJnSpGuI/AAAAAAAAA5Q/YmfPmTHXvAgvUbiAOiBJXC9hNnlYX1pigCLcBGAs/s1600/File_Tree.png" />
</div>

**Figura 2:** Ejemplo de árbol de directorios en un sistema Linux. Una sola raíz para todo el sistema.

### Rutas y Nombres de Archivos

Es posible tener en el mismo sistema dos o más archivos con el mismo nombre, así que surge la pregunta: ¿cómo los distinguimos? Por su **ruta** (en inglés, se habla de su *path*). La ruta de un archivo (o directorio) es la secuencia de directorios que debemos recorrer para llegar al archivo (o directorio).

En sistemas basados en Unix, se separa cada elemento de la ruta por *slash* (`/`), mientras que, en Windows, por *backslash* (`\`). Así, si tenemos un archivo llamado `potato.txt` que está guardado en la carpeta "Documents" de mi carpeta de usuario, siendo mi nombre de usuario "Fulano", la ruta de este archivo sería:
- En Windows: `C:\Users\Fulano\Documents\potato.txt` (es decir, en el disco `C:`, ve a la carpeta Users; de allí, a Fulano; a continuación, a Documents, y dentro de ella, está el archivo).
- En Linux: `/home/fulano/Documents/potato.txt` (es decir, desde la raíz, ve a la carpeta home, luego a fulano, siguiendo con Documents y allí está el archivo).

Este tipo de ruta se conoce como **ruta absoluta**, porque declaramos el camino *absoluto* que hacemos  para llegar desde la raíz hasta el elemento que queremos acceder.

#### Ruta Relativa y Directorio de Trabajo

Todo programa que ejecutamos tiene un **directorio de trabajo**, es decir, el directorio en el que está siendo ejecutado nuestro programa. En Python, lo podemos obtener gracias al módulo `os` (si recuerdas, este es para cosas que tengan que ver con el sistema operativo):

In [1]:
import os

# "cwd" son las iniciales de "current working directory", es decir,
# directorio actual de trabajo
print(os.getcwd())

/home/javier/workspace/usach/Material/Lecturas/08 - Archivos


Esto es relevante, pues existe otra forma de acceder a los archivos y directorios, que es mediante la **ruta relativa**: esta consiste en pensarlo como "a partir de este lugar, debes ir hacia ese otro directorio". Para ello, tenemos que considerar algunos elementos de la ruta:
- Cuando no decimos cuál es el directorio donde está el archivo, queremos decir "en este directorio". Por ejemplo, la ruta `entrada.txt` significa "en este directorio, el archivo 'entrada.txt'".
- El caracter punto (`.`) significa "este directorio". Un sinónimo del caso anterior es `./entrada.txt`: en este directorio, el archivo 'entrada.txt'.
- La combinación de dos puntos seguidos (`..`) significa "en el directorio superior" (también llamado "directorio padre"). Por ejemplo, `../../readme.md` significa "en el directorio superior, vamos al directorio superior a ese y allí está el archivo 'readme.md'".

(Recuerda cambiar `/` por `\` en Windows.)

Podemos mezclar esto de varias formas. Por ejemplo:
- `./../aquí`: el archivo o directorio "aquí" en la carpeta superior a la actual.
- `../Documents/archivo.docx`: el archivo "archivo.docx" que está en la carpeta Documents, que se encuentra en la carpeta superior a esta.

## Apertura de Archivos

Para lograr la comunicación deseada, lo primero que se necesita hacer es abrir el documento y realizar la lectura respectiva de la información que contiene el archivo. Para ello se utiliza el siguiente mecanismo:

```python
with open(<nombre_archivo_con_extensión>,<modo_acceso>) as <identificador>:
```

*   El **`nombre_archivo_con_extensión`**: es el nombre con el que se comunicará el programa. A modo de ejemplo, `"datos_covid.txt"`.
*   El **`modo_acceso`** es la sigla con la que se indica la acción que se desea realizar con el archivo de texto. Debe ser entregado en formato `string`. A nivel de curso, se verán tres opciones para acceder a un archivo:
   *   **`r`**: del inglés *reading*, indica que el archivo será abierto en modo **lectura**:
      *   El objeto File **podrá leer** la información del archivo, pero no está autorizado para modificarla.
      *   En caso de no existir el archivo, el programa **arrojará un mensaje de error** (`FileNotFoundError`).
      *   Este modo es el **modo por defecto**, por lo que si, al llamar a la función `open`, no se especifica el modo de acceso, este será **`r`**.
   *   **`w`**: del inglés *writing*, indica que el archivo será abierto en modo **escritura**:
      *   El objeto File **podrá escribir** información en el archivo.
      *   En caso de no existir el archivo, el programa **creará un archivo en blanco** con el nombre indicado **en la misma dirección** en el que se encuentra el programa.
      *   En caso de existir el archivo, el programa **borrará el contenido del archivo**.
   *   **`a`**: del inglés *append* , indica que el archivo será abierto en modo de añadidura o **agregación**. En este modo:
      *   El objeto File **podrá escribir** información en el archivo.
      *   En caso de no existir el archivo, el programa **creará un archivo en blanco** con el nombre indicado **en la misma dirección** en el que se encuentra el programa.
      *   Este caso de existir el archivo, el programa **escribirá luego del contenido del archivo**.

Con lo anterior, se ha establecido la comunicación que se trendrá con el archivo de texto. No obstante, aún no se indica cómo se leerá o escribirá información desde o hacia el archivo respectivo.

## Métodos de archivos

Para trabajar con archivos, Python ofrece algunas funciones y métodos propios del tipo de dato File.

Entre los métodos más comunes se pueden mencionar:

*   **`<archivo>.close()`**: indica que el archivo en uso debe **cerrarse**. Esto es necesario para que el archivo se guarde de manera correcta en el dispositivo de almacenamiento del equipo, es decir, enviar los datos desde la **memoria principal**, donde están siendo operados y consultados, al **disco duro** o unidad de datos, donde son almacenados de forma permanente. Cabe señalar que si se accede al archivo con el ambiente **with**, no es necesario cerrar el documento.
*   **`<archivo>.readlines()`**: método que devuelve una **lista** en donde cada elemento es una línea del archivo leído.
*   **`<archivo>.read()`**: método que devuelve un **string** con el contenido del archivo leído.
* **`<archivo>.readline()`**: método que lee línea a línea los contenidos de un archivo. Cada vez que lo invoco entrega una nueva línea. Retorna un string vacío cuando ya no quedan contenidos por leer.
*   **`<archivo>.write(<string>)`**: escribe un string en el archivo mencionado. Este string es el argumento del método `.write()`. Es importante mencionar que este método escribe un único string. Lo que significa que, si se desean escribir varios mensajes, se debe generar un único string mediante concatenaciones o repetir la operación `.write()` hasta completar el mensaje requerido. 

 * Este método, escribe exactamente el string que el usuario le entregue, por lo que es necesario incorporar un salto de línea cada vez que se utilice (`\n`) para pasar a la línea siguiente. 


A continuación se muestran dos ejemplos de lectura de un documento utilizado los métodos  **`<archivo>.read()`** y **`<archivo>.readlines()`** respectivamente.

Es importante destacar que los métodos de lectura, solo funcionan cuando el archivo está abierto en modo de lectura, mientras que los de escritura solo funcionan sobre archivos abiertos en modo de escritura o agregación.

In [None]:
# Ejemplo: lectura de archivo mediante el método .read()

### BLOQUE DE DEFINICIONES

## Definición de Funciones
def leer_archivo(nombre_archivo):
    """Función que lee la información de un archivo de texto plano (.txt)

    Entrada: 1 string (str)
    Salida: 1 lista (list)
    """
    with open(nombre_archivo,"r") as archivo:
        texto = archivo.read()
    return texto
    
### BLOQUE PRINCIPAL

## Entrada
# Se ingresa el nombre del archivo anteponiendo la dirección en donde se encuentra
nombre_archivo = "/content/drive/MyDrive/Proyecto Python/entrada.txt"
lectura = leer_archivo(nombre_archivo)

## Salida
print(lectura)

HOLA
Este es un texto de ejemplo
Soy un archivo .txt, por lo que almaceno texto sin formato, y la única información que guardo es el texto mismo


In [None]:
# Ejemplo: lectura de archivo mediante el método .readlines()

### BLOQUE DE DEFINICIONES
## Definición de Funciones
def leer_archivo(nombre_archivo):
    """Función que lee la información de un archivo de texto plano (.txt)
    Entrada: 1 string (str)
    Salida: 1 lista (list)
    """
    with open(nombre_archivo,"r") as archivo:
        lista_texto = archivo.readlines()
    return lista_texto
    
### BLOQUE PRINCIPAL
## Entrada
# Se ingresa el nombre delarchivo anteponiendo la dirección en donde se encuentra
nombre_archivo = "/content/drive/MyDrive/Proyecto Python/entrada.txt"
lectura = leer_archivo(nombre_archivo)

## Salida
print(lectura)

['HOLA\n', 'Este es un texto de ejemplo\n', 'Soy un archivo .txt, por lo que almaceno texto sin formato, y la única información que guardo es el texto mismo']


Para aterrizar los conceptos vistos, se propone un ejercicio en el que se desea saber la cantidad de consonantes que tiene un determinado archivo de texto plano. Una vez que se obtenga la cantidad de consonantes, se debe agregar un mensaje al documento indicando lo siguiente:

```
La cantidad de consonantes que hay en este documento es de ...
```

In [None]:
# Ejemplo: Programa que calcula la cantidad de consonante que tiene un archivo y lo informa en el mismo documento

### BLOQUE DE DEFINICIONES
## Definición de constantes
VOCALES = "AEIOU"


## Definición de Funciones
def leer_archivo(nombre_archivo):
    """Función que lee la información de un archivo de texto plano (.txt)

    Entrada: 1 string (str)
    Salida: 1 lista (list)
    """
    with open(nombre_archivo,"r") as archivo:
        texto = archivo.read()
    return texto


def calcular_consonantes(texto):
  """Función que calcula las consonantes en el texto

  Entrada: texto a evaluar (str)
  Salida: cantidad de consonantes (int)
  """
  texto = texto.upper()
  i = 0
  contador = 0

  while i < len(texto):
    if texto[i].isalpha() and not texto[i] in VOCALES:
      contador = contador + 1
    i = i + 1
  return contador


def escribir_archivo(nombre_archivo, contenido):
  """Función que añade la cantidad de consonantes al archivo

  Entradas: nombre del archivo (str) y cantidad de consonantes (int)
  Salida: True, si se realizó bien la escritura (fallo, en otro caso)
  """
  contenido = str(contenido)
  mensaje = "La cantidad de consonantes que hay en este documento es de" + contenido
  
  with open(nombre_archivo,"a") as archivo:
    archivo.write("\n\n" + mensaje)
  return True

    
### BLOQUE PRINCIPAL
## Entrada
# Se ingresa el nombre del archivo anteponiendo la dirección en donde se encuentra
nombre_archivo = "/content/drive/MyDrive/Proyecto Python/entrada.txt"
lectura = leer_archivo(nombre_archivo)

## Procesamiento
consonantes = calcular_consonantes(lectura)

## Salida
escribir_archivo(nombre_archivo,consonantes)

True

## Escritura usando `print()`

Adicionalmente es posible escribir en archivos usando directamente la función `print()`, esta tiene algunos parámetros interesantes que no hemos mencionado hasta el momento.

Estos parámetros especiales son de tipo keyword, es decir, debo usar su nombre para poder usarlos y son:
* `sep`: indica cuál es el caracter para separar los elementos a imprimir (por defecto es el caracter espacio)
* `end`: indica cuál es el caracter de fin (por defecto es un salto de línea)
* `file`: indica en qué archivo queremos guardar el resultado del print(), para Python, la consola en la cuál nos muestra los resultados es un archivo más, por lo que podemos redirigir el resultado de la función a un archivo distinto cambiando este parámetro.


Un ejemplo de escritura usando `print()` se presenta a continuación.

In [None]:
# Ejemplo: Escritura de dos líneas de texto en un archivo 'example.txt' usando print.
nota_pedro = 5.0
nota_juan = 6.7
with open('example.txt', 'w') as arc:
    print('Pedro', nota_pedro, sep=': ', file=arc)
    print('Juan', nota_juan, sep=': ', file=arc)


Vale la pena notar que en este caso no cambiamos el parámetro `end`, pues queremos que Python escriba un salto de línea al final de cada `print()`.

## PRECAUCIONES SOBRE ARCHIVOS



Un aspecto importante a considerar es que al usar archivos estamos manipulando directamente el disco duro de nuestro computador y por lo tanto podemos:
* Sobre-escribir elementos importantes.
* Corromper archivos existentes.
* Crear programas que agreguen información al disco duro hasta llenarlo.

Por ejemplo, el código presentado a continuación escribe 1.000 archivos en la misma carpeta del programa, sin embargo, si yo validara mal la condición del while e hiciera un ciclo infinito, podría construir un programa que creara millones de copias del archivo, como estas tienen nombres distintos, cada copia ocupará espacio en el disco hasta llenarlo. Esto lo podríamos conseguir cambiando un par de instrucciones en el siguiente código.



In [None]:
# Ejemplo: Programa que escribe 1.000 archivos con el mismo texto
i = 0
while i < 1000:
  nombre_archivo = 'archivo' + str(i) + '.txt'
  with open(nombre_archivo, 'w') as archivo:
    archivo.write('el mismo texto')
  i = i + 1

# Bibliografía

Ceder, V. L. (2010). Using the filesystem. En *The Quick Python Book* (2.a ed., p. 147). Manning Publications.

GeeksforGeeks. (2022, 16 mayo). *File Handling in Python*. Recuperado 5 de agosto de 2022, de https://www.geeksforgeeks.org/file-handling-python/

Shaw, Z. (2017). Reading files. En *Learn Python 3 the Hard Way* (p. 48). Addison-Wesley.