# Archivos en Python
Python puede acceder al File System del Sistema Operativo para leer o escribír archivos, ya sea de texto o binarios. vamos a trabajar con archivos del primer tipo.

Para Python, un archivo es un recurso al que se accede por medio de un Objeto Archivo (_file object_). Este objeto o manejador (_handler_) es el que permite realizar las operaciones de lectura/escritura (_read/write_) sobre un archivo.

NOTA: ¡Tenga precaución al momento de operar con archivos! Puede borrar información importante en el sistema Operativo.

## Filesystem y archivos
El *filesystem* es la organización de los datos en el medio de almacenamiento por parte del sistema operativo. Para trabajar con soltura con archivos hay manejarse tambien así con el *filesystem*. En Windows, Linux y OS X, los archivos se organizan en un árbol de directorios que cuelgan de un nodo principal o archivo *root* (C:\ en Windows en caso del disco con esta etiqueta, o *./* en el caso de OSX o Linux). Todos los archivos estan ubicados en un sitio especifico dentro del *filesystem* y la forma de especificar esta dirección es con una ruta o *path*.

Por ejemplo, el archivo *proyecto1.py* puede estar alojado (en Windows) en la ruta *C:\Usuarios\elvio\Documentos*

![](https://www.december.com/unix/tutor/tree1.gif)


### La librería os
Tradicionalmente, la gestión de las rutas en Python se hace utilizando las herramentas disponibles en la librería `os` para el control de las operaciones del sistema operativo. Por ejemplo, para definir la ruta anterior, sin importar el sistema operativo donde se este ejecutando el script (en Windows el separador de rutas es el caracter `\`, mientras que el Linux y OS es `/`), se puede definir el siguiente script:

In [9]:
import os

# Definicion de una ruta absoluta
PATH = os.path.join("C:", os.sep, "Usuarios", "elvio", "Documentos", "proyecto1.py")
print(PATH)
print(type(PATH))

C:\Usuarios\elvio\Documentos\proyecto1.py
<class 'str'>


NOTA: _Las siguientes celdas se deben ejecutar en secuencia completa y una sola vez para obtener resultados correctos_

Se puede también obtener información sobre el directorio actual de trabajo (_current working directory_):

In [10]:
cwd = os.getcwd()
print("Directorio de trabajo:", cwd)

Directorio de trabajo: C:\Users\Asus\OneDrive\Escritorio\Material 2024-1\Programacion


Se puede escoger el directorio de trabajo cambiando de directorio (_change dir_), por ejemplo al directorio padre (el directorio `..`):

In [11]:
cwd = os.getcwd()
print("Directorio de trabajo:", cwd)

os.chdir("..")
print(os.getcwd())

Directorio de trabajo: C:\Users\Asus\OneDrive\Escritorio\Material 2024-1\Programacion
C:\Users\Asus\OneDrive\Escritorio\Material 2024-1


Se puede asi también crear directorios (_make dir_):

In [12]:
# Se crea un nuevo directorio (subdirectorio sobre el directorio de trabajo)
directory = "new_dir"
os.mkdir(directory)

# Se cambia el directorio de trabajo al nuevo directorio
os.chdir("new_dir")
print(os.getcwd())

C:\Users\Asus\OneDrive\Escritorio\Material 2024-1\new_dir


Así también, se puede eliminar un directorio (_remove directory_) como el creado anteriormente:

In [13]:
# Se debe de regresar al directorio padre para poder borrar el directorio hijo
os.chdir("..")
os.rmdir(directory)

Cualquier acceso a un directorio o archivo (en general, a un recurso en el _Filesystem_) inválido, genera una excepción de tipo `IOError`:

In [16]:
try:
    os.chdir(directory)
except:
    print(f"Directorio '{directory}' no existe en la ruta")

Directorio 'new_dir' no existe en la ruta


Por útimo, se puede obtener el contenido de un directorio haciendo un listado del directorio:

In [17]:
print(os.listdir())

['.ipynb_checkpoints', 'Avanzada', 'Programacion']


Hay más herramientas en la librería `os` (como `os.path.isdir()` para saber si un recurso en un directorio o `os.path.isfile()` para saber si es un archivo, etc) que escapan a esta introducción del filesystem, pero con lo información anterior podrá gestionar los archivos en el filesystem de su sistem operativo

## Archivos de texto
Para abrir un archivo de texto utilizamos la función `open`. El acceso a un archivo de texto se da en diferentes modos que deben ser especificados:

    mode = 'r'      Se desea leer (read) el archivo. Este archivo debe de existír
    mode = 'w'      Se desea escribir (write) en el arvhivo. Si el archivo no existe este se crea y si existe se sobreescribe
    mode = 'a'      Se desea agregar (append) sobre un archivo. Si el archivo no existe se crea
    
Otra especificación opcional es el interprete de codificación de los caracteres. A veces se leen archivos de texto cuyas caracteres no son reconocidos (nos arroja un error `charmap`):

    encoding = 'utf-8'    Interpreta los caracteres segun la codificación UTF-8
    encoding = 'latin-1'  Interpreta los caracteres segun la codificacion en español en casos especiales
    
Consideremos, como ejemplos, que se quiere almacenar esta información en un archivo que llamaremos `meses.txt` que tenga el siguiente formato:
    
    1  ene
    2  feb
    3  mar
    .
    .
    .
    10 oct
    11 nov
    12 dic
    
La secuencia de acciones al momento de trabajar con archivos de texto es la siguiente:

<img src="https://ucarecdn.com/c0f593fb-5ab5-4c5d-aa03-4fc15b480a69/" alt="Drawing" style="width: 500px;"/>

In [1]:
meses: list[str] = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 'jul', 'ago', 'set', 'oct', 'nov', 'dic']

# Se abre el archivo de texto en modo escritura (si no existe se crea un archivo nuevo)
file = open("meses.txt", mode='w', encoding='utf-8')

# Se modifica el archivo
for idx, etiqueta in enumerate(meses):
    file.write(f"{idx+1:2} {etiqueta}")

# Se cierra el archivo
file.close()

Debe de haberse generado un nuevo archivo en el directorio de trabajo. Reviselo. ¿Tiene la información según lo esperado? Vamos a leer el archivo generado utilizando Python:

In [None]:
file = open("meses.txt", mode='r', encoding='utf-8')
texto = file.read()
file.close()

print(texto)

¿Qué es lo que esta faltando? Los saltos de línea. Estos son caracteres que son parte de la información y también tienen  que considerarse.

In [2]:
meses: list[str] = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 'jul', 'ago', 'set', 'oct', 'nov', 'dic']

# El modo 'w' sobreescribe el archivo...
file = open("meses.txt", mode='w', encoding='utf-8')

# Se modifica el archivo
for idx, etiqueta in enumerate(meses):
    file.write(f"{idx+1:2} {etiqueta}\n")

# Se cierra el archivo
file.close()

In [3]:
file = open("meses.txt", mode='r', encoding='utf-8')
texto = file.read()
file.close()

print(texto)

 1 ene
 2 feb
 3 mar
 4 abr
 5 may
 6 jun
 7 jul
 8 ago
 9 set
10 oct
11 nov
12 dic



## Context Manager: with
Otra forma de realizar lo mismo (y la forma preferida en Python) es utilizar un Context Manager, lo que es equivalente a crear un bloque `with`. Un bloque `with` asocia un objeto a un bloque y este se administra segun el contexto. Cuando el bloque termina, el objeto asociado se cierra de forma automática. Esto quiere decir que el archivo abierto, controlado por un bloque `with`, se cierra una vez terminado el bloque.

Consideremos resolver el ejemplo anterior utilizando un bloque `with`:

In [4]:
# Creamos el cursor con un bloque with y cuando este termine el archivo se cerrara
meses: list[str] = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 'jul', 'ago', 'set', 'oct', 'nov', 'dic']

with open("meses.txt", mode='w', encoding='utf-8') as file:
    for idx, etiqueta in enumerate(meses):
        file.write(f"{idx+1:2} {etiqueta}\n")     # \n: Salto de linea

In [5]:
# No utilizaremos el modo ya que por defecto es 'r' (lectura)
with open("meses.txt", encoding='utf-8') as file:
    texto = file.read()

print(texto)

 1 ene
 2 feb
 3 mar
 4 abr
 5 may
 6 jun
 7 jul
 8 ago
 9 set
10 oct
11 nov
12 dic



Note que el archivo se abre con `open` y se cierra con `close` y que entre estas funciones se realiza la escritura con `write` o la lectura con `read`.

## Un archivo como iterable
Así como se puede escribír el archivo línea por línea, también se puede acceder a cada línea, una por una, utilizando algunos métodos de un objeto archivo:

    * readline()         Retorna el str al que esta apuntando el cursor hasta \n 
                         (incluyendo el \n)
    * readlines()        Retorna una lista con las líneas del archivo de texto, 
                         incluyendo el \n al final de cada elemento
    
Probemos estos métodos:

In [6]:
# Utilizemos los parametros por defecto: lectura, encoding estandar
with open("meses.txt") as file:
    print(file.readline())
    print(file.readline())
    print(file.readline())
    

 1 ene

 2 feb

 3 mar



In [7]:
with open("meses.txt") as file:
    print(file.readlines())


[' 1 ene\n', ' 2 feb\n', ' 3 mar\n', ' 4 abr\n', ' 5 may\n', ' 6 jun\n', ' 7 jul\n', ' 8 ago\n', ' 9 set\n', '10 oct\n', '11 nov\n', '12 dic\n']


Note que el ejemplo de `readline()` (así como el de `readlines()`) incluye el caracter `\n`. Esto hace, por ejemplo, que la impresión de cada línea tenga un espacio en blanco entre cada línea (ya que la función `print` también incluye un salto de línea. Lo normal al momento de leer cada línea es no incluir el salto de línea. Para esto utiliremos el métodos de los string `strip()`:

In [8]:
with open("meses.txt") as file:
    print(file.readline().strip())
    print(file.readline().strip())
    print(file.readline().strip())

1 ene
2 feb
3 mar


El problema con esta última aproximación es que, si se utiliza un lazo para tener acceso a cada una de las lineas, es necesario condicionar este lazo para saber en que momento debemos de dejar de leer las líneas del archivo. Una forma mejor de tener acceso a cada línea es utilizar el cursor de un archivo como un iterable, es decir, como parte de un lazo for:

In [11]:
with open("meses.txt") as file:
    for line in file:
        print(line.strip())

1 ene
2 feb
3 mar
4 abr
5 may
6 jun
7 jul
8 ago
9 set
10 oct
11 nov
12 dic


Recuerde que al trabajar con un archivo de texto se esta operando con valores tipo `str` (un `str` de entrada para la escritura, un `str` de salida para la lectura. Esto último es importante: para trabajar con los valores puede ser necesario hacer una conversion de valores. Creemos un archivos `numeros.txt`

In [21]:
with open("numeros.txt", mode='w') as file:
    for num in range(1, 11):
        file.write(f"5 {num}\n")

Ahora, trabajemos con el archivo para mostrar información:

In [22]:
with open("numeros.txt") as file:
    text: str = file.read()

print(text)

5 1
5 2
5 3
5 4
5 5
5 6
5 7
5 8
5 9
5 10



Si generamos una tabla de multiplicación a partir de esta información, tendremos el siguiente resultado:

In [23]:
with open("numeros.txt") as file:
    for line in file:
        num1, num2 = line.strip().split()
        print(f"{num1} x {num2} = {num1 * num2}")

TypeError: can't multiply sequence by non-int of type 'str'

Esto error se debe a que las variables `num1` y `num2` son de tipo `str`. Hay que hacer la conversión si se desea operar con ellos como si fueran valores numéricos:

In [24]:
with open("numeros.txt") as file:
    for line in file:
        num1, num2 = line.strip().split()
        print(f"{num1} x {num2} = {int(num1) * int(num2)}")

5 x 1 = 5
5 x 2 = 10
5 x 3 = 15
5 x 4 = 20
5 x 5 = 25
5 x 6 = 30
5 x 7 = 35
5 x 8 = 40
5 x 9 = 45
5 x 10 = 50


Así también, si se quiere guardar datos sobre un archivo de texto, la información debe de ser tipo `str` y nos estamos asegurando de eso a cada momento utilizando un f-string para generar las lineas con información.

In [25]:
# mode 'a' anexa nuevas lineas sobre un archivo
with open("numeros.txt", mode='a') as file:
    for mult in range(11, 21):
        # El valor entero generado por range se convierte en parte de un str
        file.write(f"5 {mult}\n")   

---
## Archivos CSV
Un archivo CSV es un archivo de texto con un formato estándar. En este, los valores se guardan como valores de texto, separados por algun delimitador, usualmente una coma (",") de donde viene el nombre Comma Separated Value, aunque puede ser un espacio en blanco, un tabulador ("\t") o un punto y coma (";").

Los archivos CSV son reconocidos por las Hojas de Cálculo como Excel y ordena los datos por columnas a partir del delimitador. Hay que tomar en consideración que en los países donde se utiliza la "," como separador de miles, se debe de utilizar el ";" para que un archivo CSV sea reconocido por Excel. Al final, un archivo CSV es una Hoja de Cálculo simplificada, sin pestañas ni fórmulas.

Hay otro detalle a considerar: un CSV no se puede manipular como un archivo de texto al que lo podemos seprar utilizando `split(',')` ya que no todas las comas son separadores. Un CSV también tiene sus propios caracteres de escape, lo que permite que una coma pueda ser parte de los valores (como en el caso de un número escrito con la forma 1,200). Esa es la razón por la que siempre hay que usar la librería `csv` para escribir un archivo CSV.

Los marcadores de personal suelen generar archivos CSV diarios. Vamos a generar una simulación de esto:

In [26]:
empleados: list[list[str, str]] = [["2/3/2024 07:20", "Elvio Lado"], 
                                    ["2/3/2024 07:22", "Elmer Curio"], 
                                    ["2/3/2024 07:30", "Elba Lazo"], 
                                    ["2/3/2024 07:36", "Susana Oria"], 
                                    ["2/3/2024 07:49", "Armando Paredes"]]

Para almacenar estos datos como un archivo CSV en Windows (y solo en Windows) hay un recordar establecer el parametro `newline=''` para evitar que se generen líneas en blanco entre los registros (esto por razones técnicas que estan detalladas [aqui](https://docs.python.org/3/library/csv.html#id3)).

In [27]:
import csv

filename: str = "entrada.csv"
with open(filename, mode='w', newline='') as csv_file:
    writer = csv.writer(csv_file, delimiter=';')
    writer.writerow(["HORA", "EMPLEADO"])
    
    for registro in empleados:
        writer.writerow(registro)
        
print("Archivo generado:", filename)

Archivo generado: entrada.csv


En el código anterior hay algunos detalles a considerar:
    
* Se utiliza el parametro `newline=''` por ser Windows. En otro sistema operativo esta opción no se coloca
* Se establece un objeto `csv.writer` sobre el archivo abierto para escribir sobre este.
* En el writer se define el tipo de separador como ";" para que sea compatible con Excel (por defecto es ",")
* Se esta utilizando el método `writerow(registro)` para escribir los registros. También se pudo haber llamado al método `writerows(empleados)`
* Se escribe una lista con los nombres de las columnas de los datos. Esto es el encabezado
* Se esta obteniendo la ruta absoluta del archivo generado con `os.path.abspath` para saber donde esta ubicado el archivo generado

Si todo esta bien, podrá abrir el archivo desde Excel.

Ahora, leamos el archivo:

In [28]:
import csv

with open("entrada.csv") as file:
    reader = csv.reader(file, delimiter=';')
    next(reader)      # Con esto pasamos a la siguiente linea: eliminamos el encabezado
    
    for line in reader:
        print(f"* Nombre: {line[1]:20} Hora de ingreso: {line[0]}")

* Nombre: Elvio Lado           Hora de ingreso: 2/3/2024 07:20
* Nombre: Elmer Curio          Hora de ingreso: 2/3/2024 07:22
* Nombre: Elba Lazo            Hora de ingreso: 2/3/2024 07:30
* Nombre: Susana Oria          Hora de ingreso: 2/3/2024 07:36
* Nombre: Armando Paredes      Hora de ingreso: 2/3/2024 07:49


Detalles a considerar del código anterior:

* No es necesario especificar `newline=''`. Esto es solo para escirbir un archivo CSV
* No se especifica el modo al momento de abrir el archivo. El modo por defecto es lectura
* Se especifica un `csv.reader` para retornar una lista de datos a partir de cada línea de texto
* Se especifica el tipo de separador en el reader.
* Se estan utilizando los indices de la lista (en este caso, `line`) para mostrar los resultados.

También se puede utilizar la clase `DictReader` si se quiere retornar un diccionario a partir del CSV, donde las llaves del diccionario por filas se obtendrá de la información de la cabecera del CSV (esto es que solo funcionará si el archivo CSV contiene un encabezado). Esto puede retornar un código más limpio ya que no será necesario descartar el encabezado y se accede a los campos con mayor claridad.

In [29]:
import csv

filename; str = "entrada.csv"
with open(filename, encoding='utf-8') as file:
    reader = csv.DictReader(file, delimiter=';')

    for line in reader:
        print(f"* Nombre: {line['EMPLEADO']:20} Hora de ingreso: {line['HORA']}")

* Nombre: Elvio Lado           Hora de ingreso: 2/3/2024 07:20
* Nombre: Elmer Curio          Hora de ingreso: 2/3/2024 07:22
* Nombre: Elba Lazo            Hora de ingreso: 2/3/2024 07:30
* Nombre: Susana Oria          Hora de ingreso: 2/3/2024 07:36
* Nombre: Armando Paredes      Hora de ingreso: 2/3/2024 07:49
