# Archivos

## Introducción

Hasta el  momento, la información de entrada que manejan los programas la hemos ingresado a través de un sistema o proceso de lectura (`input`). Esa información puede ser incorporada por medio del teclado o mediante procesos interactivos a través de alguna interfaz de usuario, y es almacenada en la memoria principal de la computadora. 

Pero mucha de la información que alimenta a los programas no puede ser ingresada interactivamente cada vez que se inicia un programa. ¿Por qué razón? Por lo engorroso e ineficiente del sistema y porque la memoria principal de la computadora tiene una capacidad limitada.

Por ejemplo, imaginemos el caso de una empresa que posee un sistema informático
que maneja una cartera de 1000 clientes: sería impensable (al iniciar la jornada de trabajo) que el encargado de utilizar el software ingresara los datos de cada uno de los 1000 clientes de la empresa: apellido, nombres, DNI, dirección, localidad, fecha de nacimiento, datos laborales, saldo deudor, etc., cada día. Estos datos, que tienen un alto grado de permanencia en el tiempo, deben conservarse de alguna forma en algún soporte para que el programa acceda a ellos cuando los necesita. Esta información almacenada en forma permanente conforma estructuras denominadas archivos de datos.

¿Cómo llegaron los datos a esos archivos? Del mismo modo que existen procesos en
un programa para ingresar datos, hay otros procesos que permiten sacar (output)
datos del programa para ubicarlos en soportes de almacenamiento permanente (disco rígido, pendrive, tarjeta de memoria, etc.) controlados por dispositivos que se conectan a nuestra computadora. 

## Conceptos básicos
### ¿Qué es un archivo?
Definimos como archivo (también denominados fichero) a la estructura de información, compueta de una secuencia de bytes (secuencias de unos y ceros), que está relacionada, y es almacenada en forma permanente e independiente del programa que la utiliza.  

###Características de los archivos
* Siempre se hallan almacenados en soportes o dispositivos externos a la computadora.
* La información que contienen es independiente del programa que la utiliza.
* Los programas de tratamiento que acceden a esta información lo hacen a través de unidades lógicas: registros, variables simples, líneas.
* La información guardada en los archivos es permanente, hasta tanto una acción de un programa la modifique.

###Permanencia de la información de un archivo.
Los archivos contienen información que puede permanecer invariable en un lapso grande de tiempo, pero también pueden contener datos que deben actualizarse con cierta frecuencia; esto último se realiza a través de la información que se incorpora desde otros archivos o de datos que se ingresan interactivamente a través de alguna interfaz de usuario.

Las modificaciones de los datos de un archivo, que puede hacer un programa, está
supeditada a las características del soporte; por ejemplo, un CD Rom no permite que se re-escriba sobre él.

###Soportes de almacenamiento
Los archivos se almacenan en diferentes medios o soportes: discos rígidos (internos o externos, magnéticos o de estado sólido), memorias flash (pendrives, tarjetas de memoria), cintas magnéticas, CD Roms, etc., los cuales son controlados por dispositivos externos a la computadora: controladores del disco rígido, lector/grabador de CD, etc.

Habitualmente los archivos que son accedidos por los programas se almacenan en el disco de la computadora (disco rígido) y los otros medios se utilizan como soporte portable para llevar información de un lado a otro y como soporte de resguardo de información (*backup*). Además, el disco es de gran capacidad y vida útil al lado de los otros medios.

Un soporte también puede definir el modo en que el programa accede a los datos de un archivo. Por ejemplo: las cintas magnéticas no son direccionables y solo pueden ser accedidas secuencialmente; los CD ROMs solo pueden ser accedidos para operar archivos de entrada (lectura), pero son direccionales y admiten acceso directo a sus datos; los discos rígidos y las memorias flash son de lecto-escritura y direccionables.

###Tipos de archivos
Los archivos pueden clasificarse según la forma en que se organiza la información que contienen y la forma en que se accede a los datos. Tenemos:
* **Archivos secuenciales**: se acceden desde el primer registro de información en adelante.
* **Archivos de acceso directo**: permiten un posicionamiento directo sobre un
registro. Requieren que el soporte admita este direccionamiento.
* **Archivos secuenciales indexados**: se almacenan secuencialmente pero admiten
el acceso selectivo a través de tablas de índices que facilitan la clasificación y acceso a los datos. 

###Archivo Físico y Lógico 
Como se ha mencionado, los archivos se hallan soportados en algún medio físico
(disco, memoria flash, etc.). El archivo físico es la unión de la información del archivo y su soporte. Ambos son identificados por el sistema operativo con una ruta de ubicación (*path* en inglés) y un nombre. Este nombre debe respetar las reglas sintácticas del sistema operativo. Por ejemplo, para identificar al archivo datos.txt que se encuentra en la carpeta trabajos que es hija de la carpeta Mis Documentos del disco C, debemos escribir: `C:\Mis Documentos\Trabajos\Datos.txt`

El archivo lógico, en cambio, es un objeto dentro del programa que representa al archivo físico. Este objeto es definido en el programa con un nombre acorde a la sintaxis de identificadores del lenguaje (Python en nuestro caso). Por ejemplo: `archi` es un identificador válido para representar cualquier archivo.

En el programa debemos relacionar el objeto o archivo lógico con el archivo
físico. Una vez establecida esa relación, que habitualmente se hace en la apertura del archivo, toda referencia sobre el archivo lógico implicará 

1. una conexión con el dispositivo que controla el soporte y 

2. una determinada operación sobre el archivo físico.

###Unidades de información de un archivo

Los archivos físicos son una secuencia de bytes, pero los programas que los generan pueden utilizar unidades lógicas o componentes para accederlos. Si conocemos la estructura de las unidades lógicas que forman el archivo podemos leer esa información en forma ordenada a través de un programa, e identificar los datos almacenados.

Estas unidades lógicas o componentes pueden ser:

* **líneas**:  es el caso típico de los archivos de texto. Su longitud es variable y existe un caracter o marca que indica el final de cada línea.

* **registros de estructura fija**: se utiliza al organizar los datos de muchas unidades de información de igual estructura, como por ejemplo; los datos de los clientes de una empresa, donde se requiere de todos ellos: apellido, nombres, DNI, fecha nacimiento, etc. Cada cliente requiere una cantidad fija de bytes.

* **registros de estructura variable**: este caso es posible si se indica en cada registro su longitud. Permite optimizar el espacio en el soporte del archivo pero es más complejo el algoritmo de acceso.

* **sin unidades lógicas definidas**: el archivo no tiene identificadas unidades o componentes; es el caso de un archivo que constituye una única unidad lógica, como por ejemplo una imagen capturada por algún dispositivo (scanner, cámara digital, etc.).



# Apertura de archivos en Python

Para poder interactuar con la información de un archivo, primero es necesario abrirlo.

La apertura de un archivo se realiza mediante la función **open()**, que retorna un objeto archivo. Esta función se usa normalmente con dos argumentos: **open(nombre_de_archivo, modo)**.

El primer argumento es una cadena que contiene el nombre del archivo físico que se va a leer o escribir. 

El segundo argumento es otra cadena que contiene caracteres que  describen la forma en que el archivo será usado. **modo** puede ser:

* **'r'**: cuando el archivo sólo se accede para leerlo, 
* **'w'**: cuando se accede para escribirlo (si existe un archivo con el mismo nombre, éste se borrará) y 
* **'a'**: para abrir el archivo y añadirle información, manteniendo los datos originales. Cualquier dato que se escribe en el archivo se añade automáticamente al final. 
* **'r+'** abre el archivo tanto para lectura como para escritura. El signo **+** permite realizar ambas operaciones.

El argumento **modo** es opcional y se omite, por defecto, usará **'r'**. No obstante, es una buena práctica indicarlo para darle a entender a otras personas que lean nuestro código que estamos accediendo al archivo sólo para leerlo.

A cada una de las opciones de **modo** se le puede añadir otra correspondiente al tipo de archivo a procesar.

## Tipos de archivos
Los archivos en Python están categorizados en **archivos de texto** o **archivos binarios**, la diferencia entre estos dos tipos de archivos es de vital importancia al momento de manipularlos.



* ### Archivos de texto

> Los **archivos de texto** están formados por una secuencia de líneas, donde cada línea incluye una secuencia de carácteres. Cuando un archivo se abre en "modo texto" (**'t'**), la secuencia de bytes se interpreta utilizando algún sistema de codificación de caracteres. En Python, normalmente se utilizará la codificación UTF-8 (estándar internacional). Por lo tanto el contenido del archivo se convierte a cadenas de caracteres (`str`).

> Cada línea del **archivos de texto** finaliza con un carácter especial, llamado EOL(End of Line) o carácter de fin de línea. Hay varios tipos de carácteres de fin de línea pero el más común es el carácter de salto de línea (\n).

> A menudo, los **archivos de texto** se denominan como texto plano, pues carecen de todo formato o encriptación de seguridad. Y al estar formados por elementos estándares les da una completa portabilidad, pudiendo ser utilizados en cualquier plataforma, aplicación o herramienta de software.

> El acceso a la información de un archivo de texto es secuencial y los datos no tienen que estar dispuestos en una estructura lógica. Solo se pueden identificar líneas y separadores. 

> Por defecto, la apertura de los archivos se realiza en modo texto, a menos que se indique lo contrario. Por lo tanto, indicar el modo **'t'** es opcional.

* ### Archivos binarios

>Un **archivo binario** es cualquier tipo de archivo que no es un archivo de texto. A causa de su naturaleza, los archivos binarios solo pueden ser procesados por una aplicación que conozca o entienda la estructura del mismo. En otras palabras, deben ser aplicaciones que puedan leer e interpretar binario.

>Cuando un archivo digital se abre en "modo binario" (**'b'**) el contenido se lee como bytes sin ninguna conversión de datos. Por lo tanto, se debe indicar explícitamente cómo deben interpretarse las secuencias de bytes dentro del archivo. Es decir, se debe conocer en detalle la organización de las secuencias de bits o bytes dentro del archivo.
 


La acción de apertura de un archivo implica automáticamente los siguiente:

* Asociar el nombre lógico del programa al nombre físico del archivo.
* Comunicar al programa con el dispositivo que controla el soporte del archivo
disponiendo de recursos en la computadora para este fin.
* Efectuar el posicionamiento inicial del dispositivo de lectura y/o escritura en el soporte del archivo.

In [None]:
#Directivas para permitir a Colab acceder a los archivos guardados en Drive
from google.colab import drive
drive.mount('/content/drive')

#Código para abrir un archivo en Python
archi=open('/content/drive/My Drive/Listado.txt')

# Lectura

Existen muchos modos de leer un archivo en Python.

* **read(size)**

* **readline()** 

* **readlines()**


El método **readline()** lee una sola linea del archivo. La lectura conserva el carácter de fin de linea (`'\n'`) al final de la cadena. Este caracter sólo se omite en la última linea del archivo, si el mismo no termina en un fin de linea. 

Esto hace que el valor de retorno de **readline()** no sea ambiguo. Si retorna una cadena vacía, es que se alcanzó el fin del archivo, mientras que una linea en blanco es representada por '\n', una cadena conteniendo sólo un único fin de linea.


In [None]:
linea=archi.readline()
print(linea)
archi.close()

Lopez Javier



En este ejemplo se muestra una de las líneas del archivo `Listado.txt`, que contiene una lista de nombres.

Para leer varias líneas del archivo, es posible iterar sobre el objeto utilizando un bucle **for**. 

```
for linea in archi:
   print(linea)
```

Este es un código simple, eficiente y rápido. 



---



Existe una forma recomendada de abrir y leer un archivo y es haciendo uso de **with**.




In [None]:
with open('/content/drive/My Drive/Listado.txt') as archi:
  for linea in archi:
    print(linea)

Lopez Javier

Garcia Ana

Farias Daniel

Zapata Mateo

Tarabini Luciana

Gonzales Maria

Vazques Jorge



Es una buena práctica usar la declaración **with** cuando manejamos objetos archivo. Se usa para el manejo de errores y tiene la ventaja que el archivo es cerrado apropiadamente luego de que el bloque termina, incluso si se generó una excepción. 

---

Si necesitamos extraer una cadena que contenga todos los carácteres del archivo, podemos hacerlo usando el método **read()**. Este método leerá el archivo en su totalidad y lo devolverá como una cadena de texto. Este método debe ser utilizado con precaución, ya que puede consumir mucha memoria si el archivo es demasiado grande. 

**size** es un argumento numérico opcional, que permite leer una cantidad determinada de datos y los retorna como una cadena de caracteres (en modo texto) o un objeto de bytes (en modo binario).

Si volvemos a llamar a **read()** se retornaría una cadena vacía, debido a que ya se ha leído todo el contenido del archivo.



In [None]:
archi=open('/content/drive/My Drive/Listado.txt')
info=archi.read()
print(info)
archi.close()

Lopez Javier
Garcia Ana
Farias Daniel
Zapata Mateo
Tarabini Luciana
Gonzales Maria
Vazques Jorge


También es posible leer todas las líneas de un archivo y organizarlas en una lista. Para ello se puede usar **list(archi)** o **archi.readlines()**.

In [None]:
with open('/content/drive/My Drive/Listado.txt') as archi:
  lista=archi.readlines()
print(lista)

['Lopez Javier\n', 'Garcia Ana\n', 'Farias Daniel\n', 'Zapata Mateo\n', 'Tarabini Luciana\n', 'Gonzales Maria\n', 'Vazques Jorge']


# Escritura

Para escribir el archivo se utiliza el método **write(cadena)**, el cual escribe **cadena** dentro del archivo. 

**cadena** debe ser un tipo **str**. Otros tipos de objetos necesitan ser convertidos a una cadena, cuando abrimos el archivo en modo texto, o a un objeto de bytes en modo binario, antes de escribirlos.

Es importarte que el modo de apertura del archivo sea uno que permita la escritura, como **'w'**, **a** o **'r+'**.


In [None]:
with open('/content/drive/My Drive/Salida.txt', 'w') as archi:
    archi.write('Hola mundo!\n')
 # Comprobamos la escritura del archivo 
with open('/content/drive/My Drive/Salida.txt') as archi:
    contenido=archi.read() 
print(contenido)      

Hola mundo



# Cerrar archivos

La forma preferida para cerrar un archivo es usando el método **close()**.

Si la apertura del archivo no se realiza utilizando la palabra clave **with**, entonces se debe llamar a **close()** para cerrar el archivo y liberar los recursos utilizados por el sistema.

Es importante llamar a **close()** cuando se realiza la escritura o modificación del archivo. Si no se llama a **close()** o no se utiliza la palabra clave **with**  podría dar como resultado que la información no se escriba completamente en el disco, incluso si el programa se cierra correctamente.

Después de que un objeto archivo es cerrado, ya sea por with o llamando a close(), ya no se puede acceder a la información del archivo físico, e intentar leerlo o escribirlo causará error.

In [None]:
#Directivas para permitir a Colab acceder a los archivos guardados en Drive
from google.colab import drive
drive.mount('/content/drive')

#Código para abrir un archivo en Python
archi=open('/content/drive/My Drive/Notas.txt')


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Archivos CSV
Un archivo CSV (Comma Separeted Values - Valores separados por coma) es un archivo que posee información estructurada. Es decir, la información allí guardada representa una tabla de datos donde los valores de cada columna de la misma está delimitado por el elemento separador de columnas que puede ser: coma, punto y coma, espacio, etc.

Ejemplo de contenido de un archivo csv sin nombre de columnas


12;34;23


5;56;22


Ejemplo de contenido de un archivo csv con nombre de columnas


Coord x; Coord y; Coord z


12;34;23


5;56;22


#Leer Archivos CSV usando string

Para leer un archivo csv se utilizan las mismas funciones de apertura y lectura que las vistas hasta este momento, procediendo a leer cada línea en un string y luego utilizando la función split de los string para separar los valores.

Archivo a leer:

Nombre;Nota1;Nota2

Pedro;92;78

Ivana;100;89

In [None]:
lista_alumnos = []
with open('/content/drive/My Drive/Notas.txt', "r") as archivo:
    # leer encabezado
    columnas = archivo.readline()
    # Eliminamos el caracter de fin de línea
    columnas = columnas.rstrip("\n")
    # Separamos los nombres de las columnas
    columnas = columnas.split(";")
    for linea in archivo:
        # Separamos la línea con split
        datos = linea.split(";")
        # convertimos los datos según su tipo
        nombre = datos[0]
        nota1 = int(datos[1])
        nota2 = int(datos[2])
        # Agregamos la información a una lista
        lista_alumnos.append([nombre, nota1, nota2])

print(columnas)
print(lista_alumnos)

['Nombre', 'Nota1', 'Nota2']
[['Pedro', 92, 78], ['Ivana', 100, 89]]


# Leer un archivo csv con el módulo CSV

Python posee un módulo nativo llamado CSV que permite realizar la lectura de un archivo estructurado csv con mayor facilidad, debido a que automáticamente el módulo interpreta la lectura de las columnas separadas por un caracter particular y divide automáticamente la información contenida en cada línea del archivo.

Para utilizar el módulo, debemos realizar el correspondiente import, posteriormente abrimos normalmente el archivo y a continuación y por única vez, creamos un objeto que realizará la interpretación de cada línea del archivo como un conjunto de datos separados por el delimitador que le indiquemos.

Para ello utilizamos la siguiente función:

*interprete = csv.reader(archivo, delimiter=";")*


In [None]:
import csv

listado_alumnos = []

with open('/content/drive/My Drive/Notas.txt', "r") as archivo:
    # creamos al intérprete del archivo csv
    interprete = csv.reader(archivo, delimiter=";")
    # leemos la primer línea con los nombres de las columnas y pasamos a la línea siguiente
    columnas = next(interprete)
    for fila in interprete:
        # fila posee separado los datos de cada columna del archivo y 
        # al estar en un ciclo fila tomará los valores de cada fila del arhcivo
        nombre = fila[0]
        nota1 = int(fila[1])
        nota2 = int(fila[2])
        listado_alumnos.append([nombre,nota1,nota2])

print(columnas)
print(listado_alumnos)

['Nombre', 'Nota1', 'Nota2']
[['Pedro', 92, 78], ['Ivana', 100, 89]]


# Escribir archivo csv con el módulo CSV
Utilizaremos el mismo módulo CSV pero crearemos un objeto que será el responsable de realizar la escritura de todas las líneas del archivo interponiendo el caracter delimitador de columnas donde corresponda.

*escritor = csv.writer(archivo, delimiter=";")*


In [None]:
import csv

listado_alumnos = [["Pedro", 92, 78],
                   ["Ivana", 100, 89]]

columnas = ["Nombre", "Nota 1", "Nota 2"]

with open("Notas.csv", "w", newline = "") as archivo:
    # creamos al escritor del archivo CSV
    escritor = csv.writer(archivo, delimiter=";")
    # escribimos la lista de nombres de columnas en una sóla fila
    escritor.writerow(columnas)
    # escribimos toda la lista de datos en varias filas
    escritor.writerows(listado_alumnos)
print("Archivo guardado con éxito!!")

Archivo guardado con éxito!!
