# 9. Archivos

## 9.1 ¿Qué es un archivo?

Un archivo es un contenedor de información. En un archivo la información se almacena como un conjunto de bytes consecutivos. En el interior del archivo, la información se organiza acorde a un formato concreto (texto, binario, executable, etc.).

Los archivos se representan como series de unos (1) y ceros (0) para ser procesador por el sistema (computador).

Un archivo se organiza en tres partes:

1. Encabezado - tiene la metadata del contenido del archivo (nombre, tamaño, tipo, etc).
2. Datos - contenido del archivo
3. Fin del archivo - EOF (End-Of-File).

## 9.2 Operaciones básicas sobre un archivo

Ejemplo 9.2.1: Obtener la ruta actual del archivo en edición.

In [None]:
import pathlib

resultado = pathlib.Path().resolve()

resultado

Ejemplo 9.2.2: Obtener el nombre del archivo actual.

In [None]:
%%javascript
IPython.notebook.kernel.execute(`notebookname = '${window.document.getElementById("notebook_name").innerHTML}'`)

In [None]:
notebookname

In [None]:
nombre_archivo = notebookname + '.ipynb'

nombre_archivo

Ejemplo 9.2.3: Preguntar si un archivo existe.

In [None]:
dir(resultado)

In [None]:
resultado.absolute

In [None]:
resultado.absolute()

In [None]:
resultado = str(resultado)

In [None]:
resultado = str(resultado)

resultado

In [None]:
nombre_archivo

In [None]:
import os

In [None]:
ruta_absoluta = os.path.join(resultado, nombre_archivo)

ruta_absoluta

In [None]:
os.path.exists(ruta_absoluta)

In [None]:
ruta_absoluta_no_existente = os.path.join(resultado, 'taller01_archivos.ipynb')

ruta_absoluta_no_existente

In [None]:
os.path.exists(ruta_absoluta_no_existente)

**Ejemplo 9.2.4**:

Leer el contenido de un archivo.

In [None]:
ruta_absoluta

In [None]:
def leer_contenido_archivo(ruta_archivo):
    """
    Lee el contenido de un archivo especificado en un ruta.
    
    :param ruta_archivo:string: Ruta del archivo a leer.
    :return NoneType.
    """
    if os.path.exists(ruta_archivo):
        if os.path.isfile(ruta_archivo):
            with open(ruta_archivo, 'rt', encoding='utf-8') as f:
                for l in f.readlines():
                    print(l)
        else:
            print('ERROR: La ruta indicada no corresponde a un archivo.')
    else:
        print('ERROR: El archivo no existe.')

In [None]:
help(leer_contenido_archivo)

In [None]:
leer_contenido_archivo(ruta_absoluta_no_existente)

In [None]:
leer_contenido_archivo(resultado)

In [None]:
leer_contenido_archivo(ruta_absoluta)

**Ejemplo 9.2.5**

Acceder al contenido de un archivo de texto plano ya existente.

In [None]:
ruta_archivo_paises = 'T001-09-paises.txt'

In [None]:
ruta_archivo_paises

In [None]:
os.path.exists(ruta_archivo_paises)

In [None]:
os.path.isdir(ruta_archivo_paises)

In [None]:
os.path.isfile(ruta_archivo_paises)

In [None]:
with open(ruta_archivo_paises, 'rt', encoding='utf-8') as f:
    for l in f.readlines():
        print(l, end='')

## 9.3 Proceso de escritura de archivos

**Ejemplo 9.3.1**

Solicitar al usuario el ingreso de diez números y guardarlos en una lista. Después de capturados esos valores procederemos a guardar ese contenido en un archivo de texto plano.

In [None]:
numeros = []

for i in range(10):
    while True:
        try:
            numero = float(input('Digite un número: '))
            break
        except:
            print()
            print('MENSAJE: Debe digitar un valor que corresponda con un número.')
            print()
    
    print()
    
    numeros.append(numero)

print()

ruta_archivo_numeros = 'T001-09-numeros.txt'

with open(ruta_archivo_numeros, 'wt', encoding='utf-8') as f:
    for n in numeros:
        f.write(f'{n}\n')


In [None]:
with open(ruta_archivo_numeros, 'rt', encoding='utf-8') as f:
    for l in f.readlines():
        print(l, end='')

In [None]:
with open(ruta_archivo_numeros, 'rt', encoding='utf-8') as f:
    linea = f.readline()
    print(linea, end='')

In [None]:
with open(ruta_archivo_numeros, 'rt', encoding='utf-8') as f:
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')
    
    print()
    
    linea = f.readline()
    print(linea, end='')

In [None]:
len(linea)

**Ejemplo 9.3.2**

Sumar el contenido del archivo que contiene número (`T001-09-numeros.txt`).

In [None]:
def leer_contenido_archivo(ruta_archivo):
    """
    Lee el contenido de un archivo.
    
    :param ruta_archivo:str: Ruta absoluta o relativa del archivo a leer.
    :return list: Contenido del archivo.
    """
    contenido = []
    
    with open(ruta_archivo, 'rt', encoding='utf-8') as f:
        for l in f.readlines():
            contenido.append(l.strip())
    
    return contenido

In [None]:
help(leer_contenido_archivo)

In [None]:
ruta_archivo_numeros

In [None]:
resultado = leer_contenido_archivo(ruta_archivo_numeros)

In [None]:
resultado

In [None]:
help(sum)

In [None]:
# suma_numeros = sum(resultado) # TypeError

In [None]:
type(resultado[0])

In [None]:
type(resultado[-1])

In [None]:
suma_numeros = sum(float(e) for e in resultado)

In [None]:
suma_numeros

In [None]:
type(suma_numeros)

**Ejemplo 9.3.3**

Solicitar al usuario que digite nombres de países de cualquier parte del mundo.

El programa termina cuando el usuario haya escrito la palabra `FIN`.

Después de esa tarea crearemos un archivo para guardar todos los países que el usuario digitó.

In [None]:
paises = []

pais = ''

while pais != 'FIN':
    while True:
        pais = input('Digite el nombre de un país (FIN para terminar): ')
        
        pais = pais.strip()
        
        if len(pais):
            break
        else:
            print()
            print('MENSAJE: Debe escribir una cadena que no contenga sólo espacios.')
            print()
    
    if pais != 'FIN':
        paises.append(pais)
    
    print()

In [None]:
paises

In [None]:
len(paises)

In [None]:
archivo_paises = 'T001-09-paises.txt'

with open(archivo_paises, 'wt', encoding='utf-8') as f:
    for p in paises:
        f.write(f'{p}\n')

In [None]:
with open(archivo_paises, 'rt', encoding='utf-8', newline='') as f:
    for l in f.readlines():
        # print(l.replace('\n', ''))
        print(l, end='')

In [None]:
help(open)

In [None]:
# El modo de trabajo por defecto al abrir o escribir un archivo es de texto (t):
with open(archivo_paises, 'r', encoding='utf-8', newline='') as f:
    for l in f.readlines():
        print(l, end='')

In [None]:
otros_paises = ['Guatemala', 'España', 'India', 'Grecia', 'El Congo', 'Sur África', 'Panamá', 'Uruguay', 'Canadá']

otros_paises

In [None]:
len(otros_paises)

In [None]:
archivo_paises

In [None]:
with open(archivo_paises, 'at', encoding='utf-8') as f:
    for p in otros_paises:
        f.write(f'{p}\n')

**Ejemplo 9.3.4**

Seleccionar un directorio del sistema (o una carpeta de archivos), y guardar el listado de archivos y carpetas (directorios) en un archivo de texto plano.

In [None]:
help(os.listdir)

In [None]:
os.listdir()

In [None]:
ruta_directorio = r'C:\Windows'
ruta_archivos_directorio = 'T001-09-archivos.txt'

if os.path.exists(ruta_directorio):
    with open(ruta_archivos_directorio, 'wt', encoding='utf-8') as f:
        for a in os.listdir(ruta_directorio):
            f.write(f'{a}\n')

**Ejemplo 9.3.5**

Leer las n primeras líneas de un archivo de texto. Se debe crear una función.

In [None]:
from itertools import islice

def leer_n_lineas_archivo(ruta_archivo, n):
    """
    Lee una cantidad arbitraria de líneas de un archivo de texto plano.
    
    ruta_archivo: Ruta del archivo a leer.
    n: cantidad de líneas a leer.
    """
    with open(ruta_archivo, 'rt', encoding='utf-8') as f:
        for l in islice(f, n):
            print(l)

help(leer_n_lineas_archivo)

In [None]:
ruta_archivos_directorio

In [None]:
leer_n_lineas_archivo(ruta_archivos_directorio, 5)

In [None]:
leer_n_lineas_archivo(archivo_paises, 3)

In [None]:
leer_n_lineas_archivo(archivo_paises, 10)

In [None]:
leer_n_lineas_archivo(ruta_archivos_directorio, 20)

**Ejemplo 9.3.6**

Leer las n últimas líneas de un archivo de texto. Se debe definir una función.

In [None]:
import os

def leer_n_ultimas_lineas(ruta_archivo, n):
    """
    Lee una cantidad arbitraria de líneas de un archivo de texto plano. Se leen las n últimas líneas.
    
    ruta_archivo: Ruta del archivo a leer.
    n: cantidad de líneas a leer.
    """
    tamagnio_bufer = 8192
    tamagnio_archivo = os.stat(ruta_archivo).st_size
    
    contador = 0
    
    datos = []
    
    with open(ruta_archivo, 'rt', encoding='utf-8') as f:
        if tamagnio_bufer > tamagnio_archivo:
            tamagnio_bufer = tamagnio_archivo - 1
            
            while True:
                contador += 1
                f.seek(tamagnio_archivo - tamagnio_bufer * contador)
                datos.extend(f.readlines())
                
                if len(datos) >= n or f.tell() == 0:
                    break
    
    return datos[-n:]

In [None]:
help(leer_n_ultimas_lineas)

In [None]:
resultado = leer_n_ultimas_lineas(ruta_archivos_directorio, 5)

In [None]:
resultado = [r.strip() for r in resultado]

resultado

In [None]:
resultado = leer_n_ultimas_lineas(archivo_paises, 5)

resultado = [r.strip() for r in resultado]

resultado

**Ejemplo 9.3.7**

Leer un archivo de palabras y determinar cuál es la palabra más extensa (mayor número de caracteres).

In [None]:
def palabra_mas_extensa(ruta_archivo):
    """
    Obtiene la palabra más extensa en un archivo de texto.
    
    ruta_archivo: Ruta del archivo a leer.
    
    return: La palabra más larga. Si el archivo no existe, retorna None.
    """
    if os.path.exists(ruta_archivo):
        if os.path.isfile(ruta_archivo):
            with open(ruta_archivo, 'rt', encoding='utf-8') as f:
                palabras = f.read().split('\n')
            
            mayor_longitud = len(max(palabras, key=len))
            
            return [p for p in palabras if len(p) == mayor_longitud]
        else:
            return None
    else:
        return None

In [None]:
help(palabra_mas_extensa)

In [None]:
archivo_paises

In [None]:
resultado = palabra_mas_extensa(archivo_paises)

In [None]:
resultado

**Ejemplo 9.3.8**

Escribir una función para obtener el tamaño (en bytes) de un archivo de texto plano.

In [None]:
import os

def obtener_tamagnio_archivo(ruta_archivo):
    """
    Obtiene la cantidad de bytes que ocupa un archivo.
    
    ruta_archivo: Ruta del archivo.
    return: Cantidad bytes que ocupa el archivo.
    """
    if os.path.exists(ruta_archivo):
        if os.path.isfile(ruta_archivo):
            metadata_archivo = os.stat(ruta_archivo)
            
            return metadata_archivo.st_size
        else:
            return None
    else:
        return None

In [None]:
help(obtener_tamagnio_archivo)

In [None]:
obtener_tamagnio_archivo(archivo_paises)

In [None]:
obtener_tamagnio_archivo(ruta_archivos_directorio)

## 9.4 Escritura y lectura de archivos binarios con el módulo `pickle`

El módulo `pickle` nos permite escribir datos en una representación binaria.

**Ejemplo 9.4.1**

Crear un diccionario con nombres de países (llaves) y sus respectivas capitales (valores).

Luego crear un archivo binario utilizando el módulo `pickle`.

Al final se debe leer ese archivo para reestablecer el contenido del diccionario `paises`.

In [2]:
paises = {
    'Colombia': 'Bogotá',
    'Perú': 'Lima',
    'Alemania': 'Berlín',
    'Argentina': 'Buenos Aires',
    'Estados Unidos': 'Washington',
    'Rusia': 'Moscú',
    'Ecuador': 'Quito'
}

In [3]:
type(paises)

dict

In [4]:
len(paises)

7

In [5]:
paises

{'Colombia': 'Bogotá',
 'Perú': 'Lima',
 'Alemania': 'Berlín',
 'Argentina': 'Buenos Aires',
 'Estados Unidos': 'Washington',
 'Rusia': 'Moscú',
 'Ecuador': 'Quito'}

In [6]:
def es_ruta_valida(ruta):
    """
    Verfica si una ruta especifica es válida.
    
    ruta: Ruta a validar.
    return: True si la ruta es válida, False en caso contrario.
    """
    try:
        archivo = open(ruta, 'w')
        archivo.close()
        return True
    except IOError:
        return False

In [7]:
import os
import pickle

def guardar_datos_archivo_binario(ruta_archivo, contenido):
    """
    Guardar los datos de un objeto Python en un archivo.
    
    ruta_archivo: Ruta del archivo donde se van a guardar los datos.
    contenido: Objeto Python con la información a escribir.
    
    return: True cuando el contenido se haya escrito en el disco.
    
    raises: Cuando la ruta no corresponde con un archivo
    """
    if es_ruta_valida(ruta_archivo):
        with open(ruta_archivo, 'wb') as f:
            pickle.dump(contenido, f)
        return True
    else:
        raise Exception(f'La ruta ({ruta_archivo}) no corresponde con un archivo.')

In [8]:
help(guardar_datos_archivo_binario)

Help on function guardar_datos_archivo_binario in module __main__:

guardar_datos_archivo_binario(ruta_archivo, contenido)
    Guardar los datos de un objeto Python en un archivo.
    
    ruta_archivo: Ruta del archivo donde se van a guardar los datos.
    contenido: Objeto Python con la información a escribir.
    
    return: True cuando el contenido se haya escrito en el disco.
    
    raises: Cuando la ruta no corresponde con un archivo



In [9]:
archivo_objeto_paises = 'T001-09-objeto-paises.pkl'

In [10]:
guardar_datos_archivo_binario(archivo_objeto_paises, paises)

True

In [16]:
import pickle

def leer_contenido_archivo_binario(ruta_archivo):
    """
    Lee el contenido de un archivo binario.
    
    ruta_archivo: Ruta del archivo binario a leer.
    
    return: Objeto Python recuperado desde un archivo binario.
    """
    if os.path.exists(ruta_archivo):
        if os.path.isfile(ruta_archivo):
            with open(ruta_archivo, 'rb') as f:
                return pickle.load(f)
        else:
            return None
    else:
        return None

In [13]:
help(leer_contenido_archivo_binario)

Help on function leer_contenido_archivo_binario in module __main__:

leer_contenido_archivo_binario(ruta_archivo)
    Lee el contenido de un archivo binario.
    
    ruta_archivo: Ruta del archivo binario a leer.
    
    return: Objeto Python recuperado desde un archivo binario.



In [14]:
archivo_objeto_paises

'T001-09-objeto-paises.pkl'

In [17]:
resultado = leer_contenido_archivo_binario(archivo_objeto_paises)

In [18]:
type(resultado)

dict

In [19]:
len(resultado)

7

In [20]:
resultado

{'Colombia': 'Bogotá',
 'Perú': 'Lima',
 'Alemania': 'Berlín',
 'Argentina': 'Buenos Aires',
 'Estados Unidos': 'Washington',
 'Rusia': 'Moscú',
 'Ecuador': 'Quito'}