# Archivos y representaciones para _Input_/_Output_

Esta semana estudiaremos detalles del uso de archivos y de la representación de _strings_ en Python. Aprenderemos que no solamente podemos almacenar _strings_ como caracteres que podemos ver en la pantalla, sino que podemos también manipular representación de más bajo nivel en el lenguaje que habla el computador: bytes.

## Módulo `os`

El módulo [`os`](https://docs.python.org/3.6/library/os.html) nos provee una interfaz portable para ejecutar operaciones relacionadas al sistema operativo. En lo inmediato lo utilizaremos para ejecutar operaciones sobre las rutas (_path_) de los archivos, utilizando `os.path`. El manejo apropiado de los _path_ usando este módulo nos ayudará a hacer nuestro código más portable entre distintos sistemas operativos.

## _Paths_ y nombres de archivos

In [1]:
import os

Un _path_ nos indica el lugar donde se encuentra un archivo o un directorio dentro de un árbol que representa nuestro sistema de archivos. Un _path_ puede ser **absoluto** o **relativo**.

 - Un **_path_ absoluto** comienza **siempre** con con el caracter `/` e indica una ubicación a partir del directorio principal o directorio raíz (_root_) del sistema de archivos. Este directorio se representa por la ruta más básica: `/`. Un _path_ absoluto tiene el mismo significado de manera independiente del directorio en cual se está ejecutando el programa. Tiene la ventaja que la ruta no presenta ambigüedades, pero desde el punto de vista de la portabilidad, requiere que la ruta exista en todos los sistema de archivos en que se ejecuta el programa.
 - Un **_path_ relativo** **nunca** comienza con el caracter `/` e indica una dirección relativa al directorio donde se está ejecutando. Un _path_ relativo se interpreta a partir del directorio en el cual se está ejecutando el programa actual. Tiene la ventaja que permite acceder a un directorio de manera portable ya que no requiere que el programa se encuentra en un directorio específico, sin embargo requiere más cuidado al momento de ejecutar en un directorio distinto al esperado.


In [2]:
# Path absoluto

absolute_path = '/home/archivo.txt'

with open(os.path.normpath(absolute_path), 'rb') as f:
    lineas = f.readlines()
    
lineas

FileNotFoundError: [Errno 2] No such file or directory: '/home/archivo.txt'

El método `normpath` permite obtener una representación uniforme de una ruta. Tengamos en cuenta los sistemas operativos Windows y los basados en Unix (como Linux y macOS), representan las rutas en un directorio de manera distinta. Usando `normapath` obtenemos una representación, de manera independiente del sistema operativo en que nos encontremos.

En el código anterior, se intenta abrir un archivo llamado `archivo.txt` una carpeta llamada `home`, ubicada en el directorio raíz (`/`) del sistema de archivos del computador donde se está ejecutando el código. Este código lanzará una excepción, a menos que esta carpeta y este archivo existan.

In [3]:
## Path relativo

relative_path = 'data/archivo.txt'

with open(os.path.normpath(relative_path), 'rb') as f:
    lineas = f.readlines()
    
lineas

[b'Funciona!\n']

En este código, se intenta abrir un archivo llamado `archivo.txt` que está dentro de una carpeta llamada `data`, que está ubicada en la carpeta donde se está ejecutando este código Python. Este archivo debería leerse sin problemas, ya que el repositorio donde se encuentra este material incluye a esta carpeta y a este archivo.

Un *path* se divide en dos partes:
 - El nombre del directorio o `dirname`, que es la carpeta donde se encuentra el archivo.
 - El nombre de archivo, *filename* o `basename`, que es el nombre del archivo, incluyendo su extensión.
 
En el siguiente código, el módulo `os.path` permite separar un _path_ en `dirname` y `basename`.

In [4]:
path1 = '/carpeta1/carpeta2/imagen.jpg'

dirname1 = os.path.dirname(path1)
basename1 = os.path.basename(path1)

print(f'dirname: {dirname1}\npathname: {basename1}')

dirname: /carpeta1/carpeta2
pathname: imagen.jpg


In [5]:
path2 = 'f1/f2/archivo_de_texto.txt'

dirname2 = os.path.dirname(path2)
basename2 = os.path.basename(path2)

print(f'dirname: {dirname2}\npathname: {basename2}')

dirname: f1/f2
pathname: archivo_de_texto.txt


## Extensiones de archivo

Los nombres de archivo suelen terminar con una secuencia, típicamente de tres caracteres, que aparece despues de un punto, por ejemplo `.txt`, `.jpg`, `.pdf`, `.mp3` y `.avi`. Esta secuencia de letras se conoce como **extensión** del archivo y sirve para dos objetivos:
1. Darle una _pista_ al usuario sobre el tipo de archivo de que se trata, para saber qué hacer con él. Por ejemplo, cómo abrirlo.
1. Darle una _pista_ al sistema operativo para saber con qué programa leer el archivo. 

In [6]:
# podemos usar splitext para separar la extension del resto del nombre de archivo

nombre_sin_extension, extension = os.path.splitext(basename1)
print(nombre_sin_extension)
print(extension)

imagen
.jpg


Hay que tener en cuenta que si bien la extensión del archivo sirve para darnos información acerca del tipo de archivo, ésta es **parte del nombre de archivo** y es **sólo una convención**. Una extensión informa del tipo de archivo, pero no determina el tipo del archivo.

Por ejemplo, a continuación escribiremos un archivo de texto y lo guardaremos con extensión `.jpg`, que indica que el archivo es una imagen en formato JPEG. Para un usuario puede verse extraño que un archivo de texto tenga una extensión de imagen, sin embargo, el archivo seguirá siendo un archivo de texto.

In [7]:
path = 'data/archivo_de_texto.jpg'

with open(path, 'w') as f:
    f.writelines(['línea 1\n','línea 2\n','línea 3\n'])

Si intentas abrir el archivo generado, puede que tu sistema operativo intente erróneamente abrirlo con un visor de imágenes. Sin embargo, si lo abres con tu editor de texto favorito, deberías poder leerlo adecuadamente, ya que es un archivo de texto.

Algunos sistemas operativos vienen configurados por defecto para ocultar la extensión de los archivos. Se recomienda fuertemente cambiar esta configuración para poder ver el nombre de archivo completo y evitar confusiones al leer y escribir archivos.