<p>
<font size='5' face='Georgia, Arial'>IIC-2233 Apunte Programación Avanzada</font><br>
<font size='1'> Modificado en 2019-1 y 2019-2 por Equipo Docente IIC2233. </font>
</p>

# Tabla de contenidos

1. [Módulo `os`](#Módulo-os)
2. [_Paths_ y nombres de archivos](#Paths-y-nombres-de-archivos)
3. [Problema de portabilidad de _paths_](#Problema-de-portabilidad-de-paths)
4. [Navegación entre directorios](#Navegación-entre-directorios)
5. [Un ejemplo de lectura y escritura básico](#Un-ejemplo-de-lectura-y-escritura-básico)


## Módulo `os`

El módulo [`os`](https://docs.python.org/3.6/library/os.html) nos provee una interfaz portable para ejecutar operaciones relacionadas al sistema operativo. En lo inmediato lo utilizaremos para ejecutar operaciones sobre las rutas (_path_) de los archivos, utilizando `os.path`. El manejo apropiado de los _path_ usando este módulo nos ayudará a hacer nuestro código más portable entre distintos sistemas operativos.

In [1]:
import os

## _Paths_ y nombres de archivos

Un _path_ nos indica el lugar donde se encuentra un archivo o un directorio dentro de un árbol que representa nuestro sistema de archivos. Como notarás, las carpetas y archivos en un computador se almacenan jerárquicamente: carpetas (o directorios) dentro de otras carpetas, y archivos dentro de carpetas. Un _path_ es la dirección de un directorio o archivo dentro de esta jerarquía. 

Es necesario trabajar con _paths_ cuando un programa quiere acceder a un archivo para leerlo o para crear un nuevo archivo y guardarlo. A través de los _paths_ es que un programa es capaz de especificar que archivo o directorio quiere acceder dentro de un computador.

<img src="data/files.png" alt="Drawing" style="width: 500px;"/>

Un _path_ puede ser **absoluto** o **relativo**.

 - Un **_path_ absoluto** comienza **siempre** con con el caracter `/` e indica una ubicación a partir del directorio principal o directorio raíz (_root_) del sistema de archivos. El directorio raíz se representa siempre por la ruta más básica: `/`. Un _path_ absoluto tiene el mismo significado de manera independiente del directorio en cual se está ejecutando el programa. Tiene la ventaja que la ruta no presenta ambigüedades, pero desde el punto de vista de la portabilidad, requiere que la ruta exista **exactamente igual** en todos los sistemas de archivos en que se ejecuta el programa.
 - Un **_path_ relativo** **nunca** comienza con el caracter `/` e indica una dirección **relativa al directorio donde se está ejecutando**. Un _path_ relativo se interpreta a partir del directorio en el cual se está ejecutando el programa actual. Tiene la ventaja que permite acceder a un directorio de manera portable ya que no requiere que el programa se encuentra en un directorio específico, sin embargo requiere más cuidado al momento de ejecutar en un directorio distinto al esperado.
 
Por ejemplo, si seguimos el ejemplo de la estructura de la imagen superior, podemos definir rutas para el archivo `python.pdf`:

- `"/Users/Pedro/Libros/python.pdf"` es la ruta absoluta del archivo, ya que detalla desde el directorio raíz la dirección del archivo. Esta ruta es única, no hay otra ruta absoluta para el archivo.
- `"Users/Pedro/Libros/python.pdf"` es la ruta relativa del archivo, **relativa desde directorio raíz `"/"`**.
- `"Libros/python.pdf"` es la ruta relativa del archivo, **relativa desde directorio `"/Users/Pedro"`**.
- `"python.pdf"` es la ruta relativa del archivo, **relativa desde directorio `"/Users/Pedro/Libros"`**.

Es importante notar las sutilezas de ambos tipos de _paths_ al crear un programa. Recordemos que al ejecutar un programa escrito en Python, esta **ejecución se realiza en cierto directorio** (o carpeta) del computador. Al usar rutas absolutas, no importa desde que directorio se ejecute el programa, ya que la dirección del _path_ no cambia. A diferencia de las rutas relativas, que sí cambian dependiendo de la carpeta donde se ejecute. Por otro lado, un programa no necesariamente se ejecuta siempre en el mismo equipo (a veces se ejecuta en nuestro computador, o a veces en el computador del ayudante). Es por eso que **usar rutas absolutas dificulta el funcionamiento de un programa, ya que pueden estar fijas a un computador específico**, con una estructura única que no se replica en otros computadores. Por todo lo anterior, no se aconseja escribir programas que usen rutas absolutas para acceder a archivos, sino que **deben utilizar solo rutas relativas**.

In [None]:
# Path absoluto

path_absoluto = '/home/archivo.txt'

with open(os.path.normpath(path_absoluto), 'rt') as archivo:
    lineas = archivo.readlines()
    
lineas

El método `normpath` permite obtener una representación uniforme de una ruta. Tengamos en cuenta que los sistemas operativos Windows y los basados en Unix (como Linux y macOS), representan las rutas en un directorio de manera distinta. Usando `normapath` obtenemos una representación, de manera independiente del sistema operativo en que nos encontremos.

En el código anterior, se intenta abrir un archivo llamado `archivo.txt` una carpeta llamada `home`, ubicada en el directorio raíz (`/`) del sistema de archivos del computador donde se está ejecutando el código. Este código lanzará una excepción, a menos que esta carpeta y este archivo existan.

In [2]:
## Path relativo

path_relativo = 'data/archivo.txt'

with open(os.path.normpath(path_relativo), 'rt') as archivo:
    lineas = archivo.readlines()
    
lineas

['Funciona!\n']

En este código, se intenta abrir un archivo llamado `archivo.txt` que está dentro de una carpeta llamada `data`, que está ubicada en la carpeta donde se está ejecutando este código Python. Este archivo debería leerse sin problemas, ya que el repositorio donde se encuentra este material incluye a esta carpeta y a este archivo.

Un *path* se divide en dos partes:
 - El nombre del directorio o `dirname`, que es la carpeta donde se encuentra el archivo.
 - El nombre de archivo, *filename* o `basename`, que es el nombre del archivo, incluyendo su extensión.
 
En el siguiente código, el módulo `os.path` permite separar un _path_ en `dirname` y `basename`.

In [3]:
path1 = '/carpeta1/carpeta2/imagen.jpg'

dirname1 = os.path.dirname(path1)
basename1 = os.path.basename(path1)

print(f'dirname: {dirname1}\npathname: {basename1}')

dirname: /carpeta1/carpeta2
pathname: imagen.jpg


In [4]:
path2 = 'f1/f2/archivo_de_texto.txt'

dirname2 = os.path.dirname(path2)
basename2 = os.path.basename(path2)

print(f'dirname: {dirname2}\npathname: {basename2}')

dirname: f1/f2
pathname: archivo_de_texto.txt


### Extensiones de archivo

Los nombres de archivo suelen terminar con una secuencia, típicamente de tres caracteres, que aparece despues de un punto, por ejemplo `.txt`, `.jpg`, `.pdf`, `.mp3` y `.avi`. Esta secuencia de letras se conoce como **extensión** del archivo y sirve para dos objetivos:
1. Darle una _pista_ al usuario sobre el tipo de archivo de que se trata, para saber qué hacer con él. Por ejemplo, cómo abrirlo.
1. Darle una _pista_ al sistema operativo para saber con qué programa leer el archivo. 

In [5]:
# podemos usar splitext para separar la extension del resto del nombre de archivo

nombre_sin_extension, extension = os.path.splitext(basename1)
print(nombre_sin_extension)
print(extension)

imagen
.jpg


Hay que tener en cuenta que si bien la extensión del archivo sirve para darnos información acerca del tipo de archivo, ésta es **parte del nombre de archivo** y es **sólo una convención**. Una extensión informa del tipo de archivo, pero no determina el tipo del archivo.

Por ejemplo, a continuación escribiremos un archivo de texto y lo guardaremos con extensión `.jpg`, que indica que el archivo es una imagen en formato JPEG. Para un usuario puede verse extraño que un archivo de texto tenga una extensión de imagen, sin embargo, el archivo seguirá siendo un archivo de texto.

In [6]:
path = 'data/archivo_de_texto.jpg'

with open(path, 'w') as f:
    f.writelines(['linea 1\n','linea 2\n','linea 3\n'])

Si intentas abrir el archivo generado, puede que tu sistema operativo intente erróneamente abrirlo con un visor de imágenes. Sin embargo, si lo abres con tu editor de texto favorito, deberías poder leerlo adecuadamente, ya que es un archivo de texto.

Algunos sistemas operativos vienen configurados por defecto para ocultar la extensión de los archivos. Se recomienda fuertemente cambiar esta configuración para poder ver el nombre de archivo completo y evitar confusiones al leer y escribir archivos.

## Problema de portabilidad de _paths_

Como se ha mencionado anteriormente, hay diferencias en los caracteres de separación entre sistemas operativos, por ejemplo la ruta `"Users/Pedro/Libros/python.pdf"` abriría correctamente un archivo en un sistema Unix (Linux y macOS), pero puede fallar en Windows, ya que la ruta equivalente para ese sistema operativo sería `"Users\Pedro\Libros\python.pdf"`.

Esto trae un problema de portabilidad de programas, que si explicitan rutas utilizando alguna de estas escrituras y luego se intentan ejecutar en otro sistema operativo, puede que no funcione ya que la ruta es inválida en ese ambiente.

El módulo `os.path` provee muchas funcionalidades para reescribir rutas usando los caracteres de separación nativos del sistema operativo dónde se ejecute el programa. Por ejemplo, el método `os.path.join`:

In [7]:
ruta = os.path.join("Users", "Pedro", "Libros", "python.pdf")
ruta

'Users/Pedro/Libros/python.pdf'

El método genera automáticamente la ruta equivalente al concatenar los argumentos que se le den, utilizando el separador del sistema operativo dónde se ejecute. Se recomienda **fuertemente** trabajar con _paths_ de esta forma, y así segurar portabilidad de sus programas.

## Navegación entre directorios

La librería `os` también nos provee funciones para ver el contenido de directorios y recorrer sus distintos archivos y directorios.

La más conocida, es la función `listdir` que al entregarle una ruta de un directorio, entrega una lista con los nombres de directorios y archivos que se encuentran directamente dentro de ese directorio. Por ejemplo, al ejecutarlo con la ruta `"data"`, vemos el contenido de la carpeta `data` dentro de este repositorio:

In [8]:
lista_de_contenidos = os.listdir("data")
lista_de_contenidos

['archivo_de_texto.jpg', 'gato', 'files.png', 'archivo.txt']

Vemos los nombres de tres archivos, y el de una carpeta `gato` que se utiliza en un ejemplo siguiente. Notar que no aparencen en esta lista los contenidos de `gato`, ya que `listdir` solo lista los contenidos directamente almacenados.

En cambio, la función `walk` nos permite poder obtener las rutas de un directorio, de sus subdirectorios y de sus archivos. Esto nos permite poder navegar dentro de una carpeta y ver, recursivamente, todo lo que contiene.

El siguiente código muestra como se utiliza:

In [9]:
for raiz, directorios, archivos in os.walk("data", topdown = True):
    print("Raíz:",raiz)
    print("-"*30)
    print("Archivos:")
    for archivo in archivos:
        print(os.path.join(raiz, archivo))
    print("-"*30)
    print("Directorios:")
    for directorio in directorios:
        print(os.path.join(raiz, directorio))
    print()

Raíz: data
------------------------------
Archivos:
data/archivo_de_texto.jpg
data/files.png
data/archivo.txt
------------------------------
Directorios:
data/gato

Raíz: data/gato
------------------------------
Archivos:
data/gato/juego_2.txt
data/gato/juego_1.txt
------------------------------
Directorios:



El parámetro `topdown` nos permite decidir si la navegación sobre una carpeta será desde el directorio raíz (`topdown = True`) o desde sus elementos hojas (`topdown = False`).

## Un ejemplo de lectura y escritura básico

Finalmente se muestra un ejemplo de lectura y escritura de archivos de texto simple. El siguiente código busca leer y guardar tableros del juego **Gato**. 

Comenzaremos leyendo un tablero existente. Dentro de la carpeta `gato` (dentro de la carpeta `data`) existe un archivo de texto simple con un tablero de Gato: `juego_1.txt`. Para abrirlo, usamos la función `open` de Python, que recibe la ruta de un archivo. Utilizaremos la función `os.path.join` para definir la ruta de forma portable:

In [10]:
ruta_juego_1 = os.path.join("data", "gato", "juego_1.txt")
archivo = open(ruta_juego_1, "rt")
archivo.readlines()

['X,-,O\n', '-,X,-\n', '-,-,-\n']

El argumento `"rt"` especifica el modo de apertura del archivo. La `"r"` significa que es en modo de lectura (_read_), y la `"t"` en forma de **t**exto. Más adelante en el curso estudiaremos otra forma de lectura y escritura de archivos.

Mediante el método `readlines` obtenemos una lista de las líneas del archivo de texto. Vemos que el tablero se representa mediante filas en cada línea, y cada una se separa por comas para cada posición del tablero. Hay una `"X"` o una `"O"` para representar jugadas de los jugadores, o `"-"` para un espacio vacio.

Antes de procesar este contenido, debemos cerrar el archivo que acabamos de abrir:

In [11]:
archivo.close()

Cada vez que se use la función `open` de esta forma, el archivo usado debe ser cerrado utilizando `close`. Una alternativa al uso de `close`, es abrir un archivo utilizando un ambiente generado con la sentencia `with`, como a continuación:

In [12]:
with open(ruta_juego_1, "rt") as archivo:
    lineas = archivo.readlines()

La ventaja de esta forma, es que al salir de la indentación generada por la sentencia `with` el archivo se cierra automáticamente y no es necesario utilizar `close`. Si vemos la variable generada, notamos que el contenido del archivo se obtuvo de la misma forma y se almacenó:

In [13]:
lineas

['X,-,O\n', '-,X,-\n', '-,-,-\n']

Notamos que esta forma de almacenar el tablero sigue siendo poco conveniente, ya que usa _strings_ para cada fila. El siguiente código limpia y separa cada fila en una lista con las posiciones separadas:

In [14]:
tablero = []
for linea in lineas:
    fila = linea.strip().split(',')
    print(fila)
    tablero.append(fila)

['X', '-', 'O']
['-', 'X', '-']
['-', '-', '-']


El método `strip` por defecto remueve espacios o saltos de líneas al comienzo o al final de un _string_, en este caso remueve `"\n"` de cada línea. Luego `split` separa el string según un caracter, en este caso, utilizamos `","` para separar.

Así, generamos una lista de dos dimensiones, con las posiciones del tablero ordenadas:

In [15]:
tablero

[['X', '-', 'O'], ['-', 'X', '-'], ['-', '-', '-']]

Ahora aplicaremos una nueva jugada por el jugador `"O"`, modificando una de las posiciones del tablero:

In [16]:
tablero[2][2] = 'O'

In [17]:
for fila in tablero:
    print(fila)

['X', '-', 'O']
['-', 'X', '-']
['-', '-', 'O']


Y finalmente guardaremos el resultado en otro archivo. Nuevamente definiremos la ruta utilizando `os.path.join`, y para escribir en archivos también podemos usar la sentencia `with`:

In [18]:
ruta_juego_2 = os.path.join("data", "gato", "juego_2.txt")

with open(ruta_juego_2, "wt") as archivo:
    for fila in tablero:
        fila_en_texto = ",".join(fila) + "\n"
        print(fila_en_texto)
        archivo.write(fila_en_texto)

X,-,O

-,X,-

-,-,O



Aquí, el método `join` de un _string_ recibe una lista de _strings_ y genera otro _string_ más largo que es el resultado de concatenar los _strings_ pero alternando el contenido usando el _string_ original, en este caso, `","`.

El resultado del tablero quedó almacenado en `"data/gato/juego_2.txt"`.