# Trabajo con ficheros

Hasta ahora, todos los ejemplos que hemos visto eran de datos introducidos de forma manual. Obviamente, esta forma de trabajo no es sostenible. En la inmensa mayoría de trabajos de analítica de datos, vamos a enfrentarnos a datos guardados en un fichero. 

---

# Índice
[Ficheros en Python](#Ficheros-en-Python) <br/>
[Ficheros CSV](#Ficheros-CSV) <br/>
[Ficheros PKL](#Ficheros-PKL) <br/>
[Conclusiones](#Conclusiones) <br/>

---

Un fichero no es más que un segmento de memoria secundaria (es decir, un disco duro, un pen-drive, etc.) con un nombre y un formato. Hay dos grandes familias de formatos:
- Ficheros binarios: escritos en lenguaje máquina, necesitan un software especial para poder interpretarlos. Pueden ser programas, imágenes, vídeos, etc.
- Ficheros de texto: escritos en caracteres inteligibles, aunque para entender su significado pueda hacer falta un software o un conocimiento profundo de la sintaxis. Algunos ejemplos son los ficheros HTML que conforman las páginas web, los ficheros Comma Separated Value (CSV), las propias libretas de Jupyter (ficheros ipynb) etc.

Aquí veremos los ficheros CSV (que son de texto) y los XLSX de excel (que son binarios). Ambos se utilizan para guardar y transferir datos en organizaciones que hacen análisis de datos. Veremos también los ficheros PKL, que permiten guardar objetos Python y son binarios.

In [1]:
import csv   # Librería para leer ficheros CSV
import pickle as pkl   # Librería para leer ficheros Pickle

## Ficheros en Python

Antes de leer datos, veremos cómo funciona Python a la hora de leer y escribir ficheros de texto. Esto es sólo para entender con mayor profundidad los procesos involucrados, dado que normalmente leeremos datos con Pandas. En Python, antes de utilizar un fichero, hay que abrirlo, y hay que especificar para qué se abre un fichero. Podemos abrir un fichero para cuatro cosas:

- Sólo lectura
- Sólo escritura
- Sólo concatenación
- Lectura y escritura

No vamos a entrar en detalles acerca de para qué se utiliza cada uno de estos casos. Simplemente veremos un ejemplo de lectura y uno de escritura. 

En Python, los ficheros siempre se usan de la siguiente manera:
1) Abrir el fichero.
2) Hacer las operaciones (lectura o escritura). Se puede mantener el fichero abierto a lo largo de todo el programa, pero no es recomendable.
3) Cerrar el fichero.

Veamos un ejemplo:

In [2]:
fichero = open("leer.txt")  # Paso 1
print( fichero.read() )     # Paso 2
fichero.close()             # Paso 3

Ejemplo de texto
Segunda lÃ­nea


Es usual que algunos programadores olviden cerrar un fichero. Por ello, en Python se suele usar la instrucción de control de flujo <code>with</code>, que básicamente cierra el recurso abierto una vez que se sale del bloque. Repitiendo el ejemplo anterior:

In [3]:
with open("leer.txt") as fichero:   # Paso 1 y 3 cuando termine el bloque
    print( fichero.read() )         # Paso 2

Ejemplo de texto
Segunda lÃ­nea


Veamos ahora un ejemplo de escritura de fichero. Nótese que al ejecutar esta línea, en el panel de la izquierda de Jupyter aparece un nuevo fichero:

In [4]:
texto = "Prueba de escritura\nSegunda línea"
with open("escribir.txt", "w") as fichero:
    fichero.write(texto)

En este código, hemos pasado el parámetro <code>"w"</code> a la función <code>open</code> para especificar que queremos escribir un fichero (lo cual incluye crearlo). Si no se pasa este parámetro, <code>open</code> interpreta que el fichero es de sólo lectura, y por supuesto, no lo crea si no existe. 

## Ficheros CSV

Los ficheros de texto pueden tener un <i>formato</i>. El formato proporciona un significado y una funcionalidad concretas, y consiste en una serie de reglas sintácticas que determinan qué caracteres hay que usar en cada momento y qué significado tienen. Por ejemplo, el código Python que estamos escribiendo, tiene una serie de reglas que determinan qué es una variable o una función, qué acción se tiene que realizar en cada línea, etc. Los ficheros CSV siguen un formato muy sencillo que codifica tablas de datos. Cada línea de un fichero CSV representa una fila de la tabla, y en cada fila, cada columna se separa del resto mediante un caracter especial llamado <i>separador</i>. Normalmente el separador es una coma (de ahí el nombre de <i>Comma Separated Values</i>, aunque también puede ser un espacio, un punto y coma, etc. Es importante saber esto para leer el fichero correctamente.

En el panel de la derecha, puede observar que hay un fichero llamado <code>datos_alumnos.csv</code>. Representa la siguiente tabla de datos (que ya vimos en la introducción a Pandas):

<table> 
    <tr><th>Índice</th><th>Nombre</th><th>Edad</th><th>Matriculado</th></tr>
    <tr><td>0</td><td>Antonio</td><td>22</td><td>No</td></tr>
    <tr><td>1</td><td>Berta</td><td>43</td><td>Sí</td></tr>
    <tr><td>2</td><td>Carlos</td><td>24</td><td>Sí</td></tr>
    <tr><td>3</td><td>Diana</td><td>21</td><td>No</td></tr>
    <tr><td>4</td><td>Esteban</td><td>33</td><td>Sí</td></tr>
</table>

Al abrir este fichero en Jupyter, se representa como una tabla. No obstante, si leemos el texto que guarda, veremos lo siguiente:

In [5]:
with open("datos_alumnos.csv") as fichero:
    print( fichero.read() )

Nombre,Edad,Matriculado
Antonio,22,No
Berta,43,SÃ­
Carlos,24,SÃ­
Diana,21,No
Esteban,33,SÃ­


Este fichero es, como se puede observar, muy simple. No obstante, en el mundo real, los ficheros CSV pueden ser mucho más complejos. Puede comprobar esto en el fichero <code>casos_diagnostico_ccaa.csv</code>, que representa el historial de casos de COVID en las comunidades autónomas de España (<a href="https://datos.gob.es/es/catalogo/e05070101-evolucion-de-enfermedad-por-el-coronavirus-covid-19">fuente oficial</a>). Hay ejemplos de datos mucho más complejos (de hecho, este sigue siendo simple, dado que tiene muy pocas columnas). Más adelante veremos cómo podemos extraer los datos que nos interesan y operar con ellos.

Existen otros tipos de ficheros de texto que contienen datos: <a href="https://es.wikipedia.org/wiki/Extensible_Markup_Language">XML</a>, <a href="https://es.wikipedia.org/wiki/JSON">JSON</a>, <a href="https://docs.fileformat.com/database/sql/">SQL</a>, <a href="https://en.wikipedia.org/wiki/Common_Log_Format">registros de eventos</a>, etc. Para leerlos, el procedimiento a seguir será siempre el mismo, abrirlo con <code>with open("fichero.tipo") as fichero:</code>, y a continuación procesarlo con una librería de Python (o implementar el código para procesar los contenidos). Veamos el ejemplo con la librería <a href="https://docs.python.org/3/library/csv.html">csv</a>:

In [6]:
with open("datos_alumnos.csv") as fichero:
    datos = csv.reader( fichero )
    for fila in datos:
        print(fila)

['Nombre', 'Edad', 'Matriculado']
['Antonio', '22', 'No']
['Berta', '43', 'SÃ\xad']
['Carlos', '24', 'SÃ\xad']
['Diana', '21', 'No']
['Esteban', '33', 'SÃ\xad']


El objeto <code>datos</code> se puede recorrer fila a fila con el <code>for</code>, y como vemos al mostrarlo por pantalla, cada fila es una lista de cadenas. Tendremos que procesar los tipos de dato a mano (por ejemplo, pasar los números a <code>int</code>.

Más adelante, veremos que las librerías de Python para análisis de datos simplifican aún más la lectura y escritura de este tipo de ficheros. Está bien conocer estos métodos, en cualquier caso, porque no siempre nos convendrá o podremos usar dichas librerías más avanzadas.

## Ficheros PKL

En análisis de datos, trabajamos con muchos elementos. Los datos son los principales, y ya hemos visto cómo leer y escribir ficheros de datos. Otro elemento con el que trabajaremos más adelante son los <i>modelos</i>. Estos modelos, como veremos más adelante, pueden tener muchas formas, como por ejemplo, distribuciones estadísticas parametrizadas, redes neuronales entrenadas, etc. Si bien se pueden guardar los parámetros en un fichero de texto y recuperarlos más adelante, una forma mucho más eficiente que ofrece Python es mediante la librería Pickle. Esta librería permite <i>serializar</i> objetos, es decir, traducirlos a un código binario que se puede escribir en un fichero. La ventaja es que se guarda un objeto completo, es decir, con sus valores miembro ya configurados. Esto nos puede servir, por ejemplo, para entrenar un modelo, guardarlo y usarlo más adelante.

Veamos un ejemplo básico usando el objeto <code>Gato</code> del módulo <code>gatos.py</code>:

In [7]:
from gatos import Gato

In [8]:
michi = Gato("negro", "agresivo", True)

Este objeto tiene sus métodos, que podemos llamar:

In [9]:
michi.acariciar()

Acariciando con cuidado al gato


In [10]:
with open("michi.pkl","wb") as fichero:
    pkl.dump(michi, fichero)

La función <code>dump</code> de Pickle no admite un nombre de fichero, sino un objeto fichero devuelto por <code>open</code>, como vimos al principio de esta libreta. Además, el parámetro <code>"wb"</code> le indica a <code>open</code> que tiene que abrir un fichero para la escritura (<code>w</code>) y en modo binario (<code>b</code>).

Podemos ahora leer el fichero:

In [11]:
with open("michi.pkl","rb") as fichero:
    michi_deserializado = pkl.load(fichero)

In [16]:
print(michi_deserializado)

<gatos.Gato object at 0x0000015D4BB69910>


Si llamamos a sus métodos, serán los mismos que los del objeto original:

In [13]:
michi_deserializado.acariciar()

Acariciando con cuidado al gato


Si lo cambiamos, el objeto original no variará:

In [14]:
michi_deserializado.caracter = "amigable"
michi_deserializado.acariciar()

Acariciando al gato


In [15]:
michi.acariciar()

Acariciando con cuidado al gato


Como nota final, lo recomendable es usar siempre formatos estándar para los datos. La serialización/deserialización es más conveniente para guardar objetos que son difíciles de computar y que no se suelen poder guardar como un conjunto de parámetros. Un ejemplo claro de esto son los modelos derivados de aprendizaje automático (redes neuronales, árboles de decisión, etc.) que veremos más adelante. Otra nota muy importante es <b>NUNCA ABRIR FICHEROS CON PICKLE DE ORIGEN DESCONOCIDO</b>. Se puede llegar a ejecutar cualquier comando, instalar programas, viruses, etc. Sólo debemos usar ficheros cuyo contenido conozcamos porque lo hayamos guardado nosotros.

## Conclusiones

Con esto concluye, de momento, la introducción a los ficheros con Python. Hay muchas cosas que se quedan en el tintero, como por ejemplo el uso de ficheros JSON o XML, que en ocasiones también se usan para transmitir datos. Una lectura muy informativa se puede encontrar <a href="https://morioh.com/p/96eb0b5d6908">aquí</a>.