# Trabajo con ficheros en Pandas

Ya hemos visto cómo abrir, leer y escribir ficheros en Python básico. En análisis de datos, normalmente, utilizamos una serie de ficheros con un formato especializado en el almacenamiento de datos. Hablamos de los ficheros CSV, XLS, etc. Al ser una tarea tan común, Pandas provee de funciones que nos ayudan a cargar directamente los datos de estos ficheros. Esto lleva a una representación mucho más compacta y que nos facilitará la vida. En esta libreta, veremos el funcionamiento de Pandas con los ficheros CSV y XLSX.

---

# Índice
[Ficheros CSV](#Ficheros-CSV) <br/>
[Ficheros Excel](#Ficheros-Excel) <br/>
[Conclusiones](#Conclusiones) <br/>

---

In [1]:
import pandas as pd

## Ficheros CSV

Como vimos en la introducción a Pandas, los <code>DataFrames</code> sirven para representar tablas de datos, al igual que los ficheros CSV. Dado que leer ficheros CSV y pasar los datos a un DataFrame es una tarea muy común, Pandas integra una función para ello. Veamos su uso básico:

In [2]:
alumnos = pd.read_csv("datos/datos_alumnos.csv")

In [3]:
alumnos

Unnamed: 0,Nombre,Edad,Matriculado
0,Antonio,22,No
1,Berta,43,Sí
2,Carlos,24,Sí
3,Diana,21,No
4,Esteban,33,Sí


Esta función realiza las tareas de apertura, lectura, cierre y generación del <code>DataFrame</code> de forma transparente. Podemos ver que ha añadido automáticamente un índice (que no está en el fichero) y ha interpretado la primera línea como el nombre de las columnas.

No todos los ficheros CSV se escriben de la misma manera. Veamos ahora el fichero <code>datos_alumnos_v2.csv</code>, cuyos contenidos son los siguientes:

<code>
;Nombre;Edad;Matriculado
0;Antonio;22;No
1;Berta;43;Sí
2;Carlos;24;Sí
3;Diana;21;No
4;Esteban;33;Sí
</code>

En este caso, el separador no es una coma, sino un punto y coma. Además, hay una primera columna que contiene el índice. Veamos qué pasa si lo abrimos en Pandas:

In [4]:
alumnos_v2 = pd.read_csv("datos/datos_alumnos_v2.csv")

In [5]:
alumnos_v2

Unnamed: 0,;Nombre;Edad;Matriculado
0,0;Antonio;22;No
1,1;Berta;43;Sí
2,2;Carlos;24;Sí
3,3;Diana;21;No
4,4;Esteban;33;Sí


En este caso, Pandas no interpreta correctamente los datos. Tendremos que especificar el separador en un parámetro:

In [6]:
alumnos_v2 = pd.read_csv("datos/datos_alumnos_v2.csv", sep=';')

In [7]:
alumnos_v2

Unnamed: 0.1,Unnamed: 0,Nombre,Edad,Matriculado
0,0,Antonio,22,No
1,1,Berta,43,Sí
2,2,Carlos,24,Sí
3,3,Diana,21,No
4,4,Esteban,33,Sí


Ahora lo interpreta correctamente, gracias al parámetro <code>sep</code>, que indica que el separador es <code>';'</code>, pero falla a la hora de leer el índice. Lo interpreta como una primera columna anónima. Podemos especificarlo a la hora de la lectura de la siguiente forma:

In [8]:
alumnos_v2 = pd.read_csv("datos/datos_alumnos_v2.csv", sep=';', index_col=0)

In [9]:
alumnos_v2

Unnamed: 0,Nombre,Edad,Matriculado
0,Antonio,22,No
1,Berta,43,Sí
2,Carlos,24,Sí
3,Diana,21,No
4,Esteban,33,Sí


El parámetro <code>index_col</code> indica que la primera columna (<code>0</code>) es la que contiene el índice. Si queremos usar otra columna, podemos usar su orden o incluso su nombre.

<div style="background-color:lightpink; padding:1em">
    <b>Ejercicio 1</b><br/>
    Lea los contenidos del fichero <code>datos/lista_reproduccion.csv</code> en la variable <code>lista</code>.
</div>

Hay muchos más parámetros que permiten leer correctamente ficheros CSV con distintos formatos; cada caso es un mundo. Por tanto, es importante tener a mano la <a href="https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.read_csv.html">documentación de la función <code>read_csv</code></a>.

Escribir ficheros CSV es igual de sencillo. Una vez que tenemos los datos de un <code>DataFrame</code>, simplemente usamos la función <code>to_csv</code>:

In [10]:
alumnos.to_csv("datos/alumnos_salida.csv")

Esta función escribe un CSV con índice. Si queremos evitarlo, podemos usar el parámetro <code>index=False</code>

<div style="background-color:lightpink; padding:1em">
    <b>Ejercicio 2</b><br/>
    Añada la información de la una canción nueva a la tabla <code>lista</code> y a continuación guárdela en un fichero llamado <code>lista_nueva.csv</code>. Si no tiene ideas, puede usar los siguientes datos:
    <ul style="background-color:lightpink; padding-left:3em">
        <li>Nombre: Astronomia</li>
        <li>Artista: Vicetone & Tony Igy</li>
        <li>Año: 2010</li>
    </ul>
</div>

## Ficheros Excel

Los ficheros Excel son también un formato muy usado para intercambiar datos, dada la gran adopción de Microsoft Office. Por tanto, Pandas ofrece una función muy similar a <code>read_csv</code> para leer datos:

In [11]:
vuelos = pd.read_excel("datos/vuelos_AGP_NY.xlsx")

In [12]:
vuelos

Unnamed: 0,Salida,Llegada,Precio
0,20:35:00,12:15:00,160
1,20:35:00,12:15:00,165
2,09:20:00,19:25:00,206
3,20:35:00,13:00:00,163
4,20:35:00,13:00:00,165


Por defecto, esta función sólo lee la primera hoja. Podemos especificar qué hoja queremos leer con el parámetro <code>sheet_name</code>:

In [13]:
vuelos_7_sept = pd.read_excel("datos/vuelos_AGP_NY.xlsx", sheet_name="7 Sept")
vuelos_8_sept = pd.read_excel("datos/vuelos_AGP_NY.xlsx", sheet_name="8 Sept")

In [14]:
vuelos_7_sept

Unnamed: 0,Salida,Llegada,Precio
0,20:35:00,12:15:00,160
1,20:35:00,12:15:00,165
2,09:20:00,19:25:00,206
3,20:35:00,13:00:00,163
4,20:35:00,13:00:00,165


In [15]:
vuelos_8_sept

Unnamed: 0,Salida,Llegada,Precio
0,11:35:00,17:30:00,190
1,13:25:00,19:25:00,217
2,21:30:00,14:40:00,127
3,21:30:00,14:40:00,138
4,06:45:00,14:10:00,232


Por supuesto, siempre que queramos analizar los datos de un fichero, hay que previsualizarlos. Para ello, en el caso de los ficheros XLSX, hay que abrirlos en Excel y ver cómo están estructurados.

Para escribir un <code>DataFrame</code> en una hoja de cálculo, usamos <code>to_excel</code>:

In [16]:
alumnos.to_excel("datos/alumnos.xlsx")

## Conclusiones

Pandas tiene funciones para los principales formatos de almacenamiento de datos. En este caso, hemos visto los CSV y los XLSX. Para cada uno, las funciones ofrecen argumentos que ayudan a personalizar la lectura. También es importante remarcar que los datos, sobre todo en producción (es decir, en sistemas terminados y desplegados para dar un servicio), se guardan preferentemente en bases de datos. Para ello, Pandas también provee funciones. No obstante, en nuestro trabajo de análisis de datos, normalmente nos proveerán de un fichero volcado de la base de datos. Todo esto está documentado en <a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html">la guia de entrada/salida de datos</a> de Pandas. 