# 1. Lectura y escritura de información

Más que creando Series o DataFrames de cero, o incluso a partir de secuencias del core de Python o ndarrays, el uso más típico de pandas se basa en la **carga de información desde ficheros/fuentes de información** para su posterior exploración, transformación y análisis.

In [2]:
import numpy as np
import pandas as pd

## Lectura de ficheros en formato texto

Probablemente, una de las formas más recurrentes de trabajo para el análisis de datos: fuentes de datos públicas, logs, tablas históricas de información, exportaciones desde base de datos... La librería **pandas, nos ofrece funciones para trabajar con ficheros en múltiples formatos, todos ellos creando un DataFrame** con la información leída:<br/>

- Ficheros planos separados por coma, tabulación, ., etc.: mediante la función **read_csv**.
- Ficheros excel: mediante la función **read_excel**.


<b>read_csv</b> tiene un conjunto muy amplio de parámetros que permiten configurar de un modo preciso la lectura de información que se va a hacer. Los parámetros más importantes/comunes son los siguientes:<br/>
<ul>
<li><b>path:</b> Ruta del fichero del que se va a realizar la lectura.</li>
<li><b>sep:</b> Carácter(es) que se utilizan como separador de campos en el fichero.</li>
<li><b>header:</b> Índice de la fila que contiene los nombres de las columnas (None en caso de no haber).</li>
<li><b>index_col:</b> Índice de la columna o secuencia de índices que se deben usar como índice de filas de los datos.</li>
<li><b>skiprows:</b> Número de filas o secuencia de índices de fila que se deben ignorar en la carga.</li>
<li><b>names:</b> Secuencia que contiene los nombres de las columnas (usado junto con header=None).</li>
<li><b>na_values:</b> Secuencia de valores que, de encontrarse en el fichero, deben ser tratados como NaN.</li>
<li><b>dtype:</b> Diccionario en el que las claves serán nombres de columnas y los valores serán tipos de NumPy a los que se debe convertir su contenido.</li>
<li><b>parse_dates:</b> Flag que indica si Python debe intentar parsear datos con formato semejante a las fechas como fechas. Puede contenter un listado de nombres de columnas que deberán unirse para el parseo como fecha.</li>
<li><b>converters:</b> Diccionario en el que las claves serán nombres de columnas y los valores funciones que se deberán aplicar al contenido de dichas columnas durante la carga.</li>
<li><b>dayfirst:</b> Indica si al parsear fechas se debe esperar el día primero o el mes. </li>
<li><b>nrows:</b> Número de filas a leer desde el principio del fichero.</li>
<li><b>chunksize:</b> Tamaño a utilizar para la lectura incremental del fichero.</li>
<li><b>skip_footer:</b> Número de filas a ignorar del final del fichero.</li>
<li><b>enconding:</b> Codificación a esperar del fichero leído.</li>
<li><b>squeeze:</b> Flag que indica que si los datos leídos sólo contienen una columna el resultado sea una Serie en lugar de un DataFrame.</li>
<li><b>thousands:</b> Carácter a utilizar para detectar el separador de miles.</li>
<li><b>decimal:</b> Carácter a utilizar para detectar el separador de decimales.</li>
</ul>

<b>read_excel</b> tiene también un buen conjunto de parámetros para controlar la función, para más información vistar la documentación de la función:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

### Lectura de ficheros planos

In [3]:
#sep='\t' se indica que los datos en el fichero están separados por tabulación.

catastro = pd.read_csv('datos/catastro.tsv', sep = "\t") 
catastro.head()


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0


### Lectura de ficheros excel

In [4]:
#sheet_name determina la hoja de excel que queremos importar.
liga1=pd.read_excel('datos/all-euro-data-2020-2021.xlsx',sheet_name='E0')
liga1.head()

Unnamed: 0,Div,Date,Time,HomeTeam,AwayTeam,FTHG,FTAG,FTR,HTHG,HTAG,...,AvgC<2.5,AHCh,B365CAHH,B365CAHA,PCAHH,PCAHA,MaxCAHH,MaxCAHA,AvgCAHH,AvgCAHA
0,E0,2020-09-12,12:30:00,Fulham,Arsenal,0,3,A,0,1,...,1.84,0.75,2.01,1.89,2.02,1.91,2.13,1.92,2.02,1.87
1,E0,2020-09-12,15:00:00,Crystal Palace,Southampton,1,0,H,1,0,...,1.7,0.25,1.78,2.13,1.79,2.17,1.85,2.18,1.79,2.12
2,E0,2020-09-12,17:30:00,Liverpool,Leeds,4,3,H,3,2,...,2.62,-1.5,1.85,2.05,1.85,2.08,1.9,2.16,1.84,2.04
3,E0,2020-09-12,20:00:00,West Ham,Newcastle,0,2,A,0,0,...,1.92,-0.5,2.03,1.87,2.04,1.88,2.09,1.91,2.02,1.86
4,E0,2020-09-13,14:00:00,West Brom,Leicester,0,3,A,0,0,...,1.73,0.25,1.92,1.98,1.93,1.99,1.95,2.01,1.91,1.97


In [7]:
liga2=pd.read_excel('datos/all-euro-data-2020-2021.xlsx',sheet_name='E1')
#Importamos otra liga y ahora combinamos los dos dataframes
data_england=pd.concat([liga1,liga2])
print(data_england.head())
print(data_england.tail())

  Div       Date      Time        HomeTeam     AwayTeam  FTHG  FTAG FTR  HTHG  \
0  E0 2020-09-12  12:30:00          Fulham      Arsenal     0     3   A     0   
1  E0 2020-09-12  15:00:00  Crystal Palace  Southampton     1     0   H     1   
2  E0 2020-09-12  17:30:00       Liverpool        Leeds     4     3   H     3   
3  E0 2020-09-12  20:00:00        West Ham    Newcastle     0     2   A     0   
4  E0 2020-09-13  14:00:00       West Brom    Leicester     0     3   A     0   

   HTAG  ... AvgC<2.5  AHCh  B365CAHH  B365CAHA  PCAHH  PCAHA  MaxCAHH  \
0     1  ...     1.84  0.75      2.01      1.89   2.02   1.91     2.13   
1     0  ...     1.70  0.25      1.78      2.13   1.79   2.17     1.85   
2     2  ...     2.62 -1.50      1.85      2.05   1.85   2.08     1.90   
3     0  ...     1.92 -0.50      2.03      1.87   2.04   1.88     2.09   
4     0  ...     1.73  0.25      1.92      1.98   1.93   1.99     1.95   

   MaxCAHA  AvgCAHH  AvgCAHA  
0     1.92     2.02     1.87  
1     

## Escritura de ficheros en formato texto

Función <b>to_csv</b>. Es importante indicar que, por defecto, el fichero seleccionado será SIEMPRE sobreescrito.<br/>

Los parámetros más comunes de esta función son:<br/>
<ul>
<li><b>path:</b> Ruta del fichero que se utilizará para la escritura.</li>
<li><b>sep:</b> Carácter utilizado como separador de campos.</li>
<li><b>na_rep:</b> Cadena que se deberá utilizar para darle representación a los valores NaN.</li>
<li><b>float_format:</b> Indicador de formato para los números en coma flotante.</li>
<li><b>columns:</b> Secuencia de selección del conjunto de columnas que se desea volcar al fichero.</li>
<li><b>header:</b> Flag o secuencia de cadenas que indica si se debe volcar la cabecera al fichero.</li>
<li><b>index:</b> Flag que indica si el índice debe ser incluido o no como una columna más en el fichero.</li>
<li><b>index_label:</b> Nombre que se le debe dar a la columna de índice en el fichero.</li>
<li><b>mode:</b> Modo de apertura del fichero. Por defecto, "w".</li>
<li><b>encoding:</b> Codificación a utilizar en la escritura del fichero.</li>
<li><b>date_format:</b> Indicador de formato a utilizar para escribir fechas.</li>
<li><b>decimal:</b> Carácter a utilizar como separador de decimales</li>
</ul>

También está disponible la función **to_excel**.

In [5]:
catastro.to_csv('datos/catastro_copia.csv', sep = "|", index = False)
#Comprobar que existe ahora un nuevo fichero llamado catastro_copia

In [8]:
data_england.to_excel('datos/liga inglesa.xls',sheet_name='England')
#Comprobar que existe ahora el nuevo fichero liga inglesa y que tiene una única hoja llamada 'England'

## Formato pickle

- **Ficheros binarios "pickle"**: pickle es un módulo del core de Python que establece un formato binario que **permite almacenar y recuperar cualquier objeto Python en disco**. Todos los objetos de pandas tienen un método <b>save</b> y otro <b>load</b> que permiten almacenar y recuperar información en este formato.