In [None]:
import pandas as pd
import numpy as np

# 4.2. Adquisición y guardado de datos.

## Formatos disponibles para lectura y escritura
- Múltiples formas de importar y exportar datos en pandas:
<center>
<img src="imgs/data_1.png"  alt="drawing" width="600"/>
<br/>
<img src="imgs/data_2.png"  alt="drawing" width="600"/>
</center>

## Ficheros de tipo texto.

- Probablemente, una de las formas más recurrentes de trabajo para el análisis de datos
- La librería pandas, nos ofrece funciones para trabajar con ficheros en múltiples formatos.

### Lectura de ficheros en formato texto.
- Para la lectura usamos la función <b>read_csv</b>.
- Los parámetros más importantes/comunes de esta función son los siguientes:<br/>

|Función|Descripcción|
|----|---|
|`path`| Ruta del fichero del que se va a realizar la lectura.|
|`sep`| Carácter(es) que se utilizan como separador de campos en el fichero.|
|`header`| Índice de la fila que contiene los nombres de las columnas (None en caso de no haber).|
|`index_col`| Índice de la columna o secuencia de índices que se deben usar como índice de filas de los datos.|
|`names`| Secuencia que contiene los nombres de las columnas (usado junto con header=None).|
|`skiprows`| Número de filas o secuencia de índices de fila que se deben ignorar en la carga.|
|`na_values`| Secuencia de valores que, de encontrarse en el fichero, deben ser tratados como NaN.|
|`dtype`| Diccionario en el que las claves serán nombres de columnas y los valores serán tipos de NumPy a los que se debe convertir su contenido.|
|`parse_dates`| IMPORTANTE: Flag que indica si Python debe intentar parsear datos con formato semejante a las fechas como fechas. Puede ser un listado de nombres de columnas para el parseo como fecha.|
|`keep_date_col`| Si se unen columnas para parsear como fecha, indica si se deben eliminar del DataFrame resultante las columnas originales.|
|`converters`| Diccionario en el que las claves serán nombres de columnas y los valores funciones que se deberán aplicar al contenido de dichas columnas durante la carga.|
|`dayfirst`| Indica si al parsear fechas se debe esperar el día primero o el mes. |
|`date_parser`| Función a utilizar para tratar de parsear fechas.|
|`nrows`| Número de filas a leer desde el principio del fichero.|
|`chunksize`| IMPORTANTE: Cuando tenemos un fichero muy grande, no hay porqué leerlo entero. Tamaño a utilizar para la lectura incremental del fichero.|
|`skip_footer`| Número de filas a ignorar del final del fichero.|
|`enconding`| Codificación a esperar del fichero leído.|
|`squeeze`| Flag que indica que si los datos leídos sólo contienen una columna el resultado sea una Serie en lugar de un DataFrame.|
|`thousands`| Carácter a utilizar para detectar el separador de miles.|
|`decimal`| Carácter a utilizar para detectar el separador de decimales.|
|`skip_blank_lines`| Flag que indica si se deben ignorar las líneas en blanco.|

Leemos un fichero con read_csv

In [None]:
df = pd.read_csv('test_data/ex1.csv', header=0)
df

Si el fichero no tiene encabezado, tenemos que poner header = None

In [None]:
pd.read_csv('test_data/ex2.csv', header=None)

Podemos especificar nosotros los nombres de las columnas

In [None]:
pd.read_csv('test_data/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Podemos especificar qué columna queremos que sea el índice

In [None]:
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('test_data/ex2.csv', 
            names=names, 
            index_col='message')

- ex3.txt tiene un separador extraño 
- Podemos especificar el separador, para poder lerr el fichero correctamente

In [None]:
result = pd.read_csv('test_data/ex3.txt', sep='\s+')
result

El ejemplo 4 tiene varios comentarios

Por lo que querremos obviarlos a la hora de leer el fichero

In [None]:
pd.read_csv('test_data/ex4.csv', skiprows=[0, 2, 3])

En el ejemplo 5 tenemos un fichero con NAs

In [None]:
result = pd.read_csv('test_data/ex5.csv')
result

Podríamos especificar qué valor hay en el fichero que equivale a NA

Por ejemplo, el Banco de España usa un _ para los NA

Podríamos decir que, al cargar los datos, esos valores los convirtiera a NAs

In [None]:
result = pd.read_csv('test_data/ex5.csv', na_values=['NULL'])
result

Podemos especificar, para cada columna, qué valores equivaldrían a NAs

In [None]:
sentinels = {
    'message': ['foo', 'NA'], # Si en la columna message, aparece foo, o NA, lo convertirá a NA
    'something': ['two'] # Si en la columna something aparece two, lo convertirá a NA
}
pd.read_csv('test_data/ex5.csv', na_values=sentinels)

### Lectura de ficheros grandes por tramos

Imaginemos que tenemos un fichero muy grande, que no podemos cargar en memoria (o que no queremos)

Podríamos leer el fichero por tramos

En este caso, leemos las últimas líneas

In [None]:
result = pd.read_csv('test_data/ex6.csv')
result.tail()

Podríamos indicar cuantas líneas queremos que lea, desde el principio

In [None]:
pd.read_csv('test_data/ex6.csv', nrows=5)

Podemos usar chunksize para indicar: "quiero que me leas, cada 1000 registros"

In [None]:
chunker = pd.read_csv('test_data/ex6.csv', chunksize=1000)
chunker

Como véis, no nos devuelve el trozo leído.

Para leer el fichero, usamos un bucle for

In [None]:
chunker = pd.read_csv('test_data/ex6.csv', chunksize=1000)
for piece in chunker:
    print(piece.shape)

### Escritura de ficheros en formato texto

- Para escribir datos en forma de texto usamos la función <b>to_csv</b>. 
- Por defecto, el fichero seleccionado será sobreescrito.
- Los parámetros más comunes de esta función son:<br/>

|Función|Descripcción|
|----|---|
|`path`| Ruta del fichero que se utilizará para la escritura.|
|`sep`| Carácter utilizado como separador de campos.|
|`na_rep`| Cadena que se deberá utilizar para darle representación a los valores NaN.|
|`float_format`| Indicador de formato para los números en coma flotante.|
|`columns`| Secuencia de selección del conjunto de columnas que se desea volcar al fichero.|
|`header`| Flag o secuencia de cadenas que indica si se debe volcar la cabecera al fichero.|
|`index`| Flag que indica si el índice debe ser incluido o no como una columna más en el fichero.|
|`index_label`| Nombre que se le debe dar a la columna de índice en el fichero.|
|`mode`| Modo de apertura del fichero. Por defecto, "w".|
|`encoding`| Codificación a utilizar en la escritura del fichero.|
|`line_terminator`| Carácter(es) a utilizar para indicar una final de registr|
|`date_format`| Indicador de formato a utilizar para escribir fechas.|
|`decimal`| Carácter a utilizar como separador de decimales|


Leemos un fichero

In [None]:
data = pd.read_csv('test_data/ex5.csv')
data

Sobreescribimos el fichero

In [None]:
data.to_csv('out.csv')

Si ponemos la barra vertical como separador, lo guardará como indicamos

In [None]:
data.to_csv('out.csv', sep='|')

Si queremos que los Nan los guarde como Null, podemos especificarlo

In [None]:
data.to_csv('out.csv', na_rep='NULL')

Podemos indicar si queremos que guarde los índices de filas y columnas, o no.

In [None]:
data.to_csv('out.csv', index=False, header=False)

No guardamos el índice de filas, pero sí el índice de columnas

In [None]:
data.to_csv('out.csv', index=False, columns=['a', 'b', 'c'])

## Trabajo con otros formatos
### Lectura de Ficheros Excel

Podemos crear un fichero, que es un objeto que tiene cada hoja del excel y recuperamos del objeto, la hoja 1

In [None]:
xlsx = pd.ExcelFile('test_data/ex1.xlsx')
frame = pd.read_excel(xlsx, 'Sheet1')
frame

O podemos leer una hoja en concreto

In [None]:
frame = pd.read_excel('test_data/ex1.xlsx', 'Sheet1')
frame

A la hora de guardar, podmos guardar una hoja en concreto

In [None]:
writer = pd.ExcelWriter('test_data/ex2.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()

O guardar el excel completo

In [None]:
frame.to_excel('test_data/ex2.xlsx')

___
# Ejercicios

**4.2.1.** Lee los datos del fichero train.csv

**4.2.2.** Iguala las filas 3 a 20 y columnas 6 a 10 a cero. Escribe el fichero en train_mod.csv.

**4.2.3.** Realiza las siguientes tareas:

- Carga los csvs de datos ibex_div, ibex, NTGY, REE, SAN 
- Une todos los datos en un único Dataframe
- Grafica el DF: las diferencias de escala no nos permiten ver bien el gráfico
- Haz que todas las series empiecen en el mismo punto, dividiendo cada valor de las columnas, por el valor que tienen en la 1ª fila