In [None]:
import pandas as pd
import numpy as np

# 4.2. Adquisición y guardado de datos.

## Formatos disponibles para lectura y escritura
- Múltiples formas de importar y exportar datos en pandas:
<center>
<img src="imgs/data_1.png"  alt="drawing" width="600"/>
<br/>
<img src="imgs/data_2.png"  alt="drawing" width="600"/>
</center>

## Ficheros de tipo texto.

- Probablemente, una de las formas más recurrentes de trabajo para el análisis de datos
- La librería pandas, nos ofrece funciones para trabajar con ficheros en múltiples formatos.

### Lectura de ficheros en formato texto.
- Para la lectura usamos la función <b>read_csv</b>.
- Los parámetros más importantes/comunes de esta función son los siguientes:<br/>

|Función|Descripcción|
|----|---|
|`path`| Ruta del fichero del que se va a realizar la lectura.|
|`sep`| Carácter(es) que se utilizan como separador de campos en el fichero.|
|`header`| Índice de la fila que contiene los nombres de las columnas (None en caso de no haber).|
|`index_col`| Índice de la columna o secuencia de índices que se deben usar como índice de filas de los datos.|
|`names`| Secuencia que contiene los nombres de las columnas (usado junto con header=None).|
|`skiprows`| Número de filas o secuencia de índices de fila que se deben ignorar en la carga.|
|`na_values`| Secuencia de valores que, de encontrarse en el fichero, deben ser tratados como NaN.|
|`dtype`| Diccionario en el que las claves serán nombres de columnas y los valores serán tipos de NumPy a los que se debe convertir su contenido.|
|`parse_dates`| Flag que indica si Python debe intentar parsear datos con formato semejante a las fechas como fechas. Puede contenter un listado de nombres de columnas que deberán unirse para el parseo como fecha.|
|`keep_date_col`| Si se unen columnas para parsear como fecha, indica si se deben eliminar del DataFrame resultante las columnas originales.|
|`converters`| Diccionario en el que las claves serán nombres de columnas y los valores funciones que se deberán aplicar al contenido de dichas columnas durante la carga.|
|`dayfirst`| Indica si al parsear fechas se debe esperar el día primero o el mes. |
|`date_parser`| Función a utilizar para tratar de parsear fechas.|
|`nrows`| Número de filas a leer desde el principio del fichero.|
|`chunksize`| Tamaño a utilizar para la lectura incremental del fichero.|
|`skip_footer`| Número de filas a ignorar del final del fichero.|
|`enconding`| Codificación a esperar del fichero leído.|
|`squeeze`| Flag que indica que si los datos leídos sólo contienen una columna el resultado sea una Serie en lugar de un DataFrame.|
|`thousands`| Carácter a utilizar para detectar el separador de miles.|
|`decimal`| Carácter a utilizar para detectar el separador de decimales.|
|`skip_blank_lines`| Flag que indica si se deben ignorar las líneas en blanco.|

In [None]:
!cat test_data/ex1.csv # esto simplemente saca por pantalla el contenido del fichero

In [None]:
df = pd.read_csv('test_data/ex1.csv')
df

In [None]:
!cat test_data/ex2.csv

In [None]:
pd.read_csv('test_data/ex2.csv', header=None)

In [None]:
pd.read_csv('test_data/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

In [None]:
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('test_data/ex2.csv', 
            names=names, 
            index_col='message')

In [None]:
!cat test_data/ex3.txt

In [None]:
list(open('test_data/ex3.txt'))

In [None]:
result = pd.read_csv('test_data/ex3.txt', sep='\s+')
result

In [None]:
!cat test_data/ex4.csv

In [None]:
pd.read_csv('test_data/ex4.csv', skiprows=[0, 2, 3])

In [None]:
!cat test_data/ex5.csv

In [None]:
result = pd.read_csv('test_data/ex5.csv')
result

In [None]:
pd.isnull(result)

In [None]:
result = pd.read_csv('test_data/ex5.csv', na_values=['NULL'])
result

In [None]:
# Podemos especificar para casa columna los elementos nulos
sentinels = {
    'message': ['foo', 'NA'], 
    'something': ['two']
}
pd.read_csv('test_data/ex5.csv', na_values=sentinels)

### Lectura de ficheros grandes por tramos

In [None]:
result = pd.read_csv('test_data/ex6.csv')
result.tail()

In [None]:
pd.read_csv('test_data/ex6.csv', nrows=5)

In [None]:
chunker = pd.read_csv('test_data/ex6.csv', chunksize=1000)
chunker

In [None]:
chunker = pd.read_csv('test_data/ex6.csv', chunksize=1000)
tot = pd.Series([])
for piece in chunker:
    print(piece.shape)


### Escritura de ficheros en formato texto

- Para escribir datos en forma de texto usamos la función <b>to_csv</b>. 
- Por defecto, el fichero seleccionado será sobreescrito.
- Los parámetros más comunes de esta función son:<br/>

|Función|Descripcción|
|----|---|
|`path`| Ruta del fichero que se utilizará para la escritura.|
|`sep`| Carácter utilizado como separador de campos.|
|`na_rep`| Cadena que se deberá utilizar para darle representación a los valores NaN.|
|`float_format`| Indicador de formato para los números en coma flotante.|
|`columns`| Secuencia de selección del conjunto de columnas que se desea volcar al fichero.|
|`header`| Flag o secuencia de cadenas que indica si se debe volcar la cabecera al fichero.|
|`index`| Flag que indica si el índice debe ser incluido o no como una columna más en el fichero.|
|`index_label`| Nombre que se le debe dar a la columna de índice en el fichero.|
|`mode`| Modo de apertura del fichero. Por defecto, "w".|
|`encoding`| Codificación a utilizar en la escritura del fichero.|
|`line_terminator`| Carácter(es) a utilizar para indicar una final de registr|
|`date_format`| Indicador de formato a utilizar para escribir fechas.|
|`decimal`| Carácter a utilizar como separador de decimales|


In [None]:
data = pd.read_csv('test_data/ex5.csv')
data

In [None]:
data.to_csv('out.csv')

In [None]:
!cat out.csv

In [None]:
import sys
data.to_csv(sys.stdout, sep='|')

In [None]:
data.to_csv(sys.stdout, na_rep='NULL')

In [None]:
data.to_csv(sys.stdout, index=False, header=False)

In [None]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

In [None]:
dates = pd.date_range('1/1/2000', periods=7)
ts = pd.Series(np.arange(7), index=dates)
ts

In [None]:
ts.to_csv('tseries.csv')
!cat tseries.csv

## Trabajo con otros formatos
### Lectura de Ficheros Excel

In [None]:
!pip install xlrd

In [None]:
xlsx = pd.ExcelFile('test_data/ex1.xlsx')

In [None]:
pd.read_excel(xlsx, 'Sheet1')

In [None]:
frame = pd.read_excel('test_data/ex1.xlsx', 'Sheet1')
frame

In [None]:
writer = pd.ExcelWriter('test_data/ex2.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()

In [None]:
# de forma directa
frame.to_excel('test_data/ex2.xlsx')

### Binary Data: Pickel

In [None]:
frame = pd.read_csv('test_data/ex1.csv')
frame

In [None]:
frame.to_pickle('frame_pickle')

In [None]:
pd.read_pickle('frame_pickle')

___
# Ejercicios

**4.2.1.** Lee los datos del fichero train.csv

**4.2.2.** Cambia algunos de los datos y escribe el fichero train_mod.csv.