# Lectura y Escritura de datos

In [2]:
import pandas as pd

## Formatos disponibles para lectura

- Hay muchos formatos disponibles para la lectura.

<center>
<img src="imgs\lectura_1.svg"  alt="drawing" width="50%"/>
</center>

- Los parámetros más importantes/comunes de esta función son los siguientes:<br/>

|Función|Descripcción|
|----|---|
|`path`| Ruta del fichero del que se va a realizar la lectura.|
|`sep`| Carácter(es) que se utilizan como separador de campos en el fichero.|
|`header`| Índice de la fila que contiene los nombres de las columnas (None en caso de no haber).|
|`index_col`| Índice de la columna o secuencia de índices que se deben usar como índice de filas de los datos.|
|`names`| Secuencia que contiene los nombres de las columnas (usado junto con header=None).|
|`skiprows`| Número de filas o secuencia de índices de fila que se deben ignorar en la carga.|
|`na_values`| Secuencia de valores que, de encontrarse en el fichero, deben ser tratados como NaN.|
|`dtype`| Diccionario en el que las claves serán nombres de columnas y los valores serán tipos de NumPy a los que se debe convertir su contenido.|
|`parse_dates`| Flag que indica si Python debe intentar parsear datos con formato semejante a las fechas como fechas. Puede contenter un listado de nombres de columnas que deberán unirse para el parseo como fecha.|
|`keep_date_col`| Si se unen columnas para parsear como fecha, indica si se deben eliminar del DataFrame resultante las columnas originales.|
|`converters`| Diccionario en el que las claves serán nombres de columnas y los valores funciones que se deberán aplicar al contenido de dichas columnas durante la carga.|
|`dayfirst`| Indica si al parsear fechas se debe esperar el día primero o el mes. |
|`date_parser`| Función a utilizar para tratar de parsear fechas.|
|`nrows`| Número de filas a leer desde el principio del fichero.|
|`chunksize`| Tamaño a utilizar para la lectura incremental del fichero.|
|`skip_footer`| Número de filas a ignorar del final del fichero.|
|`enconding`| Codificación a esperar del fichero leído.|
|`squeeze`| Flag que indica que si los datos leídos sólo contienen una columna el resultado sea una Serie en lugar de un DataFrame.|
|`thousands`| Carácter a utilizar para detectar el separador de miles.|
|`decimal`| Carácter a utilizar para detectar el separador de decimales.|
|`skip_blank_lines`| Flag que indica si se deben ignorar las líneas en blanco.|

In [6]:
[
    method_name
    for method_name in dir(pd)
    if method_name.startswith("read_")
]

['read_clipboard',
 'read_csv',
 'read_excel',
 'read_feather',
 'read_fwf',
 'read_gbq',
 'read_hdf',
 'read_html',
 'read_json',
 'read_orc',
 'read_parquet',
 'read_pickle',
 'read_sas',
 'read_spss',
 'read_sql',
 'read_sql_query',
 'read_sql_table',
 'read_stata',
 'read_table',
 'read_xml']

In [19]:
a = pd.read_csv("data/climate_data.csv")

In [9]:
a.head()

Unnamed: 0,Year,Mo,Globe,Land,Ocean,NH,Land.1,Ocean.1,SH,Land.2,...,NoPol,Land.6,Ocean.6,SoPol,Land.7,Ocean.7,USA48,USA49,AUST,Troposphere
0,1978,12.0,-0.48,-0.51,-0.47,-0.44,-0.46,-0.42,-0.52,-0.62,...,-0.39,-0.68,-0.06,-0.45,-0.38,-0.49,-1.29,-1.15,-1.29,Lower
1,1979,1.0,-0.47,-0.64,-0.41,-0.64,-0.86,-0.5,-0.31,-0.13,...,-0.46,-0.95,0.1,-0.16,-0.15,-0.16,-3.22,-2.42,0.92,Lower
2,1979,2.0,-0.43,-0.56,-0.39,-0.47,-0.57,-0.41,-0.39,-0.53,...,-2.01,-2.3,-1.66,-0.8,-1.25,-0.58,-1.76,-1.84,-0.3,Lower
3,1979,3.0,-0.38,-0.51,-0.33,-0.46,-0.51,-0.44,-0.3,-0.53,...,-0.56,-0.47,-0.65,-0.52,-1.25,-0.18,-0.7,-0.39,0.23,Lower
4,1979,4.0,-0.4,-0.57,-0.34,-0.47,-0.62,-0.37,-0.34,-0.46,...,-0.84,-0.81,-0.88,-0.26,0.26,-0.51,-0.72,-0.46,-1.12,Lower


In [10]:
a.tail()

Unnamed: 0,Year,Mo,Globe,Land,Ocean,NH,Land.1,Ocean.1,SH,Land.2,...,NoPol,Land.6,Ocean.6,SoPol,Land.7,Ocean.7,USA48,USA49,AUST,Troposphere
2100,,,,,,,,,,,...,,,,,,,,,,
2101,,,,,,,,,,,...,,,,,,,,,,
2102,,,,,,,,,,,...,,,,,,,,,,
2103,,,,,,,,,,,...,,,,,,,,,,
2104,,,,,,,,,,,...,,,,,,,,,,


In [18]:
a = pd.read_csv("data/climate_data.csv",
             parse_dates=["Year", "Mo"],
             index_col=["Year", "Mo"],
             keep_date_col=True)

## Formatos disponibles para escritura

- Las funciones de escritura solo estan disponibles desde el objeto DataFrame de pandas

In [13]:
[
    method_name
    for method_name in dir(a)
    if method_name.startswith("to")
]

['to_clipboard',
 'to_csv',
 'to_dict',
 'to_excel',
 'to_feather',
 'to_gbq',
 'to_hdf',
 'to_html',
 'to_json',
 'to_latex',
 'to_markdown',
 'to_numpy',
 'to_parquet',
 'to_period',
 'to_pickle',
 'to_records',
 'to_sql',
 'to_stata',
 'to_string',
 'to_timestamp',
 'to_xarray',
 'to_xml']

### ¿Cómo guardar ficheros en excel?

- Para ello necesitamos instalar xlrd

In [21]:
!pip install xlrd



In [32]:
frame = pd.read_excel("data/file_1.xlsx", index_col=0,parse_dates=True)

- Para crear un nuevo archivo necesitamos un writer de excel, o un path de un archivo .xlsx
- El writer de excel suele dar menos problemas

In [33]:
writer = pd.ExcelWriter('data/file_2.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()

In [34]:
frame.to_excel("data/file_3.xlsx", sheet_name="Sheet1")

## Lectura de ficheros grandes

- Los ficheros demasiado grandes es difícil leerlos de golpe, por ello de utiliza la técnica de dividirlo en chunks

<center>
<img src="imgs\lectura_2.svg"  alt="drawing" width="50%"/>
</center>

In [3]:
result = pd.read_csv('data/big_file.csv')
result.tail()

Unnamed: 0,one,two,three,four,key
9995,2.311896,-0.41707,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G
9999,-0.096376,-1.012999,-0.657431,-0.573315,0


In [4]:
chunker = pd.read_csv('data/big_file.csv', chunksize=1000)
chunker

<pandas.io.parsers.readers.TextFileReader at 0x19216f596a0>

In [5]:
for piece in chunker:
    print(piece.shape)

(1000, 5)
(1000, 5)
(1000, 5)
(1000, 5)
(1000, 5)
(1000, 5)
(1000, 5)
(1000, 5)
(1000, 5)
(1000, 5)
