In [5]:
import numpy as np
import pandas as pd

# Binary Data Formats 

Una de las formas más fáciles de almacenar datos (también conocida como serialización) de manera eficiente en formato binario es usar la serialización de pickle incorporada de Python. todos los objetos pandas tienen un método to_pickle que escribe los datos en el disco en formato pickle

In [6]:
frame = pd.read_csv('examples/ex1.csv')

In [7]:
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
frame.to_pickle('examples/frame_pickle')

Puede leer cualquier objeto usando pandas.read_pickle

In [9]:
pd.read_pickle('examples/frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


# Using HDF5 Format

HDF5 es un formato de archivo considerado destinado a almacenar grandes cantidades de datos científicos. Está disponible como una biblioteca C y tiene interfaces disponibles en muchos otros lenguajes, incluidos Java, Julia, MATLAB y Python. El "HDF" en HDF5 significa formato de datos jerárquico. Cada archivo HDF5 puede almacenar múltiples conjuntos de datos y metadatos compatibles. En comparación con formatos más simples, HDF5 admite la compresión sobre la marcha con una variedad de modos de compresión, lo que permite que los datos con patrones repetidos se almacenen de manera más eficiente. HDF5 puede ser una buena opción para trabajar con conjuntos de datos muy grandes que no caben en la memoria, ya que puede leer y escribir eficientemente pequeñas secciones de conjuntos mucho más grandes.

Si bien es posible acceder directamente a los archivos HDF5 utilizando las bibliotecas PyTables o h5py, pandas proporciona una interfaz de alto nivel que simplifica el almacenamiento de objetos Series y DataFrame. La clase HDFStore funciona como un dict y maneja los detalles de bajo nivel.

In [10]:
frame = pd.DataFrame({'a': np.random.randn(100)})

In [11]:
frame

Unnamed: 0,a
0,1.071259
1,0.149453
2,0.292623
3,-0.471065
4,0.050622
...,...
95,0.252744
96,0.675272
97,0.033196
98,-1.119165


In [12]:
store = pd.HDFStore('mydata.h5')

In [13]:
store['obj1'] = frame

In [14]:
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [15]:
store['obj1_col'] = frame['a']

In [16]:
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

Los objetos contenidos en el archivo HDF5 se pueden recuperar con la misma API tipo dict

In [17]:
store['obj1']

Unnamed: 0,a
0,1.071259
1,0.149453
2,0.292623
3,-0.471065
4,0.050622
...,...
95,0.252744
96,0.675272
97,0.033196
98,-1.119165


In [18]:
store['obj1_col']

0     1.071259
1     0.149453
2     0.292623
3    -0.471065
4     0.050622
        ...   
95    0.252744
96    0.675272
97    0.033196
98   -1.119165
99    0.157721
Name: a, Length: 100, dtype: float64

In [25]:
store.close()

# Reading Microsoft Excel Files

pandas también admite la lectura de datos tabulares almacenados en archivos Excel 2003 (y superiores) utilizando la clase ExcelFile o la función pandas.read_excel. Internamente, estas herramientas utilizan los paquetes complementarios xlrd y openpyxl para leer archivos XLS y XLSX, respectivamente. Es posible que deba instalarlos manualmente con pip o conda.

Para usar ExcelFile, cree una instancia pasando una ruta a un archivo xls o xlsx

In [26]:
xlsx = pd.ExcelFile('examples/ex1.xlsx')

Los datos almacenados en una hoja se pueden leer en DataFrame con parse

In [27]:
pd.read_excel(xlsx, 'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [28]:
pd.read_excel("examples/ex3.xlsx", "HojadeDatos2")

Unnamed: 0.1,Unnamed: 0,a,b,c
0,0,1,2,3
1,1,4,5,6


Si está leyendo varias hojas en un archivo, es más rápido crear el ExcelFile, pero también puede simplemente pasar el nombre del archivo a pandas.read_excel

In [29]:
frame = pd.read_excel('examples/ex1.xlsx', 'Sheet1')

In [30]:
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


Para escribir datos de pandas en formato Excel, primero debe crear un ExcelWriter, luego escribir datos con el método to_excel de objetos de pandas

In [31]:
frame.to_excel("ejemploexcel.xlsx", 'hoja1')