# ¿Qué otros formatos de archivos podemos usar con _Pandas_?

In [1]:
import pandas as pd

Antes citar los distintos tipos de archivos que podemos utilizar con Pandas, me parece importante destacar que pandas incluye multiples metods del tipo `to_<tipo_de_archivo>()` que permite convertir un `DataFrame` a el tipo de archivo indicado:

In [2]:
datos = [
    {"id": 1, "nombre":"Juan", "sexo":"m"},
    {"id": 2, "nombre":"Pedro", "sexo":"m"},
    {"id": 3, "nombre":"Anna", "sexo":"f"},
    {"id": 4, "nombre":"Julieta", "sexo":"f"},
    {"id": 5, "nombre":"Pablo", "sexo":"m"},
    {"id": 6, "nombre":"Ramón", "sexo":"m"},
    {"id": 7, "nombre":"Gaby", "sexo":"f"}
]

df = pd.DataFrame(datos).set_index("id")

print(df)

     nombre sexo
id              
1      Juan    m
2     Pedro    m
3      Anna    f
4   Julieta    f
5     Pablo    m
6     Ramón    m
7      Gaby    f


In [3]:
df.to_excel("examples/generated_excel.xlsx")  # Guardamos el DataFrame en disco utilizado el formato excel

Luego, podemos leerlo:

In [4]:
print(pd.read_excel("examples/generated_excel.xlsx"))

   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6    Ramón    m
6   7     Gaby    f


Existen muchos tipos de archivos a los que se puede convertir un `DataFrame`, algunos de los cuales se verán a continuación.

<br>

## Otros tipos de archivos

Hasta ahora, todos los tipos de archivos que vimos guardan los datos en fomra de _texto_ y por lo tanto no son muy eficientes en terminos de espacio para almacenar grandes cantidades de datos.

#### Libro Binario de Excel (_.xlsb_)

Es un formato de excel que permite guardar los datos de forma binaria en vez de XML (texto)
- Son utiles para cuando existe una gran cantidad de datos, ya que los archivos resultan muchisimo mas chicos
- Son mas rapidos tanto para la lectura y escritura que su contraparte _.xlsx_

Para leerlos utilizamos tambien la funcion `read_excel`, pero en este caso debemos especificar el engine a utilizar para leerlo: "pyxlsb":

In [5]:
df = pd.read_excel("examples/example_binary_excel.xlsb", engine="pyxlsb")
print(df)

   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6    Ramón    m
6   7     Gaby    f


- Para poder usar el engine "pyxlsb" debemos installarlo utilzando `pip install pyxlsb` o `conda install -c conda-forge pyxlsb`

#### Feather (_.feather_)

Es otro tipo de archivo que nos permite guardar datos de forma binaria. 
- Fue especificamente diseñado para leer y escribir sobre estos sea extremadamente eficiente
- Al tratarse de una serializacion de datos binaria, el tamaño de los archivos resulta muy reducido
- Es muy util, tambien, para guardar grande cantidades de datos en un archivo reducido

In [6]:
pd.DataFrame(datos).to_feather("examples/generated_feather.feather")  ## Creamos el archivo feader

- Para poder trabajar con este tipo de archivos necesitamos installar la dependencia 'pyarrow' utilizando: `pip install pyarrow` o `conda install -c conda-forge pyarrow`

Luego para leerlo utilizamos `read_feather()`:

In [7]:
df = pd.read_feather("examples/generated_feather.feather")
print(df)

   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6    Ramón    m
6   7     Gaby    f


Entre otros archivos binarios columnares de similares caracteristicas a los dos anteriores estan:
- Parquet (_.parquet_)
- ORC _Optimized Row Columnar_ (_.orc_)

(para ambos necesitamos la dependencia 'pyarrow' como engine para leerlos)

#### Local clipboard

Mas que un formato, es una forma que nos permite leer datos del "clipboard buffer" (donde se guarda lo que copiamos) utilizando la funcion `read_clipboard()`.

**Ejemplo:**

Si copiamos lo siguiente:

id nombre sexo \
1 Juan m \
2 Pedro m \
3 Anna f \
4 Julieta f \
5 Pablo m \
6 Ramón m \
7 Gaby f

Y luego ejecutamos el siguiente script:

In [13]:
df = pd.read_clipboard()
print(df)

   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6    Ramón    m
6   7     Gaby    f


- Otra funcionalidad interesante es la posibilidad de escribir sobre el "clipboard buffer" usando `to_clipboard()`

<br>

_Podemos encontrar sobre mas formatos posibles en [Pandas io](https://pandas.pydata.org/docs/user_guide/io.html)_