# 7 Ventajas y desventajas de los formatos de importar y guardado
* **csv** es muy versátil ya que tiene solo comas y saltos de línea.
* **json** tiene un formato similar a los diccionarios. (JavaScript Object Notation).
* **excel** te permite guardar la data en un archivo .xlsx y lo puedes trabajar directamente en excel o Google Spreadsheets.
* **pickle** puedes comprimir la información y es útil cuando tienes tablas grandes.
* **parquet** te permite darle un formato a la data para usarlo en ambientes de Big Data como Hadoop. 

[aquí](https://drive.google.com/drive/folders/13AsTOToO6kN2KDB4By57LFgFm-DTWO8i) todos los ejemplos creados

*****
* Puedes consultar la documentación de IO tools [aquí](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

In [None]:
import pandas as pd
import numpy as np 

dir_pandas = 'datasets/{}'

dict_data = {
    'edad' :     [ 10, 9, 13, 14, 12, 11, 12],
    'cm' : [ 115, 110, 130, 155, 125, 120, 125],
    'pais' :    [ 'co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
    'genero' :  [ 'M', 'F', 'F', 'M', 'M', 'M', 'F'],
    'Q1' : [ 5, 10, 8, np.nan, 7, 8, 3],
    'Q2' : [ 7, 9, 9, 8, 8, 8, 9.]
}

df = pd.DataFrame(dict_data)
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


* Formato Excel

In [None]:
#Creamos un archivo excel
df.to_excel(dir_pandas.format('test.xlsx'), index=False, sheet_name='PrimeraHoja')

pd.read_excel(dir_pandas.format('test.xlsx'))

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


* Formato json

In [None]:
df.to_json(dir_pandas.format('test.json'))
pd.read_json(dir_pandas.format('test.json'))

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


* Formato parquet

In [None]:
df.to_parquet(dir_pandas.format('test.parquet'))
pd.read_parquet(dir_pandas.format('test.parquet'))

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


* Formato hdf

In [None]:
df.to_hdf(dir_pandas.format('test.hdf'), key='data', format='table')
pd.read_hdf(dir_pandas.format('test.hdf'))

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0
