## Proyecto: Escritura y lectura de archivos con pandas para formatos:

## * .csv

## * .xlsx

## * .json

## * .pkl (para archivos binarios)

## * .parquet (para BigData con Apache)

## * .hdf (para BigData con hadoop)

In [1]:
import numpy as np

import pandas as pd

# Obs: Para poder usar la función 'to_excel' hay que instalar 'openpyxl':
# pip install openpyxl

# para poder usar 'parquet' hay que instalar 'fastparquet':
# pip install fastparquet

# para poder usar 'hdf' hay que instalar 'tables':
# pip install tables


In [2]:
# Comandos bash ejecutados en python
# !ls       # <-- lista los archivos en el directorio actual 
# !mkdir db # <-- Crea una carpeta lamada 'db'

In [3]:
# Diccionario cuyos valores son listas enteros
dict_data = {'CH':[100,800,200], 'CO':[100,200,300], 'MX':[300,500,400]}
dict_data = {
    'edad' :     [ 10, 9, 13, 14, 12, 11, 12],
    'cm' : [ 115, 110, 130, 155, 125, 120, 125],
    'pais' :    [ 'co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
    'genero' :  [ 'M', 'F', 'F', 'M', 'M', 'M', 'F'],
    'Q1' : [ 5, 10, 8, np.nan, 7, 8, 3],
    'Q2' : [ 7, 9, 9, 8, 8, 8, 9.]
}
dict_data

{'edad': [10, 9, 13, 14, 12, 11, 12],
 'cm': [115, 110, 130, 155, 125, 120, 125],
 'pais': ['co', 'mx', 'co', 'mx', 'mx', 'ch', 'ch'],
 'genero': ['M', 'F', 'F', 'M', 'M', 'M', 'F'],
 'Q1': [5, 10, 8, nan, 7, 8, 3],
 'Q2': [7, 9, 9, 8, 8, 8, 9.0]}

In [4]:
# Pasamos el diccionario a un DataFrame:
df = pd.DataFrame( dict_data )
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


## Guardamos el DataFrame en un archivo .csv

In [5]:
df.to_csv('./db/test.csv', index=False)
# 'index=False' permite guardar el DataFrame sin la columna de indices

In [6]:
# listamos el contenidos de la carpeta 'db'
!ls ./db/

New_Tabla.csv  test.csv   test.parquet	test.xlsx
test2.csv      test.json  test.pkl


## Lectura de archivo .csv

In [7]:
df_read = pd.read_csv('./db/test.csv')
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


In [8]:
df.to_csv('./db/test2.csv', sep='|', index=False)
# index=False #<-- permite guardar el DataFrame sin la columna de indices
# sep='|'  #<-- en vez de guardar datos usando "comas" como separadores, se usan barras "|"

In [9]:
df_read = pd.read_csv('./db/test2.csv', sep='|')
# sep='|'  #<-- se usan barras "|" como separador
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


## Guardamos el DataFrame en un archivo .xlsx de Excel

In [10]:
df.to_excel('./db/test.xlsx', index=False , sheet_name='Hoja_1')
# 'index=False' permite guardar el DataFrame sin la columna de indices
# sheet_name='Hoja_1' # <-- guarda el DataFrame en una hoja de excel llamada 'Hoja_1'

In [11]:
# listamos el contenidos de la carpeta 'db'
!ls ./db/

New_Tabla.csv  test.csv   test.parquet	test.xlsx
test2.csv      test.json  test.pkl


## Lectura de archivo .xlsx de Excel

In [12]:
df_read = pd.read_excel('./db/test.xlsx')
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


## Guardamos el DataFrame en un archivo .json

In [13]:
df.to_json('./db/test.json')

## Lectura de archivo .json

In [14]:
df_read = pd.read_json('./db/test.json')
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


## Guardamos el DataFrame en un archivo .pkl (para archivos binario)

In [15]:
df.to_pickle('./db/test.pkl')

## Lectura de archivo .pkl

In [16]:
df_read = pd.read_pickle('./db/test.pkl')
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


## Guardamos el DataFrame en un archivo .parquet (para archivos BigData de Apache)

In [17]:
df.to_parquet('./db/test.parquet')

## Lectura de archivo .parquet

In [18]:
df_read = pd.read_parquet('./db/test.parquet')
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0


## Guardamos el DataFrame en un archivo .hdf (para archivos BigData de Hadoop)

In [19]:
df.to_hdf('./db/test.hdf' , key='data' , format='table')

## Lectura de archivo .hdf

In [20]:
df_read = pd.read_hdf('./db/test.hdf')
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7.0
1,9,110,mx,F,10.0,9.0
2,13,130,co,F,8.0,9.0
3,14,155,mx,M,,8.0
4,12,125,mx,M,7.0,8.0
5,11,120,ch,M,8.0,8.0
6,12,125,ch,F,3.0,9.0
