# Lectura y Escritura

In [2]:
import numpy as np
import pandas as pd
from pathlib import Path

# Esta última librería permite insertar un path en el fichero que queremos leer

In [8]:
data_path = Path('./data/')
# Normalmente se lee los ficheros csv, quizás el tipo de fichero más usado para leer

In [18]:
dataset = pd.read_csv(filepath_or_buffer=data_path / 'dataset.csv', sep = ',')
# la coma es el separador
dataset

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No
...,...,...,...,...,...,...
149995,149996,Austin,Male,48,93669.0,No
149996,149997,Austin,Male,25,96748.0,No
149997,149998,Austin,Male,26,111885.0,No
149998,149999,Austin,Male,25,111878.0,No


In [13]:
dataset.head(10)
# Con este método haccemos que sólo muestre una parte. Los primeros

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No
5,6,Dallas,Female,36,50786.0,No
6,7,Dallas,Female,32,33155.0,No
7,8,Dallas,Male,39,30914.0,No
8,9,Dallas,Male,51,68667.0,No
9,10,Dallas,Female,30,50082.0,No


In [15]:
# Y con este método hacemos que nos muestre los últimos.
dataset.tail(5)

Unnamed: 0,Number,City,Gender,Age,Income,Illness
149995,149996,Austin,Male,48,93669.0,No
149996,149997,Austin,Male,25,96748.0,No
149997,149998,Austin,Male,26,111885.0,No
149998,149999,Austin,Male,25,111878.0,No
149999,150000,Austin,Female,37,87251.0,No


In [17]:
dataset = pd.read_csv(filepath_or_buffer=data_path / 'dataset.csv', sep = ',', usecols=['Gender', 'Age'])
dataset.head()

# Con el usecols podemos señalar las columnas que queremos usar

Unnamed: 0,Gender,Age
0,Male,41
1,Male,54
2,Male,42
3,Male,40
4,Male,46


In [20]:
# También podemos leer .json . TEnemos que especificar con orient el tipo de json, que en este caso es index
ds = pd.read_json(data_path / 'dataset_index.json', orient='index')
ds.headd()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367,No
1,2,Dallas,Male,54,45084,No
2,3,Dallas,Male,42,52483,No
3,4,Dallas,Male,40,40941,No
4,5,Dallas,Male,46,50289,No


In [21]:
# Aquí lo cargamos con un orient tipo recods y lo que hace es leerlo mal y le da la vuelta a todo.
ds = pd.read_json(data_path / 'dataset_index.json', orient='records')
ds.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
Number,1,2,3,4,5,6,7,8,9,10,...,91,92,93,94,95,96,97,98,99,100
City,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas,...,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas,Dallas
Gender,Male,Male,Male,Male,Male,Female,Female,Male,Male,Female,...,Male,Female,Male,Female,Male,Male,Female,Male,Male,Female
Age,41,54,42,40,46,36,32,39,51,30,...,28,25,37,62,45,48,30,44,62,48
Income,40367.0,45084.0,52483.0,40941.0,50289.0,50786.0,33155.0,30914.0,68667.0,50082.0,...,54937.0,34653.0,63495.0,38385.0,40789.0,62287.0,47982.0,47860.0,49231.0,42252.0


In [24]:
# Podemos también leer fichero que están todos los datos sin separaciones, de tipo fijo. TEnemos que proporcionarle los anchos para leerlo bien. Normalmente nos lo proporciona el cliente
# esos anchos son lo que ocupa cada "columna" en número de caracteres
widths = [1, 6, 4, 2, 7, 2]
ds_fijo = pd.read_fwf(data_path / 'dataset_fijo', widths=widths, header= None)
ds_fijo.head()

Unnamed: 0,0,1,2,3,4,5
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [25]:
# con header = none decimos que no tiene cabecera, que en este caso es así. Al no tener cabecera podemos especifícar esa cabecera (los nombres de las columnas) manualmente
widths = [1, 6, 4, 2, 7, 2]
ds_fijo = pd.read_fwf(data_path / 'dataset_fijo', widths=widths, header= None)
ds_fijo.columns = ['Number', 'City', 'Gender', 'Age', 'Income', 'Illness']
ds_fijo.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [37]:
# Hay otro tipo de formato que es el parquet, que es serializado y que ocupa mucho menos tamaño como pecurialidad.
ds_parquet = pd.read_parquet(data_path / 'dataset.parquet', engine='pyarrow')
ds_parquet.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


# ESCRITURA

In [38]:
df_to_write = dataset.head(100)
df_to_write.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [42]:
# Una vez creado el dataset, ahora lo volcamos
df_to_write.to_csv(data_path / 'df_to_write.csv', index=False, sep='#', header=False)
# estamos didciendo el nombre del archivo que vamos a generar, si queremos generarle un índice (le decimos que false), cuál va a ser nuestro separador (una 
# almohadilla, y si queremos añadirle un header (false).

In [45]:
# mismo funcionamiento para el json, pero tenemos que decirle el tipo de formato (split, records,...) split ---> por un lado las columnas y por otro el índice y por otro los datos
df_to_write.to_json(data_path / 'df_to_write.json', orient='split')

In [47]:
df_to_write.to_parquet(data_path / 'df_to_write.parquet', engine='pyarrow')
# lo mismo para parquet y le indicamos el tipo de engine