# Carga de Archivos

**Python** permite cargar archivos de dos maneras. La primera permite cargar archivos planos como json, csv o archivos planos. La segunda permite cargar objetos de **Python**, que han sido serializados y almacenados previamente en disco duro.

## Cargando JSON

Cargaremos dos datasets usando el módulo `json`. Uno contiene información básica acerca de algunos restaurantes en Nueva York. El segundo contiene información relevante de la serie Juego de Tronos.

In [None]:
import json
from pprint import pprint

with open('data/file_load/restaurantes.json') as data_file:    
    data = json.load(data_file)

`restaurantes.json` es una lista de diccionarios.

In [None]:
data[:5]

In [None]:
pprint(data[0])

Cargamos el dataset `game_of_thrones.json` y examinamos su contenido

In [None]:
with open('data/file_load/game_of_thrones.json') as data_file:    
    data = json.load(data_file)

El dataset consiste en un diccionario, cuyas claves corresponden a diferentes atributos de la serie.

In [None]:
print (data.keys())

Tambien alberga información de cada capítulo a 2017

In [None]:
print (len(data['_embedded']['episodes']))

In [None]:
pprint(data['_embedded']['episodes'][-5:])

## Cargando CSV

A continuación cargaremos un archivo separado por el caracter `|`. Corresponden a datos personales de usuarios de una red social de calificación de películas

In [None]:
import csv
with open('data/file_load/user-data.csv', 'r') as csvfile:
    user_data = csv.reader(csvfile, delimiter='|')
    data = list(user_data)

Explorando data, encontramos que cada registro corresponde a un usuario. La información allí mostrada corresponde a un identificador único, edad, género, ocupación y zip code.

In [None]:
data[:5]

## Cargando texto plano

A continuación cargaremos un archivo de texto que contiene las obras de Shakespeare. El archivo será cargado como una lista de strings, donde cada elemento corresponde a una línea del archivo de texto.

In [None]:
with open("data/file_load/shakespeare.txt") as f:  
    data = f.readlines()

In [None]:
type(data)

In [None]:
len(data)

In [None]:
data[:15]

## Cargando Pickle

[**Pickle**](https://wiki.python.org/moin/UsingPickle) nos permite serializar casi todo tipo de objetos en Python. Sin embargo, existen elementos como clases, funciones y metodos que no pueden ser almacenados usando Pickle. Cuando se almacene una instancia de una clase, Pickle no almacenará la clase del objeto, sino una cadena de caracteres que identifique a qué clase pertenece el objeto. 

A continuación usaremos el conjunto de datos de usuarios del sitio de revisión de películas y almacenaremos los primeros cinco usuarios usando Pickle. Posteriormente los cargaremos usando también Pickle.

In [None]:
import pickle

with open('data/file_load/user-data.csv', 'r') as csvfile:
    user_data = csv.reader(csvfile, delimiter='|')
    data = list(user_data)

In [None]:
data[-5:]

In [None]:
pickle.dump(data[-5:], open("data/file_load/user_data.pkl", "wb"))

Ahora cargamos el archivo pickle de la siguiente manera:

In [None]:
user_data = pickle.load(open("data/file_load/user_data.pkl", "rb" ))

In [None]:
user_data