# Carga de Archivos

**Python** permite cargar archivos de dos maneras. La primera permite cargar archivos planos como json, csv o archivos planos. La segunda permite cargar objetos de **Python**, que han sido serializados y almacenados previamente en disco duro.

## Cargando JSON

Cargaremos dos datasets usando el módulo `json`. Uno contiene información básica acerca de algunos restaurantes en Nueva York. El segundo contiene información relevante de la serie Juego de Tronos.

In [1]:
import json
from pprint import pprint

with open('data/file_load/restaurantes.json') as data_file:    
    data = json.load(data_file)

`restaurantes.json` es una lista de diccionarios.

In [2]:
data[:5]

[{'name': 'Cheesecake Factory', 'cuisine': 'American', 'id': 1},
 {'name': 'Shokolaat', 'cuisine': 'American', 'id': 2},
 {'name': 'Gordon Biersch', 'cuisine': 'American', 'id': 3},
 {'name': 'Crepevine', 'cuisine': 'American', 'id': 4},
 {'name': 'Creamery', 'cuisine': 'American', 'id': 5}]

In [3]:
pprint(data[0])

{'cuisine': 'American', 'id': 1, 'name': 'Cheesecake Factory'}


Cargamos el dataset `game_of_thrones.json` y examinamos su contenido

In [4]:
with open('data/file_load/game_of_thrones.json') as data_file:    
    data = json.load(data_file)

El dataset consiste en un diccionario, cuyas claves corresponden a diferentes atributos de la serie.

In [61]:
print (data.keys())

dict_keys(['id', 'url', 'name', 'type', 'language', 'genres', 'status', 'runtime', 'premiered', 'officialSite', 'schedule', 'rating', 'weight', 'network', 'webChannel', 'externals', 'image', 'summary', 'updated', '_links', '_embedded'])


Tambien alberga información de cada capítulo a 2017

In [6]:
print (len(data['_embedded']['episodes']))

67


In [32]:
test1 = data['_embedded']['episodes']
for movie in test1:
    print (movie['name'])

Winter is Coming
The Kingsroad
Lord Snow
Cripples, Bastards, and Broken Things
The Wolf and the Lion
A Golden Crown
You Win or You Die
The Pointy End
Baelor
Fire and Blood
The North Remembers
The Night Lands
What is Dead May Never Die
Garden of Bones
The Ghost of Harrenhal
The Old Gods and the New
A Man Without Honor
The Prince of Winterfell
Blackwater
Valar Morghulis
Valar Dohaeris
Dark Wings, Dark Words
Walk of Punishment
And Now His Watch is Ended
Kissed by Fire
The Climb
The Bear and the Maiden Fair
Second Sons
The Rains of Castamere
Mhysa
Two Swords
The Lion and the Rose
Breaker of Chains
Oathkeeper
First of His Name
The Laws of Gods and Men
Mockingbird
The Mountain and the Viper
The Watchers on the Wall
The Children
The Wars to Come
The House of Black and White
High Sparrow
Sons of the Harpy
Kill the Boy
Unbowed, Unbent, Unbroken
The Gift
Hardhome
The Dance of Dragons
Mother's Mercy
The Red Woman
Home
Oathbreaker
Book of the Stranger
The Door
Blood of My Blood
The Broken Man
No O

In [7]:
pprint(data['_embedded']['episodes'][-5:])

[{'_links': {'self': {'href': 'http://api.tvmaze.com/episodes/1221411'}},
  'airdate': '2017-07-30',
  'airstamp': '2017-07-31T01:00:00+00:00',
  'airtime': '21:00',
  'id': 1221411,
  'image': {'medium': 'http://static.tvmaze.com/uploads/images/medium_landscape/122/306938.jpg',
            'original': 'http://static.tvmaze.com/uploads/images/original_untouched/122/306938.jpg'},
  'name': "The Queen's Justice",
  'number': 3,
  'runtime': 60,
  'season': 7,
  'summary': '<p>Daenerys holds court. Cersei returns a gift. Jaime learns '
             'from his mistakes.</p>',
  'url': 'http://www.tvmaze.com/episodes/1221411/game-of-thrones-7x03-the-queens-justice'},
 {'_links': {'self': {'href': 'http://api.tvmaze.com/episodes/1221412'}},
  'airdate': '2017-08-06',
  'airstamp': '2017-08-07T01:00:00+00:00',
  'airtime': '21:00',
  'id': 1221412,
  'image': {'medium': 'http://static.tvmaze.com/uploads/images/medium_landscape/123/307677.jpg',
            'original': 'http://static.tvmaze.com/

## Cargando CSV

A continuación cargaremos un archivo separado por el caracter `|`. Corresponden a datos personales de usuarios de una red social de calificación de películas

In [8]:
import csv
with open('data/file_load/user-data.csv', 'r') as csvfile:
    user_data = csv.reader(csvfile, delimiter='|')
    data = list(user_data)

Explorando data, encontramos que cada registro corresponde a un usuario. La información allí mostrada corresponde a un identificador único, edad, género, ocupación y zip code.

In [9]:
data[:5]

[['1', '24', 'M', 'technician', '85711'],
 ['2', '53', 'F', 'other', '94043'],
 ['3', '23', 'M', 'writer', '32067'],
 ['4', '24', 'M', 'technician', '43537'],
 ['5', '33', 'F', 'other', '15213']]

## Cargando texto plano

A continuación cargaremos un archivo de texto que contiene las obras de Shakespeare. El archivo será cargado como una lista de strings, donde cada elemento corresponde a una línea del archivo de texto.

In [10]:
with open("data/file_load/shakespeare.txt") as f:  
    data = f.readlines()

In [11]:
type(data)

list

In [12]:
len(data)

124614

In [13]:
data[:15]

['1609\n',
 '\n',
 'THE SONNETS\n',
 '\n',
 'by William Shakespeare\n',
 '\n',
 '\n',
 '\n',
 '                     1\n',
 '  From fairest creatures we desire increase,\n',
 "  That thereby beauty's rose might never die,\n",
 '  But as the riper should by time decease,\n',
 '  His tender heir might bear his memory:\n',
 '  But thou contracted to thine own bright eyes,\n',
 "  Feed'st thy light's flame with self-substantial fuel,\n"]

## Cargando Pickle

[**Pickle**](https://wiki.python.org/moin/UsingPickle) nos permite serializar casi todo tipo de objetos en Python. Sin embargo, existen elementos como clases, funciones y metodos que no pueden ser almacenados usando Pickle. Cuando se almacene una instancia de una clase, Pickle no almacenará la clase del objeto, sino una cadena de caracteres que identifique a qué clase pertenece el objeto. 

A continuación usaremos el conjunto de datos de usuarios del sitio de revisión de películas y almacenaremos los primeros cinco usuarios usando Pickle. Posteriormente los cargaremos usando también Pickle.

In [14]:
import pickle

with open('data/file_load/user-data.csv', 'r') as csvfile:
    user_data = csv.reader(csvfile, delimiter='|')
    data = list(user_data)

In [15]:
data[-5:]

[['939', '26', 'F', 'student', '33319'],
 ['940', '32', 'M', 'administrator', '02215'],
 ['941', '20', 'M', 'student', '97229'],
 ['942', '48', 'F', 'librarian', '78209'],
 ['943', '22', 'M', 'student', '77841']]

In [16]:
pickle.dump(data[-5:], open("data/file_load/user_data.pkl", "wb"))

Ahora cargamos el archivo pickle de la siguiente manera:

In [17]:
user_data = pickle.load(open("data/file_load/user_data.pkl", "rb" ))

In [18]:
user_data

[['939', '26', 'F', 'student', '33319'],
 ['940', '32', 'M', 'administrator', '02215'],
 ['941', '20', 'M', 'student', '97229'],
 ['942', '48', 'F', 'librarian', '78209'],
 ['943', '22', 'M', 'student', '77841']]