# Carga de Archivos en Python

**Python** permite cargar archivos de dos maneras. La primera permite cargar archivos planos como json, csv o archivos planos. La segunda permite cargar objetos de **Python**, que han sido serializados y almacenados previamente en disco duro.

In [1]:
#Instalación de librerias para acceder y autenticarse a GoogleDrive
!pip install pydrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
 
# Autenticación y creación de usuario (cliente) de PyDrive
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)



A continuación se ilustra el paso a paso a seguir:

Se selecciona la cuenta de correo proporcionada en el curso
![wget](https://drive.google.com/uc?export=view&id=1vFgbuKglQz2gWJPA4Y0g1RrAmw6HteVV)

Dan los permisos para acceder a los archivos del Drive
![wget](https://drive.google.com/uc?export=view&id=1lnup6cJ1o9esSkdxBeVqtiT-igfQCxG3)

Copia el código de autenticación
![wget](https://drive.google.com/uc?export=view&id=1j8NCAcdU_sjDlTzphn2uei1oFN10ZFva)

Pegan el código anterior para permitir acceso al Drive
![wget](https://drive.google.com/uc?export=view&id=1htFfBtIEQOWolz-bCo_O18oo1HpwocpC)

In [0]:
#Listar los archivos que hay en la carpeta deseada. En este caso, se listan los archivos de una carpeta compartida, así:

file_list = drive.ListFile({'q': "'1ecqv5_eDmrIpd9YsthMuNpq6vaPcGhFe' in parents and trashed=false"}).GetList()
for file1 in file_list:
  print('Archivo: %s, \t\t\tID: %s' % (file1['title'], file1['id']))

Click derecho en obtener enlace para compartir, copiamos ID de la carpeta
![wget](https://drive.google.com/uc?export=view&id=1Q05OLO7a8pN13l57gLesorsLSRExK69s)

## Crear y leer un archivo de texto

In [0]:
#Creación del archivo de texto
%%writefile ejemplo.txt
Formación MLDS 
Análisis y visualización de datos con Python

Overwriting ejemplo.txt


In [0]:
#Listar archivos
!ls

adc.json  ejemplo.txt  sample_data


In [0]:
with open("ejemplo.txt") as f:  
    data = f.readlines()
data

['Formación MLDS \n', 'Análisis y visualización de datos con Python']

## Cargando JSON

Cargaremos dos datasets usando el módulo `json`. Uno contiene información básica acerca de algunos restaurantes en Nueva York. El segundo contiene información relevante de la serie Juego de Tronos.

In [0]:
file = drive.CreateFile({'id': '1RqwCylZLKFj-MHnjrUPlYBU-s5Wrdq_J'})
file.GetContentFile('restaurantes.json')

ApiRequestError: ignored

In [0]:
import json
from pprint import pprint

with open('restaurantes.json') as data_file:    
    data = json.load(data_file)

`restaurantes.json` es una lista de diccionarios.

In [0]:
data[:5]

In [0]:
data[4]['name']

In [0]:
data[4]['cuisine']

Cargamos el dataset `game_of_thrones.json` y examinamos su contenido

In [0]:
file = drive.CreateFile({'id': '1O_gNzQ4zSTo9TlY6VKSnwiugRBl9Eo-d'})
file.GetContentFile('game_of_thrones.json')

In [0]:
with open('game_of_thrones.json') as data_file:    
    data = json.load(data_file)

El dataset consiste en un diccionario, cuyas claves corresponden a diferentes atributos de la serie.

In [0]:
print (data.keys())

Tambien alberga información de cada capítulo a 2017

In [0]:
print (len(data['_embedded']['episodes']))

In [0]:
pprint(data['_embedded']['episodes'][-5:])

## Cargando CSV

A continuación cargaremos un archivo separado por el caracter `|`. Corresponden a datos personales de usuarios de una red social de calificación de películas

In [0]:
file = drive.CreateFile({'id': '1d-HLH-ekOVgoZM-NzvfcQkwzziL6-ZJS'})
file.GetContentFile('user-data.csv')

In [0]:
import csv
with open('user-data.csv', 'r') as csvfile:
    user_data = csv.reader(csvfile, delimiter='|')
    data = list(user_data)

Explorando data, encontramos que cada registro corresponde a un usuario. La información allí mostrada corresponde a un identificador único, edad, género, ocupación y zip code.

In [0]:
data[:5]

## Cargando texto plano

A continuación cargaremos un archivo de texto que contiene las obras de Shakespeare. El archivo será cargado como una lista de strings, donde cada elemento corresponde a una línea del archivo de texto.

In [0]:
file = drive.CreateFile({'id': '1tTmOmx-r6Vk0RRA6AaVjky0jDclV490l'})
file.GetContentFile('shakespeare.txt')

In [0]:
with open("shakespeare.txt") as f:  
    data = f.readlines()

In [0]:
type(data)

In [0]:
len(data)

In [0]:
data[:15]

## Cargando Pickle

[**Pickle**](https://wiki.python.org/moin/UsingPickle) nos permite serializar casi todo tipo de objetos en Python. Sin embargo, existen elementos como clases, funciones y métodos que no pueden ser almacenados usando Pickle. Cuando se almacene una instancia de una clase, Pickle no almacenará la clase del objeto, sino una cadena de caracteres que identifique a qué clase pertenece el objeto. 

A continuación usaremos el conjunto de datos de usuarios de un sitio de revisión de películas y almacenaremos los primeros cinco usuarios usando Pickle. Posteriormente los cargaremos usando también Pickle.

In [0]:
file = drive.CreateFile({'id': '1PLjArxzbtBq-OBz4e-_6J_IKjSoHpTyb'})
file.GetContentFile('user_data.pkl')

Ahora cargamos el archivo pickle de la siguiente manera:

In [0]:
import pickle
user_data = pickle.load(open("user_data.pkl", "rb" ))

In [0]:
user_data