<img src = "https://drive.google.com/uc?export=view&id=1zD1_7Y4Ejud8OsuQb49rHGfl9qhihAh5" alt = "Encabezado MLDS" width = "100%">  </img>

# **Lenguaje de programación Python - Parte 3**
---
<img src = "https://www.python.org/static/community_logos/python-logo-inkscape.svg" alt = "Encabezado MLDS" width = "70%">  </img>


Es importante tener en cuenta la versión de *Python* utilizada en el desarrollo de estos recursos. En particular, este recurso está escrito y probado en la versión *Python* 3.6.9. Utilizar una versión distinta puede variar el resultado de la ejecución de algunos ejemplos.

In [1]:
!python --version

Python 3.8.3


En este tercer material se verán algunas utilidades adicionales opcionales para la carga y manejo de archivos.

#**9. Carga de Archivos en *Python***
---
*Python* permite cargar archivos de dos maneras. La primera permite cargar archivos planos en formatos como *json*, *csv* entre otros. La segunda permite cargar objetos de *Python*, que han sido serializados y almacenados previamente en disco duro.

## **9.1. Formatos de archivo**
---

Dentro de los sistemas de información existen distintos tipos de formatos en los que los datos pueden ser almacenados y transmitidos. Dos de los más comunes hoy en día son los formatos CSV y JSON.

El formato [CSV](https://es.wikipedia.org/wiki/Valores_separados_por_comas) (del inglés comma-separated values) es un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas. A continuación puede ver un ejemplo de este formato:

```
Año,Marca,Modelo,Descripción,Precio
1997,Ford,E350,"ac, abs, moon",3000.00
1999,Chevy,Venture,Extended Edition,4900.00
1999,Chevy,Venture,"Extended Edition, Very Large",5000.00
1996,Jeep,Grand Cherokee,"MUST SELL! air, moon roof, loaded",4799.00
```

El formato [JSON](https://es.wikipedia.org/wiki/JSON) es un formato de texto sencillo para el intercambio de datos basado en la notación de objetos y listas del lenguaje *JavaScript*, muy similar a la notación de diccionarios de *Python*.

 A continuación podemos ver un ejemplo:

```
{
    "json": {
        "clave": "valor",
        [
         "valor1",
         "valor2",
         "valor3",
        ]
    }
}
```

## **9.2. Conectar *Google* *Drive* con *Google Colaboratory***
---

Primero, veremos cómo podemos vincular *Google Drive* con *Colaboratory*. Esto permitirá trabajar con archivos que tengamos almacenados en la nube de Google Drive.

In [2]:
# Instalación de librerías para acceder y autenticarse a Google Drive
!pip install pydrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
 
# Autenticación y creación de usuario (cliente) de PyDrive
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

Collecting pydrive
  Downloading PyDrive-1.3.1.tar.gz (987 kB)
Collecting google-api-python-client>=1.2
  Downloading google_api_python_client-2.17.0-py2.py3-none-any.whl (7.3 MB)
Collecting oauth2client>=4.0.0
  Downloading oauth2client-4.1.3-py2.py3-none-any.whl (98 kB)
Collecting uritemplate<4dev,>=3.0.0
  Downloading uritemplate-3.0.1-py2.py3-none-any.whl (15 kB)
Collecting google-auth-httplib2>=0.1.0
  Downloading google_auth_httplib2-0.1.0-py2.py3-none-any.whl (9.3 kB)
Collecting google-api-core<3.0.0dev,>=1.21.0
  Downloading google_api_core-2.0.0-py2.py3-none-any.whl (92 kB)
Collecting httplib2<1dev,>=0.15.0
  Downloading httplib2-0.19.1-py3-none-any.whl (95 kB)
Collecting googleapis-common-protos<2.0dev,>=1.6.0
  Downloading googleapis_common_protos-1.53.0-py2.py3-none-any.whl (198 kB)
Building wheels for collected packages: pydrive
  Building wheel for pydrive (setup.py): started
  Building wheel for pydrive (setup.py): finished with status 'done'
  Created wheel for pydrive:

ModuleNotFoundError: No module named 'google.colab'

A continuación se ilustra el paso a paso a seguir para permitir a *Colab* el acceso a nuestra unidad de Drive.

Se selecciona la cuenta de correo utilizada en el curso
![wget](https://drive.google.com/uc?export=view&id=1vFgbuKglQz2gWJPA4Y0g1RrAmw6HteVV)

Se otorgan los permisos para acceder a los archivos del *Drive*.
![wget](https://drive.google.com/uc?export=view&id=1lnup6cJ1o9esSkdxBeVqtiT-igfQCxG3)

Se copia el código de autenticación.
![wget](https://drive.google.com/uc?export=view&id=1j8NCAcdU_sjDlTzphn2uei1oFN10ZFva)

Se pega el código anterior para permitir acceso al *Drive*.
![wget](https://drive.google.com/uc?export=view&id=1htFfBtIEQOWolz-bCo_O18oo1HpwocpC)

Una vez verificado, los directorios de *Google Drive* podrán ser utilizados como directorios normales del sistema operativo. Si queremos algún archivo en particular, obtenemos su ID.

In [None]:
#Listar los archivos que hay en la carpeta deseada. En este caso, se listan los archivos de una carpeta compartida, así:

file_list = drive.ListFile({'q': "'1ecqv5_eDmrIpd9YsthMuNpq6vaPcGhFe' in parents and trashed=false"}).GetList()

for file in file_list:
  print('Archivo: {}, \n\tID:{}'.format(file['title'], file['id']))

En *Drive*, damos clic derecho en obtener enlace para compartir y copiamos el ID de la carpeta.
![ID carpeta](https://drive.google.com/uc?export=view&id=1Q05OLO7a8pN13l57gLesorsLSRExK69s)

## **9.3. Crear y leer un archivo de texto**
---

Si se trata de un archivo con un formato simple de texto, se puede utilizar la función **`open`** de *Python* para cargar y examinar su contenido.

In [None]:
#Creación del archivo de texto con el comando %%writefile
%%writefile ejemplo.txt
Formación MLDS 
Análisis y visualización de datos con Python

In [None]:
#Listar archivos
!ls

In [None]:
#Cargar/leer archivos de texto
with open("ejemplo.txt") as f:  
    data = f.readlines()
data

El resultado es una lista de las líneas del archivo en forma de lista de *Python*. A continuación cargaremos un archivo de texto que contiene las obras de *Shakespeare*. El archivo será cargado como una lista de cadenas de texto, donde cada elemento corresponde a una línea del archivo de texto.

In [None]:
file = drive.CreateFile({'id': '1tTmOmx-r6Vk0RRA6AaVjky0jDclV490l'})
file.GetContentFile('shakespeare.txt')

In [None]:
with open("shakespeare.txt") as f:  
    data = f.readlines()

In [None]:
type(data)

In [None]:
len(data)

In [None]:
data[:15]

## **9.4. Cargando JSON**
---
Existen otras funciones para la carga de archivos especiales. En este ejemplo cargaremos dos *datasets* usando el módulo **`json`** de la librería estándar de *Python*. El primero contiene información básica acerca de algunos restaurantes en *Nueva York* y el segundo contiene información relevante de la serie Juego de Tronos.

In [None]:
file = drive.CreateFile({'id': '1RqwCylZLKFj-MHnjrUPlYBU-s5Wrdq_J'})

file.GetContentFile('restaurantes.json')

In [None]:
import json
from pprint import pprint

with open('restaurantes.json') as data_file:    
    data = json.load(data_file)

**`restaurantes.json`** es una lista de diccionarios.

In [None]:
data[:5]

In [None]:
data[4]['name']

In [None]:
data[4]['cuisine']

Cargamos el dataset **`game_of_thrones.json`** y examinamos su contenido.

In [None]:
file = drive.CreateFile({'id': '1O_gNzQ4zSTo9TlY6VKSnwiugRBl9Eo-d'})

file.GetContentFile('game_of_thrones.json')

In [None]:
with open('game_of_thrones.json') as data_file:    
    data = json.load(data_file)

El *dataset* consiste en un diccionario, cuyas claves corresponden a diferentes atributos de la serie.

In [None]:
print (data.keys())

También alberga información de cada capítulo hasta el año $2017$ en la variable **`_embedded`**.

In [None]:
print (len(data['_embedded']['episodes']))

In [None]:
pprint(data['_embedded']['episodes'][0]['name'])

## **9.5. Cargando CSV**
---
A continuación, cargaremos un archivo con datos separados por el caracter **`|`**. Corresponden a datos personales de usuarios de una red social de calificación de películas.

In [None]:
file = drive.CreateFile({'id': '1d-HLH-ekOVgoZM-NzvfcQkwzziL6-ZJS'})
file.GetContentFile('user-data.csv')

!ls

Para cargar archivos **`csv`** podemos usar el módulo del mismo nombre de la librería estándar de *Python*. En las próximas utilizaremos este tipo de archivo con una librería especial para el manejo de tablas.

In [None]:
import csv
with open('user-data.csv', 'r') as csvfile:
    user_data = csv.reader(csvfile, delimiter='|')
    data = list(user_data)

Explorando la variable **`data`**, encontramos que cada registro corresponde a un usuario. La información allí mostrada corresponde a un identificador único, edad, género, ocupación y *zip code*. Esta variable es cargada en forma de una lista de listas.

In [None]:
data[:5]

## **9.6. Cargando Pickle**
---

[***Pickle***](https://wiki.python.org/moin/UsingPickle) nos permite serializar gran parte de los objetos que nos encontraremos trabajando con *Python*. Sin embargo, existen elementos como clases, funciones y métodos que no pueden ser almacenados usando *Pickle*. Cuando se almacene una instancia de una clase, *Pickle* no almacenará la clase del objeto, sino una cadena de caracteres que identifique a qué clase pertenece el objeto. 

A continuación usaremos el conjunto de datos de usuarios de un sitio de revisión de películas y almacenaremos los primeros cinco usuarios usando *Pickle*. Posteriormente los cargaremos usando también *Pickle*.

In [None]:
file = drive.CreateFile({'id': '1PLjArxzbtBq-OBz4e-_6J_IKjSoHpTyb'})
file.GetContentFile('user_data.pkl')

Ahora cargamos el archivo *pickle* con el módulo del mismo nombre de la siguiente manera:

In [None]:
import pickle
user_data = pickle.load(open("user_data.pkl", "rb" ))

In [None]:
user_data

## **Recursos adicionales**
---

*  [*Python* 3: documentación oficial.](https://docs.python.org/3/)
*  [How to Think Like a Computer Scientist: Interactive Edition.](https://runestone.academy/runestone/books/published/thinkcspy/index.html)
* [CodeCademy - Learn Python 3](https://www.codecademy.com/learn/learn-python-3)
*  [Kaggle - Python](https://www.codecademy.com/learn/learn-python-3)
*  [MIT (edX) - Introduction to Computer Science and Programming Using Python](https://www.edx.org/es/course/introduction-to-computer-science-and-programming-7)
*  [Python for everyone](https://www.py4e.com/)
*  [Fabio González - Programación de Computadores](https://sites.google.com/a/unal.edu.co/prog-comp-2019-2/)

## **Créditos**
---

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
  - Alberto Nicolai Romero Martínez
  - Miguel Angel Ortiz Marín

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*