# **Lenguaje de programación Python - Parte 3**
---
<img src = "https://www.python.org/static/community_logos/python-logo-inkscape.svg" alt = "python logo" width = "70%">  </img>

En este tercer material se verán algunas utilidades adicionales opcionales para la carga y manejo de archivos.

# **9. Carga de Archivos en *Python***
---
*Python* permite cargar archivos de dos maneras. La primera permite cargar archivos planos en formatos como *json*, *csv* entre otros. La segunda permite cargar objetos de *Python*, que han sido serializados y almacenados previamente en disco duro.

## **9.1. Formatos de archivo**
---

Dentro de los sistemas de información existen distintos tipos de formatos en los que los datos pueden ser almacenados y transmitidos. Dos de los más comunes hoy en día son los formatos CSV y JSON.

El formato [CSV](https://es.wikipedia.org/wiki/Valores_separados_por_comas) (del inglés comma-separated values) es un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas. A continuación puede ver un ejemplo de este formato:

```
Año,Marca,Modelo,Descripción,Precio
1997,Ford,E350,"ac, abs, moon",3000.00
1999,Chevy,Venture,Extended Edition,4900.00
1999,Chevy,Venture,"Extended Edition, Very Large",5000.00
1996,Jeep,Grand Cherokee,"MUST SELL! air, moon roof, loaded",4799.00
```

El formato [JSON](https://es.wikipedia.org/wiki/JSON) es un formato de texto sencillo para el intercambio de datos basado en la notación de objetos y listas del lenguaje *JavaScript*, muy similar a la notación de diccionarios de *Python*.

 A continuación podemos ver un ejemplo:

```
{
    "json": {
        "clave": "valor",
        [
         "valor1",
         "valor2",
         "valor3",
        ]
    }
}
```

## **9.2. Crear y leer un archivo de texto**
---

Si se trata de un archivo con un formato simple de texto, se puede utilizar la función **`open`** de *Python* para cargar y examinar su contenido.

In [1]:
archivo_txt = open('data/ejemplo.txt', 'w')
archivo_txt.write('Este es un ejemplo de escritura en un archivo de texto en Python.\n')
archivo_txt.write('Puedes agregar más líneas de texto aquí.')

# Cierra el archivo después de escribir
archivo_txt.close()


In [2]:
#Cargar/leer archivos de texto
with open("data/ejemplo.txt") as f:
    data = f.readlines()
data

['Este es un ejemplo de escritura en un archivo de texto en Python.\n',
 'Puedes agregar más líneas de texto aquí.']

El resultado es una lista de las líneas del archivo en forma de lista de *Python*. A continuación cargaremos un archivo de texto que contiene las obras de *Shakespeare*. El archivo será cargado como una lista de cadenas de texto, donde cada elemento corresponde a una línea del archivo de texto.

In [3]:
with open("data/shakespeare.txt") as f:
    data = f.readlines()

In [4]:
type(data)

list

In [5]:
len(data)

124614

In [6]:
data[:15]

['1609\n',
 '\n',
 'THE SONNETS\n',
 '\n',
 'by William Shakespeare\n',
 '\n',
 '\n',
 '\n',
 '                     1\n',
 '  From fairest creatures we desire increase,\n',
 "  That thereby beauty's rose might never die,\n",
 '  But as the riper should by time decease,\n',
 '  His tender heir might bear his memory:\n',
 '  But thou contracted to thine own bright eyes,\n',
 "  Feed'st thy light's flame with self-substantial fuel,\n"]

## **9.3. Cargando JSON**
---
Existen otras funciones para la carga de archivos especiales. En este ejemplo cargaremos dos *datasets* usando el módulo **`json`** de la librería estándar de *Python*. El primero contiene información básica acerca de algunos restaurantes en *Nueva York* y el segundo contiene información relevante de la serie Juego de Tronos.

In [7]:
import json
from pprint import pprint

with open('data/restaurantes.json') as data_file:
    data = json.load(data_file)

**`restaurantes.json`** es una lista de diccionarios.

In [8]:
data[:5]

[{'name': 'Cheesecake Factory', 'cuisine': 'American', 'id': 1},
 {'name': 'Shokolaat', 'cuisine': 'American', 'id': 2},
 {'name': 'Gordon Biersch', 'cuisine': 'American', 'id': 3},
 {'name': 'Crepevine', 'cuisine': 'American', 'id': 4},
 {'name': 'Creamery', 'cuisine': 'American', 'id': 5}]

In [9]:
data[4]['name']

'Creamery'

In [10]:
data[4]['cuisine']

'American'

Cargamos el dataset **`game_of_thrones.json`** y examinamos su contenido.

In [11]:
with open('data/game_of_thrones.json') as data_file:
    data = json.load(data_file)

El *dataset* consiste en un diccionario, cuyas claves corresponden a diferentes atributos de la serie.

In [12]:
print(data.keys())

dict_keys(['id', 'url', 'name', 'type', 'language', 'genres', 'status', 'runtime', 'premiered', 'officialSite', 'schedule', 'rating', 'weight', 'network', 'webChannel', 'externals', 'image', 'summary', 'updated', '_links', '_embedded'])


También alberga información de cada capítulo hasta el año $2017$ en la variable **`_embedded`**.

In [13]:
print(len(data['_embedded']['episodes']))

67


In [14]:
pprint(data['_embedded']['episodes'][0]['name'])

'Winter is Coming'


## **9.4. Cargando CSV**
---
A continuación, cargaremos un archivo con datos separados por el caracter **`|`**. Corresponden a datos personales de usuarios de una red social de calificación de películas.

Para cargar archivos **`csv`** podemos usar el módulo del mismo nombre de la librería estándar de *Python*. En las próximas utilizaremos este tipo de archivo con una librería especial para el manejo de tablas.

In [15]:
import csv
with open('data/user-data.csv', 'r') as csvfile:
    user_data = csv.reader(csvfile, delimiter='|')
    data = list(user_data)

Explorando la variable **`data`**, encontramos que cada registro corresponde a un usuario. La información allí mostrada corresponde a un identificador único, edad, género, ocupación y *zip code*. Esta variable es cargada en forma de una lista de listas.

In [16]:
data[:5]

[['1', '24', 'M', 'technician', '85711'],
 ['2', '53', 'F', 'other', '94043'],
 ['3', '23', 'M', 'writer', '32067'],
 ['4', '24', 'M', 'technician', '43537'],
 ['5', '33', 'F', 'other', '15213']]

## **9.5. Cargando Pickle**
---

[***Pickle***](https://wiki.python.org/moin/UsingPickle) nos permite serializar gran parte de los objetos que nos encontraremos trabajando con *Python*. Sin embargo, existen elementos como clases, funciones y métodos que no pueden ser almacenados usando *Pickle*. Cuando se almacene una instancia de una clase, *Pickle* no almacenará la clase del objeto, sino una cadena de caracteres que identifique a qué clase pertenece el objeto.

A continuación usaremos el conjunto de datos de usuarios de un sitio de revisión de películas y almacenaremos los primeros cinco usuarios usando *Pickle*. Posteriormente los cargaremos usando también *Pickle*.

Ahora cargamos el archivo *pickle* con el módulo del mismo nombre de la siguiente manera:

In [17]:
import pickle
user_data = pickle.load(open("data/user_data.pkl", "rb" ))

In [18]:
user_data

[['939', '26', 'F', 'student', '33319'],
 ['940', '32', 'M', 'administrator', '02215'],
 ['941', '20', 'M', 'student', '97229'],
 ['942', '48', 'F', 'librarian', '78209'],
 ['943', '22', 'M', 'student', '77841']]