Se van a estudiar 3 formatos muy utilizados para intercambiar y almacenar datos en la web:
* Archivos csv
* Documentos JSON
* Documentos XML 


## Archivos csv

#### Introducción

Un archivo CSV(Comma Separated Values) es un archivo de texto plano que almacenan los valores separados por comas.
Los archivos se encuentran estructurados por líneas, y cada línea es un conjunto de valores separados por comas.
<img src="Capt1.png" style="width: 200px;"/>

Algunas características de los archivos csv:

* Los valores no tienen tipos, son todo cadenas.

* No tienen atributos de configuración acerca del tamaño de la fuente, color,…

* No tienen imágenes o dibujos embebidos.

* Los archivos tienen extensión .csv

Las ventajas que ofrece este formato:

* Es simple.

* Está soportado por muchos programas.

* Permiten representar los datos de las hojas de cálculo.

* Puede ser visualizado por los editores de texto.

Dado que los archivos CSV son archivos de texto, se podría intentar leer como una cadena y posteriormente procesar esa cadena. 

Como los valores están delimitados por comas, se podría usar el método split() sobre cada línea para obtener los valores. 

Sin embargo no siempre las comas representan los límites de un valor, dado que los archivos CSV también tienen su propio conjunto de caracteres de escape para permitir que las comas y otros caracteres formen parte de un valor, y esos caracteres no son soportados por split().


#### El módulo csv de Python

El modulo csv de Python permite leer y escribir archivos csv.

Para leer datos de un archivo csv en primer lugar hay que crear un objeto Reader. Este objeto permite iterar sobre las líneas del archivo CSV.

In [3]:
import csv
archivoEjemplo=open("Ejemplo.csv")
ejemploLector=csv.reader(archivoEjemplo)
ejemploDatos=list(ejemploLector)
print (ejemploDatos)

[['04/05/2015', '13:34', 'Manzanas', '73'], ['04/05/2015', '3:41', 'Cerezas', '85'], ['04/06/2015', '12:46', 'Peras', '14'], ['04/08/2015', '8:59', 'Naranjas', '52'], ['04/10/2015', '2:07', 'Manzanas', '152'], ['04/10/2015', '18:10', 'Platanos', '23'], ['04/10/2015', '2:40', 'Fresas', '98']]


En el ejemplo para leer el archivo CSV, se abre el archivo usando la función open() como si fuera un archivo texto normal, pero en vez de usar los métodos read() o readlines() se usa la función csv.reader(). Esta función devuelve un objeto de tipo Reader que puede ser usada para leer el archivo.

Observar que a la función csv.reader() no se le pasa directamente el nombre de un archivo. 

Una vez que se dispone del objeto Reader, para accede a los valores se pueden convertir en una lista usando el método list(). Este método retorna una lista de listas.

Una vez que se tiene almacenado el archivo CSV como una lista de listas, se puede accede a un valor concreto mediante indéxación sobre la lista: ejemploDatos[x][y]  donde x  representa una lista de la listas de lista e y representa el índice del elemento de esa lista al que se quiere acceder.

In [4]:
ejemploDatos[0][0]

'04/05/2015'

In [5]:
ejemploDatos[0][1]

'13:34'

In [6]:
ejemploDatos[0][2]

'Manzanas'

In [7]:
ejemploDatos[1][1]

'3:41'

In [8]:
ejemploDatos[6][1]

'2:40'

También es posible usar el objeto Reader en un bucle for, de forma que se itera sobre las líneas del objeto. Cada línea es una lista de valores.

In [10]:
import csv
archivoEjemplo=open("Ejemplo.csv")
ejemploLector=csv.reader(archivoEjemplo)
for linea in ejemploLector:
    print ("Linea #"+ str(ejemploLector.line_num)+" "+str(linea))

Linea #1 ['04/05/2015', '13:34', 'Manzanas', '73']
Linea #2 ['04/05/2015', '3:41', 'Cerezas', '85']
Linea #3 ['04/06/2015', '12:46', 'Peras', '14']
Linea #4 ['04/08/2015', '8:59', 'Naranjas', '52']
Linea #5 ['04/10/2015', '2:07', 'Manzanas', '152']
Linea #6 ['04/10/2015', '18:10', 'Platanos', '23']
Linea #7 ['04/10/2015', '2:40', 'Fresas', '98']


Mediante print se imprime la línea actual y su contenido. Para conseguir la línea actual se usa el atributo line_num del objeto Reader que contiene el número de la línea actual.
El objeto Reader solo puede recorrido una única vez, de forma que si se quiere volver a recorrer habría que usar nuevamente el método csv.reader.

Para escribir datos en un archivo CSV se utiliza un objeto Writer que puede ser construido usando el método csv.writer().

In [13]:
import csv
archivoSalida=open("Salida.csv","w")
salidaEscritor=csv.writer(archivoSalida)
salidaEscritor.writerow(["naranjas","limones","peras","uvas"])
salidaEscritor.writerow(["jamón","chorizo","queso","salchichón"])
salidaEscritor.writerow([1,3,4,6])
archivoSalida.close()
archivoEjemplo=open("Salida.csv")
ejemploLector=csv.reader(archivoEjemplo)
ejemploDatos=list(ejemploLector)
print (ejemploDatos)

[['naranjas', 'limones', 'peras', 'uvas'], [], ['jamón', 'chorizo', 'queso', 'salchichón'], [], ['1', '3', '4', '6'], []]


En primer lugar se llama a open() con el parámetro “w” que indica que se abre un archivo en modo escritura.

Se crea un objeto Writer mediante el método csv.writer().

A continuación se utiliza el método writerow() del objeto Writer que toma como argumento una lista, de manera que cada valor de la lista es almacenado como un valor delimitado por comas en el archivo CSV. 

El valor retornado por el método writerow() es el número de caracteres escritos en el archivo para esa lista de valores.

Observar que si uno de los valores contiene comas entonces el módulo lo gestiona como si fuera una única cadena almacenándolo con dobles comillas.

In [14]:
import csv
archivoSalida=open("Salida.csv","w")
salidaEscritor=csv.writer(archivoSalida)
salidaEscritor.writerow(["naranjas","limones","peras","uvas"])
salidaEscritor.writerow(["jamón","chorizo , de salamanca","queso","salchichón"])
salidaEscritor.writerow([1,3,4,6])
archivoSalida.close()
archivoEjemplo=open("Salida.csv")
ejemploLector=csv.reader(archivoEjemplo)
ejemploDatos=list(ejemploLector)
print (ejemploDatos)

[['naranjas', 'limones', 'peras', 'uvas'], [], ['jamón', 'chorizo , de salamanca', 'queso', 'salchichón'], [], ['1', '3', '4', '6'], []]


Otras posibilidades son por ejemplo separar los valores por otro separador diferente a la coma o que por ejemplo las líneas estén a su vez separadas por más de un espacio.

In [18]:
import csv
archivoSalida=open("Salida.csv","w")
salidaEscritor=csv.writer(archivoSalida, delimiter='\t' ,lineterminator='\n')
salidaEscritor.writerow(["naranjas","limones","peras","uvas"])
salidaEscritor.writerow(["jamón","chorizo , de salamanca","queso","salchichón"])
salidaEscritor.writerow([1,3,4,6])
archivoSalida.close()
archivoEjemplo=open("Salida.csv")
ejemploLector=csv.reader(archivoEjemplo)
ejemploDatos=list(ejemploLector)
print (ejemploDatos)

[['naranjas\tlimones\tperas\tuvas'], ['jamón\tchorizo ', ' de salamanca\tqueso\tsalchichón'], ['1\t3\t4\t6']]


En el ejemplo se han modificado los atributos  “delimiter”(que especifica el carácter que delimita cada valor que por defecto es una coma) y “lineterminator”(que especifica el carácter que va al final de cada línea que por defecto son dos saltos de línea).


#### Ejemplo
Considerar un programa que permita:

* Encontrar todos los archivos CSV del directorio actual.

* Leer el contenido de cada archivo.

* Escribir nuevamente el contenido saltándose la primera línea sobre un nuevo archivo csv.

Para implementarlo:

Creamos un bucle sobre una lista de todos los archivos del directorio para saltarse aquellos que no son CSV. Se usa el método os.listdir() para recuperar todos los archivos del directorio actual, y se comprueba para cada uno de ellos si su extensión es “.csv”.

Se lee el contenido de cada archivo csv mediante un objeto Reader saltándose la primera línea y se almacena en una variable. Para controlar la primera línea se usa el atributo “line_num”:

Se crea un objeto Writer para escribir el contenido del archivo leído en un nuevo archivo csv.

    # Escribir la salida al archivo csv
    csvFileObj = open(os.path.join('SinCabeceras', csvFilename), 'w', newline='')
    csvWriter = csv.writer(csvFileObj)
    for row in csvRows:
        csvWriter.writerow(row)
    csvFileObj.close()

El programa completo es:

In [20]:
import csv, os
#Se crea un directorio para almacenar los archivos sin cabecera
os.makedirs('SinCabeceras', exist_ok=True)

# Bucle para recuperar los archivos del directorio actual
for csvFilename in os.listdir('.'):
    if not csvFilename.endswith('.csv'):
        continue # Saltar los archivos que no son csv

    print('Eliminando cabeceras de ' + csvFilename + '...')

    # Leer el archivo cvs y saltarse la primera línea
    csvRows = []
    csvFileObj = open(csvFilename)
    readerObj = csv.reader(csvFileObj)
    for row in readerObj:
        if readerObj.line_num == 1:
            continue # Saltar primera línea
        csvRows.append(row)
    csvFileObj.close()

    # Escribir la salida al archivo csv
    csvFileObj = open(os.path.join('SinCabeceras', csvFilename), 'w', newline='')
    csvWriter = csv.writer(csvFileObj)
    for row in csvRows:
        csvWriter.writerow(row)
    csvFileObj.close()

Eliminando cabeceras de Ejemplo.csv...
Eliminando cabeceras de Salida.csv...


## Archivos Json

#### Introducción

JSON(JavaScript Object Notation) es un formato de datos que se caracteriza:
* Está basado en JavaScript.
* Es utilizado para el intercambio de datos.
* Es utilizado por muchas APIs de sitios web tales como  Facebook, Twitter,…para devolver su contenido.
* Es independiente del lenguaje
* Los archivos tienen extensión .json

JSON representa objetos de manera textual mediante parejas clave=valor. Por ejemplo:

       {
        "libro":[
             {
               "id":"01",
               "lenguaje": "Java",
               "edición":"Tercera",
               "autor":"Herbert Schildt"
             },
             {
               "id":"07",
               "lenguaje": "C++",
               "edición":"Segunda",
               "autor":"E.Balagurusamy"
             }
            ]
         }

La sintaxis de JSON es:
* Un objeto se representa como una secuencia de parejas clave=valor encerradas entre llaves { y }. 
* Las claves son cadenas de texto entre comillas “ y ”. 
* Los valores puedes ser: 
   * Tipos básicos: cadena, número, booleano, null 
   * Arrays de valores: entre corchetes [ y ] 
   * Otros objetos JSON: entre llaves { y }

Para ilustrar el uso de JSON, considerar el siguiente ejemplo dónde se quiere representar la ficha de un estudiante con sus datos personales y asignaturas matriculadas:
* Nombre=“Pepito Pérez”
* DNI=“517899R”
* Edad=“22”
* Asignaturas matriculadas: 
   * Obligatorias:SistemasOperativos, Compiladores, y Bases de Datos.
   * Optativas: Bases de Datos NoSQL, Minería de Datos, Programación Lógica.
   * Libre Elección: Ajedrez, Música Clásica

La ficha de información se puede representar en un documento JSON de la siguiente manera:

    {
       "Nombre": "Pepito Pérez",
       "DNI": "5167778E",
       "Edad":22,
       "Asignaturas":{
            "Obligatorias": ["Sistemas Operativos", 
                             "Compiladores", "Bases de Datos"],
            "Optativas": ["Bases de Datos NoSQL", 
                          "Minería de Datos","Programación Lógica"],
            "LibreElección": ["Ajedrez", "Música Clásica"]
                }
     }


      

#### El módulo Json de Python

* Para gestionar documentos JSON desde Python se usa el modulo JSON que permite la traducción de datos JSON en valores de Python.
* JSON no puede almacenar cualquier tipo de valor Python, únicamente cadenas, enteros, reales, booleanos, listas, diccionarios y el tipo None.
* JSON no puede representar objetos específicos de Python tales como Ficheros, expresiones regulares,…

Para traducir una cadena que contiene datos JSON en un valor de Python se utiliza el método json.loads().

In [1]:
JsonDatos='{"nombre":"Sofia","matriculado":true,"asignaturas":34,"ID":null}'
import json
PythonDatos=json.loads(JsonDatos)
print (PythonDatos)

{'nombre': 'Sofia', 'matriculado': True, 'asignaturas': 34, 'ID': None}


La llamada al método loads() del módulo json permite cargar una cadena de datos JSON en valores de Python, retornando como resultado una lista dónde cada elemento es un diccionario. Si se quiere acceder a los distintos elementos del diccionario se usan los índices. La cadena JSON utiliza dobles comillas para las claves.

Observar que los valores en los diccionarios no están ordenados, por lo que los pares clave-valor pueden aparecer en orden diferente a como aparecían en la cadena original.

La tabla de correspondencia entre JSON y valores Python:

<dl>
<table>
<tr>
<th>JSON</th>
<th>Python</th>
</tr>
<tr>
<td>object</td>
<td>dict</td>
</tr>
<tr>
<td>array</td>
<td>list</td>
</tr>
<tr>
<td>object</td>
<td>dict</td>
</tr>
<tr>
<td>string</td>
<td>unicode</td>
</tr>
<tr>
<td>number(int)</td>
<td>int,long</td>
</tr>
<tr>
<td>number(real)</td>
<td>float</td>
</tr>
<tr>
<td>true</td>
<td>True</td>
</tr>
<tr>
<td>false</td>
<td>False</td>
</tr>
<tr>
<td>null</td>
<td>None</td>
</tr>
</table>
</dl>

Para escribir un valor de Python como una cadena de datos JSON se usa el método json.dumps().

In [2]:
PythonDatos={"nombre":"Sofia","matriculado":True, "asignaturas":34, "ID":None}
import json
JSONDatos=json.dumps(PythonDatos)
print (JSONDatos)

{"nombre": "Sofia", "matriculado": true, "asignaturas": 34, "ID": null}


La tabla de correspondencia entre los valores de Python y JSON:
<dl>
<table>
<tr>
<th>Python</th>
<th>JSON</th>
</tr>
<tr>
<td>dict</td>
<td>object</td>
</tr>
<tr>
<td>list, tuple</td>
<td>array</td>
</tr>
<tr>
<td>str.unicode</td>
<td>string</td>
</tr>
<tr>
<td>int,long,float</td>
<td>number</td>
</tr>
<tr>
<td>True</td>
<td>true</td>
</tr>
<tr>
<td>False</td>
<td>false</td>
</tr>
<tr>
<td>None</td>
<td>null</td>
</tr>
</table>
</dl>

Para ilustrar el uso de JSON, . se va a utilizar la API JSONPlaceholder. Se va a recuperar un recurso denominado "todos" que contiene 200 documentos json. Cada documento contiene un campo de id que identifica de manera única a un usuario y un campo "completed" que contiene un booleano. Se quiere:
* Recuperar todos los documentos.
* Obtener los usuarios que más documentos tienen asociados con el campo "completed" relleno del valor True.
* Almacenar en un archivo JSON los documentos asociados a los usuarios obtenidos.

El programa completo sería:

In [10]:
import json
import requests
response = requests.get("https://jsonplaceholder.typicode.com/todos")
todos = json.loads(response.text)
contador = {}
for todo in todos:
    if todo["completed"]:
        try:
            contador[todo["userId"]] += 1
        except KeyError:
            contador[todo["userId"]] = 1

ordenada = sorted(contador.items(), key=lambda x: x[1], reverse=True)
maximo = ordenada[0][1]
users = []
for user, completados in ordenada:
    if completados < maximo:
        break
    users.append(str(user))
archivo=open("salida.json","w")
lista=[todo for todo in todos if str(todo["userId"]) in users and todo["completed"]]
json.dump(lista, archivo, indent=2)
archivo.close()