_Antonio Sarasa, Enrique Martín_

# Archivos CSV

#### Introducción

Un archivo CSV (_Comma Separated Values_) es un archivo de texto plano que almacenan los valores separados por comas.
Los archivos se encuentran estructurados por líneas, y cada línea es un conjunto de valores separados por comas.

```
04/05/2015,13:34,Manzanas,73
04/05/2015,3:41,Cerezas,85
04/06/2015,12:46,Peras,14
04/08/2015,8:59,Naranjas,52
04/10/2015,2:07,Manzanas,152
04/10/2015,18:10,Platanos,23
04/10/2015,2:40,Fresas,98
```

Algunas características de los archivos csv:

* Los valores no tienen tipos, son todo cadenas.
* No tienen atributos de configuración acerca del tamaño de la fuente, color,…
* No tienen imágenes o dibujos incrustado.
* Los archivos tienen extensión .csv

Las ventajas que ofrece este formato:

* Es simple.
* Está soportado por muchos programas.
* Permiten representar los datos de las hojas de cálculo.
* Puede ser visualizado por los editores de texto.

Dado que los archivos CSV son archivos de texto, se podría intentar leer como una cadena y posteriormente procesar esa cadena. 

Como los valores están delimitados por comas, se podría usar el método split() sobre cada línea para obtener los valores. 

Sin embargo no siempre las comas representan los límites de un valor, dado que los archivos CSV también tienen su propio conjunto de caracteres de escape para permitir que las comas y otros caracteres formen parte de un valor, y esos caracteres no son soportados por split().


#### El módulo csv de Python

El modulo csv de Python permite leer y escribir archivos csv.

Para leer datos de un archivo csv en primer lugar hay que crear un objeto Reader. Este objeto permite iterar sobre las líneas del archivo CSV.

In [1]:
import csv
from pprint import pprint

with open("Ejemplo.csv", 'r', newline='', encoding='utf8') as fich:
    ejemploLector = csv.reader(fich)
    ejemploDatos = list(ejemploLector)
    pprint(ejemploDatos)

[['04/05/2015', '13:34', 'Manzanas', '73'],
 ['04/05/2015', '3:41', 'Cerezas', '85'],
 ['04/06/2015', '12:46', 'Peras', '14'],
 ['04/08/2015', '8:59', 'Naranjas', '52'],
 ['04/10/2015', '2:07', 'Manzanas', '152'],
 ['04/10/2015', '18:10', 'Platanos', '23'],
 ['04/10/2015', '2:40', 'Fresas', '98']]


En el ejemplo para leer el archivo CSV, se abre el archivo usando la función open() como si fuera un archivo texto normal, pero en vez de usar los métodos read() o readlines() se usa la función csv.reader(). Esta función devuelve un objeto de tipo Reader que puede ser usada para leer el archivo.

Observar que a la función csv.reader() no se le pasa directamente el nombre de un archivo. 

Una vez que se dispone del objeto Reader, para accede a los valores se pueden convertir en una lista usando el método list(). Este método retorna una lista de listas.

Una vez que se tiene almacenado el archivo CSV como una lista de listas, se puede accede a un valor concreto mediante indéxación sobre la lista: ejemploDatos[x][y]  donde x  representa una lista de la listas de lista e y representa el índice del elemento de esa lista al que se quiere acceder.

In [2]:
ejemploDatos[0][0]

'04/05/2015'

In [3]:
ejemploDatos[0][1]

'13:34'

In [4]:
ejemploDatos[0][2]

'Manzanas'

In [5]:
ejemploDatos[1][1]

'3:41'

In [6]:
ejemploDatos[6][1]

'2:40'

In [7]:
with open("Ejemplo_cabecera.csv", 'r', newline='', encoding='utf8') as fich:
    ejemploLector = csv.reader(fich)
    ejemploDatos = list(ejemploLector)
    pprint(ejemploDatos)

[['Fecha', 'Hora', 'Fruta', 'Cantidad'],
 ['04/05/2015', '13:34', 'Manzanas', '73'],
 ['04/05/2015', '3:41', 'Cerezas', '85'],
 ['04/06/2015', '12:46', 'Peras', '14'],
 ['04/08/2015', '8:59', 'Naranjas', '52'],
 ['04/10/2015', '2:07', 'Manzanas', '152'],
 ['04/10/2015', '18:10', 'Platanos', '23'],
 ['04/10/2015', '2:40', 'Fresas', '98']]


También es posible usar el objeto Reader en un bucle for, de forma que se itera sobre las líneas del objeto. Cada línea es una lista de valores.

In [8]:
with open("Ejemplo.csv", 'r', newline='', encoding='utf8') as fich:
    ejemploLector = csv.reader(fich)
    for linea in ejemploLector:
        print(f"Linea #{ejemploLector.line_num} {linea}")

Linea #1 ['04/05/2015', '13:34', 'Manzanas', '73']
Linea #2 ['04/05/2015', '3:41', 'Cerezas', '85']
Linea #3 ['04/06/2015', '12:46', 'Peras', '14']
Linea #4 ['04/08/2015', '8:59', 'Naranjas', '52']
Linea #5 ['04/10/2015', '2:07', 'Manzanas', '152']
Linea #6 ['04/10/2015', '18:10', 'Platanos', '23']
Linea #7 ['04/10/2015', '2:40', 'Fresas', '98']


Mediante print se imprime la línea actual y su contenido. Para conseguir la línea actual se usa el atributo line_num del objeto Reader que contiene el número de la línea actual.
El objeto Reader solo puede recorrido una única vez, de forma que si se quiere volver a recorrer habría que usar nuevamente el método csv.reader.

Si el fichero CSV tiene cabecera, como es el caso del fichero `Ejemplo_cabecera.csv`, suele ser más útil leer el fichero usando `csv.DictReader` para que nos devuelva un diccionario por cada fila y poder acceder a cada elemento por clave y no por posición.

In [9]:
with open("Ejemplo_cabecera.csv", 'r', newline='', encoding='utf8') as fich:
    ejemploLector = csv.DictReader(fich)
    for linea in ejemploLector:
        print(f"Linea #{ejemploLector.line_num} {linea}")

Linea #2 {'Fecha': '04/05/2015', 'Hora': '13:34', 'Fruta': 'Manzanas', 'Cantidad': '73'}
Linea #3 {'Fecha': '04/05/2015', 'Hora': '3:41', 'Fruta': 'Cerezas', 'Cantidad': '85'}
Linea #4 {'Fecha': '04/06/2015', 'Hora': '12:46', 'Fruta': 'Peras', 'Cantidad': '14'}
Linea #5 {'Fecha': '04/08/2015', 'Hora': '8:59', 'Fruta': 'Naranjas', 'Cantidad': '52'}
Linea #6 {'Fecha': '04/10/2015', 'Hora': '2:07', 'Fruta': 'Manzanas', 'Cantidad': '152'}
Linea #7 {'Fecha': '04/10/2015', 'Hora': '18:10', 'Fruta': 'Platanos', 'Cantidad': '23'}
Linea #8 {'Fecha': '04/10/2015', 'Hora': '2:40', 'Fruta': 'Fresas', 'Cantidad': '98'}


Para escribir datos en un archivo CSV se utiliza un objeto Writer que puede ser construido usando el método csv.writer().

In [10]:
with open("Salida.csv", "w", newline='', encoding='utf8') as archivoSalida:
    salidaEscritor = csv.writer(archivoSalida)
    salidaEscritor.writerow(["naranjas","limones","peras","uvas"])
    salidaEscritor.writerow(["jamón","chorizo","queso","salchichón"])
    salidaEscritor.writerow([1,3,4,6])

    
with open("Salida.csv", 'r', newline='', encoding='utf8') as archivoEjemplo:
    ejemploLector = csv.reader(archivoEjemplo)
    ejemploDatos = list(ejemploLector)
    pprint(ejemploDatos)

[['naranjas', 'limones', 'peras', 'uvas'],
 ['jamón', 'chorizo', 'queso', 'salchichón'],
 ['1', '3', '4', '6']]


En primer lugar se llama a open() con el parámetro “w” que indica que se abre un archivo en modo escritura.

Se crea un objeto Writer mediante el método csv.writer().

A continuación se utiliza el método writerow() del objeto Writer que toma como argumento una lista, de manera que cada valor de la lista es almacenado como un valor delimitado por comas en el archivo CSV. 

El valor retornado por el método writerow() es el número de caracteres escritos en el archivo para esa lista de valores.

Observar que __si uno de los valores contiene comas__ entonces el módulo lo gestiona como si fuera una única cadena almacenándolo con __dobles comillas__.

In [11]:
with open("Salida.csv", "w", newline='', encoding='utf8') as archivoSalida:
    salidaEscritor = csv.writer(archivoSalida)
    salidaEscritor.writerow(["naranjas","limones","peras","uvas"])
    salidaEscritor.writerow(["jamón","chorizo, de salamanca","queso","salchichón"])
    salidaEscritor.writerow([1,3,4,6])

    
with open("Salida.csv", 'r', newline='', encoding='utf8') as archivoEjemplo:
    ejemploLector = csv.reader(archivoEjemplo)
    ejemploDatos = list(ejemploLector)
    pprint(ejemploDatos)

[['naranjas', 'limones', 'peras', 'uvas'],
 ['jamón', 'chorizo, de salamanca', 'queso', 'salchichón'],
 ['1', '3', '4', '6']]


El módulo __csv__ también se encarga de escapar las dobles comillas cuando aparecen en el contenido de alguna casilla:

In [12]:
with open("Salida.csv", "w", newline='', encoding='utf8') as archivoSalida:
    salidaEscritor = csv.writer(archivoSalida)
    salidaEscritor.writerow(["naranjas",'Manolito "El Gato"',"peras","uvas"])
    salidaEscritor.writerow(["jamón","chorizo, de salamanca","queso","salchichón"])
    salidaEscritor.writerow([1,3,4,6])

    
with open("Salida.csv", 'r', newline='', encoding='utf8') as archivoEjemplo:
    ejemploLector = csv.reader(archivoEjemplo)
    ejemploDatos = list(ejemploLector)
    pprint(ejemploDatos)

[['naranjas', 'Manolito "El Gato"', 'peras', 'uvas'],
 ['jamón', 'chorizo, de salamanca', 'queso', 'salchichón'],
 ['1', '3', '4', '6']]


Otras posibilidades son por ejemplo separar los valores por otro separador diferente a la coma o que por ejemplo las líneas estén a su vez separadas por más de un espacio.

In [13]:
with open("Salida.csv", "w", newline='', encoding='utf8') as archivoSalida:
    salidaEscritor = csv.writer(archivoSalida, delimiter='\t',lineterminator='\n')
    salidaEscritor.writerow(["naranjas","limones","peras","uvas"])
    salidaEscritor.writerow(["jamón","chorizo, de salamanca","queso","salchichón"])
    salidaEscritor.writerow([1,3,4,6])

    
with open("Salida.csv", 'r', newline='', encoding='utf8') as archivoEjemplo:
    ejemploLector = csv.reader(archivoEjemplo, delimiter='\t')
    ejemploDatos = list(ejemploLector)
    pprint(ejemploDatos)

[['naranjas', 'limones', 'peras', 'uvas'],
 ['jamón', 'chorizo, de salamanca', 'queso', 'salchichón'],
 ['1', '3', '4', '6']]


En el ejemplo se han modificado los atributos  “delimiter”(que especifica el carácter que delimita cada valor que por defecto es una coma) y “lineterminator”(que especifica el carácter que va al final de cada línea).


Para escribir un fichero CSV con cabeceras, sobre todo si los datos a escribir son una secuencia de diccionarios, lo más útil es utilizar `csv.DictWriter`:

In [14]:
datos = [{'Nombre': 'ana',  'Edad': 20},
         {'Nombre': 'pepe', 'Edad': 30.5},
         {'Nombre': 'eva',  'Edad': 25},
        ]

with open('personas.csv', 'w', newline='') as csvfile:
    campos = ['Nombre', 'Edad']
    writer = csv.DictWriter(csvfile, fieldnames=campos)

    writer.writeheader()
    for d in datos:
        writer.writerow(d)
        # IMPORTANTE: 
        # a) Los nombres de los campos deben ser *exactamente igual* que los indicados en fieldnames, incluyendo
        #    mayúsculas y minúsculas  
        # b) Notad cómo la edad se ha manejado bien aunque era un valor numérico (int, float) y no una cadena
        #    de texto

with open("personas.csv", 'r', newline='', encoding='utf8') as archivoEjemplo:
    ejemploLector = csv.reader(archivoEjemplo)
    ejemploDatos = list(ejemploLector)
    pprint(ejemploDatos)

[['Nombre', 'Edad'], ['ana', '20'], ['pepe', '30.5'], ['eva', '25']]


## Archivos JSON

#### Introducción

JSON (_JavaScript Object Notation_) es un formato de datos que se caracteriza:
* Está basado en JavaScript.
* Es utilizado para el intercambio de datos.
* Es utilizado por muchas API de sitios web tales como Facebook, Twitter, etc. para devolver su contenido.
* Es independiente del lenguaje
* Los archivos tienen extensión .json

JSON representa objetos de manera textual mediante parejas clave=valor. Por ejemplo:

       {
        "libros":[
             {
               "id": "01",
               "lenguaje": "Java",
               "edición": "Tercera",
               "autor": "Herbert Schildt"
             },
             {
               "id": "07",
               "lenguaje": "C++",
               "edición": "Segunda",
               "autor": "E. Balagurusamy"
             }
            ]
         }

La sintaxis de JSON es:
* Un objeto se representa como una secuencia de parejas clave=valor encerradas entre llaves { y }. 
* Las claves son cadenas de texto entre comillas dobles **"**. 
* Los valores puedes ser: 
   * Tipos básicos: cadena, número, booleano, null 
   * Arrays de valores: entre corchetes [ y ] 
   * Otros objetos JSON: entre llaves { y }

Para ilustrar el uso de JSON, considerar el siguiente ejemplo dónde se quiere representar la ficha de un estudiante con sus datos personales y asignaturas matriculadas:
* Nombre=“Pepito Pérez”
* DNI=“517899R”
* Edad=“22”
* Asignaturas matriculadas: 
   * Obligatorias:SistemasOperativos, Compiladores, y Bases de Datos.
   * Optativas: Bases de Datos NoSQL, Minería de Datos, Programación Lógica.
   * Libre Elección: Ajedrez, Música Clásica

La ficha de información se puede representar en un documento JSON de la siguiente manera:

    {
       "Nombre": "Pepito Pérez",
       "DNI": "5167778E",
       "Edad": 22,
       "Asignaturas":{
            "Obligatorias": ["Sistemas Operativos", 
                             "Compiladores", 
                             "Bases de Datos"],
            "Optativas": ["Bases de Datos NoSQL", 
                          "Minería de Datos",
                          "Programación Lógica"],
            "LibreElección": ["Ajedrez",
                              "Música Clásica"]
       }
    }     

#### El módulo json de Python

* Para gestionar documentos JSON desde Python se usa el modulo JSON que permite la traducción de datos JSON en valores de Python.
* JSON no puede almacenar cualquier tipo de valor Python, únicamente cadenas, enteros, reales, booleanos, listas, diccionarios y el tipo None.
* JSON no puede representar objetos específicos de Python tales como Ficheros, expresiones regulares,…

Para traducir una cadena que contiene datos JSON en un valor de Python se utiliza el método json.loads().

In [15]:
import json
from pprint import pp  # pp() es como pprint() pero no ordena los diccionarios

JsonDatos = '{"nombre":"Sofia", "matriculado":true," asignaturas":34, "ID":null}'
PythonDatos = json.loads(JsonDatos)
pp(PythonDatos)

{'nombre': 'Sofia', 'matriculado': True, ' asignaturas': 34, 'ID': None}


La llamada al método `loads()` del módulo `json` permite cargar una cadena de datos JSON en valores de Python, retornando como resultado una lista dónde cada elemento es un diccionario. Si se quiere acceder a los distintos elementos del diccionario se usan los índices. La cadena JSON utiliza dobles comillas para las claves.

Observar que los valores en los diccionarios no están ordenados, por lo que los pares clave-valor pueden aparecer en orden diferente a como aparecían en la cadena original.

La tabla de correspondencia entre JSON y valores Python:

<dl>
<table>
<tr>
<th>JSON</th>
<th>Python</th>
</tr>
<tr>
<td>object</td>
<td>dict</td>
</tr>
<tr>
<td>array</td>
<td>list</td>
</tr>
<tr>
<td>string</td>
<td>str</td>
</tr>
<tr>
<td>number(int)</td>
<td>int</td>
</tr>
<tr>
<td>number(real)</td>
<td>float</td>
</tr>
<tr>
<td>true</td>
<td>True</td>
</tr>
<tr>
<td>false</td>
<td>False</td>
</tr>
<tr>
<td>null</td>
<td>None</td>
</tr>
</table>
</dl>

Para escribir un valor de Python como una cadena de datos JSON se usa el método `json.dumps()`.

In [16]:
PythonDatos = {"nombre":"Sofia", "matriculado":True, "asignaturas":34, "ID":None}
JSONDatos = json.dumps(PythonDatos)
pp(JSONDatos)

'{"nombre": "Sofia", "matriculado": true, "asignaturas": 34, "ID": null}'


La tabla de correspondencia entre los valores de Python y JSON:
<dl>
<table>
<tr>
<th>Python</th>
<th>JSON</th>
</tr>
<tr>
<td>dict</td>
<td>object</td>
</tr>
<tr>
<td>list, tuple</td>
<td>array</td>
</tr>
<tr>
<td>str</td>
<td>string</td>
</tr>
<tr>
<td>int,float</td>
<td>number</td>
</tr>
<tr>
<td>True</td>
<td>true</td>
</tr>
<tr>
<td>False</td>
<td>false</td>
</tr>
<tr>
<td>None</td>
<td>null</td>
</tr>
</table>
</dl>

Para ilustrar el uso de JSON, se va a utilizar la API **JSONPlaceholder**. Se va a recuperar un recurso denominado "todos" que contiene 200 documentos JSON. Cada documento contiene un campo de id que identifica de manera única a un usuario y un campo "completed" que contiene un booleano. Se quiere:
* Recuperar todos los documentos.
* Obtener el usuario que más documentos tiene asociados con el campo "completed" relleno del valor True. Si hay varios usuarios así, se puede elegir cualquiera
* Almacenar en un archivo JSON los documentos asociados al usuario obtenido.

El programa completo sería:

In [17]:
import json
import requests
from collections import Counter

response = requests.get("https://jsonplaceholder.typicode.com/todos")
todos = response.json() # Intepreta la respuesta como JSON

ids_completados = [todo["userId"] for todo in todos if todo["completed"]]
print(ids_completados)
counter = Counter(ids_completados)
print(counter)

max_user, _ = counter.most_common(1)[0]  # Si hay empate, most_common() elige el elemento que apareció antes
print(max_user)

lista = [todo for todo in todos if todo["userId"] == max_user and todo["completed"]]
with open("salida.json", "w", encoding='utf8') as archivo:
  json.dump(lista, archivo, indent=3)

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10]
Counter({5: 12, 10: 12, 1: 11, 8: 11, 7: 9, 2: 8, 9: 8, 3: 7, 4: 6, 6: 6})
5
