## Manejo de archivos: CSV y JSON

### CSV -  Comma Separated Values

El formato CSV requiere que cada elemento de nuestro conjunto se presente en una línea. Dentro de esa línea, cada uno de los atributos del elemento debe estar separado por un único separador, que habitualmente es una coma, y seguir siempre el mismo orden. Además, la primera línea del fichero, a la que llamaremos cabecera, no contiene datos de ningún elemento, sino información de los atributos.

Por ejemplo, guardar las notas cualitativas de un curso en formato CSV

$Nombre$, $Lengua$, $Física$, $Química$, $Gimnasia$<br>
Alicia Alonso, Notable, Notable, Aprobado, Bien<br>
Bruno Bermejo, Aprobado, Bien, Bien, Suspenso<br>

En el caso anterior es fácil la separación y visualziación de los datos con este formato. Pero ¿y si las notas fueran cuantitativas y requirieran un separador flotante y que este fuera la coma (4,5)?
El formato del fichero no es capaz de distinguir entre la coma del flotante y la coma que separa los distintos atributos, y podría pensar que hay dos notas: 4 y 5.

Podemos solucionar este problema de dos maneras. <b>En primer lugar</b>, es posible crear un valor único encerrándolo entre comillas, por lo que tendríamos:

$Nombre$, $Lengua$, $Física$, $Química$, $Gimnasia$<br>
"Alicia Alonso", "3,7", "4,0", "2,7", "3,3"<br>
"Bruno Bermejo", "2,7", "3,3", "3,2", "2,4"<br>

En este caso, entendemos que el atributo es un único valor de tipo cadena de texto ($str$) y por tanto no debe partirse.

<b>La segunda opción</b> consiste en cambiar la coma, separando los valores por otro símbolo que tengamos la seguridad no aparece en el resto del fichero, como un punto o una arroba. Esta opción es más arriesgada si no conocemos bien el fichero, por lo que es recomendable usar las comillas.


## Manejo de CSV con Python

- Estándar intenacional <a href="https://datatracker.ietf.org/doc/html/rfc4180.html" target="_blank">RFC 4180</a>
- <a href="https://www.python.org/dev/peps/pep-0305/" target="_blank">PEP 305</a> - API de archivo CSV. La Propuesta de Mejora de Python (PEP, por sus siglas en inglés) que propone esta adición a Python.<br>
<a href="https://www.python.org/dev/peps/" target="_blank">PEP: Python Enhancement Proposal.</a>

### Importación del módulo

In [None]:
import csv

### Método $reader()$

In [None]:
file = open('Casos_positivos_de_COVID-19_en_Colombia_Antioquia.csv' , encoding='utf8')
content = csv.reader(file , delimiter=',')
for row in content:
    print(row)
file.close()

#### Número de líneas en el archivo leñido

In [None]:
content.line_num

#### Se peude utilizar el método $with$ para leer el archivo

In [None]:
with open('Casos_positivos_de_COVID-19_en_Colombia_Antioquia.csv', encoding='utf8') as csvfile:
    content = csv.reader(csvfile, delimiter=',')
    for row in content:
        print(row)


#### Miremos solo algunas líneas del archivo

In [None]:
with open('Casos_positivos_de_COVID-19_en_Colombia_Antioquia.csv' , encoding='utf8') as csvfile:
    content = csv.reader(csvfile, delimiter=',' , quotechar='"')
    i = 1
    for row in content:
        print(row)
        if i==3:
            break
        i+=1

#### Tratemos de darle un vistazo con otras herramientas

In [None]:
with open('Casos_positivos_de_COVID-19_en_Colombia_Antioquia.csv' , encoding='utf8') as csvfile:
    content = csv.reader(csvfile, delimiter=',')
    i = 1
    for row in content:
        if i==1:
            header = row
        elif i==2:
            break
        i+=1
dic = dict(zip(header , row))
dic

### Método $writer()$

In [None]:
file = open('archivo_csv.csv', 'w', encoding='utf-16')
nombres_campos = ['Nombre', 'Apellidos']
writer = csv.DictWriter(file, fieldnames=nombres_campos)

writer.writeheader()
writer.writerow({'Nombre': 'Carlos Andrés', 'Apellidos': 'Gutierrez Medina'})
writer.writerow({'Nombre': 'Maria Cristina', 'Apellidos': 'Marín Ortiz'})
writer.writerow({'Nombre': 'Nancy Cecilia', 'Apellidos': 'Cortes Ramos'})
file.close()

#### También se puede usar el método $with$ para escribir un archivo

In [None]:
with open('archivo_csv.csv', 'w', encoding='utf-16') as csvfile:
    fieldnames = ['Nombre', 'Apellidos']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writeheader()
    writer.writerow({'Nombre': 'Andrés Felipe', 'Apellidos': 'Contreras'})
    writer.writerow({'Nombre': 'Isabel Cristina', 'Apellidos': 'Bohorquez'})
    writer.writerow({'Nombre': 'Marcela', 'Apellidos': 'Roqueme Mira'})


#### NOTA:
Se debe tener en cuenta que el uso del modo de apertura $'w'$ crear el archivo desde cero, es decir, si existe, este es reemplazado por el archivo nuevo con la información nueva.

#### Se puede usar entonces el modo de apertura $'a'$ del los archivos con la función $open()$

In [None]:
csvfile = open('archivo_csv.csv', 'a' , encoding='utf-16')
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
writer.writerow({'Nombre': 'Karla', 'Apellidos': 'Martínez Ladino'})
csvfile.close()

# $JSON$

Es un formato de texto sencillo para el intercambio de datos. Se trata de un subconjunto de la notación literal de objetos de JavaScript. Debido a su amplia utilización, JSON es un formato de texto que es completamente independiente del lenguaje pero utiliza convenciones que son ampliamente conocidos por los programadores de la familia de lenguajes C, incluyendo C, C++, C#, Java, JavaScript, Perl, Python, y muchos otros. Estas propiedades hacen que JSON sea un lenguaje ideal para el intercambio de datos.

<a href="https://www.json.org/json-es.html" target="_blank">Link de documentación JSON</a>


<a href="https://www.datos.gov.co/resource/qasc-uuup.json?orden=100" target="_blank">Ejemplo de JSON en la web</a>

In [None]:
# 20210908181728
# https://www.datos.gov.co/resource/qasc-uuup.json?orden=100

[
  {
    "orden": "100",
    "departamento": "antioquia",
    "municipio": "medellin",
    "fecha": "2021-05-28T00:00:00.000",
    "mes": "mayo",
    "dia": "viernes",
    "_1era_dosis": "4547",
    "_2da_dosis": "398",
    "total_aplicada": "4945",
    "astrazeneca": "0",
    "pfizer": "2563",
    "sinovac": "2382",
    "astrazeneca_1era_dosis": "0",
    "pfizer_1era_dosis": "2171",
    "sinovac_1era_dosis": "2376",
    "astrazeneca_2da_dosis": "0",
    "pfizer_2da_dosis": "392",
    "sinovac_2da_dosis": "6"
  }
]

#### Se hace la importación del módulo $JSON$

In [None]:
import json

#### Lectura de archivos $JSON$ con la función $load()$

In [None]:
with open('Casos_positivos_de_COVID-19_en_Colombia_Antioquia.json' , encoding='utf8' ) as file:
    data = json.load(file)
    print(data)

#### Se pueden ver todo registros por separado línea a línea

In [None]:
with open('Casos_positivos_de_COVID-19_en_Colombia_Antioquia.json' , encoding='utf8') as file:
    data = json.load(file)

    for data_ in data:
        for patient in data[data_]:
            print(patient)
            print('')

#### Miremos los datos de un solo paciente.

In [None]:
patient

In [None]:
patient[20]

#### Extrayendo algunos datos.

In [None]:
with open('Casos_positivos_de_COVID-19_en_Colombia_Antioquia.json' , encoding='utf8') as file:
    data = json.load(file)

    for data_ in data:
        for patient in data[data_]:
            try:
                print(f"Sexo: {patient[17]} - Edad: {patient[15]} - Estado: {patient[20]}")
            except IndexError :
                continue


#### Escribiendo archivos $JSON$ con la función $dump()

In [None]:
import json

data = {}
data['clients'] = []

data['clients'].append({
    'nombre': 'Carlos Andrés',
    'apellidos': 'Gutierrez Medina',
    'edad': 27})

data['clients'].append({
    'nombre': 'Maria Cristina',
    'apellidos': 'Marín Ortiz',
    'edad': 31})

data['clients'].append({
    'nombre': 'Nancy Cecilia',
    'apellidos': 'Cortes Ramos',
    'edad': 36})

with open('data.json', 'w') as file:
    json.dump(data, file, indent=4)