<img src="img/banner_bioudea.png">

## Manejo de archivos: CSV, JSON y XML

### CSV -  Comma Separated Values

El formato CSV requiere que cada elemento del conjunto se presente en una línea. Dentro de esa línea, cada uno de los atributos del elemento debe estar separado por un único caracter (_separador_), que habitualmente es una coma, y seguir siempre el mismo orden. Además, la primera línea del fichero, casi siempre se le llama cabecera, no contiene datos de ningún elemento, sino la información de los atributos.

Por ejemplo, guardar los resultados de las pruebas del perfil lipídico de pacientes en formato CSV


<img src="img/csv.png" width="500px">

En el caso anterior es fácil la separación y visualziación de los datos con este formato. Pero ¿y si los resultados fueran cuantitativas y requirieran un separador flotante y que este fuera la coma (64,5)?
El formato del fichero no es capaz de distinguir entre la coma del flotante y la coma que separa los distintos atributos, y podría pensar que hay dos resultados: $64$ y $5$.

Lo anterior se puede solucionar de dos maneras. <b>En primer lugar</b>, es posible crear un valor único encerrándolo entre comillas, por lo que tendríamos:

<img src="img/csv2.png" width="600px">


En este caso, entendemos que el atributo es un único valor de tipo cadena de texto ($str$) y por tanto no debe partirse.

<b>La segunda opción</b> consiste en cambiar la coma, separando los valores por otro símbolo con el que se tenga la centeza de que no aparece en el resto del fichero, como un punto o un tabulador. Esta opción puede presentar problemas si no se conoce bien el archivo, por lo que es recomendable usar las comillas.


Usando punto y coma (;) como separador de atributos
<img src="img/csv3.png" width="600px">


Usando tabulación (\t) como separador de atributos
<img src="img/csv4.png" width="600px">

## Manejo de CSV con Python

- Estándar intenacional <a href="https://datatracker.ietf.org/doc/html/rfc4180.html" target="_blank">RFC 4180</a>
- <a href="https://www.python.org/dev/peps/pep-0305/" target="_blank">PEP 305</a> - API de archivo CSV. La Propuesta de Mejora de Python (PEP, por sus siglas en inglés) que propone esta adición a Python.<br>
<a href="https://www.python.org/dev/peps/" target="_blank">PEP: Python Enhancement Proposal.</a>

### Importación del módulo

In [None]:
import csv

### Método $reader()$

In [None]:
file = open('data/Casos_positivos_de_Covid-19_en_el_departamento_de_Antioquia_20240229.csv' , encoding='utf-8')
content = csv.reader(file , delimiter=',')
for row in content:
    print(row)
file.close()

In [None]:
content

#### Número de líneas en el archivo leñido

In [None]:
content.line_num

#### Tratemos de darle un vistazo con otras herramientas

In [None]:
csvfile = open('data/Casos_positivos_de_Covid-19_en_el_departamento_de_Antioquia_20240229.csv' , encoding='utf-8')
content = csv.reader(csvfile, delimiter=',')
i = 1
for row in content:
    if i==1:
        header = row
    elif i==2:
        break
    i+=1
dic = dict(zip(header , row))
dic

In [None]:
import csv
cont = 0
f = 0
m = 0
edad = 0
e  = []
csvfile =  open('data/Casos_positivos_de_Covid-19_en_el_departamento_de_Antioquia_20240229.csv' , encoding='utf-8')
content = csv.reader(csvfile, delimiter=',')
for row in content:
    
    ## Desarrolle su algoritmo para imprimir:
    # Número de hombre
    # Número de mujeres
    # Promedio de edades
    # Edad Máxima
    # Edad Mínima
        
print('HOMBRES: ', m)
print('MUJERES: ', f)
print('PROMEDIO DE EDADES: ' , prom_edad)
print('MAX: ' , max(e))
print('MIN: ' , min(e))

### Método $writer()$

$.CSV$ en forma tradicional

In [None]:
csvfile = open('data/archivo_csv1.csv', 'w', encoding='ISO-8859-1', newline='')
liswriter = csv.writer(csvfile, delimiter=',' )
liswriter.writerow([1 , 1234567890 , 'Juana María' , 'De Arco' , 110.2 , 65 , 50.2 , 115.1])
liswriter.writerow([2 , 1122334455 , 'Camilo Andrés' , 'Duque Ruiz' , 123.8 , 55.4 , 33.2 , 175.1])
csvfile.close()

$.CSV$ usando diccionarios

In [None]:
file = open('data/archivo_csv2.csv', 'w', encoding='ISO-8859-1' , newline='') # 'utf-8' , 'ISO-8859-1'
nombres_campos = ['id', 'doc_id','Nombre','Apellidos','COL TOTAL' , 'HDL','LDL','TRIG']
writer = csv.DictWriter(file, fieldnames=nombres_campos)

writer.writeheader()
writer.writerow({'id':1 , 'doc_id':123456789 , 'Nombre': 'Carlos Andrés', 'Apellidos': 'Gutierrez Medina'
                 ,'COL TOTAL':110.2 , 'HDL':65 , 'LDL':50.2 , 'TRIG':115.1})
writer.writerow({'id':2 , 'doc_id':1122334455 , 'Nombre': 'Maria Cristina', 'Apellidos': 'Marín Ortiz'
                 ,'COL TOTAL':123.8 , 'HDL':55.4 , 'LDL':33.2 , 'TRIG':175.1})
file.close()

#### También se puede usar el método $with$ para escribir un archivo

In [None]:
file = open('data/archivo_csv2.csv', 'a', encoding='ISO-8859-1' , newline='') # 'utf-8' , 'ISO-8859-1'
nombres_campos = ['id', 'doc_id','Nombre','Apellidos','COL TOTAL' , 'HDL','LDL','TRIG']
writer = csv.DictWriter(file, fieldnames=nombres_campos)

#writer.writeheader()
writer.writerows([{'id':3 , 'doc_id':123456789 , 'Nombre': 'Carlos Andrés', 'Apellidos': 'Gutierrez Medina'
                 ,'COL TOTAL':110.2 , 'HDL':65 , 'LDL':50.2 , 'TRIG':115.1},{'id':4 , 'doc_id':1122334455 , 'Nombre': 'Maria Cristina', 'Apellidos': 'Marín Ortiz'
                 ,'COL TOTAL':123.8 , 'HDL':55.4 , 'LDL':33.2 , 'TRIG':175.1}])

file.close()

#### NOTA:
Se debe tener en cuenta que el uso del modo de apertura $'w'$ crear el archivo desde cero, es decir, si existe, este es reemplazado por el archivo nuevo con la información nueva.

#### Se puede usar entonces el modo de apertura $'a'$ del los archivos con la función $open()$

In [None]:
csvfile = open('data/archivo_csv3.csv', 'a' , encoding='ISO-8859-1', newline='')
fieldnames = ['Nombre','Apellidos']
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
writer.writeheader()
writer.writerow({'Nombre': 'Karla', 'Apellidos': 'Martínez Ladino'})
csvfile.close()

# $JSON$

Es un formato de texto sencillo para el intercambio de datos. Se trata de un subconjunto de la notación literal de objetos de JavaScript. Debido a su amplia utilización, JSON es un formato de texto que es completamente independiente del lenguaje pero utiliza convenciones que son ampliamente conocidos por los programadores de la familia de lenguajes C, incluyendo C, C++, C#, Java, JavaScript, Perl, Python, y muchos otros. Estas propiedades hacen que JSON sea un lenguaje ideal para el intercambio de datos.

<a href="https://www.json.org/json-es.html" target="_blank">Link de documentación JSON</a>


<a href="https://www.datos.gov.co/resource/qasc-uuup.json?orden=100" target="_blank">Ejemplo de JSON en la web</a>

In [None]:
# 20210908181728
# https://www.datos.gov.co/resource/qasc-uuup.json?orden=100

[
  {
    "orden": "100",
    "departamento": "SANTANDER",
    "municipio": "BUCARAMANGA",
    "fecha": "28/05/2021",
    "a_o": "mayo",
    "mes": "2021",
    "dia": "viernes",
    "_1era_dosis": "5743",
    "_2da_dosis": "786",
    "total_aplicada": "6529",
    "astrazeneca": "380",
    "pfizer": "3116",
    "sinovac": "2291",
    "astrazeneca_1era_dosis": "346",
    "pfizer_1era_dosis": "2524",
    "sinovac_1era_dosis": "2281",
    "astrazeneca_2da_dosis": "34",
    "pfizer_2da_dosis": "592",
    "sinovac_2da_dosis": "10",
    "janssen": "5",
    "moderna": "742",
    "moderna_1era_dosis": "592",
    "moderna_2da_dosis": "150",
    "astrazeneca_refuerzo": "0",
    "pfizer_refuerzo": "0",
    "sinovac_refuerzo": "0",
    "janssen_refuerzo": "0",
    "moderna_refuerzo": "0"
  }
]

#### Se hace la importación del módulo $JSON$

In [None]:
import json

#### Lectura de archivos $JSON$ con la función $load()$

#### Se pueden ver todo registros por separado línea a línea

In [None]:
file = open('data/Casos_positivos_de_Covid-19_en_el_departamento_de_Antioquia_20240229.json' , encoding='ISO-8859-1')
data = json.load(file)

data

#### Miremos los datos de un solo paciente.

In [None]:
data[0]

#### Extrayendo algunos datos.

In [None]:
file = open('data/Casos_positivos_de_Covid-19_en_el_departamento_de_Antioquia_20240229.json' , encoding='ISO-8859-1')
data = json.load(file)

for patient in data:
    try:
        print(f"Edad: {patient['edad']} - -Sexo: {patient['sexo']} - Estado: {patient['estado']} - Recuperación: {patient['tipo_recuperacion']}")
    except KeyError:
        print(patient['id_de_caso'])
        

#### Escribiendo archivos $JSON$ con la función $dump()$

In [None]:
import json

data = {}
data['clients'] = [] 

data['clients'].append({
    'nombre': 'Carlos Andrés',
    'apellidos': 'Gutierrez Medina',
    'edad': 27})

data['clients'].append({
    'nombre': 'Maria Cristina',
    'apellidos': 'Marín Ortiz',
    'edad': 31})

data['clients'].append({
    'nombre': 'Nancy Cecilia',
    'apellidos': 'Cortes Ramos',
    'edad': 36})

file = open('data/data.json', mode='w' , encoding='ISO-8859-1') 
json.dump(data, file, indent=4 , ensure_ascii= False)
file.close()

In [None]:
import json

#data = {}
data = [] ### [ {...} , {...} , { ... } ]

data.append({
    'nombre': 'Carlos Andrés',
    'apellidos': 'Gutierrez Medina',
    'edad': 27})

data.append({
    'nombre': 'Maria Cristina',
    'apellidos': 'Marín Ortiz',
    'edad': 31})

data.append({
    'nombre': 'Nancy Cecilia',
    'apellidos': 'Cortes Ramos',
    'edad': 36})

#data
file = open('data/data2.json', mode='w', encoding='ISO-8859-1')
json.dump(data, file, indent=4, ensure_ascii= False)
file.close()

# $XML$

XML es un lenguaje de marcado similar a HTML. Significa "Extensible Markup Language" (Lenguaje de Marcado Extensible) y es una especificación de W3C como lenguaje de marcado de propósito general. Esto significa que, a diferencia de otros lenguajes de marcado, XML no está predefinido, por lo que debes definir tus propias etiquetas. El propósito principal del lenguaje es compartir datos a través de diferentes sistemas, como Internet.

<a href="https://developer.mozilla.org/es/docs/Web/XML/XML_introduction" target="_blank">Link de documentación XML</a>

<message>
    <warning>
         Hola, mundo
    </warning>
</message>

<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>srdtfyguhj
        <year name = "año">2011</year>Prueba
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>

Cuando leemos el fichero $xml$ anterior con La API XML de $ElementTree$.

Cada objeto $Element$ tiene cuatro atributos:

* <b>Tag:</b> el nombre de la etiqueta.
* <b>Text:</b> El texto guardado dentro de la etiqueta. Este atributo es None si la etiqueta está vacía.
* <b>Tail:</b> El texto de un elemento, que está a continuación de otro elemento.
* <b>Attrib:</b> Un diccionario python que contiene los nombres y valores de los atributos del elemento.

<p> To find out 
    <em>more</em>, see the 
    <a href="http://www.w3.org/XML">standard</a>.
</p>

<img src="img/xmltree.png">

### Se hace la importación del módulo

In [None]:
import xml.etree.ElementTree as ET

### Carga del archivo $XML$

In [None]:
tree = ET.parse('data/country_data.xml')
root = tree.getroot()

In [None]:
for child in root:
    for child2 in child:
        print(child2.tag, child2.attrib ,child2.text)

También se peude hacer desde un string.

In [None]:
xml = '''<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>'''

In [None]:
root = ET.fromstring(xml)
root

In [None]:
for child in root:
    print(child.tag, child.attrib , child.text , child.tail)

### Los hijos están anidados, y podemos acceder a nodos hijos específicos por el índice

In [None]:
root[0][1].text

In [None]:
# Se pueden ver también los atributos
root[0][3].attrib

In [None]:
root[0][3].attrib['direction']

$Element$ tiene algunos métodos útiles que ayudan a iterar recursivamente sobre todo el sub-árbol por debajo de él (sus hijos, los hijos de sus hijos, y así sucesivamente). Por ejemplo, $Element.iter():$

In [None]:
for year in root.iter('year'):
    print(year.text)

- $Element.findall()$ encuentra sólo los elementos con una etiqueta que son hijos directos del elemento actual.
- $Element.find()$ encuentra el primer hijo con una etiqueta determinada, y 
- $Element.get()$ accede a los atributos del elemento:

In [None]:
for country in root.iter('country'):
    rank = country.find('rank').text
    name = country.get('name')
    print(name, rank )
