# GESTIÓN DE ARCHIVOS

<img src = https://prod-central-prod-sm-site-media.s3.eu-west-1.amazonaws.com/sm/public/wp-content/uploads/2018/09/15083840/custom-json-data-studio-1024x640.png >

1. [Archivos CSV](#csv)
2. [Archivos JSON](#json)
3. [Archivos XML](#xml)

# CSV <a name = "csv"></a>

## Lectura de un csv

Para leer un archivo **csv**, lo primero tenermos que importar la librería que nos permite utilizar las funciones necesarias para su procesamiento, tanto de lectura como de escritura, esta librería es **csv**

Importamos la librería

In [None]:
import csv

Salvo que estemos utilizando la librerías como **pandas** que tienen otro tipo de funciones específicas para la lectura de un archivo, con la librería csv, tendremos que utilizar la función <code>open()</code> que recibirá los siguientes parámetros: El nombre del archivo csv y, el modo de apertura del archivo que por lo general, utilizaremos los siguientes:

* **r**: Lectura (*read*), abre un archivo para su lectura, devuelve un error si no existe.
* **w**: Escritura (*write*), se utiliza cuando vamos a escribir un archivo.

Además también se puede especificar el tipo de archivo que se va a procesar:

* **t**: Texto.
* **b**: Binario, por ejemplo imágenes.


Más información sobre la función **open** https://www.w3schools.com/python/ref_func_open.asp

In [None]:
compras_file = open('compras.csv', mode='rt')

Por si misma la asginación a compras_file, no contienen nada, simplemente el objeto de la librería csv, que indica que hemos realizado la apertura del archivo 'compras.csv'

In [None]:
compras_file

Para comenzar a leer el archivo, tenemos que crear el objeto *reader*, para ello utilizamos la funcíon <code>csv.reader</code>

In [None]:
reader_compras = csv.reader(compras_file)

De nuevo, aún no tenemos nada, simplemente el objeto lector sobre el csv compras

In [None]:
reader_compras

Para ver el contenido interior del mismo, tendríamos o bien recorrer línea a línea el archivo o, utilizar una lista para guardar todo el archivo.

In [None]:
clean_compras = list(reader_compras)

clean_compras

In [None]:
reader_compras = csv.reader(compras_file)

archivo_compras = []

for linea in reader_compras:
    print('Línea del archivo: ', linea)
    archivo_compras.append(linea)

In [None]:
archivo_compras

Como podemos comprobar hay algunos fallos de escritura como 'BolÃ\xadgrafo Bic', para solventar estos problemas tenemos que utilizar una codificación específica del archivo, para esta tarea, utilizamos el parámetro `encoding`, lo más habitual es utilizar la codificación **utf-8**

In [None]:
# Modificamos la codificación
compras_file = open('compras.csv', mode='rt', encoding='utf-8')

reader_compras = csv.reader(compras_file)
clean_compras = list(reader_compras)
clean_compras

## Escritura de un csv

Agreagaremos unas cuántas líneas más al .csv, todo compras del mismo día

In [None]:
clean_compras.append(['24/03/2020', 'Nueva compra 1', '1', '1', '1'])
clean_compras.append(['24/03/2020', 'Nueva compra 2', '2', '1.25', '2.5'])
clean_compras.append(['24/03/2020', 'Nueva compra 3', '1', '2', '2'])

In [None]:
clean_compras

Del mismo modo a como hemos abierto el archivo con `csv.reader`, escribiremos el archivo con `csv.writer`

In [None]:
file = open('compras_actualizadas.csv', 'wt', newline='')
writer = csv.writer(file)
writer.writerows(clean_compras)
file.close()

Es importante que al terminar de procesar el archivo, lo creemos con la función `close()`

### Pregunta 

¿Qué ocurre si ponemos otros valores o directamente quitamos el parámetro `newline` de la función open ?

NOTA: Crea más archivos y comprueba la diferencia.

# JSON <a name = "json"></a>

## Lectura de un archivo json

importamos la librería json

In [None]:
import json

Utilizaremos el mismo procedimiento que con los archivos csv, se utiliza la función `open`, para los archivos json, vamos a distinguir dos funciones principales para poder procesarlos, una es `json.load` y `json.loads`

La principal diferencia entre ambas funciones es que `json.load`se encarga de procesar un archivo json que esté correctamente formateado como tal y tenga una estructura definida. Por su parte, `json.loads` se utiliza para cargar un json como un string, es decir, que no ha sido correctamente formateado, cuando estemos utilizando `json.loads` vamos a procesar el archivo **línea a línea**

In [None]:
with open('mercados.json', 'r') as f:
    mercados = json.load(f)

In [None]:
mercados

Una vez que cargamos el archivo con `json.load` vemos que es exactamente igual que un diccionario de datos y, podemos emplear las funciones que ya conocemos como keys o values

In [None]:
mercados.keys()

In [None]:
mercados['IBEX_MEDIUM_CAP']

In [None]:
for company in mercados['IBEX_MEDIUM_CAP']:
    print(company)

In [None]:
for company in mercados['IBEX_MEDIUM_CAP']:
    for value in company.keys():
        print(company[value])

Cuando el json no tiene formato... `json.loads`

In [None]:
with open('tweets.txt', 'r') as f:
    tweets = json.load(f)

Al no tener formato, da error, ya que se trta de una composición de varios json el archivo.

In [None]:
with open('tweets.txt', 'r') as f:
    tweets = json.loads(f)

Tampoco podemos procesar el archivo directamente con la función `json.loads` ya que nos especifica que debe recibir una única cadena de texto, el archivo, son varias cadenas de texto.

Por lo tanto, tenemos que procesar el archivo **línea a línea**

In [None]:
# Guardamos el json en una lista
lista_tweets = []

with open('tweets.txt', 'r') as f:
    # Recorremos línea a línea 
    for linea in f:
        tweets = json.loads(linea)
        lista_tweets.append(tweets)

In [None]:
lista_tweets

In [None]:
lista_tweets[0]

In [None]:
lista_tweets[0].keys()

In [None]:
lista_tweets[15].keys()

In [None]:
lista_tweets[15]['text']

## Escritura de un json

Agregamos nuevos campos.

In [None]:
new_market = [
    {'New_Market_1': [1, 2, 3, 4, 5]},
    {'New_Market_2': [5, 4, 3, 2, 1]}
]

In [None]:
mercados.update({'NEW_MARKET' : new_market})

In [None]:
mercados

In [None]:
with open('Mercados_update.json', 'w') as outfile:
    json.dump(mercados, outfile)

Podemos probar a dar un mejor aspecto al json mediante el parámetro `indent`. Más información sobre este parámetro: https://pynative.com/python-prettyprint-json-data/#:~:text=pynative.com%22%20%7D-,After%20writing%20Pretty%2DPrinted%20JSON%20data%20into%20a%20file,indent%3D4%20and%20sorting%20keys.&text=Remember%3A,uses%20four%20spaces%20for%20indentation.

In [None]:
with open('Mercados_update_ok.json', 'w') as outfile:
    json.dump(mercados, outfile, indent=4)

# XML <a name = "xml"></a>

## Lectura de un archivo xml

1. ¿Qué es XML?
XML (eXtensible Markup Language) es un lenguaje de marcado que define reglas para la codificación de documentos de manera legible tanto para humanos como para máquinas.

2. Estructura básica de un archivo XML:
Un archivo XML consta de elementos que se encuentran entre etiquetas (definidos por símbolos de mayor y menor < >). Cada elemento puede contener atributos y texto.

```xml
<libro>
    <titulo>Python para principiantes</titulo>
    <autor>John Doe</autor>
    <publicacion>2023</publicacion>
</libro>
``` 

Vamos a emplear la librería __xml.etree.ElementTree__

In [None]:
import xml.etree.ElementTree as ET

Lo primero de todo parseamos el archivo xml con la función `parse`, este procedimiento es similar a utilizar la función `open`

In [None]:
# Parsear el archivo XML
tree = ET.parse('archivo.xml')
tree

En los archivos XML encontraremos un Elemento Principal (nodo _root_ o nodo padre del archivo). Para poder extraerlo, empleamos la función `root()`

In [None]:
root = tree.getroot()
root

Ahora, ya hemos accedido al elemento principal, viendo su estructura, ahora debemos adentrarnos en los nodos hijo (_child nodes_). Esto lo vamos a hacer desde la función __findall__

In [None]:
root.findall('libro')

Como vemos, nos ha devuelto dos libros, vamos a entrar por el primero de ellos en la posición [0]

In [None]:
book_first = root.findall('libro')[0]
book_first

Si observamos nuestro archivo tenemos los siguientes elementos:
* Título
* autor
* publicación

Podríamos de nuevo acceder a través de `findall()` (esto se recomienda iterando con bucles) o, simplemente, desde la función `find()`

In [None]:
title = book_first.find("titulo")
title

¿Cómo puedo obtener el título del libro "Python para principiantes"? Es importante mencionar que todos los sub-nodos que contienen contenido podemos acceder al mismo a través del atributo `text`

In [None]:
title.text

Si ahora, por cada elemento de los libros generamos una lista...

In [None]:
for libro in root.findall('libro'):
    titulo = libro.find('titulo').text
    autor = libro.find('autor').text
    publicacion = libro.find('publicacion').text

    print(f'Título: {titulo}, Autor: {autor}, Publicación: {publicacion}')

Al igual que en el resto de archivos, también es posible escribir un nuevo archivo XML, se recomienda echar un vistazo al siguiente código de ejemplo.

In [None]:
import xml.etree.ElementTree as ET

# Crear el elemento raíz
root = ET.Element('biblioteca')

# Crear elementos hijos
libro  = ET.SubElement(root, 'libro')

# IMPORTANTE, estos sub-elementos se toman desde el elemento
#  libro
titulo = ET.SubElement(libro, 'titulo')
titulo.text = 'Python para principiantes'
autor = ET.SubElement(libro, 'autor')
autor.text = 'John Doe'
publicacion = ET.SubElement(libro, 'publicacion')
publicacion.text = '2023'

# Crear el árbol y escribirlo en un archivo
tree = ET.ElementTree(root)
tree.write('nuevo_archivo.xml')