# Lectura de ficheros

En este notebook presentamos los ejemplos del capítulo 1 del libro *Big Data con Python: recolección, almacenamiento y procesamiento de datos*. En este capítulo aprendemos cómo cargar en Python aquellos datos que tenemos ya disponibles en distintos formatos. Los datos usados en esta capítulo, disponibles en la carpeta *Cap1* de GitHub, fueron descargados de la [iniciativa de datos abiertos del Gobierno de España](http://datos.gob.es/) en marzo de 2018. Los ficheros en CSV, JSON, XML y XLS se refieren a las subvenciones asignadas en 2016 a asociaciones del ámbito educativo por el ayuntamiento de Alcobendas; por su parte, el fichero TSV lo crearemos a partir del CSV.

## CSV

El primero de los formatos que veremos es CSV. Importamos la biblioteca correspondiente, **csv**

In [1]:
import csv

Y comenzamos la carga del fichero. En primer lugar cargamos como un objeto iterable y lo recorremos con un bucle **for** para calcular el importe total de las subvenciones:

In [2]:
with open('../../data/Cap1/subvenciones.csv', encoding='latin1') as fichero_csv:
    lector = csv.reader(fichero_csv)
    next(lector, None)  # Se salta la cabecera
    importe_total = 0
    for linea in lector:
        importe_str = linea[2]
        importe = float(importe_str)
        importe_total = importe_total + importe
    """
    EL CICLO FOR TOMA EL TERCER ELEMENTO DE LAS LINEAS Y LAS SUMA
    """
    print(importe_total)    

66487.94


También podemos calcular las subvenciones por centro almacenando un diccionario que tenga como clave el nombre del centro y como valor las subvenciones recibidas:

In [3]:
with open('../../data/Cap1/subvenciones.csv', encoding='latin1') as fichero_csv:
    lector = csv.reader(fichero_csv)
    next(lector, None)
    asociaciones = {}
    for linea in lector:
        centro = linea[0]
        subvencion = float(linea[2])
        if centro in asociaciones:
            asociaciones[centro] = asociaciones[centro] + subvencion
        else:
            asociaciones[centro] = subvencion
            
    """ESTE CODIGO VERIFICA LSO CAMPOS REPETIDOS PARA VOLVERLOS ASUMAR, VERIFICA EL PRIMER CAMPO Y SUMA EL TERCERO"""
    print(asociaciones)

{'AMPA ANTONIO MACHADO': 2344.99, 'AMPA BACHILLER ALONSO LOPEZ': 3200.0, 'AMPA CASTILLA': 2604.44, 'AMPA DAOIZ Y VELARDE': 3152.74, 'AMPA EMILIO CASADO': 3015.67, 'AMPA FEDERICO GARCIA LORCA': 1919.06, 'AMPA GABRIEL Y GALAN': 2741.51, 'AMPA LUIS BUÑUEL': 2081.0, 'AMPA MIGUEL HERNANDEZ': 2923.35, 'AMPA MIRAFLORES': 2787.21, 'AMPA PARQUE CATALUÑA': 2604.44, 'AMPA PROFESOR TIERNO GALVÁN': 1286.0, 'AMPA SEIS DE DICIEMBRE': 1950.0, 'AMPA VALDEPALITOS': 3929.5, 'AMPA LA CHOPERA': 1430.0, 'AMPA EL CUQUILLO': 1507.83, 'AMPA VALDELAPARRA': 2465.0, 'AMPA RIVENDEL': 2200.0, 'AMPA AGORA': 2421.67, 'AMPA ALDEBARAN': 3107.05, 'AMPA GINER DE LOS RIOS': 2058.0, 'AMPA SEVERO OCHOA': 3563.9700000000003, 'AMPA VIRGEN DE LA PAZ': 1416.45, 'AMPA JUAN XXIII': 1781.98, 'AMPA SAN ANTONIO': 2101.83, 'AMPA PADRE  MANYANET': 2695.82, 'AMPA FAPA': 3198.43}


Es también posible cargar el fichero como un diccionario. En este caso cada una de las filas será un diccionario en el que la clave será el nombre dado en la cabecera del fichero y el valor el indicado en esa fila. De esta manera podemos acceder a los valores usando nombres y no la posición, lo que nos permite escribir un código más intuitivo. A continuación mostramos cómo sería el código para calcular el diccionario de subvenciones mostrado anteriormente de esta manera:

In [4]:
with open('../../data/Cap1/subvenciones.csv', encoding='latin1') as fichero_csv:
    dict_lector = csv.DictReader(fichero_csv) #LO GUARDA EN FORMATO DICCIONARIO
    #/\ es decir que ahora podemos acceder a los valores sin necesidad de saltar la primera linea
    #y con los nombres
    asociaciones = {}
    for linea in dict_lector:
        centro = linea['Asociación']
        subvencion = float(linea['Importe'])
        if centro in asociaciones:
            asociaciones[centro] = asociaciones[centro] + subvencion
        else:
            asociaciones[centro] = subvencion
    print(asociaciones)
    
    #sustituir linea[2] por linea['importe']
    #dict_lector = csv.DictReader(fichero_csv) <-- gracias a esta linea de codigo

{'AMPA ANTONIO MACHADO': 2344.99, 'AMPA BACHILLER ALONSO LOPEZ': 3200.0, 'AMPA CASTILLA': 2604.44, 'AMPA DAOIZ Y VELARDE': 3152.74, 'AMPA EMILIO CASADO': 3015.67, 'AMPA FEDERICO GARCIA LORCA': 1919.06, 'AMPA GABRIEL Y GALAN': 2741.51, 'AMPA LUIS BUÑUEL': 2081.0, 'AMPA MIGUEL HERNANDEZ': 2923.35, 'AMPA MIRAFLORES': 2787.21, 'AMPA PARQUE CATALUÑA': 2604.44, 'AMPA PROFESOR TIERNO GALVÁN': 1286.0, 'AMPA SEIS DE DICIEMBRE': 1950.0, 'AMPA VALDEPALITOS': 3929.5, 'AMPA LA CHOPERA': 1430.0, 'AMPA EL CUQUILLO': 1507.83, 'AMPA VALDELAPARRA': 2465.0, 'AMPA RIVENDEL': 2200.0, 'AMPA AGORA': 2421.67, 'AMPA ALDEBARAN': 3107.05, 'AMPA GINER DE LOS RIOS': 2058.0, 'AMPA SEVERO OCHOA': 3563.9700000000003, 'AMPA VIRGEN DE LA PAZ': 1416.45, 'AMPA JUAN XXIII': 1781.98, 'AMPA SAN ANTONIO': 2101.83, 'AMPA PADRE  MANYANET': 2695.82, 'AMPA FAPA': 3198.43}


Es interesante notar como en el código anterior no fue necesario saltarse la primera línea del iterador, ya que se consume directamente cuando cargamos el fichero como un diccionario para asignar nombres a los campos. Si la primera fila no tuviese estos nombres podríamos usar la opción **fieldnames=[..]** para especificarlos y sí se cargaría. Ahora vamos a ver cómo crear un nuevo fichero CSV. Para ello, vamos a modificar nuestro fichero de subvenciones con dos nuevas columnas, **"Justificación requerida"** y **"Justificación recibida"**. En el primera almacenaremos **Sí** si la subvención pasa de **300** euros y **No** en otro caso; en la segunda pondremos siempre **No**, ya que todavía no hemos recibido justificación alguna.

In [5]:
with open('../../data/Cap1/subvenciones.csv', encoding='latin1') as fich_lect, open('../../data/Cap1/subvenciones_esc.csv', 'w', encoding='latin1', newline='') as fich_escr:
    # /\ ABRIMOS LOS DOS FICHERO 'fich_lect' PARA LEER Y 'fich_escr' PARA ESCRIBIR.
    # newline='' --> SIRVE APRA NO DEJAR ESPACIOS EN BLANCO ENTRE LINEAS
    dict_lector = csv.DictReader(fich_lect)
    campos = dict_lector.fieldnames + ['Justificación requerida', 'Justificación recibida'] #AGREGAMOPS MAS CAMPOS AL ENCABEZADO DEL LECTOR SIN MODIFICAR
    escritor = csv.DictWriter(fich_escr, fieldnames=campos) #ESCRIBIRMOS NUEVOS CAMPOS EN EL OTRO ARCHIVO, ES DECIR RELLENAMOS TODO CON LO DEL ARCHIVO ANTERIOR PERO AGREGANDO DOS NUEVOS CAMPOS AL ENCABEZADO
    escritor.writeheader()
    for linea in dict_lector:
        if float(linea['Importe']) > 300:
            linea['Justificación requerida'] = "Sí"
        else:
            linea['Justificación requerida'] = "No"
        linea['Justificación recibida'] = "No"
        escritor.writerow(linea)

# LEER DOCUMENTO ESCRITO
como vemos ahora podemos leer el nuevo documento escrito

In [6]:
with open('../../data/Cap1/subvenciones_esc.csv', encoding='latin1') as fichero_csv:
    dict_lector = csv.DictReader(fichero_csv)
    for i in dict_lector:
        print(i)

{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'TALLER FIESTA DE CARNAVAL', 'Importe': '94.56', 'Justificación requerida': 'No', 'Justificación recibida': 'No'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'TALLER DIA DEL PADRE', 'Importe': '39.04', 'Justificación requerida': 'No', 'Justificación recibida': 'No'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'TALLER DIA DE LA MADRE', 'Importe': '43.64', 'Justificación requerida': 'No', 'Justificación recibida': 'No'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'FIESTA FIN DE CURSO', 'Importe': '921', 'Justificación requerida': 'Sí', 'Justificación recibida': 'No'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'CONCURSO LOGOTIPO AMPA', 'Importe': '56.57', 'Justificación requerida': 'No', 'Justificación recibida': 'No'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'ASOCIACION FAPA ALCOBENDAS', 'Importe': '80', 

## TSV

El formato TSV es similar al CSV, pero en el caso de TSV las columnas se separan con tabuladores. Para crear y manipular estos ficheros seguiremos usando la biblioteca **csv**, usando la opción **delimiter='\t'**. Por ejemplo, podemos crear un fichero TSV a partir del CSV anterior simplemente usando esta opción al crear el objeto **escritor**:

In [7]:
with open('../../data/Cap1/subvenciones.csv', encoding='latin1') as fich_lect, open('../../data/Cap1/subvenciones.tsv', 'w', encoding='latin1') as fich_escr:
    dict_lector = csv.DictReader(fich_lect)
    campos = dict_lector.fieldnames # extraemos los titulos de los campos del .csv
    escritor = csv.DictWriter(fich_escr, delimiter='\t', fieldnames=campos) #Preparar nuestro texto apra tsv
    escritor.writeheader()
    for linea in dict_lector:
        escritor.writerow(linea) #escribimos neuvamente cada linea en el archivo tsv
        print(linea)

{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'TALLER FIESTA DE CARNAVAL', 'Importe': '94.56'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'TALLER DIA DEL PADRE', 'Importe': '39.04'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'TALLER DIA DE LA MADRE', 'Importe': '43.64'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'FIESTA FIN DE CURSO', 'Importe': '921'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'CONCURSO LOGOTIPO AMPA', 'Importe': '56.57'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'ASOCIACION FAPA ALCOBENDAS', 'Importe': '80'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'ASOCIACION FAPA GINER DE LOS RIOS', 'Importe': '86.79'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'FIESTA DE NAVIDAD', 'Importe': '660'}
{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada ': 'HALLOWEEN', 'Importe': '168

## Tambien podemos crear un nuevo archivos tsv desdes un archivo  csv, utilizando con este codigo:

In [8]:
with open('../../data/Cap1/subvenciones.tsv', encoding='latin1') as fichero: # abrimos ficherp
    dict_lector = csv.DictReader(fichero, delimiter='\t') # caracter de tabulacion es `delimiter='\t`

Una vez creado el fichero, podemos recorrerlo como hacíamos arriba, eligiendo como separador el tabulador. La función siguiente calcula las subvenciones por centro como hicimos con CSV:

In [9]:
with open('../../data/Cap1/subvenciones.tsv', encoding='latin1') as fichero: # abrimos ficherp
    dict_lector = csv.DictReader(fichero, delimiter='\t') # caracter de tabulacion es `delimiter='\t`
    asociaciones = {}
    for linea in dict_lector:
        centro = linea['Asociación']
        subvencion = float(linea['Importe'])
        if centro in asociaciones:
            asociaciones[centro] = asociaciones[centro] + subvencion
        else:
            asociaciones[centro] = subvencion
            
        #Nuestro condicional lo que hace es vertificar si ese elemento ya existe en nuestro duccionario, si no existe lo pone, y si existe lo lo suma al anterior
    print(asociaciones)

{'AMPA ANTONIO MACHADO': 2344.99, 'AMPA BACHILLER ALONSO LOPEZ': 3200.0, 'AMPA CASTILLA': 2604.44, 'AMPA DAOIZ Y VELARDE': 3152.74, 'AMPA EMILIO CASADO': 3015.67, 'AMPA FEDERICO GARCIA LORCA': 1919.06, 'AMPA GABRIEL Y GALAN': 2741.51, 'AMPA LUIS BUÑUEL': 2081.0, 'AMPA MIGUEL HERNANDEZ': 2923.35, 'AMPA MIRAFLORES': 2787.21, 'AMPA PARQUE CATALUÑA': 2604.44, 'AMPA PROFESOR TIERNO GALVÁN': 1286.0, 'AMPA SEIS DE DICIEMBRE': 1950.0, 'AMPA VALDEPALITOS': 3929.5, 'AMPA LA CHOPERA': 1430.0, 'AMPA EL CUQUILLO': 1507.83, 'AMPA VALDELAPARRA': 2465.0, 'AMPA RIVENDEL': 2200.0, 'AMPA AGORA': 2421.67, 'AMPA ALDEBARAN': 3107.05, 'AMPA GINER DE LOS RIOS': 2058.0, 'AMPA SEVERO OCHOA': 3563.9700000000003, 'AMPA VIRGEN DE LA PAZ': 1416.45, 'AMPA JUAN XXIII': 1781.98, 'AMPA SAN ANTONIO': 2101.83, 'AMPA PADRE  MANYANET': 2695.82, 'AMPA FAPA': 3198.43}


## JSON

En esta sección cargaremos los ficheros de subvenciones dados en formato JSON. En primer lugar, cargamos la biblioteca **json**

In [10]:
import json

Los objetos JSON se cargan en Python como diccionarios, mientras que los *arrays* JSON se traducen como listas Python. Con esta información podemos usar **load** para cargar y visualizar el fichero:

In [11]:
with open('../../data/Cap1/subvenciones.json', encoding='utf-8') as fich:
    datos = json.load(fich)
    print(datos[0:2])

[{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada': 'TALLER FIESTA DE CARNAVAL', 'Importe en euros': '94.56'}, {'Asociación': 'AMPA ANTONIO MACHADO', 'Actividad Subvencionada': 'TALLER DIA DEL PADRE', 'Importe en euros': '39.04 '}]


Como vemos, nuestro fichero JSON consiste en una lista de objetos donde cada uno de estos objetos se corresponde con una subvención, es decir, contiene 3 campos correspondientes a **"Asociación"**, **"Actividad Subvencionada"** e **"Importe en euros"**. Sin embargo, el disponer de un formato más flexible nos permite almacenar la información de manera más compacta: podríamos tener un objeto JSON por cada centro, con los campos **"Asociación"** y **"Actividades"**. Este segundo campo consistiría a su vez en una lista de objetos con los campos **"Actividad Subvencionada"** e **"Importe en euros"**. Vamos a escribir el código Python necesario para transformar nuestro fichero y guardarlo en un nuevo fichero **subvenciones_agrupadas.json**:

In [12]:
with open('../../data/Cap1/subvenciones.json', encoding='utf-8') as fich_lect, open('../../data/Cap1/subvenciones_agrupadas.json', 'w', encoding='utf-8') as fich_escr:
    data = json.load(fich_lect)
    asoc_str = "Asociación"
    act_str = "Actividad Subvencionada"
    imp_str = "Importe en euros"
    lista = []
    lista_act = []
    asoc_actual = ""
    dicc = {}
    for elem in data: #informacion del archivo .json original
        asoc = elem[asoc_str]
        print(asoc)
        act = elem[act_str]
        imp = elem[imp_str]
        if asoc_actual != asoc: # Los datos estan ordenados, por lo cual lo que hacemos es preguntar si el elemento se repite, si no se repite crea uno nuevo, 
            dicc["Actividades"] = lista_act # cuando sea diferente guarda toda la unformacion en actividades de la lista actual!
            dicc = {"Asociación": asoc} # cuando sea diferente cambia el nombre de la asociacion
            lista.append(dicc) # crea un nuevo espacio en nuestra lista llamado como el nuevo elemento
            lista_act = [] # vacia la lista actual
        lista_act.append({act_str : act, imp_str : imp}) # guarda neuvos datos SIEMPRE
        asoc_actual = asoc # actualiza la asociacion actual cada repeticion dle bucle
    print(lista)
    json.dump(lista, fich_escr, ensure_ascii=False, indent=4) # , sort_keys=False
    # \
    #  -> este codigo escribe el fichero nuevo

AMPA ANTONIO MACHADO
AMPA ANTONIO MACHADO
AMPA ANTONIO MACHADO
AMPA ANTONIO MACHADO
AMPA ANTONIO MACHADO
AMPA ANTONIO MACHADO
AMPA ANTONIO MACHADO
AMPA ANTONIO MACHADO
AMPA ANTONIO MACHADO
AMPA ANTONIO MACHADO
AMPA BACHILLER ALONSO LOPEZ
AMPA BACHILLER ALONSO LOPEZ
AMPA BACHILLER ALONSO LOPEZ
AMPA BACHILLER ALONSO LOPEZ
AMPA BACHILLER ALONSO LOPEZ
AMPA BACHILLER ALONSO LOPEZ
AMPA BACHILLER ALONSO LOPEZ
AMPA CASTILLA
AMPA CASTILLA
AMPA CASTILLA
AMPA CASTILLA
AMPA CASTILLA
AMPA CASTILLA
AMPA CASTILLA
AMPA CASTILLA
AMPA CASTILLA
AMPA CASTILLA
AMPA DAOIZ Y VELARDE
AMPA DAOIZ Y VELARDE
AMPA DAOIZ Y VELARDE
AMPA DAOIZ Y VELARDE
AMPA DAOIZ Y VELARDE
AMPA DAOIZ Y VELARDE
AMPA DAOIZ Y VELARDE
AMPA DAOIZ Y VELARDE
AMPA EMILIO CASADO
AMPA EMILIO CASADO
AMPA EMILIO CASADO
AMPA EMILIO CASADO
AMPA EMILIO CASADO
AMPA EMILIO CASADO
AMPA EMILIO CASADO
AMPA EMILIO CASADO
AMPA FEDERICO GARCIA LORCA
AMPA FEDERICO GARCIA LORCA
AMPA FEDERICO GARCIA LORCA
AMPA GABRIEL Y GALAN
AMPA GABRIEL Y GALAN
AMPA GABRIE

Intentemos ahora calcular, como hicimos para CSV, el total de gasto para cada centro y almacenarlo como un nuevo campo de la estructura que hemos creado arriba. El código necesario para ello es:

In [13]:
with open('../../data/Cap1/subvenciones.json', encoding='utf-8') as fich_lect, open('../../data/Cap1/subvenciones_agrupadas_error.json', 'w', encoding='utf-8') as fich_escr:
    data = json.load(fich_lect)
    asoc_str = "Asociación"
    act_str = "Actividad Subvencionada"
    imp_str = "Importe en euros"
    lista = []
    lista_act = []
    asoc_actual = ""
    dicc = {}
    gasto = 0
    for elem in data:
        asoc = elem[asoc_str]
        act = elem[act_str]
        try:
            imp = float(elem[imp_str].replace(" ", "")) #encontramos un error!!! explicacion abajo...
            if asoc_actual != asoc:
                dicc["Actividades"] = lista_act
                dicc["Gasto"] = gasto
                dicc = {"Asociación": asoc}
                lista.append(dicc)
                lista_act = []
                gasto = 0
            lista_act.append({act_str : act, imp_str : imp})
            gasto = gasto + imp # Ahora unicamente hacemos que el gasto sea la suma de todos los importes
            asoc_actual = asoc
            print(lista)
            json.dump(lista, fich_escr, ensure_ascii=False, indent=4) # , sort_keys=False
        except:
            print("error")
        

[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO'}]
[{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividades': [{'Actividad Subvencionada': 'TALLER FIESTA DE CARNAVAL', 'Importe en euros': 94.56}, {'Actividad Subvencionada': 'TALLER DIA DEL PADRE', 'Importe en euros': 39.04}, {'Actividad Subvencionada': 'TALLER DIA DE LA MADRE', 'Importe en euros': 43.64}, {'Actividad Subvencionada': 'FIESTA FIN DE CURSO', 'Importe en euros': 921.0}, {'Actividad Subvencionada': 'CONCURSO LOGOTIPO AMPA', 'Importe en euros': 56.57}, {'Actividad Subvencionada': 'ASOCIACION FAPA ALCOBENDAS', 'Importe en euros': 80.0}, {'Actividad Subvencionada': 'ASOCIACION F

Como se puede observar, ¡el código falla! El problema es que se han añadido puntos en cantidades con miles de euros. Por ejemplo, 1000 euros se han introducido en el fichero JSON como 1.000.00, indicando el primer punto los miles y el segundo los decimales. Python no es capaz de analizar este número, por lo que vamos a crear el nuevo JSON a partir del fichero CSV que usamos en el capítulo anterior.

In [14]:
with open('../../data/Cap1/subvenciones.csv', encoding='latin1') as fich_lect, open('../../data/Cap1/subvenciones_agrupadas_con_gasto.json', 'w', encoding='utf-8') as fich_escr:
    dict_lector = csv.DictReader(fich_lect)
    asoc_str = "Asociación"
    act_str = "Actividad Subvencionada "
    imp_str = "Importe"
    lista = []
    lista_act = []
    asoc_actual = ""
    dicc = {}
    gasto = 0
    for linea in dict_lector:
        asoc = linea[asoc_str]
        act = linea[act_str]
        imp = float(linea[imp_str])
        if asoc_actual != asoc:
            dicc["Actividades"] = lista_act
            dicc["Gasto"] = gasto # Agregamos el total de gastos al final del conjuto de datos de ese elemento antes de cambiar de elemento
            # Solucionamos el errors gracias a que en csv, no cargamos los datos numericos como cadenas de texto, sino como valores numericos en su mayoria
            # Igualmente podemos 
            dicc = {"Asociación": asoc}
            lista.append(dicc)
            lista_act = []
            gasto = 0
        lista_act.append({act_str : act, imp_str : imp})
        gasto = gasto + imp
        asoc_actual = asoc
    json.dump(lista, fich_escr, ensure_ascii=False, indent=4) # , sort_keys=False
    print(lista)

[{'Asociación': 'AMPA ANTONIO MACHADO', 'Actividades': [{'Actividad Subvencionada ': 'TALLER FIESTA DE CARNAVAL', 'Importe': 94.56}, {'Actividad Subvencionada ': 'TALLER DIA DEL PADRE', 'Importe': 39.04}, {'Actividad Subvencionada ': 'TALLER DIA DE LA MADRE', 'Importe': 43.64}, {'Actividad Subvencionada ': 'FIESTA FIN DE CURSO', 'Importe': 921.0}, {'Actividad Subvencionada ': 'CONCURSO LOGOTIPO AMPA', 'Importe': 56.57}, {'Actividad Subvencionada ': 'ASOCIACION FAPA ALCOBENDAS', 'Importe': 80.0}, {'Actividad Subvencionada ': 'ASOCIACION FAPA GINER DE LOS RIOS', 'Importe': 86.79}, {'Actividad Subvencionada ': 'FIESTA DE NAVIDAD', 'Importe': 660.0}, {'Actividad Subvencionada ': 'HALLOWEEN', 'Importe': 168.39}, {'Actividad Subvencionada ': 'SAN ISIDRO', 'Importe': 195.0}], 'Gasto': 2344.99}, {'Asociación': 'AMPA BACHILLER ALONSO LOPEZ', 'Actividades': [{'Actividad Subvencionada ': 'MATEMATICAS MANIPULATIVAS', 'Importe': 480.0}, {'Actividad Subvencionada ': 'PROYECTO DE INGLES', 'Importe': 

## Excel

Python no tiene una biblioteca estándar para tratar con ficheros Excel, por lo que presentaremos las bibliotecas **xlrd** y **xlwt** para lectura y escritura, respectivamente. Estas bibliotecas pueden ser consideradas estándares *de facto*, aunque presentaremos también brevemente la biblioteca **pandas** para lectura y escritura de dataframes desde/hacia ficheros Excel. Empezamos cargando las correspondientes bibliotecas:

In [15]:
from xlrd import open_workbook, colname #https://pypi.org/project/xlrd/
import xlwt #https://pypi.org/project/xlwt/

Empezaremos calculando la subvención total recibida por centro:

In [16]:
with open_workbook('../../data/Cap1/subvenciones.xls',on_demand=True) as libro:
    asociaciones = {}
    for nombre in libro.sheet_names(): #Nombres de las Hojas
        hoja = libro.sheet_by_name(nombre) #Abrir la hoja con el nombre `nombre`
        for i in range(1,hoja.nrows): #Iterar por cada fila del archivo (comenzando en 1)
            fila = hoja.row(i)
            centro = fila[0].value
            subvencion = fila[2].value
            print(fila[1].ctype)#Tipo de dato de la celda 1 (cadena de caracteres, pagina 10 del libro)
            print(fila[1].value)#Valor de la celda
            if centro in asociaciones:
                asociaciones[centro] = asociaciones[centro] + subvencion # Si ya existe un registro para este centro lo sumamos con la subvencion anterior
                #                       \                        \
                #                        -> Subvencion anterior   -> Agregar la nueva subvencion a las asociaciones
            else:
                asociaciones[centro] = subvencion #crear un nuevo campo en el diccionario si es una asociacion nueva
    print(asociaciones)
    
    num = 1
    num = float(num)
    print(num)

1
TALLER FIESTA DE CARNAVAL
1
TALLER DIA DEL PADRE
1
TALLER DIA DE LA MADRE
1
FIESTA FIN DE CURSO
1
CONCURSO LOGOTIPO AMPA
1
ASOCIACION FAPA ALCOBENDAS
1
ASOCIACION FAPA GINER DE LOS RIOS
1
FIESTA DE NAVIDAD
1
HALLOWEEN
1
SAN ISIDRO
1
MATEMATICAS MANIPULATIVAS
1
PROYECTO DE INGLES
1
EXCURSIONES PRIMARIA
1
GRADUACIÓN INFANTIL
1
GRADUACIÓN 6 PRIM
1
REVISTA COLEGIO ENTRETIZAS
1
FIESTA INTERCULTURAL
1
CONCURSO TARJETAS NAVIDEÑAS
1
TALLER COMO MEJORAR LA AUTOESTIMA DE NUESTROS HIJOS
1
FIESTA FIN DE CURSO
1
PROPUESTA DE ACTIV EXTRAESCOLARES, INSCRIPCIONES, INTERCAMBIO LIBROS
1
FEDERACION
1
FIESTA REYES MAGOS
1
CHOCOLATADA
1
SAN ISIDRO
1
HALLOWEEN
1
CARNAVAL EN LA AULAS
1
PLAN LECTOR
1
CONCIERTO MUSICA DIVERTIDA
1
TALLER HABILIDADES SOCIALES O TECNICAS DE ESTUDIO
1
FIESTA FIN DE CURSO
1
GRADUACIONES INFANTIL Y SEXTO
1
AGENDAS
1
EXPOSICION FOTOGRAFICA
1
NAVIDAD
1
DIA DE LA MUSICA
1
SALIDA CULTURAL AL TEATRO
1
FESTIVAL FIN DE CURSO
1
FIESTA FIN DE CURSO
1
ASOCIACION FAPA GINER DE LOS RIOS
1
ASO

Ahora crearemos una nueva hoja, en la que tendremos una tabla con los centros, la subvención recibida, la subvención justificada, y la subvención que queda por justificar, que será una fórmula:

In [17]:
with open_workbook('../../data/Cap1/subvenciones.xls',on_demand=True) as libro_lect:
    # \
    #  -> Cargamos el libro
    asociaciones = {}
    libro_escr = xlwt.Workbook()
    for nombre in libro_lect.sheet_names():
        hoja_lect = libro_lect.sheet_by_name(nombre)
        hoja_escr = libro_escr.add_sheet(nombre)
        for i in range(hoja_lect.nrows):
            for j in range(hoja_lect.ncols):
                hoja_escr.write(i, j, hoja_lect.row(i)[j].value) #Hasta aqui remplazamos la primera hoja
                
                
            if i != 0:
                fila = hoja_lect.row(i)
                centro = fila[0].value
                subvencion = float(fila[2].value)
                if centro in asociaciones:
                    asociaciones[centro] = asociaciones[centro] + subvencion
                else:
                    asociaciones[centro] = subvencion
                    
                    
    hoja_escr = libro_escr.add_sheet('Totales') # Creamos una nueva hoja
    hoja_escr.write(0, 0, "Asociación")
    hoja_escr.write(0, 1, "Importe total")
    hoja_escr.write(0, 2, "Importe justificado")
    hoja_escr.write(0, 3, "Restante")
    for i, clave in enumerate(asociaciones):
        fila = i + 1
        fila_form = i + 2
        hoja_escr.write(fila, 0, clave)
        hoja_escr.write(fila, 1, asociaciones[clave])
        hoja_escr.write(fila, 2, 0)
        hoja_escr.write(fila, 3, xlwt.Formula("C" + str(fila_form) + "-" + "B" + str(fila_form)))
    libro_escr.save('../../data/Cap1/subvenciones_totales.xls')
    #Ahora se modificara automaticamente cada vez que cambiemos una valor 
    # en la hoja llamada totales en excel, todo gracias a la formula

In [18]:
print(colname(2), colname(35)) # nombre de columna

C AJ


Es también posible usar la biblioteca **pandas** para cargar y guardar **dataframes**:

In [19]:
import pandas as pd

# Creamos la nueva hoja a escribir... 
#Notas algo raro? el formato del archivo ahora sera xlsx para evitar errores
writer = pd.ExcelWriter('../../data/Cap1/subvenciones_df.xlsx')
with pd.ExcelFile('../../data/Cap1/subvenciones.xls') as xl:
    for nombre in xl.sheet_names:
        df = xl.parse(nombre)
        # Escribimos el  DataFrame en nuestro nuevo archivo
        df.to_excel(writer, sheet_name=nombre)
writer.close()

print("Perfecto!")


Perfecto!


### Vamos a mostrar la tabla de los elementos del excel

In [20]:
import pandas as pd

# Lee el archivo Excel
df = pd.read_excel('../../data/Cap1/subvenciones_df.xlsx', sheet_name=None)

def mostrar_tabla(contenido):
    # Utiliza to_string con algunos parámetros de formato
    print(contenido.to_string(index=False, justify='left'))

for nombre, df_sheet in df.items():
    # Puedes imprimir el DataFrame de la hoja
    print(f"DataFrame de la hoja {nombre}:")
    
    # Llama a la función para mostrar el DataFrame de una manera más estilizada
    mostrar_tabla(df_sheet)
    print("\n" + "="*50 + "\n")  # Separador para mejorar la legibilidad



DataFrame de la hoja Hoja1:
 Unnamed: 0 Asociación                  Actividad Subvencionada                                               Importe
  0                AMPA ANTONIO MACHADO                                            TALLER FIESTA DE CARNAVAL   94.56 
  1                AMPA ANTONIO MACHADO                                                 TALLER DIA DEL PADRE   39.04 
  2                AMPA ANTONIO MACHADO                                               TALLER DIA DE LA MADRE   43.64 
  3                AMPA ANTONIO MACHADO                                                  FIESTA FIN DE CURSO  921.00 
  4                AMPA ANTONIO MACHADO                                               CONCURSO LOGOTIPO AMPA   56.57 
  5                AMPA ANTONIO MACHADO                                           ASOCIACION FAPA ALCOBENDAS   80.00 
  6                AMPA ANTONIO MACHADO                                    ASOCIACION FAPA GINER DE LOS RIOS   86.79 
  7                AMPA ANTO

## XML

Por último vamos a ver cómo manipular ficheros **XML** con la biblioteca **etree**.

In [21]:
import xml.etree.ElementTree as ET

Como en los ejemplos anteriores, vamos a empezar recorriendo el fichero y calculando un diccionario con la subvención total para cada centro:

In [22]:
arbol = ET.parse('../../data/Cap1/subvenciones.xml')
raiz = arbol.getroot()
asociaciones = {}
for fila in raiz:
    centro = fila[0].text
    subvencion = float(fila[2].text)
    if centro in asociaciones:
        asociaciones[centro] = asociaciones[centro] + subvencion
    else:
        asociaciones[centro] = subvencion
    #print(asociaciones[centro])
print(asociaciones)

{'AMPA ANTONIO MACHADO': 2344.99, 'AMPA BACHILLER ALONSO LOPEZ': 3200.0, 'AMPA CASTILLA': 2604.44, 'AMPA DAOIZ Y VELARDE': 3152.74, 'AMPA EMILIO CASADO': 3015.67, 'AMPA FEDERICO GARCIA LORCA': 1919.06, 'AMPA GABRIEL Y GALAN': 2741.51, 'AMPA LUIS BUÑUEL': 2081.0, 'AMPA MIGUEL HERNANDEZ': 2923.35, 'AMPA MIRAFLORES': 2787.21, 'AMPA PARQUE CATALUÑA': 2604.44, 'AMPA PROFESOR TIERNO GALVÁN': 1286.0, 'AMPA SEIS DE DICIEMBRE': 1950.0, 'AMPA VALDEPALITOS': 3929.5, 'AMPA LA CHOPERA': 1430.0, 'AMPA EL CUQUILLO': 1507.83, 'AMPA VALDELAPARRA': 2465.0, 'AMPA RIVENDEL': 2200.0, 'AMPA AGORA': 2421.67, 'AMPA ALDEBARAN': 3107.05, 'AMPA GINER DE LOS RIOS': 2058.0, 'AMPA SEVERO OCHOA': 3563.9700000000003, 'AMPA VIRGEN DE LA PAZ': 1416.45, 'AMPA JUAN XXIII': 1781.98, 'AMPA SAN ANTONIO': 2101.83, 'AMPA PADRE  MANYANET': 2695.82, 'AMPA FAPA': 3198.43}


In [23]:
arbol = ET.parse('../../data/Cap1/subvenciones.xml')
asociaciones = {}
for fila in arbol.findall('Row'): # raiz.iter('Row'):
    centro = fila.find('Asociaci_n').text
    subvencion = float(fila.find('Importe').text)
    if centro in asociaciones:
        asociaciones[centro] = asociaciones[centro] + subvencion
    else:
        asociaciones[centro] = subvencion
print(asociaciones)

{'AMPA ANTONIO MACHADO': 2344.99, 'AMPA BACHILLER ALONSO LOPEZ': 3200.0, 'AMPA CASTILLA': 2604.44, 'AMPA DAOIZ Y VELARDE': 3152.74, 'AMPA EMILIO CASADO': 3015.67, 'AMPA FEDERICO GARCIA LORCA': 1919.06, 'AMPA GABRIEL Y GALAN': 2741.51, 'AMPA LUIS BUÑUEL': 2081.0, 'AMPA MIGUEL HERNANDEZ': 2923.35, 'AMPA MIRAFLORES': 2787.21, 'AMPA PARQUE CATALUÑA': 2604.44, 'AMPA PROFESOR TIERNO GALVÁN': 1286.0, 'AMPA SEIS DE DICIEMBRE': 1950.0, 'AMPA VALDEPALITOS': 3929.5, 'AMPA LA CHOPERA': 1430.0, 'AMPA EL CUQUILLO': 1507.83, 'AMPA VALDELAPARRA': 2465.0, 'AMPA RIVENDEL': 2200.0, 'AMPA AGORA': 2421.67, 'AMPA ALDEBARAN': 3107.05, 'AMPA GINER DE LOS RIOS': 2058.0, 'AMPA SEVERO OCHOA': 3563.9700000000003, 'AMPA VIRGEN DE LA PAZ': 1416.45, 'AMPA JUAN XXIII': 1781.98, 'AMPA SAN ANTONIO': 2101.83, 'AMPA PADRE  MANYANET': 2695.82, 'AMPA FAPA': 3198.43}


Igual que ocurría con JSON, el formato XML es más flexible que CVS y Excel y nos permite representar la información de manera más compacta. Vamos a crear un nuevo fichero XML a partir del que tenemos que contará con una raíz que tendrá como elementos las distintas asociaciones. Cada **Asociacion** tendrá como atributo su **nombre** y como elementos la subvención **Total** y la lista de **Actividades**. La lista de actividades tendrá elemenos **Actividad** con **Nombre** y **Gasto**.

In [25]:
arbol = ET.parse('../../data/Cap1/subvenciones.xml')
raiz = arbol.getroot()
nuevo = ET.ElementTree()
raiz_nueva = ET.Element("Raiz")
nuevo._setroot(raiz_nueva)
elem_actual = ET.Element("Asociacion")
asoc_actual = ""
actividades = ET.SubElement(elem_actual, "Actividades")
gasto = 0
#pagina 23
for fila in raiz.findall('Row'):
    asoc = fila.find('Asociaci_n').text
    act = fila.find('Actividad_Subvencionada').text
    imp = float(fila.find('Importe').text)
    if asoc_actual != asoc:
        gas_total = ET.SubElement(elem_actual, "Total")
        gas_total.text = str(gasto)
        elem_actual = ET.SubElement(raiz_nueva, "Asociacion")
        elem_actual.set('nombre', asoc)
        actividades = ET.SubElement(elem_actual, "Actividades")
        gasto = 0
        
    act_elem = ET.SubElement(actividades, "Actividad")
    nom_elem = ET.SubElement(act_elem, "Nombre")
    nom_elem.text = act
    imp_elem = ET.SubElement(act_elem, "Subvencion")
    imp_elem.text = str(imp)
    gasto = gasto + imp
    asoc_actual = asoc
nuevo.write('../../data/Cap1/subvenciones_lista_total.xml')

# CONCLUSIONES
En este capítulo, hemos explorado la manipulación de diversos tipos de archivos con Python. El manejo de archivos resultó ser bastante sencillo, dado que toda la información ya estaba proporcionada. Sin embargo, en un proyecto real, no siempre contaremos con datos predefinidos. En tales situaciones, necesitaremos crear nuestros propios archivos a partir de la información obtenida en la web.

En el próximo capítulo, abordaremos cómo podemos extraer información de distintos sitios web.