# Capitulo uno - BIG DATA CON PYTHON

##### Obtenemos la data
https://datos.gob.es/es/catalogo/l01280066-subvenciones-2016-asociaciones-ambito-educativo1

In [37]:
import os
from pathlib import Path
import csv
filename="subvenciones-educacion2016.csv"

In [38]:
root_dir=Path(".").resolve().parent
pathfile=os.path.join(root_dir,'data','raw',filename)
pathfile

'C:\\Users\\ADRIA\\OneDrive\\Documentos\\Kucta_BIGDATA\\BD-Python\\data\\raw\\subvenciones-educacion2016.csv'

#### Abrimos el archivo con with y la funcion open, y llamamos reader de la libreria csv

In [39]:
with open(pathfile, encoding='latin1') as fichero_csv:
    lector=csv.reader(fichero_csv)
    next(lector,None) # se salta la primera fila
    importe_total=0
    for linea in lector:
        importe_str=linea[2]
        importe=float(importe_str)
        importe_total= importe_total + importe
    print(importe_total)
importe_total

64442.9


64442.9

#### Pero es mejor usar DictReader, que maneja el archivo como diccionarios

In [40]:
with open(pathfile, encoding='Latin-1') as fichero_csv:
    dict_lector=csv.DictReader(fichero_csv)#,fieldnames=['Asociación','Actividad','Importe'])
    asocs={}
    for linea in dict_lector:
        centro = linea["ASOCIACION"]
        subvencion = float(linea["SUBVENCION EN EUROS"])
        if centro in asocs:
            asocs[centro] = asocs[centro] + subvencion
        else:
            asocs[centro] = subvencion
    print(asocs)


{'ASOC PADRES Y MADRES ESC I "EL CUQUILLO"': 1075.0, 'AMPA CEIP PUBLICO ANTONIO MACHADO ALCOBE': 2480.4, 'ASOC CATOLICA PAD Y MAD DEL PADRE MANYAN': 2389.25, 'AMPA CEIP LUIS BUÃ\x91UEL DE ALCOBENDAS': 2990.0, 'AMPA COL PUB FEDERICO GARCIA LORCA ALCOBENDAS': 3050.11, 'APA DEL COL NAL EMILIO CASADO': 3355.12, 'AMPA DEL CEIP DAOIZ Y VELARDE DE ALCOBEN': 3558.46, 'APA C P VALDEPALITOS DE ALCOBENDAS': 4371.82, 'A.M.P.A. C.P. BACHILLER ALONSO LOPEZ': 2000.0, 'AMPA C.E.I.P. MIGUEL HERNANDEZ': 3507.63, 'AMPA DEL COLEGIO PUBLICO PARQUE CATALUÃ\x91A': 2897.6, 'AMPA DEL COLEGIO PUBLICO MIRAFLORES': 2950.0, 'AMPA I.E.S. AGORA': 2694.26, 'APAESCUELA INFANTIL VALDELAPARRA ALCOBE': 1075.0, 'AMPA DEL IES ALDEBARAN DE ALCOBENDAS': 3304.28, 'ASOC MADRES Y PADRES ALUMNOS CP SEIS DIC': 3558.46, 'ASOC -AMPA- DE GREENWICH SCHOOL': 2541.76, 'AMPA DEL I.E.S. GINER DE LOS RIOS ALCOBE': 3887.0, 'FEDERACION DE ASOCIACIONES DE PADRES DE ALUMNOS DE': 3405.95, 'AMPA COLEGIO SAN ANTONIO DE ALCOBENDAS': 2300.0, 'ASOC

#### escribir y guardar el archivo CSV

In [41]:
ruta1 = pathfile
ruta2 = os.path.join(root_dir,"data","raw","subvenciones_esc.csv")
with open(ruta1, encoding='latin1') as fich_lect , open(ruta2,'w', encoding='latin1') as fich_escr:
    dict_lector1 = csv.DictReader(fich_lect,fieldnames=['Asociacion','Actividad','Importe'])
    next(dict_lector1, None)
    campos = dict_lector1.fieldnames + ['Justificacion Requerida','Justificacion Recibida']
    escritor = csv.DictWriter(fich_escr,fieldnames=campos)
    escritor.writeheader()
    for linea in dict_lector1:
        
            if float(linea['Importe']) > 300:
                linea['Justificacion Requerida']= 'Si'
            else: 
                linea['Justificacion Requerida']= 'No'
            linea['Justificacion Recibida'] ='No'
        
           
    escritor.writerow(linea)
escritor

<csv.DictWriter at 0x2232aab6aa0>

## Lectura de XLS

In [42]:
#Librerias Necesaria
import xlrd
import xlwt

al igual que con los CSV, utilizaremos with con el open de la libreria xlrd

In [43]:
with xlrd.open_workbook(os.path.join(root_dir,'data','raw','subvenciones.xls')) as libro:
    asocs ={}
    for hoja in libro.sheets():
        for i in range(1,hoja.nrows):
            fila = hoja.row(i)
            asoc = fila[0].value
            subvencion = fila[2].value
            if asoc in asocs:
                asocs[asoc]= asocs[asoc] + subvencion
            else:
                asocs[asoc] = subvencion
print(asocs.keys())
print(asocs.values())



dict_keys(['ASOC PADRES Y MADRES ESC I "EL CUQUILLO"', 'AMPA CEIP PUBLICO ANTONIO MACHADO ALCOBE', 'ASOC CATOLICA PAD Y MAD DEL PADRE MANYAN', 'AMPA CEIP LUIS BUÑUEL DE ALCOBENDAS', 'AMPA COL PUB FEDERICO GARCIA LORCA ALCOBENDAS', 'APA DEL COL NAL EMILIO CASADO', 'AMPA DEL CEIP DAOIZ Y VELARDE DE ALCOBEN', 'APA C P VALDEPALITOS DE ALCOBENDAS', 'A.M.P.A. C.P. BACHILLER ALONSO LOPEZ', 'AMPA C.E.I.P. MIGUEL HERNANDEZ', 'AMPA DEL COLEGIO PUBLICO PARQUE CATALUÑA', 'AMPA DEL COLEGIO PUBLICO MIRAFLORES', 'AMPA I.E.S. AGORA', 'APAESCUELA INFANTIL VALDELAPARRA ALCOBE', 'AMPA DEL IES ALDEBARAN DE ALCOBENDAS', 'ASOC MADRES Y PADRES ALUMNOS CP SEIS DIC', 'ASOC -AMPA- DE GREENWICH SCHOOL', 'AMPA DEL I.E.S. GINER DE LOS RIOS ALCOBE', 'FEDERACION DE ASOCIACIONES DE PADRES DE ALUMNOS DE', 'AMPA COLEGIO SAN ANTONIO DE ALCOBENDAS', 'ASOC PADRES ALUMNADO COL JUAN XXIII ALCO', 'APA IES SEVERO OCHOA', 'AMPA ESCUELA INFANTIL LA CHOPERA'])
dict_values([1075.0, 2480.4, 2389.25, 2990.0, 3050.11, 3355.12, 3558.

In [44]:
with xlrd.open_workbook(os.path.join(root_dir,'data','raw','subvenciones.xls')) as libro_lect:
    asocs = {}
    libro_escr = xlwt.Workbook()
    for nombre in libro_lect.sheet_names():
    # se crea una hoja se lee la y se agrega en el libro escritura la informacion que se va a leer
        hoja_lect = libro_lect.sheet_by_name(nombre)
        hoja_escr = libro_escr.add_sheet(nombre)
        for i in range(hoja_lect.nrows):
            for j in range(hoja_lect.ncols):
                valor = hoja_lect.cell(i,j).value
                hoja_escr.write(i,j,valor)
            if i!= 0:
                fila = hoja_lect.row(i)
                centro = fila[0].value
                sub = fila[2].value
                if centro in asocs:
                     asocs[centro] = asocs[centro] + sub
                else:
                     asocs[centro] = sub
print('Asociaciones: ',asocs.keys())
print('Subvenciones: ',asocs.values())


Asociaciones:  dict_keys(['ASOC PADRES Y MADRES ESC I "EL CUQUILLO"', 'AMPA CEIP PUBLICO ANTONIO MACHADO ALCOBE', 'ASOC CATOLICA PAD Y MAD DEL PADRE MANYAN', 'AMPA CEIP LUIS BUÑUEL DE ALCOBENDAS', 'AMPA COL PUB FEDERICO GARCIA LORCA ALCOBENDAS', 'APA DEL COL NAL EMILIO CASADO', 'AMPA DEL CEIP DAOIZ Y VELARDE DE ALCOBEN', 'APA C P VALDEPALITOS DE ALCOBENDAS', 'A.M.P.A. C.P. BACHILLER ALONSO LOPEZ', 'AMPA C.E.I.P. MIGUEL HERNANDEZ', 'AMPA DEL COLEGIO PUBLICO PARQUE CATALUÑA', 'AMPA DEL COLEGIO PUBLICO MIRAFLORES', 'AMPA I.E.S. AGORA', 'APAESCUELA INFANTIL VALDELAPARRA ALCOBE', 'AMPA DEL IES ALDEBARAN DE ALCOBENDAS', 'ASOC MADRES Y PADRES ALUMNOS CP SEIS DIC', 'ASOC -AMPA- DE GREENWICH SCHOOL', 'AMPA DEL I.E.S. GINER DE LOS RIOS ALCOBE', 'FEDERACION DE ASOCIACIONES DE PADRES DE ALUMNOS DE', 'AMPA COLEGIO SAN ANTONIO DE ALCOBENDAS', 'ASOC PADRES ALUMNADO COL JUAN XXIII ALCO', 'APA IES SEVERO OCHOA', 'AMPA ESCUELA INFANTIL LA CHOPERA'])
Subvenciones:  dict_values([1075.0, 2480.4, 2389.25, 2

In [45]:
# se escribira en la segunda hoja
hoja_escr = libro_escr.add_sheet('Totales')
hoja_escr.write(0, 0, "Asociaciones")
hoja_escr.write(0, 1, "Importe total")
hoja_escr.write(0, 2, "Importe Justificado")
hoja_escr.write(0, 3, "Restante")


In [46]:
#recorreremos la hoja con indice, el diccionario. como ya se escribio la cabecera se debe sumar 1 al indice
for i, clave in enumerate(asocs):
    fila = i + 1
    hoja_escr.write(fila, 0, clave)
    hoja_escr.write(fila, 1, asocs[clave])
    hoja_escr.write(fila, 2, 0)
    #fia de la formula
    fila_form = i + 2
    fform_str = str(fila_form)
    form = "C" + fform_str + "-B" + fform_str
    hoja_escr.write(fila,3,xlwt.Formula(form))
    

In [47]:
#Guardamos el libro
libro_escr.save(os.path.join(root_dir,'data','raw','Libro_Resultado.xls'))