Capítulo 6

6.1 Patrones de resumen.

6.1.1 Resúmenes numéricos

Prototipo - Versión 1 - Cálculo de la media aritmética de un conjunto de valores. Se toma como clave el país del cliente, y como valor el precio del producto. Se usa la librería "re" para expresiones regulares que nos permiten detectar si el contenido del campo es alfanumérico o numérico

In [8]:
%%writefile average.py
#!/usr/bin/env python

from mrjob.job import MRJob
import re
class average(MRJob):
    
    def mapper(self,_, line):
        #División del registro para tener la lista de campos
        linea=line.split(";") 
        #El valor del campo [5] tiene que ser un número.
        encontrado=re.search('^[0-9]',linea[5]) 
        
        if encontrado!=None:
        #Extraemos el valor de la lista con el que operaremos
            valor=linea[5] 
        #Extraemos la clave asociada al valor
            clave=linea[7] 
        #Cedemos la clave y el valor al Reducer
            yield clave,float(valor) 
    
    def reducer(self, key, values):
        sumaValues=0 # Para guardar la suma de los valores
        cuentaValues=0 # Para guardar el número de valores 
        # Iteramos a través del conjunto de valores que han
        #llegado desde el mapper
        for value in values:
            sumaValues+=value #Sumamos valor
            cuentaValues+=1 #Contamos valor
        #Dividimos
        mediaValues=sumaValues/cuentaValues
        #Entregamos la media de ventas
        #por país
        yield key, mediaValues

if __name__ == '__main__':
    average.run()
        

Overwriting average.py


In [9]:
! python average.py archivos_datos/Online_Retail.csv

"Australia"	3.2206115965051483
"Austria"	4.243192019950133
"Bahrain"	4.556315789473684
"Belgium"	3.6443354277428464
"Brazil"	4.456250000000001
"Canada"	6.030331125827812
"Channel Islands"	4.9321240105540705
"Cyprus"	6.302363344051414
"Czech Republic"	2.9383333333333326
"Denmark"	3.2569408740359944
"EIRE"	5.911077354807051
"European Community"	4.820491803278686
"Finland"	5.448705035971213
"France"	5.02886408788128
"Germany"	3.9669299631385466
"Greece"	4.885547945205479
"Hong Kong"	42.50520833333334
"Iceland"	2.644010989010989
"Israel"	3.63313131313132
"Italy"	4.8311207970111845
"Japan"	2.276145251396649
"Lebanon"	5.387555555555553
"Lithuania"	2.8411428571428576
"Malta"	5.244173228346456
"Netherlands"	2.7383171657528314
"Norway"	6.012025782688733
"Poland"	4.170879765395901
"Portugal"	8.582975641869714
"RSA"	4.277586206896552
"Saudi Arabia"	2.411
"Singapore"	109.64580786026204
"Spain"	4.987544413738712
"Sweden"	3.91088744588745
"Switzerland"	3.4034415584415343
"USA"	2.216426116838489
"Uni

No configs found; falling back on auto-configuration
No configs specified for inline runner
Creating temp directory C:\Users\cyber\AppData\Local\Temp\average.manuel.20201207.064643.382470
Running step 1 of 1...
job output is in C:\Users\cyber\AppData\Local\Temp\average.manuel.20201207.064643.382470\output
Streaming final output from C:\Users\cyber\AppData\Local\Temp\average.manuel.20201207.064643.382470\output...
Removing temp directory C:\Users\cyber\AppData\Local\Temp\average.manuel.20201207.064643.382470...


Capítulo 6

6.1 Patrones de resumen.

6.1.1 Resúmenes numéricos

Prototipo - Versión 2: Cálculo de la media aritmética de un conjunto de valores. Se toma como clave el país del cliente y como valor el precio del producto. Aquí usamos el método mean de la librería statistics.

In [10]:
%%writefile averageV2.py
#!/usr/bin/env python
#Segunda versión del patrón de resumen numérico
from mrjob.job import MRJob
import statistics as st
import re
class averageV2(MRJob):
    
    def mapper(self,_, line):
       
        linea=line.split(";")
        encontrado=re.search('^[0-9]',linea[5])
        if encontrado!=None:
            valor=linea[5] #UnitPrice
            clave=linea[7] #Country
            yield clave,float(valor)
        
    def reducer(self, key, values):
        listaValores=[]
        for valor in values:
            listaValores.append(valor)  
        yield key, st.mean(listaValores)
        
        
if __name__ == '__main__':
    averageV2.run()

Overwriting averageV2.py


In [11]:
! python averageV2.py archivos_datos/Online_Retail.csv

"Australia"	3.220611596505163
"Austria"	4.243192019950125
"Bahrain"	4.556315789473684
"Belgium"	3.644335427742871
"Brazil"	4.45625
"Canada"	6.030331125827815
"Channel Islands"	4.93212401055409
"Cyprus"	6.302363344051447
"Czech Republic"	2.9383333333333335
"Denmark"	3.2569408740359895
"EIRE"	5.911077354807223
"European Community"	4.8204918032786885
"Finland"	5.448705035971223
"France"	5.028864087881267
"Germany"	3.9669299631384938
"Greece"	4.885547945205479
"Hong Kong"	42.505208333333336
"Iceland"	2.644010989010989
"Israel"	3.633131313131313
"Italy"	4.831120797011208
"Japan"	2.276145251396648
"Lebanon"	5.387555555555555
"Lithuania"	2.841142857142857
"Malta"	5.244173228346456
"Netherlands"	2.738317165752847
"Norway"	6.012025782688766
"Poland"	4.1708797653958944
"Portugal"	8.582975641869652
"RSA"	4.277586206896552
"Saudi Arabia"	2.411
"Singapore"	109.64580786026201
"Spain"	4.98754441373865
"Sweden"	3.910887445887446
"Switzerland"	3.4034415584415583
"USA"	2.216426116838488
"United Arab Emi

No configs found; falling back on auto-configuration
No configs specified for inline runner
Creating temp directory C:\Users\cyber\AppData\Local\Temp\averageV2.manuel.20201207.064655.096667
Running step 1 of 1...
job output is in C:\Users\cyber\AppData\Local\Temp\averageV2.manuel.20201207.064655.096667\output
Streaming final output from C:\Users\cyber\AppData\Local\Temp\averageV2.manuel.20201207.064655.096667\output...
Removing temp directory C:\Users\cyber\AppData\Local\Temp\averageV2.manuel.20201207.064655.096667...
