Capítulo 6

6.3 Patrones de organización de datos.

6.3.1 Estructuración jerárquica

Prototipo - Este ejemplo de patrón de organización de datos consiste en que dada una estructura de datos en formato tabla, ésta es convertida a otro tipo de estructura en un formato jerarquizado XML.

In [1]:
%%writefile jerarquico.py
#!/usr/bin/env python
#Usamos el archivo foros.csv

from mrjob.job import MRJob
from mrjob.protocol import RawValueProtocol
import xmlify

class jerarquico(MRJob):
    
    OUTPUT_PROTOCOL = RawValueProtocol
    
    def mapper(self,_, line):
        linea=line.split(";") 
        
        mensaje=linea[4] # Recogemos el mensaje de la posición 4 de la línea
        tipoMensaje=linea[5] #Recogemos de la posición 5, si es una pregunta o respuesta
       
        if tipoMensaje=="question": 
            idMensaje=linea[0] #Almacenamos el id único del mensaje
            yield idMensaje,(tipoMensaje,mensaje)
        else:
            idMensaje=linea[7] #Almacenamos el identificador del mensaje idMensaje  
            yield idMensaje,(tipoMensaje,mensaje)
     
    def reducer(self, key, values):
        listaValores=[]
        listaPrincipal=[]
        listaAuxiliar=[] 
        
        for v in values: #Metemos los valores que vienen en un matriz
            listaValores.append(v) #Matriz que contiene el tipo de mensaje y el mensaje asociado 
        
        for valor in listaValores:
            if valor[0]=="question":#Si es una pregunta la metemos en la lista principal
                listaPrincipal.append(valor[1])
            else:
                listaAuxiliar.append(valor[1]) # Si son respuestas, las vamos agregando a una lista
        
        listaPrincipal.append(listaAuxiliar) #agregamos la lista de respuestas a la lista principal
        
        #Conversion a XML indicando en el raiz el id del mensaje
        yield "Creada linea XML: " ,xmlify.dumps(listaPrincipal,root = key) 
        
if __name__ == '__main__':
    jerarquico.run()

Writing jerarquico.py


In [1]:
!python jerarquico.py archivos_datos/foros.csv > e_jerarquica.xml

No configs found; falling back on auto-configuration
No configs specified for inline runner
Creating temp directory /tmp/jerarquico.root.20201217.194540.764920
Running step 1 of 1...
job output is in /tmp/jerarquico.root.20201217.194540.764920/output
Streaming final output from /tmp/jerarquico.root.20201217.194540.764920/output...
Removing temp directory /tmp/jerarquico.root.20201217.194540.764920...


Capítulo 6

6.3 Patrones de organización de datos.

6.3.1 Estructuración jerárquica

Prototipo - Esta segunda versión vamos a usar la estructura diccionarios de Python

In [6]:
%%writefile jerarquicoV2.py
#!/usr/bin/env python
#Usamos el archivo foros.csv

from mrjob.job import MRJob
from mrjob.protocol import RawValueProtocol
import xmlify

class jerarquicoV2(MRJob):
    OUTPUT_PROTOCOL = RawValueProtocol
    def mapper(self,_, line):
        linea=line.split(";") # Cada línea es un mensaje del foro (pregunta, respuesta o comentario)
        
        mensaje=linea[4] # Recogemos el mensaje de la posición 4 de la línea
        tipoMensaje=linea[5] #Recogemos de la posición 5, si es una pregunta, respuesta o comentario
        
        if tipoMensaje=="question": 
            idMensaje=linea[0] #Almacenamos el id único del mensaje
            yield idMensaje,(tipoMensaje,mensaje)
        else:
            idPadre=linea[7] #Almacenamos el identificador del mensaje idMensaje  
            yield idPadre,(tipoMensaje,mensaje)
     
    def reducer(self, key, values):
        diccionario=dict() #Para el caso que usemos diccionarios
        matrizParaXML=[]
        listaPrincipal=[]
        listaAuxiliar=[]
        
        for v in values: #Metemos los valores que vienen en un matriz
            matrizParaXML.append(v) #Matriz que contiene el tipo de mensaje y el mensaje asociado 
        
        for valor in matrizParaXML:
            if valor[0]=="question":#Si es una pregunta la metemos en la lista principal
                listaPrincipal.append(valor[1])
            else:
                listaAuxiliar.append(valor[1]) # Si son respuestas, las vamos agregando a una lista
        
        listaPrincipal.append(listaAuxiliar) #agregamos la lista de respuestas a la lista principal 
        diccionario[key]=listaPrincipal #Para el caso que usemos diccionarios
        yield key,xmlify.dumps(diccionario) # Conversion a XML para el caso que usemos diccionarios
        
if __name__ == '__main__':
    jerarquicoV2.run()

Writing jerarquicoV2.py


In [7]:
!python jerarquicoV2.py archivos_datos/foros.csv > e_jerarquica.xml

No configs found; falling back on auto-configuration
No configs specified for inline runner
Creating temp directory C:\Users\cyber\AppData\Local\Temp\jerarquicoV2.manuel.20201211.191824.267729
Running step 1 of 1...
job output is in C:\Users\cyber\AppData\Local\Temp\jerarquicoV2.manuel.20201211.191824.267729\output
Streaming final output from C:\Users\cyber\AppData\Local\Temp\jerarquicoV2.manuel.20201211.191824.267729\output...
Removing temp directory C:\Users\cyber\AppData\Local\Temp\jerarquicoV2.manuel.20201211.191824.267729...


In [2]:
!python jerarquico.py hdfs:///archivos_datos/foros.csv -r hadoop --python-bin /opt/anaconda/bin/python3.7

No configs found; falling back on auto-configuration
No configs specified for hadoop runner
Looking for hadoop binary in /usr/lib/hadoop/bin...
Found hadoop binary: /usr/lib/hadoop/bin/hadoop
Using Hadoop version 2.6.0
Looking for Hadoop streaming jar in /usr/lib/hadoop...
Looking for Hadoop streaming jar in /usr/lib/hadoop-mapreduce...
Found Hadoop streaming jar: /usr/lib/hadoop-mapreduce/hadoop-streaming.jar
Creating temp directory /tmp/jerarquico.root.20201217.194810.916578
uploading working dir files to hdfs:///user/root/tmp/mrjob/jerarquico.root.20201217.194810.916578/files/wd...
Copying other local files to hdfs:///user/root/tmp/mrjob/jerarquico.root.20201217.194810.916578/files/
Running step 1 of 1...
  packageJobJar: [] [/usr/lib/hadoop-mapreduce/hadoop-streaming-2.6.0-cdh5.15.1.jar] /tmp/streamjob677361302635334804.jar tmpDir=null
  Connecting to ResourceManager at yarnmaster/172.18.0.4:8032
  Connecting to ResourceManager at yarnmaster/172.18.0.4:8032
  Total input paths to p

Looking for history log in /usr/lib/hadoop-mapreduce/logs...
Looking for history log in /var/log/hadoop-yarn...
Probable cause of failure:

Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
	at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325)
	at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538)
	at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130)
	at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61)
	at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34)
	at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:459)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
	at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:422)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1924