## Ejemplo de Flume

En este ejemplo vamos a configurar Flume para que vigile un directorio local en busca de nuevos ficheros de texto. Conforme se añadan ficheros, se envían sus líneas a la consola.

In [1]:
! mkdir -p flume
import os
os.chdir("flume")
! pwd

/media/notebooks/flume


In [2]:
%%writefile /opt/examples/flume/conf/flume-ex1.conf
# En primer lugar definimos los componentes princpales 
# (source, channel, sink).
# agent1 es el nombre de mi agente, lo tendre que utilizar 
# en la orden para ejecutarlo (en algunas celdas mas abajo)
agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1

# Enlazo mis componentes source - channel- sink
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1

# Configuro cada componente. Primero el source, de tipo spooldir, 
# le tenemos que indicar el directorio que vamos a utilizar
agent1.sources.source1.type = spooldir
agent1.sources.source1.spoolDir = /tmp/spooldir

# Ahora configuramos el sink, de tipo logger.
agent1.sinks.sink1.type = logger

# Ahora el channel, de tipo file
agent1.channels.channel1.type = file

Writing /opt/examples/flume/conf/flume-ex1.conf


In [3]:
! mkdir /tmp/spooldir

In [8]:
# ejecuto el agente. 
# --conf-file /opt/examples/flume/conf/flume-ex1.conf apunta al 
# archivo que hemos escrito unas celdas arriba. 
# --conf /opt/examples/flume/conf apunta al fichero de configuracion 
# de las opciones generales de flume.

! flume-ng agent \
    --conf /opt/examples/flume/conf \
    --conf-file /opt/examples/flume/conf/flume-ex1.conf \
    --name agent1 

Info: Sourcing environment configuration script /opt/examples/flume/conf/flume-env.sh
Info: Including Hadoop libraries found via (/usr/bin/hadoop) for HDFS access
Info: Excluding /usr/lib/hadoop/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-log4j12.jar from classpath
Info: Including HBASE libraries found via (/usr/bin/hbase) for HBASE access
Info: Excluding /usr/lib/hbase/bin/../lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hbase/bin/../lib/slf4j-log4j12.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-log4j12.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-log4j12.jar from classpath
Info: Excluding /usr/lib/zookeeper/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/zookeeper/lib/slf4j-log4j12-1.7.5.jar from classpath
Info: Excluding /usr/lib/zookeeper/li

Mientras la celda de arriba se está ejecutando, debemos abrir un terminal y ejecutamos los comandos siguientes:

docker exec -ti CONTAINERID  /bin/bash

echo "AAAAAAAAAAA prueba" > /tmp/spooldir/.fileA.txt

mv /tmp/spooldir/.fileA.txt /tmp/spooldir/fileA.txt

Estas ordenes sirven para crear un /ficherollamado .fileA.txt 
en la ruta indicada y despues lo renombramos a fileA.txt

Repite estas órdenes varias veces cambiando los nombres de los ficheros.

Cuando termines, finaliza el agente parando la celda clicando 
en el boton de stop

In [9]:
! ls -l  /tmp/spooldir/

total 8
-rw-r--r-- 1 root root 19 May 15 08:46 fileA.txt.COMPLETED
-rw-r--r-- 1 root root 17 May 15 08:47 fileB.txt.COMPLETED


In [10]:
! cat  /tmp/spooldir/fileA.txt.COMPLETED

AAAAAAAAAAA prueba


In [11]:
# ejecuto el agente. 
# --conf-file /opt/examples/flume/conf/flume-ex1.conf apunta al 
# archivo que hemos escrito unas celdas arriba. 
# --conf /opt/examples/flume/conf apunta al fichero de configuracion 
# de las opciones generales de flume.

! flume-ng agent \
    --conf /opt/examples/flume/conf \
    --conf-file /opt/examples/flume/conf/flume-ex1.conf \
    --name agent1 

Info: Sourcing environment configuration script /opt/examples/flume/conf/flume-env.sh
Info: Including Hadoop libraries found via (/usr/bin/hadoop) for HDFS access
Info: Excluding /usr/lib/hadoop/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-log4j12.jar from classpath
Info: Including HBASE libraries found via (/usr/bin/hbase) for HBASE access
Info: Excluding /usr/lib/hbase/bin/../lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hbase/bin/../lib/slf4j-log4j12.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-log4j12.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-log4j12.jar from classpath
Info: Excluding /usr/lib/zookeeper/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/zookeeper/lib/slf4j-log4j12-1.7.5.jar from classpath
Info: Excluding /usr/lib/zookeeper/li

## Ejercicio propuesto

Modifica el ejercicio anterior para que el sink sea HDFS, de forma que se escriban los datos en la carpeta /user/cloudera/ejflumehdfs.

En las transparencias del tema tenemos los parametros de configuración del sink HDFS (en negrita los obligatorios) Ademas de los obligatorios, es necesario incluir los parametros necesarios para que el fichero sea de tipo DataStream y el formato de escritura sea Text (este último es el parametro writeFormat). Todos estos parametros se deben incluir en el fichero /opt/examples/flume/conf/flume-ex1.conf que hemos creado anteriormente. Tras modificar este fichero, procederemos a ejecutar otra vez el agente y a repetir los pasos de creación del fichero en el terminal.

Para una descripción más detallada de los parámetros de configuración del sink HDFS, se encuentra en el siguiente enlace (es necesario estar logado en UNED para poder acceder):



https://www.oreilly.com/library/view/using-flume/9781491905326/

In [12]:
! hadoop fs -mkdir  /user/cloudera/ejflumehdfs

In [13]:
%%writefile /opt/examples/flume/conf/flume-ex1.conf
# En primer lugar definimos los componentes princpales (source, channel, sink).
# agent1 es el nombre de mi agente, lo tendre que utilizar en la orden para ejecutarlo (en algunas celdas mas abajo)
agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1

# Enlazo mis componentes source - channel- sink
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1

# Configuro cada componente. Primero el source, de tipo spooldir, 
# le tenemos que indicar el directorio que vamos a utilizar
agent1.sources.source1.type = spooldir
agent1.sources.source1.spoolDir = /tmp/spooldir

# Ahora configuramos el sink, de tipo hdfs.

# TU CODIGO AQUI
agent1.sinks.sink1.type = hdfs
agent1.sinks.sink1.hdfs.path = /user/cloudera/ejflumehdfs
agent1.sinks.sink1.hdfs.fileType = DataStream
agent1.sinks.sink1.hdfs.writeFormat = Text


# Ahora el channel, de tipo file
agent1.channels.channel1.type = file

Overwriting /opt/examples/flume/conf/flume-ex1.conf


In [21]:
# ejecuto el agente. 
# --conf-file /opt/examples/flume/conf/flume-ex1.conf apunta al archivo 
# que hemos escrito unas celdas arriba. 
# --conf /opt/examples/flume/conf apunta al fichero de configuracion 
# de las opciones generales de flume.

! flume-ng agent \
    --conf /opt/examples/flume/conf \
    --conf-file /opt/examples/flume/conf/flume-ex1.conf \
    --name agent1 

Info: Sourcing environment configuration script /opt/examples/flume/conf/flume-env.sh
Info: Including Hadoop libraries found via (/usr/bin/hadoop) for HDFS access
Info: Excluding /usr/lib/hadoop/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-log4j12.jar from classpath
Info: Including HBASE libraries found via (/usr/bin/hbase) for HBASE access
Info: Excluding /usr/lib/hbase/bin/../lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hbase/bin/../lib/slf4j-log4j12.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-log4j12.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/hadoop/lib/slf4j-log4j12.jar from classpath
Info: Excluding /usr/lib/zookeeper/lib/slf4j-api-1.7.5.jar from classpath
Info: Excluding /usr/lib/zookeeper/lib/slf4j-log4j12-1.7.5.jar from classpath
Info: Excluding /usr/lib/zookeeper/li

Mientras la celda de arriba se está ejecutando, debemos abrir un terminal y ejecutamos los comandos siguientes:

docker exec -ti CONTAINERID /bin/bash

echo "DDDDDDD prueba" > /tmp/spooldir/.fileD.txt

mv /tmp/spooldir/.fileD.txt /tmp/spooldir/fileD.txt

Estas ordenes sirven para crear un /ficherollamado .fileD.txt en la ruta indicada y despues lo renombramos a fileD.txt

Repite estas órdenes varias veces cambiando los nombres de los ficheros.

Tras ejecutar esas ordenes, tenemos que parar el agente para poder seguir ejecutando la siguiente celda de este notebook.


In [22]:
! hadoop fs -ls  /user/cloudera/ejflumehdfs

Found 2 items
-rw-r--r--   1 root cloudera         17 2019-05-15 09:02 /user/cloudera/ejflumehdfs/FlumeData.1557910940697
-rw-r--r--   1 root cloudera         16 2019-05-15 09:04 /user/cloudera/ejflumehdfs/FlumeData.1557911024881


In [23]:
! hadoop fs -cat /user/cloudera/ejflumehdfs/FlumeData.1557911024881

FFFFFFFF prueba
