# Streaming de Twitter a Power BI con Azure: Event Hubs

In [3]:
%load_ext watermark
%watermark -a "Christian Castro" -u -d -p numpy,pandas,matplotlib
%watermark -a "Propiedad de DataIntelligence"

The watermark extension is already loaded. To reload it, use:
  %reload_ext watermark
Christian Castro 
last updated: 2020-04-20 

numpy 1.18.1
pandas 1.0.1
matplotlib 3.1.3
Propiedad de DataIntelligence


Fuentes:

Streaming Twitter data to Power BI with Azure

https://www.msbiblog.com/2020/02/17/streaming-twitter-data-to-power-bi-with-azure/

Real-time Twitter sentiment analysis in Azure Stream Analytics

https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends

https://brazilsouth.azuredatabricks.net/?o=3320861406915733#notebook/3676314873315609/command/3676314873315610



**Structured Streaming with Azure Databricks into Power BI & Cosmos DB:**

https://github.com/giulianorapoz/DatabricksStreamingPowerBI


Una plataforma de datos moderna debería ser capaz de manejar la transmisión de datos, tanto en lotes como en tiempo real. Como sociedad, hemos llegado a esperar que las organizaciones y las personas respondan a las situaciones rápidamente. No siempre podemos esperar un día hasta que el almacén de datos haya procesado el lote nocturno para analizar los datos al día siguiente. Los datos deben abordarse justo a tiempo, y algunos datos deben manejarse más rápido que otros.

Por lo tanto, podríamos construir dos soluciones: una para fines operativos que reaccione a los datos de inmediato, y otra para las operaciones estratégicas. Sin embargo, ¿no sería bueno si todo fuera consistente entre sí? ¿Realmente queremos 10 silos para 10 problemas que tienen una superposición del 75%?

Entonces, ¿cómo integramos el data streaming en una plataforma de datos? Azure nos brinda una herramienta para optimizar la transmisión de datos, se llama **Event Hub**. 

Event Hubs representa la "puerta de entrada" para un canal de eventos (event pipeline), a menudo llamado un ingesta de eventos en arquitecturas de soluciones. Un ingestor de eventos es un componente o servicio que se encuentra entre los editores de eventos y los consumidores de eventos para desacoplar la producción de un flujo de eventos del consumo de esos eventos. **Event Hubs** proporciona una plataforma de transmisión unificada con búfer de retención de tiempo, que desacopla a los productores de eventos de los consumidores de eventos (https://azure.microsoft.com/en-us/services/event-hubs/).

**Event Hubs** puede recibir eventos y enviar esos datos a un panel de Power BI en vivo, pero también puede enviarse a una segunda tubería hacia un almacén de datos o un lago de datos para el almacenamiento a largo plazo. El almacenamiento prolongado es interesante para diferentes preguntas. Imagina volar un avión y hay un problema con la presión del aire; te gustaría saberlo de inmediato en tu tablero de instrumentos para que puedas aterrizar el avión de manera segura, pero también es posible que desees recordar con qué frecuencia hubo problemas para poder investigar más a profundidad.

Vamos a configurar una solución de streaming en Azure, transmitiendo datos de Twitter a nuestra plataforma de datos en Azure.

### Construyendo el Event Hubs

#### 1 Construyendo el spacename

Necesitamos crear un spacename para el **Event Hubs**.

Para ello vamos a Crear un recurso y escribimos **Event Hubs**. Nos saldrá a página azure de Event Hubs. Damos click a crear.

Se nos dará la oportunidad de crear un Espacio de nombres.

El nombre debe ser único: tweetshaciap2
elijamos una suscripción y 
un grupo de recursos. Puedes crear un nuevo grupo de recursos si lo quieres: nuevogrupo1

Para este tutorial vamos a crear el nivel básico que cuesta alrededor de 9 euros al mes. Revisa la configuración y haz clic en crear.

Se inicia la implementación.

Una vez que hayamos creado el espacio de nombres, podemos crear el **Event Hubs**.

Nombre del event hubs: tweetshaciap2

La cantidad de particiones requeridas depende de la cantidad de aplicaciones de consumo paralelas que consumen la secuencia de eventos. Para esta demostración la dejamos en 2.

Después de haber creado el Event Hubs, podemos ir al recurso y configurarlo más. En el menú de la izquierda del espacio de nombres del Event Hubs, debajo de "entidades", hay un enlace llamado 'Event Hubs'.

In [None]:
fig 10

Una cosa que necesitamos configurar es el acceso al Event Hubs. En la hoja izquierda, haga clic en **Directivas de acceso compartido** y luego haga clic en + Agregar. 

fig 11

Asegúrese de que la política de acceso tenga las opciones de administrar, enviar y escuchar marcadas. Tenga en cuenta la clave principal de conexión, la necesitará más adelante.

Nombre de directiva: tweetshaciap2

Clave principal
rda5AWSIz/7NsikPSbxxN+WjgcruKpKc6bqQJJ9zj2Y=

Clave secundaria
Lq4srrSvN/A8fnEsSYXbpBw9ZluFJNlZflVinOzjsnE=

Cadena de conexión: clave principal
Endpoint=sb://tweetshaciap2.servicebus.windows.net/;SharedAccessKeyName=tweetshaciap2;SharedAccessKey=rda5AWSIz/7NsikPSbxxN+WjgcruKpKc6bqQJJ9zj2Y=

Cadena de conexión: clave secundaria
Endpoint=sb://tweetshaciap2.servicebus.windows.net/;SharedAccessKeyName=tweetshaciap2;SharedAccessKey=Lq4srrSvN/A8fnEsSYXbpBw9ZluFJNlZflVinOzjsnE=

In [None]:
fig 12

4 elementos que hay que recoger:

producer = EventHubProducerClient.from_connection_string(conn_str="Endpoint=sb://
<NAME OF YOUR EVENTHUB NAMESPACE>
.servicebus.windows.net/;
SharedAccessKeyName=
<NAME OF YOUR SHARED ACCESS KEY>
;SharedAccessKey=
<SHAREDACCES KEY>=", eventhub_name="
<NAME OF YOUR EVENTHUB>")
    
    
Endpoint=sb://tweetshaciap2.servicebus.windows.net/;SharedAccessKeyName=tweetshaciap2;SharedAccessKey=rda5AWSIz/7NsikPSbxxN+WjgcruKpKc6bqQJJ9zj2Y=;EntityPath=tweetshaciap2   
    
    


Si desea utilizar datos de Twitter, necesitará una cuenta de Twitter y una aplicación de Twitter. Vaya a https://developer.twitter.com/en/apps y cree una nueva aplicación. Vaya a la página de la aplicación y seleccione la pestaña Llaves y tokens y recuerde la Clave de API de consumidor y la Clave secreta de API de consumidor. Además, seleccione Crear en Token de acceso y Secreto de token de acceso para generar los tokens de acceso. Recuerde el token de acceso y el secreto de token de acceso.

Ahora tenemos un centro de eventos que está listo para recibir eventos y una cuenta de Twitter que está configurada para permitir el envío de eventos. Pero aún necesitamos transmitir eventos de Twitter a nuestro Event Hub. Cómo hacemos esto?
Vamos a usar Azure Databricks.



**Azure Databricks**

Azure Databricks es una plataforma de análisis basada en Apache Spark optimizada para la plataforma de servicios en la nube Microsoft Azure. Esta plataforma le permite ejecutar portátiles Python o Scala en clústeres que se pueden escalar fácilmente. Esto hace que sea muy interesante ejecutar tareas de aprendizaje automático. Últimamente, encontrará que a más y más personas también les resulta útil crear tuberías ELT / ETL. En este ejemplo, vamos a crear un cuaderno, que puede leer datos de Twitter y enviarlos a nuestro Event Hub.

Construyendo un **DataBricks**

Vaya al portal de Azure, cree un nuevo recurso. Busque "Azure Databricks" y haga clic en Crear. Elija una suscripción, grupo de recursos, ubicación y nivel de precios. Para el precio, vaya por el estándar. 

Suscripción: Suscripción de Azure 1
Grupo de recursos: nuevogrupo1

Detalles de instancia

Nombre del área de trabajo: tweetshaciap2
Ubicación: (US) Este de EEUU
Plan de tarifa: Estándar (Apache Spark, seguro con Azure AD)

entrará a validar...
cundo dé un mensaje de validación correcta haz click en crear.
La implementación entrará en curso...
Espere.

Cuando se complete la instalación haga click en:
Ir al recurso






In [None]:
figura 15

Haz clic en **Iniciar área de trabajo**.

En el espacio de trabajo, en el menú de la izquierda, haz clic en "Clusters". Tenemos que configurar un clúster para ejecutar nuestro notebook. 

Haga clic en crear clúster y asígnele un nombre: 
Cluster Name: tweetshaciap2

Revisa la configuración. Elijo worker type standard_D3_v2 para tener un rendimiento más rápido. Recuerda dejar el "terminar después de ... minutos de inactividad" o se le cobrará innecesariamente. Una vez que esté listo, haga clic en "crear clúster".

Para enviar datos a Event Hubs desde Twitter, necesitaremos 3 bibliotecas de Python. Vé al clúster que acabas de crear y haz clic en **Libraries**:

Haga clic en "instalar nuevo", elija PyPi y complete 

"azure-eventhub" en el campo de texto del paquete y haga clic en instalar. Haga lo mismo para 

tweepy y 

azure-eventhub-checkpointstoreblob-aio

Ahora que tenemos un clúster, es hora de crear un cuaderno que enviará los datos a nuestro Event Hub

In [None]:
llamemos al notebook: tweetshaciap2

Establecer bien la cadena de conexión es lo mas complicado:
    
Endpoint=sb://tweetshaciap2.servicebus.windows.net/;SharedAccessKeyName=tweetshaciap2;SharedAccessKey=rda5AWSIz/7NsikPSbxxN+WjgcruKpKc6bqQJJ9zj2Y=;EntityPath=tweetshaciap2     

# PowerBI

Ahora es el momento de ejecutar el cuaderno. El cuaderno enviará eventos a su Event Hub.

Entonces, ¿cómo podemos transmitir los datos a Event Hubs en Power BI? Podemos usar Azure Stream Analytics para hacer esto. Esta es una plataforma de análisis en tiempo real que puede manejar la transmisión de datos desde Event Hubs y enviarla a Power BI, por ejemplo.

Cree un nuevo componente de Azure, elija el trabajo de Stream Analytics. Déle un nombre al trabajo y asegúrese de mantener la nube como entorno de alojamiento. Esto implementará el trabajo en Azure. También puede implementar el trabajo en un dispositivo iot-gateway en las instalaciones, pero por ahora no lo estamos haciendo. La cantidad de unidades de transmisión se puede establecer más alto para más recursos informáticos para manejar la consulta.

Una vez que se crea el trabajo, vamos a definir las entradas, la consulta y una salida. La entrada será nuestro **Event Hub**. Para crear una entrada, en el menú de la izquierda debajo de topología de trabajo, haga clic en inputs. Cree una nueva stream input, elija Event Hub como fuente. Seleccione "Seleccionar Event Hub de sus suscripciones" y elija el Event Hub que creó anteriormente. 

En "Nombre de la política de Event Hub", especifique el nombre de la política de acceso compartido que creamos anteriormente. Probar y guardar la consulta.

Ahora tenemos que crear una salida. Cree una nueva salida y seleccione Power BI como tipo. Ahora debe iniciar sesión en Power BI para seleccionar un espacio de trabajo donde Stream Analytics se transmitirá a: