# **Procesamiento de Datos en Tiempo Real y Streaming**

En este notebook, exploraremos los conceptos básicos de procesamiento de datos en tiempo real y cómo manejar flujos de datos (data streaming). Esto es fundamental en aplicaciones que requieren análisis en tiempo real, como monitoreo de sensores, transacciones financieras o redes sociales.

## **1. Introducción al Procesamiento en Tiempo Real**

El procesamiento en tiempo real implica la ingestión y el procesamiento de datos tan pronto como estos están disponibles. Utilizaremos `pandas` y `time` para simular un flujo de datos continuo en este ejemplo.

In [1]:
import pandas as pd
import time
from random import randint

# Función para simular la generación de datos en tiempo real
def generate_data_stream():
    data = {
        'timestamp': pd.Timestamp.now(),
        'sensor_id': randint(1, 5),
        'temperature': randint(20, 30),
        'humidity': randint(30, 60)
    }
    return data


## **2. Simulación de Ingesta de Datos en Tiempo Real**

Simularemos la ingesta de datos en tiempo real utilizando la función `generate_data_stream`. Cada dato nuevo se imprimirá como si se estuviera recibiendo de un sensor en tiempo real.

In [2]:
# Configuración para recibir 10 mensajes simulados de datos de sensores
data_stream = []
for _ in range(10):
    new_data = generate_data_stream()
    data_stream.append(new_data)
    print(new_data)
    time.sleep(1)  # Espera de 1 segundo para simular el tiempo real

# Convertir el flujo de datos a un DataFrame
df_stream = pd.DataFrame(data_stream)
df_stream.head()

{'timestamp': Timestamp('2024-11-04 01:38:48.365466'), 'sensor_id': 4, 'temperature': 24, 'humidity': 44}
{'timestamp': Timestamp('2024-11-04 01:38:49.375742'), 'sensor_id': 3, 'temperature': 22, 'humidity': 41}
{'timestamp': Timestamp('2024-11-04 01:38:50.388248'), 'sensor_id': 1, 'temperature': 27, 'humidity': 56}
{'timestamp': Timestamp('2024-11-04 01:38:51.398548'), 'sensor_id': 1, 'temperature': 26, 'humidity': 54}
{'timestamp': Timestamp('2024-11-04 01:38:52.411660'), 'sensor_id': 5, 'temperature': 27, 'humidity': 59}
{'timestamp': Timestamp('2024-11-04 01:38:53.421022'), 'sensor_id': 2, 'temperature': 29, 'humidity': 36}
{'timestamp': Timestamp('2024-11-04 01:38:54.433155'), 'sensor_id': 1, 'temperature': 23, 'humidity': 43}
{'timestamp': Timestamp('2024-11-04 01:38:55.437382'), 'sensor_id': 1, 'temperature': 27, 'humidity': 44}
{'timestamp': Timestamp('2024-11-04 01:38:56.451641'), 'sensor_id': 2, 'temperature': 30, 'humidity': 33}
{'timestamp': Timestamp('2024-11-04 01:38:57.4

Unnamed: 0,timestamp,sensor_id,temperature,humidity
0,2024-11-04 01:38:48.365466,4,24,44
1,2024-11-04 01:38:49.375742,3,22,41
2,2024-11-04 01:38:50.388248,1,27,56
3,2024-11-04 01:38:51.398548,1,26,54
4,2024-11-04 01:38:52.411660,5,27,59


## **3. Procesamiento de Datos en Tiempo Real**

En el procesamiento de datos en tiempo real, se realizan análisis o transformaciones de los datos a medida que llegan. Realizaremos una operación simple que calcula el promedio de `temperature` y `humidity` en el flujo de datos simulado.

In [3]:
# Calcular las estadísticas de temperatura y humedad
average_temp = df_stream['temperature'].mean()
average_humidity = df_stream['humidity'].mean()

print(f"Promedio de temperatura: {average_temp} °C")
print(f"Promedio de humedad: {average_humidity} %")

Promedio de temperatura: 25.6 °C
Promedio de humedad: 46.7 %


## **4. Detección de Anomalías en Tiempo Real**

Una aplicación común del procesamiento en tiempo real es la detección de anomalías, donde valores inusuales son identificados y gestionados en tiempo real.

In [4]:
# Definir umbrales para detectar anomalías
temperature_threshold = 28  # Ejemplo de umbral alto de temperatura
humidity_threshold = 55    # Ejemplo de umbral alto de humedad

# Detectar y mostrar valores anómalos
anomalies = df_stream[(df_stream['temperature'] > temperature_threshold) | 
                      (df_stream['humidity'] > humidity_threshold)]

print("Anomalías detectadas:")
print(anomalies)

Anomalías detectadas:
                   timestamp  sensor_id  temperature  humidity
2 2024-11-04 01:38:50.388248          1           27        56
4 2024-11-04 01:38:52.411660          5           27        59
5 2024-11-04 01:38:53.421022          2           29        36
8 2024-11-04 01:38:56.451641          2           30        33
9 2024-11-04 01:38:57.454503          1           21        57
