# **PR0403: Análisis de logs con MapReduce**

## **1. Estadísticas básicas**

### **Contador de Códigos de Estado HTTP**

Queremos saber cuántas peticiones resultaron exitosas (200), cuántas no encontradas (404), errores de servidor (500), etc.
Para conseguirlo, tienes que hacer lo siguiente:

**Mapper**:
- Lee la línea.
- Busca el código de estado (el número después de ``"HTTP/1.0"``). En tu ejemplo son: ``502``, ``200``, ``404``, ``304``, etc.
- Emite (``código, 1``).

**Reducer**: Suma los contadores.

**Salida esperada**: 200: 50, 404: 10, 500: 5...

### **Tráfico Total por IP**

En este segundo ejercicio el objetivo será identificar qué direcciones IP están consumiendo más ancho de banda.

**Mapper**:
- Extrae la IP (el primer campo).
- Extrae el tamaño de la respuesta en bytes (el número después del código de estado). Nota: a veces es un guion “-“ si es 0.
- Emite (``IP, bytes``).
  
**Reducer**: Suma los bytes para cada IP.

**Salida**: ``162.253.4.179: 5041 bytes``

## **2. Análisis de comportamiento**

### **URLs más populares***

El objetivo en este ejercicio será encontrar las las rutas (``/usr/admin``, ``/usr/register``) más solicitadas.

**Mapper**:
- Analiza la cadena de petición ``DELETE /usr/admin HTTP/1.0``.
- Extrae la URL (el segundo elemento entre las comillas).
- Emite (``url, 1``).

**Reducer**: Suma las visitas.

**Salida**: Muestra todas las URLs y el número de accesos a cada una.

**Opcional**: ¿Cómo mostrarías sólo las top 10? (Requiere un segundo paso de ordenación o un reducer inteligente).

### **Distribución por Método HTTP**

Aquí queremos saber qué tipo de acciones hacen los usuarios (GET vs POST vs DELETE).

**Mapper**: Extrae el verbo HTTP (``GET``, ``POST``, ``PUT``, ``DELETE``). Emite (``método, 1``).

**Reducer**: Suma contadores.

### **Análisis de navegadores**

El objetivo aquí es saber si los usuarios usan Chrome, Firefox, o si son bots/móviles.

**Mapper**:
- Extrae la cadena larga del final (User-Agent).
- Busca palabras clave simples: si contiene “Chrome” emite (``"Chrome", 1``), si “Firefox” emite (``"Firefox", 1``), etc.

**Reducer**: Suma totales por navegador.

## **3. Análisis temporal y de sesión**

### **Picos de tráfico por hora**

Queremos descubrir a qué hora del día el servidor recibe más carga.

**Mapper**:
- Parsea el campo de fecha [``27/Dec/2037:12:00:00 +0530``].
- Extrae la hora (``12``).
- Emite (``hora, 1``).

**Reducer**: Suma las peticiones por hora.

### **Tasa de error por endpoint**

En este ejercicio queremos descubrir qué URLs están fallando más.

**Mapper**:
- Extrae la URL y el código de estado.
- Si el código es >= 400, emite (``url, "error"``).
- Si el código es < 400, emite (``url, "ok"``).
- O mejor: emite (``url, (1, 0)``) para éxito y (``url, (0, 1)``) para error.
  
**Reducer**: Suma totales y errores. Calcula el % de error: ``(errores / total) * 100``.

In [2]:
cp ./Análisis_de_logs_con_MapReduce.

Análisis_de_logs_con_MapReduce.ipynb  coin_Iota.csv
coin_Aave.csv                         coin_Litecoin.csv
coin_BinanceCoin.csv                  coin_Monero.csv
coin_Bitcoin.csv                      coin_NEM.csv
coin_Cardano.csv                      coin_Polkadot.csv
coin_ChainLink.csv                    coin_Stellar.csv
coin_Cosmos.csv                       coin_Tether.csv
coin_CryptocomCoin.csv                coin_Tron.csv
coin_Dogecoin.csv                     coin_Uniswap.csv
coin_EOS.csv                          coin_WrappedBitcoin.csv
coin_Ethereum.csv                     coin_XRP.csv
