# **Introducción**


*   Queremos analizar el comportamiento de nuestra aplicación
web. Para ello, el servidor proporciona un fichero log, que una
vez convertido a csv, ofrece las siguientes columnas:
  * Dirección IP del cliente que genera la solicitud.
  * Fecha y hora de la solicitud
  * Recurso solicitado, que puede ser la solicitud de una página (php)
o recursos estáticos como imágenes
  * Estado de respuesta HTTP, de la forma “HTTP1.1,<código>”
donde <código> es un dígito que implica:
  * Respuestas satisfactorias (200–299)
  * Redirecciones (300–399)
  * Errores de los clientes (400–499)
* 3 meses de funcionamiento del servidor genera +1MB de
fichero texto, y se espera que se incremente exponencialmente
el volumen *conforme* aumente el tráfico del sitio y este crezca.

* Diseñe el trabajo/s MapReduce, así como las tareas y procedimientos implicados (arquitectura y
pseudocódigo) para realizar los siguientes análisis sobre el servidor de nuestra aplicación:

  2. Para aquellas solicitudes a páginas php respondidas exitosamente, queremos saber cuántos
accesos únicos (distintos clientes) ha tenido cada página.

  4. Queremos conocer la frecuencia de acceso de cada cliente a recursos de nuestro servidor.
  5. Con el fin de detectar posibles ataques o errores, queremos conocer el número de respuestas no
correctas que se han devuelto a los clientes que han recibido al menos un error. [Opcional]
* Considere cada uno de los puntos anteriores como un ejercicio MapReduce distinto asociado al mismo
dominio de problema.
* Entregue las respuestas como parte de su informe de prácticas al profesor en un documento PDF.
* Estos ejercicios se pueden hacer en parejas (2) de estudiantes, siempre que se trate de pair-programming.
* Aproveche cuando sea posible las ventajas que ofrece la programación funcional y la comprensión de listas, así como
las estructuras que ofrece Spark y librerías asociadas (PySpark).
* Las respuestas de código deben entregarse como un notebook (ipynb) ejecutable en Google Colab, para garantizar
la uniformidad en el entorno de desarrollo.
* Puede entregar bien los notebooks junto al informe de prácticas (zip) o un enlace a su cuaderno Google Colab. En
cualquier caso, llame a su cuaderno de la siguiente forma: <login(s)>_problema<letra>
* Explique suficientemente cada paso que realiza: la revisión de código no sólo se fundamenta en ejecutarlo, también
en entenderlo sin esfuerzo (legibilidad y comprensibilidad) – ¡Programe siempre para un tercero!

# **Instalación del entorno**

## Instalación de Hadoop

Instalamos la versión de Hadoop/Spark 3.2.4
Se recomienda visitar el sitio de Apache Spark para descargar esta versión:

https://spark.apache.org/downloads.html

Se configuran posteriormente las variables de entorno `JAVA_HOME` y `SPARK_HOME`

In [20]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

In [21]:
!wget https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz
!tar -xf spark-3.2.4-bin-hadoop3.2.tgz
!rm spark-3.2.4-bin-hadoop3.2.tgz

--2025-01-19 18:52:39--  https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz
Resolving archive.apache.org (archive.apache.org)... 65.108.204.189, 2a01:4f9:1a:a084::2
Connecting to archive.apache.org (archive.apache.org)|65.108.204.189|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 301183180 (287M) [application/x-gzip]
Saving to: ‘spark-3.2.4-bin-hadoop3.2.tgz’


2025-01-19 18:52:53 (21.8 MB/s) - ‘spark-3.2.4-bin-hadoop3.2.tgz’ saved [301183180/301183180]



## Instalación de Spark

In [22]:
!pip install findspark



# **Descarga del dataset**

In [23]:
!wget "https://www.kaggle.com/api/v1/datasets/download/shawon10/web-log-dataset"
!unzip web-log-dataset -d data

--2025-01-19 18:53:00--  https://www.kaggle.com/api/v1/datasets/download/shawon10/web-log-dataset
Resolving www.kaggle.com (www.kaggle.com)... 35.244.233.98
Connecting to www.kaggle.com (www.kaggle.com)|35.244.233.98|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://storage.googleapis.com:443/kaggle-data-sets/14835/848738/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20250119%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20250119T185300Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=2db04c9224708ec11e9a70e15fc73dbfac8327fbd56c343d3c760106fe67e00d383b98bbd4b581149b32baff5ab992ef9a18206785b17304eb19c1a61bced2de5df0fba5a7a03f107082eaf466bce56f3a6123d1db8128fad4fbef794cd328ab676c8ed07b374c9b6f1dd2ef147921e05a57158d96d244c90d5d25ad1e9e49dbae9b997f1c070f37d7d5c9890507f3f01e99057697755404c65cb36f04aba1e3aa86d6a91287b2e8fc51e6b4706c1062d6b7f2ae007adc1dda86188

Inicializamos SparkSession

In [28]:
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder\
.master("local[*]") \
.appName("Spark_Dataframes") \
.getOrCreate()

spark

In [24]:
ds = spark.read.csv('data/weblog.csv', header=True)
ds.show(5, truncate=False)

+----------+---------------------+---------------------------------------------+-----+
|IP        |Time                 |URL                                          |Staus|
+----------+---------------------+---------------------------------------------+-----+
|10.128.2.1|[29/Nov/2017:06:58:55|GET /login.php HTTP/1.1                      |200  |
|10.128.2.1|[29/Nov/2017:06:59:02|POST /process.php HTTP/1.1                   |302  |
|10.128.2.1|[29/Nov/2017:06:59:03|GET /home.php HTTP/1.1                       |200  |
|10.131.2.1|[29/Nov/2017:06:59:04|GET /js/vendor/moment.min.js HTTP/1.1        |200  |
|10.130.2.1|[29/Nov/2017:06:59:06|GET /bootstrap-3.3.7/js/bootstrap.js HTTP/1.1|200  |
+----------+---------------------+---------------------------------------------+-----+
only showing top 5 rows



## **Ejercicio 2**

Para aquellas solicitudes a páginas php respondidas exitosamente, queremos saber cuántos accesos únicos (distintos clientes) ha tenido cada página.


In [25]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, trim, countDistinct

# Inicializamos la SparkSession
spark = SparkSession.builder.appName("Exercise_B").getOrCreate()

# Cargamos el dataset
logs = spark.read.csv("data/weblog.csv", header=True)

# Obtenemos las columnas Status (Staus) y URL
logs = logs.withColumn("Staus", trim(col("Staus")))
logs = logs.withColumn("URL", trim(col("URL")))

# Filtramos los registros de modo que nos devuelva las solicitudes que tengan un 20x en el Status y que
# acaben en .php
filtered_logs = logs.filter(col("Staus").rlike("^20[0-9]$")).filter(col("URL").contains(".php"))

# Agrupamos por URL y contamos los accesos unicos mediante la IP del usuario
result = filtered_logs.groupBy("URL").agg(countDistinct("IP").alias("Accesos_Unicos"))
result.show(truncate=False)

+----------------------------------------------------+--------------+
|URL                                                 |Accesos_Unicos|
+----------------------------------------------------+--------------+
|GET /compiler.php HTTP/1.1                          |5             |
|GET /allsubmission.php?page=5 HTTP/1.1              |2             |
|POST /pcompile.php HTTP/1.1                         |5             |
|GET /contestsubmission.php?id=4&show=shawon HTTP/1.1|2             |
|GET /editcontestproblem.php?id=41 HTTP/1.1          |1             |
|POST /contestsubmission.php HTTP/1.1                |5             |
|GET /showcode.php?id=308&nm=ham05 HTTP/1.1          |1             |
|GET /submit.php?id=68 HTTP/1.1                      |1             |
|GET /profile.php?user=mahadi HTTP/1.1               |1             |
|GET /home.php HTTP/1.1                              |5             |
|GET /sign.php?value=fail HTTP/1.1                   |4             |
|GET /standings.php?