# **Introducción**


*   Queremos analizar el comportamiento de nuestra aplicación
web. Para ello, el servidor proporciona un fichero log, que una
vez convertido a csv, ofrece las siguientes columnas:
  * Dirección IP del cliente que genera la solicitud.
  * Fecha y hora de la solicitud
  * Recurso solicitado, que puede ser la solicitud de una página (php)
o recursos estáticos como imágenes
  * Estado de respuesta HTTP, de la forma “HTTP1.1,<código>”
donde <código> es un dígito que implica:
  * Respuestas satisfactorias (200–299)
  * Redirecciones (300–399)
  * Errores de los clientes (400–499)
* 3 meses de funcionamiento del servidor genera +1MB de
fichero texto, y se espera que se incremente exponencialmente
el volumen *conforme* aumente el tráfico del sitio y este crezca.

* Diseñe el trabajo/s MapReduce, así como las tareas y procedimientos implicados (arquitectura y
pseudocódigo) para realizar los siguientes análisis sobre el servidor de nuestra aplicación:

  1.  Queremos conocer la frecuencia de acceso a los distintos recursos (sean páginas php o archivos).
[No se entrega]

  2. Para aquellas solicitudes a páginas php respondidas exitosamente, queremos saber cuántos
accesos únicos (distintos clientes) ha tenido cada página.
  3. Para cada cliente, queremos saber a cuántas páginas php distintas ha accedido a lo largo del
tiempo. [No se entrega]
  4. Queremos conocer la frecuencia de acceso de cada cliente a recursos de nuestro servidor.
  5. Con el fin de detectar posibles ataques o errores, queremos conocer el número de respuestas no
correctas que se han devuelto a los clientes que han recibido al menos un error. [Opcional]
* Considere cada uno de los puntos anteriores como un ejercicio MapReduce distinto asociado al mismo
dominio de problema.
* Entregue las respuestas como parte de su informe de prácticas al profesor en un documento PDF.
* Estos ejercicios se pueden hacer en parejas (2) de estudiantes, siempre que se trate de pair-programming.
* Aproveche cuando sea posible las ventajas que ofrece la programación funcional y la comprensión de listas, así como
las estructuras que ofrece Spark y librerías asociadas (PySpark).
* Las respuestas de código deben entregarse como un notebook (ipynb) ejecutable en Google Colab, para garantizar
la uniformidad en el entorno de desarrollo.
* Puede entregar bien los notebooks junto al informe de prácticas (zip) o un enlace a su cuaderno Google Colab. En
cualquier caso, llame a su cuaderno de la siguiente forma: <login(s)>_problema<letra>
* Explique suficientemente cada paso que realiza: la revisión de código no sólo se fundamenta en ejecutarlo, también
en entenderlo sin esfuerzo (legibilidad y comprensibilidad) – ¡Programe siempre para un tercero!

# **Instalación del entorno**

## Instalación de Hadoop

Instalamos la versión de Hadoop/Spark 3.2.4
Se recomienda visitar el sitio de Apache Spark para descargar esta versión:

https://spark.apache.org/downloads.html

Se configuran posteriormente las variables de entorno `JAVA_HOME` y `SPARK_HOME`

In [1]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

La descarga de Hadoop puede tomar su tiempo, según la conexión disponible. Se borra posteriormente de la máquina virtual el archivo `.tgz

In [2]:
!wget https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz
!tar -xf spark-3.2.4-bin-hadoop3.2.tgz
!rm spark-3.2.4-bin-hadoop3.2.tgz

--2025-01-18 00:36:44--  https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz
Resolving archive.apache.org (archive.apache.org)... 65.108.204.189, 2a01:4f9:1a:a084::2
Connecting to archive.apache.org (archive.apache.org)|65.108.204.189|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 301183180 (287M) [application/x-gzip]
Saving to: ‘spark-3.2.4-bin-hadoop3.2.tgz’


2025-01-18 00:36:56 (24.8 MB/s) - ‘spark-3.2.4-bin-hadoop3.2.tgz’ saved [301183180/301183180]



## Instalación e iniciación de la sesión de Spark

* Buscamos la librería `findspark` con `pip install`

In [3]:
!pip install findspark

Collecting findspark
  Downloading findspark-2.0.1-py2.py3-none-any.whl.metadata (352 bytes)
Downloading findspark-2.0.1-py2.py3-none-any.whl (4.4 kB)
Installing collected packages: findspark
Successfully installed findspark-2.0.1


* Con `SparkSession` inicializamos

In [4]:
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder\
        .master("local[*]")\
        .appName("Spark_Dataframes")\
        .getOrCreate()

spark

# **Lectura del dataset**

In [5]:
!wget "https://www.kaggle.com/api/v1/datasets/download/shawon10/web-log-dataset"
!unzip web-log-dataset -d data

--2025-01-18 00:37:15--  https://www.kaggle.com/api/v1/datasets/download/shawon10/web-log-dataset
Resolving www.kaggle.com (www.kaggle.com)... 35.244.233.98
Connecting to www.kaggle.com (www.kaggle.com)|35.244.233.98|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://storage.googleapis.com:443/kaggle-data-sets/14835/848738/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20250118%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20250118T003715Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=b708226e6b15c154d348e2e94b1a7b2c2865cbab0de8c65076c0aa559d30e317076a3ec5e7bc7603f8b3b30927d9a65bc66b287df3611822d0c52bb731bce706608c4c369aef402a0e0634977d2052b09725654bd54d2fbd4f68da9101a05c17b060e035d0db632b084f0fbab920b6e9cbac677f5f50fd49c2f750b22cfffb8f81e49f7249cac68184be11eec56f766d2b155ea54bfa8a378d8a6d4040031e101005a3a09fdb09459bfe3841b3a4a691f2bca3a23d20d1ee9b63320

In [6]:
ds = spark.read.csv('data/weblog.csv', header=True)
ds.show(5, truncate=False)

+----------+---------------------+---------------------------------------------+-----+
|IP        |Time                 |URL                                          |Staus|
+----------+---------------------+---------------------------------------------+-----+
|10.128.2.1|[29/Nov/2017:06:58:55|GET /login.php HTTP/1.1                      |200  |
|10.128.2.1|[29/Nov/2017:06:59:02|POST /process.php HTTP/1.1                   |302  |
|10.128.2.1|[29/Nov/2017:06:59:03|GET /home.php HTTP/1.1                       |200  |
|10.131.2.1|[29/Nov/2017:06:59:04|GET /js/vendor/moment.min.js HTTP/1.1        |200  |
|10.130.2.1|[29/Nov/2017:06:59:06|GET /bootstrap-3.3.7/js/bootstrap.js HTTP/1.1|200  |
+----------+---------------------+---------------------------------------------+-----+
only showing top 5 rows



# **Ejercicios**

## **Ejercicio 1**

Queremos conocer la frecuencia de acceso a los distintos recursos (sean páginas php o archivos).

In [24]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, trim, count

# Inicializar la sesión de Spark
spark = SparkSession.builder.appName("Resource_Access_Frequency").getOrCreate()

# Cargar dataset
file_path = "data/weblog.csv"
logs = spark.read.csv(file_path, header=True)

# Limpiar datos
logs = logs.withColumn("URL", trim(col("URL")))

# Calcular la frecuencia de acceso por recurso
resource_access_frequency = logs.groupBy("URL").agg(count("*").alias("AccessCount"))

# Ordenar por frecuencia descendente
result = resource_access_frequency.orderBy(col("AccessCount").desc())

# Mostrar resultados
result.show(truncate=False)

+----------------------------------------------------------------------------+-----------+
|URL                                                                         |AccessCount|
+----------------------------------------------------------------------------+-----------+
|GET /login.php HTTP/1.1                                                     |3284       |
|GET /home.php HTTP/1.1                                                      |2640       |
|GET /js/vendor/modernizr-2.8.3.min.js HTTP/1.1                              |1415       |
|GET / HTTP/1.1                                                              |861        |
|GET /contestproblem.php?name=RUET%20OJ%20Server%20Testing%20Contest HTTP/1.1|467        |
|GET /css/normalize.css HTTP/1.1                                             |408        |
|GET /css/bootstrap.min.css HTTP/1.1                                         |404        |
|GET /css/font-awesome.min.css HTTP/1.1                                      |399        |