## Web Server Logs Analysis

Realizamos los imports necesarios y creamos la sesión

In [0]:
%scala
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

val spark = SparkSession.builder.appName("WebServerLogsAnalysis").getOrCreate()

Creamos el Dataframe logsDf a partir de los ficheros

In [0]:
%scala
val files = "/FileStore/shared_uploads/giovanni.rodriguez@bosonit.com/*.gz"
val logsDf = spark.read.text(files)

Creamos el pattern con regex que necesitamos para tratar los datos y parseamos los datos según nos interese, las columnas "status" y "size" las casteamos a formato int

In [0]:
%scala
val pattern = """(\S+) (\S+) (\S+) \[(\d{2}\/[A-Za-z]{3}\/\d{4}:\d{2}:\d{2}:\d{2} -\d{4})\] "(GET|POST|HEAD|PUT|DELETE|CONNECT|OPTIONS|TRACE|PATCH) (\S+) (\S+)" (\d{3}) (\S+)"""

val parseDf = logsDf.select(regexp_extract($"value", pattern, 1).as("host"),
                            regexp_extract($"value", pattern, 4).as("date"),
                            regexp_extract($"value", pattern, 5).as("method"),
                            regexp_extract($"value", pattern, 6).as("resource"),
                            regexp_extract($"value", pattern, 7).as("protocol"),
                            regexp_extract($"value", pattern, 8).cast("int").as("status"),
                            regexp_extract($"value", pattern, 9).cast("int").as("size"))

También parseamos que si el size es **null** se cambie a 0

In [0]:
%scala
val clearDf = parseDf.withColumn("size", when($"size".isNull, 0).otherwise($"size"))
clearDf.cache()

In [0]:
Creaamos el mapa de meses para castear el mes a formato numérico, también definimos una función que convertirá el string a formato date

In [0]:
%scala
val months = Map("Jan" -> 1, "Feb" -> 2, "Mar" -> 3, "Apr" -> 4, "May" -> 5, "Jun" -> 6, "Jul" -> 7, "Aug" -> 8, "Sep" -> 9, "Oct" -> 10, "Nov" -> 11, "Dec" -> 12)

def parseDatetime(date: String): String = {
  "%3$s-%2$s-%1$s %4$s:%5$s:%6$s".format(
    date.substring(0,2),
    months(date.substring(3,6)),
    date.substring(7,11),
    date.substring(12, 14),
    date.substring(15,17),
    date.substring(18)
  )
}

val toTimeStamp = udf[String, String](parseDatetime(_))

val logsDf = clearDf.withColumn("date", to_timestamp(toTimeStamp($"date")))

Cambiamos los valores a formato timestamp

In [0]:
%scala
val logsDf = clearDf.withColumn("date", to_timestamp($"date", "dd/MMM/yyyy:HH:mm:ss"))

Guardamos el Dataframe en formato parquet para realizar las consultas

In [0]:
%scala
logsDf.write.format("parquet").mode("overwrite").save("/FileStore/shared_uploads/giovanni.rodriguez@bosonit.com/nasaParquet/")

Creamos un nuevo Dataframe a partir del anterior y lo cacheamos

In [0]:
%scala
val parquetFile = "/FileStore/shared_uploads/giovanni.rodriguez@bosonit.com/nasaParquet/*"
val parquetDf = spark.read.format("parquet").load(parquetFile)
parquetDf.cache()

¿Cuáles son los distintos protocolos web utilizados? Agrúpalos.

In [0]:
%scala
parquetDf.select("protocol").distinct().show()

¿Cuáles son los códigos de estado más comunes en la web? Agrúpalos y ordénalos para ver cuál es el más común.

In [0]:
%scala
parquetDf.select("status")
         .groupBy("status")
         .agg(count("status") as "times")
         .orderBy(desc("times"))
.show()

¿Y los métodos de petición (verbos) más utilizados?

In [0]:
%scala
parquetDf.select("method")
         .groupBy("method")
         .agg(count("method") as "times")
         .orderBy(desc("times"))
.show()

¿Qué recurso tuvo la mayor transferencia de bytes de la página web?

In [0]:
%scala
parquetDf.select("host", "resource", "size")
         .orderBy(desc("size"))
.show(1, false)

Además, queremos saber que recurso de nuestra web es el que más tráfico recibe. Es decir, el recurso con más registros en nuestro log.

In [0]:
%scala
parquetDf.select("resource")
         .groupBy("resource")
         .agg(count("resource") as "times")
         .orderBy(desc("times"))
.show(1, false)

¿Qué días la web recibió más tráfico?

In [0]:
%scala
parquetDf.select(date_trunc("day", $"date").alias("date"))
         .groupBy("date")
         .agg(count("date").alias("times"))
         .orderBy(desc("times"))
.show(false)

¿Cuáles son los hosts son los más frecuentes?

In [0]:
%scala
parquetDf.select("host")
         .groupBy("host")
         .agg(count("host").alias("times"))
         .orderBy(desc("times"))
.show(false)

¿A qué horas se produce el mayor número de tráfico en la web?

In [0]:
%scala
parquetDf.select(hour($"date").alias("hour"))
         .groupBy("hour")
         .agg(count("hour").alias("times"))
         .orderBy(desc("times"))
.show(false)

¿Cuál es el número de errores 404 que ha habido cada día?

In [0]:
%scala
parquetDf.where($"status" === 404)
         .select(date_trunc("day", $"date").alias("date"), $"status")
         .groupBy("date", "status")
         .agg(count("date").alias("times"))
         .orderBy(desc("times"))
.show(false)