In [None]:
import numpy as np 
import pandas as pd
from datetime import datetime
import matplotlib.pyplot as plt 
import seaborn as sns 

# Librerías para el procesamiento de access logs 
import re 
from parse import parse 
from lars.apache import ApacheSource, COMBINED, ApacheWarning

# Manejo de advertencias del sistema, usada para capturar las líneas que no pueden parsearse por problemas de lars (ApacheWarning)
import warnings

# Configuración de estilo para las gráficas
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

# Ejecutar antes las celdas de `01_access_log_parsing` o elige una ubicación donde exista un archivo de access logs (Apache Combined Log Format) 
log_file_path = '../data/target/access_log_master.log'
log_prep_path = '../data/target/access_log_master.csv'

### Expresión General para Apache Combined Log Format

In [None]:
LOG_PATTERN = re.compile(
  r'(?P<ip_client>\S+)\s+'      # IP del cliente 
  r'(?P<ident>\S+)\s+'          # ident 
  r'(?P<auth_user>\S+)\s+'      # auth_user
  r'\[(?P<timestamp>.+?)\]\s+'  # timestamp
  r'\"(?P<request>.*?)\"\s+'    # línea completa de request: método + url + protocolo
  r'(?P<status>\d{3})\s+'       # código de estado
  r'(?P<size>\S+)\s+'           # tamaño de respuesta (bytes)
  r'\"(?P<referer>.*?)\"\s+'    # referer
  r'\"(?P<user_agent>.*?)\"'    # user-agent
)

def parse_apache_logs(log_file_path, add_n_line:bool=False, del_request:bool=True):
  "Parsea logs de Apache extrayendo todos los campos solicitados"
  parsed_logs = []
  failed_lines = []
  
  with open(log_file_path, 'r', encoding='utf-8', errors='ignore') as file:
    for line_num, line in enumerate(file, 1):
      line = line.strip()
      if not line:
        continue
      
      match = LOG_PATTERN.match(line)
      
      if match:
        # Obtener todos los campos capturados
        log_data = match.groupdict()
        
        # Separar request en método, URL y protocolo
        request_parts = log_data['request'].split()
        if len(request_parts) >= 3:
          log_data['method'] = request_parts[0]
          log_data['url'] = request_parts[1]
          log_data['protocol'] = request_parts[2]
        elif len(request_parts) == 2:
          log_data['method'] = request_parts[0]
          log_data['url'] = request_parts[1]
          log_data['protocol'] = 'UNKNOWN'
        else:
          log_data['method'] = 'UNKNOWN'
          log_data['url'] = 'UNKNOWN'
          log_data['protocol'] = 'UNKNOWN'
        
        if add_n_line:
          # Añadir número de línea
          log_data['line_number'] = line_num
        
        if del_request:
          del log_data['request']
        
        parsed_logs.append(log_data)
      else:
        # Guardar línea fallida
        failed_lines.append({
          'line': line_num,
          'content': line[:100]
        })
  
  return parsed_logs, failed_lines

logs, errors = parse_apache_logs(log_file_path)

print(f"Cantidad de logs parseados: {len(logs)}")
print(f"Cantidad de logs fallidos:  {len(errors)}")

In [None]:
df = pd.DataFrame(logs)

# Columna para representar si un log es un ataque o no (inicialmente todos en False)
df['attack'] = False 

display(df.head())
display(df.tail())

In [None]:
#df.to_csv(log_prep_path, index=False)

In [None]:
# transformar 'timestamp' a datetime (ajustando el formato de Apache) 
def parse_timestamps_vectorized(df):
  df['timestamp_clean'] = df['timestamp'].astype(str).str.strip('[]')
  
  df['timestamp_parsed'] = pd.to_datetime(
    df['timestamp_clean'],
    format='%d/%b/%Y:%H:%M:%S %z', 
    errors='coerce'
  )
  
  mask = df['timestamp_parsed'].isna()
  if mask.any():
    df.loc[mask, 'timestamp_parsed'] = pd.to_datetime(
      df.loc[mask, 'timestamp_clean'],
      format='%d/%b/%Y:%H:%M:%S',
      errors='coerce'
    )

  df['timestamp'] = df['timestamp_parsed']
  df = df.drop(['timestamp_parsed', 'timestamp_clean'], axis=1)
  
  return df 

df = parse_timestamps_vectorized(df)
# transformar 'size' a numérico (manejando valores no numéricos como '-')
df['size'] = pd.to_numeric(df['size'], errors='coerce').fillna(0)

In [None]:
df['timestamp']

In [None]:
print(f"Rango de Tiempo: {df['timestamp'].min()} -> {df['timestamp'].max()}")
print(f"Estadísticas de 'size': Min={ df['size'].min() }, Max={ df['size'].max() }, Mean={ df['size'].mean() }")

In [None]:
# Mostrar las primeras K filas con los valores 'size' más altos
K = 10
display_cols = [
  
]
# Ordenar por tamaño de forma descendente y tomar las primeras K filas
top_K_largest = df.nlargest(K, 'size')
above_mean = df[df['size'] > df['size'].mean()]
print(f"Logs con tamaño de respuesta > promedio (promedio/mean={df['size'].mean():.2f}): {len(above_mean)} ({(len(above_mean)/len(df))*100:.2f}%)")
display(top_K_largest)

In [None]:
plt.figure(figsize=(15, 6))

# Crear scatter plot con transparencia para manejar muchos puntos
plt.scatter(df['timestamp'], df['size'], alpha=0.6, s=10, color='royalblue')

plt.title('Tamaño de respuestas a lo largo del tiempo', fontsize=14, fontweight='bold')
plt.xlabel('Fecha y Hora', fontsize=12)
plt.ylabel('Tamaño (bytes)', fontsize=12)
plt.xticks(rotation=45)
plt.tight_layout()

plt.show()

In [None]:
plt.figure(figsize=(15,6))

# agrupar por día 
df_daily = df.set_index('timestamp').resample('D').size()
# crear gráfica de barras para peticiones diarias 
bars = plt.bar(df_daily.index, df_daily.values, width=0.8, color='skyblue', edgecolor='navy', alpha=0.8)

plt.title('Número de peticiones por día', fontsize=14, fontweight='bold')
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Cantidad de peticiones', fontsize=12)
plt.xticks(rotation=45)

for bar in bars:
  height = bar.get_height()
  plt.text(bar.get_x() + bar.get_width()/2, height, f'{int(height)}', ha='center', va='bottom', fontsize=9, fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
important_columns = [
  'status',
  'method'
]

# Filtrar solo columnas existentes
existing_cols = [col for col in important_columns if col in df.columns]
n_cols = len(existing_cols)

# Configurar subplots
fig, axes = plt.subplots(n_cols, 1, figsize=(15, 5 * n_cols))
if n_cols == 1:
  axes = [axes]

# Crear gráficas para cada columna
for idx, col in enumerate(existing_cols):
  ax = axes[idx]
  
  # Obtener value counts (top 10 para evitar sobrecarga)
  value_counts = df[col].value_counts().head(10)
  
  # Para columnas con muchos valores únicos, mostrar solo top
  if len(value_counts) > 10:
    others_count = df[col].value_counts().iloc[10:].sum()
    if others_count > 0:
      value_counts['Otros'] = others_count
  
  # Crear gráfica de barras horizontal
  bars = ax.barh(range(len(value_counts)), value_counts.values, color=plt.cm.tab20c(range(len(value_counts))))
  
  ax.set_title(f'Distribución de {col}', fontsize=12, fontweight='bold')
  ax.set_xlabel('Frecuencia', fontsize=10)
  ax.set_yticks(range(len(value_counts)))
  ax.set_yticklabels(value_counts.index, fontsize=9)
  
  # Añadir etiquetas de valores
  total = value_counts.sum()
  for i, v in enumerate(value_counts.values):
    percentage = (v / total) * 100
    ax.text(v + max(value_counts.values) * 0.01, i, f'{v} ({percentage:.1f}%)', va='center', fontsize=9, fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# Gráfica adicional: Códigos de estado HTTP (si existe la columna)
if 'status' in df.columns:
  plt.figure(figsize=(12, 6))
    
  # Agrupar códigos por categoría
  df['status_category'] = df['status'].astype(str).str[0] + '00'
    
  # Contar por categoría
  status_counts = df['status_category'].value_counts()
    
  # Crear gráfico de pastel
  colors = ['#4CAF50', '#2196F3', '#FF9800', '#F44336', '#9C27B0']
  wedges, texts, autotexts = plt.pie(status_counts.values, labels=status_counts.index, autopct='%1.1f%%', colors=colors, startangle=90)
  
  # Mejorar etiquetas
  for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_fontweight('bold')
  
  plt.title('Distribución de códigos de estado HTTP por categoría', fontsize=14, fontweight='bold')
  plt.axis('equal')
  
  # Añadir leyenda con códigos específicos más comunes
  plt.figure(figsize=(10, 6))
  top_status = df['status'].value_counts().head(10)
  top_status.plot(kind='barh', color='steelblue')
  plt.title('Top 10 códigos de estado HTTP más frecuentes', fontsize=12)
  plt.xlabel('Frecuencia')
  plt.tight_layout()
  plt.show()