In [17]:
import numpy as np
import pandas as pd
from datetime import datetime
import re
from ua_parser import user_agent_parser
from sqlalchemy import create_engine
from Modulos.update_dimensions_table import actualizarTablaDimension
from ua_parser import user_agent_parser
from tqdm import tqdm
import geoip2.database

In [19]:
def process_log_file(filepath, chunk_size=100000, max_lines=500000):
    colz = ["IP", "timestamp", "status code", "bytes sent", "user agent"]
    all_chunks = []
    
    with open(filepath, 'r') as f:
        lines_processed = 0
        while lines_processed < max_lines:
            li = []
            # Procesar chunk
            for _ in range(chunk_size):
                if lines_processed >= max_lines:  # Verificar límite
                    break
                try:
                    x = f.readline()
                    if not x:  # EOF
                        break
                    log = x.split(" ")
                    if len(log) < 12:
                        continue
                    li.append([log[0], log[3].strip('['), int(log[8]), int(log[9]), ' '.join(log[11:-1]).strip('"')])
                    lines_processed += 1
                except Exception as e:
                    continue
            
            if not li:  # No más datos
                break
                
            # Crear DataFrame del chunk
            chunk_df = pd.DataFrame(li, columns=colz)
            chunk_df["timestamp"] = pd.to_datetime(chunk_df["timestamp"], format='%d/%b/%Y:%H:%M:%S')
            all_chunks.append(chunk_df)
            
            print(f"Procesadas {lines_processed} líneas...")
    
    # Combinar todos los chunks
    if all_chunks:
        logs_df = pd.concat(all_chunks, ignore_index=True)
        return logs_df
    else:
        return pd.DataFrame(columns=colz)

# Uso
filepath = "logs/access_ssl_20230404.log"
print("Procesando archivo de logs...")
logs_df = process_log_file(filepath, chunk_size=100000, max_lines=50000)
print("Procesamiento completado")
print(f"Total de registros procesados: {len(logs_df)}")
print(logs_df.info())

Procesando archivo de logs...
Procesadas 50000 líneas...
Procesamiento completado
Total de registros procesados: 50000
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   IP           50000 non-null  object        
 1   timestamp    50000 non-null  datetime64[ns]
 2   status code  50000 non-null  int64         
 3   bytes sent   50000 non-null  int64         
 4   user agent   50000 non-null  object        
dtypes: datetime64[ns](1), int64(2), object(2)
memory usage: 1.9+ MB
None


In [23]:
DB_CONNECTIONS = {
    "engine_cubo": "postgresql://adminDB:PlayitDW_DB_2025@postgres:5432/playit_logs_dw"
}

# Establecer conexiones a las bases de datos
engine_cubo = create_engine(DB_CONNECTIONS["engine_cubo"])

In [20]:
# -----------------------------------------------------------

# ----------------------------------------
# Dimensión d_navegador
# ----------------------------------------

# -----------------------------------------------------------


def parse_navegador(ua):
    parsed = user_agent_parser.Parse(ua)
    d_navegador = parsed["user_agent"]["family"]
    return pd.Series([d_navegador])

logs_df[["nombre"]] = logs_df["user agent"].apply(parse_navegador)

# Nos quedamos solamente con las variables que nos interesan
d_navegador = logs_df[["nombre"]]

# Eliminamos duplicados
d_navegador = d_navegador.drop_duplicates().reset_index(drop=True)

# Añadimos el ID
d_navegador.insert(0, "id_navegador", range(1, len(d_navegador) + 1))


In [108]:
# Actualizamos la dimension Navegadores en el DW
d_navegador = actualizarTablaDimension(engine_cubo, "d_navegador", d_navegador, pk="id_navegador")

In [22]:
# -----------------------------------------------------------

# ----------------------------------------
# Dimensión d_estadoserver
# ----------------------------------------

# -----------------------------------------------------------

# Diccionario de status codes -> descripción
status_descriptions = {
    200: "OK",
    201: "Created",
    206: "Partial Content", 
    301: "Moved Permanently",
    302: "Found",
    304: "Not Modified",
    400: "Bad Request",
    403: "Forbidden",
    404: "Not Found",
    405: "Method Not Allowed",
    499: "Client Closed Request",
    500: "Internal Server Error",
    502: "Bad Gateway",
    504: "Gateway Timeout"
}

# Función para asignar tipo
def get_tipo(codigo):
    if 100 <= codigo < 200:
        return "Informativo"
    elif 200 <= codigo < 300:
        return "Exitoso"
    elif 300 <= codigo < 400:
        return "Redirección"
    elif 400 <= codigo < 500:
        return "Error Cliente"
    elif 500 <= codigo < 600:
        return "Error Servidor"
    else:
        return "Otro"

# DataFrame con los códigos únicos de status
d_estadoserver = pd.DataFrame(logs_df["status code"].unique(), columns=["id_estadoserver"])

# Agregar descripción
d_estadoserver["descripcion"] = d_estadoserver["id_estadoserver"].map(status_descriptions)

# Agregar tipo
d_estadoserver["tipo"] = d_estadoserver["id_estadoserver"].apply(get_tipo)

# (Opcional) Ordenar por status_code
d_estadoserver = d_estadoserver.sort_values("id_estadoserver").reset_index(drop=True)

d_estadoserver

Unnamed: 0,id_estadoserver,descripcion,tipo
0,200,OK,Exitoso
1,206,Partial Content,Exitoso
2,301,Moved Permanently,Redirección
3,302,Found,Redirección
4,304,Not Modified,Redirección
5,400,Bad Request,Error Cliente
6,403,Forbidden,Error Cliente
7,404,Not Found,Error Cliente
8,499,Client Closed Request,Error Cliente
9,500,Internal Server Error,Error Servidor


In [95]:
d_estadoserver = actualizarTablaDimension(engine_cubo, "d_estadoserver", d_estadoserver, pk="id_estadoserver")

In [23]:
# -----------------------------------------------------------

# ----------------------------------------
# Dimensión d_dispositivo
# ----------------------------------------

# -----------------------------------------------------------
def parse_ua(ua):
    parsed = user_agent_parser.Parse(ua)
    so = parsed["os"]["family"]
    marca = parsed["device"]["brand"]
    modelo = parsed["device"]["model"]
    return pd.Series([so, marca, modelo])

logs_df[["so", "marca", "modelo"]] = logs_df["user agent"].apply(parse_ua)

# Reemplazar None o valores nulos por "desconocido"
logs_df["so"] = logs_df["so"].fillna("desconocido")
logs_df["marca"] = logs_df["marca"].fillna("desconocido")
logs_df["modelo"] = logs_df["modelo"].fillna("desconocido")

# Ahora creamos la dimensión de dispositivos
d_dispositivo = logs_df[["so", "marca", "modelo"]].drop_duplicates().reset_index(drop=True)
d_dispositivo.insert(0, "id_dispositivo", range(1, len(d_dispositivo) + 1))

# Eliminar exactamente la primera palabra si es "rola"
d_dispositivo['modelo'] = d_dispositivo['modelo'].apply(lambda x: x.split(' ', 1)[1] if x.lower().startswith('rola ') else x)
# Dividir por "Build" y quedarse con la primera parte
d_dispositivo['modelo'] = d_dispositivo['modelo'].apply(lambda x: x.split('Build')[0].strip() if 'Build' in x else x)


d_dispositivo

Unnamed: 0,id_dispositivo,so,marca,modelo
0,1,Linux,desconocido,desconocido
1,2,Other,desconocido,desconocido
2,3,Other,Spider,Desktop
3,4,Android,Generic,Smartphone
4,5,Android,Spider,Smartphone
...,...,...,...,...
227,228,Android,Motorola,g(8) play
228,229,Android,Maxx,AX1077+
229,230,Android,Motorola,g(8) power lite
230,231,Android,Motorola,g(30)


In [9]:
#Revisamos los modelos que tengan edge
dispositivos_filtrados = dispositivos[dispositivos['modelo'].str.contains('edge', case=False, na=False)]

# Mostrar solo la columna modelo
modelos_rola = dispositivos_filtrados['modelo']
print(modelos_rola)

70            edge 30
92            edge 20
171      edge 20 lite
172      edge 20 lite
204       edge 30 neo
271       edge 30 pro
272       edge 30 pro
349              edge
455       edge 20 pro
584    edge 30 fusion
623       edge (2021)
Name: modelo, dtype: object


In [130]:
d_dispositivo = actualizarTablaDimension(engine_cubo, "d_dispositivo", d_dispositivo, pk="id_dispositivo")

In [10]:
# -----------------------------------------------------------

# ----------------------------------------
# Dimensión d_ubicacion
# ----------------------------------------

# -----------------------------------------------------------

logs_df['IP'] = logs_df['IP'].astype(str).str.strip()

reader = geoip2.database.Reader('GeoLite2-City.mmdb')

print("Geolocalizando IPs...")
continents, countries, cities, latitudes, longitudes = [], [], [], [], []

for ip in tqdm(logs_df['IP']):
    try:
        response = reader.city(ip)
        continents.append(response.continent.name or 'Privada/Local')
        countries.append(response.country.name or 'Privada/Local')
        cities.append(response.city.name or 'Privada/Local')
        latitudes.append(response.location.latitude if response.location.latitude else None)
        longitudes.append(response.location.longitude if response.location.longitude else None)
    except:
        continents.append('Privada/Local')
        countries.append('Privada/Local')
        cities.append('Privada/Local')
        latitudes.append(None)
        longitudes.append(None)

logs_df['continente'] = continents
logs_df['pais'] = countries
logs_df['ciudad'] = cities
logs_df['latitud'] = latitudes
logs_df['longitud'] = longitudes

reader.close()

print("¡Geolocalización completada!")

# Nos quedamos solamente con las variables que nos interesan
d_ubicacion = logs_df[["continente" , "pais", "ciudad", "latitud", "longitud"]]

# Eliminamos duplicados
d_ubicacion = d_ubicacion.drop_duplicates().reset_index(drop=True)

d_ubicacion.insert(0, "id_ubicacion", range(1, len(d_ubicacion) + 1))

Geolocalizando IPs...


100%|██████████| 500000/500000 [00:34<00:00, 14694.30it/s]


¡Geolocalización completada!


In [29]:
d_ubicacion = actualizarTablaDimension(engine_cubo, "d_ubicacion", d_ubicacion, pk="id_ubicacion")

In [11]:
# -----------------------------------------------------------

# ----------------------------------------
# Dimensión d_tiempo
# ----------------------------------------

# -----------------------------------------------------------

# Crear columnas de año, mes y día en logs_df
logs_df["mes"] = logs_df["timestamp"].dt.month
logs_df["dia"] = logs_df["timestamp"].dt.day

# Construir df de tiempo
d_tiempo = pd.DataFrame({
    "mes": logs_df["mes"],
    "dia": logs_df["dia"],
})

# Obtener combinaciones únicas de fechas (día/mes/año)
d_tiempo = (
    d_tiempo[["mes", "dia"]]
    .drop_duplicates()
    .sort_values(["mes", "dia"])
    .reset_index(drop=True)
)

# Insertar surrogate key
d_tiempo.insert(0, "id_tiempo", range(1, len(d_tiempo) + 1))

   id_tiempo  mes  dia
0          1    1   29
1          2    1   30
2          3    1   31
3          4    2    1
4          5    2    2


In [15]:
logs_df = logs_df.drop(columns=["IP", "timestamp", "continente", "pais", "ciudad", "user agent"])

In [16]:
logs_df.head(10)

Unnamed: 0,status code,bytes sent,nombre,so,marca,modelo,latitud,longitud,mes,dia
0,404,1391,Chrome,Linux,desconocido,desconocido,32.8608,-79.9746,1,29
1,403,747,Other,Other,desconocido,desconocido,39.0469,-77.4903,1,29
2,200,435,WordPress,Other,Spider,Desktop,-34.6022,-58.3845,1,29
3,200,907,Other,Other,desconocido,desconocido,39.0469,-77.4903,1,29
4,200,792426,Other,Other,desconocido,desconocido,39.0469,-77.4903,1,29
5,404,1391,Chrome Mobile WebView,Android,Generic,Smartphone,40.4172,-3.684,1,29
6,301,520,Googlebot,Android,Spider,Smartphone,37.751,-97.822,1,29
7,200,97734,Googlebot,Android,Spider,Smartphone,37.751,-97.822,1,29
8,200,93145,DotBot,Other,Spider,Desktop,47.4902,-122.3004,1,29
9,200,92255,Googlebot,Android,Spider,Smartphone,37.751,-97.822,1,29


In [35]:
#Cargamos
d_tiempo = actualizarTablaDimension(engine_cubo, 'd_tiempo', d_tiempo, pk='id_tiempo') # CAMBIAR PK

In [17]:
# -----------------------------------------------------------

# ----------------------------------------
# Tabla de Hechos FACT_TABLE
# ----------------------------------------

# -----------------------------------------------------------
#estados
#navegadores
#dispositivos
#ubicaciones
#fechas_unicas

# Merge con dimensiones
logs_df = logs_df.merge(d_navegador, on=["nombre"])
logs_df = logs_df.merge(d_dispositivo, on=["so", "marca", "modelo"])
logs_df = logs_df.merge(d_ubicacion, on=["latitud", "longitud"])
logs_df = logs_df.merge(d_tiempo, on=["mes", "dia"])
logs_df = logs_df.rename(columns={"status code": "id_estadoserver"})

logs_df

Unnamed: 0,id_estadoserver,bytes sent,nombre,so,marca,modelo,latitud,longitud,mes,dia,id_dispositivo,id_ubicacion,continente,pais,ciudad,id_tiempo,id_navegador
0,404,1391,Chrome,Linux,desconocido,desconocido,32.8608,-79.9746,1,29,1,1,North America,United States,North Charleston,1,1
1,404,1391,Chrome,Linux,desconocido,desconocido,32.8608,-79.9746,1,29,1,1,North America,United States,North Charleston,1,1
2,404,1391,Chrome,Linux,desconocido,desconocido,32.8608,-79.9746,1,29,1,1,North America,United States,North Charleston,1,1
3,404,1391,Chrome,Linux,desconocido,desconocido,32.8608,-79.9746,1,29,1,1,North America,United States,North Charleston,1,1
4,404,1391,Chrome,Linux,desconocido,desconocido,32.8608,-79.9746,1,29,1,1,North America,United States,North Charleston,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
601213,404,1391,webprosbot,Other,Spider,Desktop,53.3382,-6.2591,2,13,3,210,Europe,Ireland,Dublin,16,70
601214,302,383,webprosbot,Other,Spider,Desktop,53.3382,-6.2591,2,13,3,210,Europe,Ireland,Dublin,16,70
601215,301,643,webprosbot,Other,Spider,Desktop,53.3382,-6.2591,2,13,3,210,Europe,Ireland,Dublin,16,70
601216,301,419,webprosbot,Other,Spider,Desktop,53.3382,-6.2591,2,13,3,210,Europe,Ireland,Dublin,16,70


In [18]:
print(logs_df.columns)

Index(['id_estadoserver', 'bytes sent', 'nombre', 'so', 'marca', 'modelo',
       'latitud', 'longitud', 'mes', 'dia', 'id_dispositivo', 'id_ubicacion',
       'continente', 'pais', 'ciudad', 'id_tiempo', 'id_navegador'],
      dtype='object')


In [19]:
# Calcular métricas
hechos = logs_df.groupby(
    ["id_tiempo", "id_ubicacion", "id_dispositivo", "id_navegador", "id_estadoserver"]
).agg(
    cant_pais_dia=("pais", "nunique"),
    cant_navegador_dia=("id_navegador", "nunique"),
    cant_dispositivo_dia=("id_dispositivo", "nunique"),
    cant_bytes_dispositivo=("bytes sent", "sum"),
    cant_estadoserver_dia=("id_estadoserver", "nunique")
).reset_index()

# Generar surrogate key para la tabla de hechos
hechos["id_hecho"] = hechos.index + 1

In [20]:
print(hechos.columns)

Index(['id_tiempo', 'id_ubicacion', 'id_dispositivo', 'id_navegador',
       'id_estadoserver', 'cant_pais_dia', 'cant_navegador_dia',
       'cant_dispositivo_dia', 'cant_bytes_dispositivo',
       'cant_estadoserver_dia', 'id_hecho'],
      dtype='object')


In [24]:
# Insertar los datos en la tabla de hechos
actualizarTablaDimension(engine_cubo, 'factable', hechos, pk='id_hecho')

Unnamed: 0,id_hecho,id_tiempo,id_ubicacion,id_dispositivo,id_navegador,id_estadoserver,cant_pais_dia,cant_navegador_dia,cant_dispositivo_dia,cant_bytes_dispositivo,cant_estadoserver_dia
0,1,1,1,1,1,404,1,1,1,22256,1
1,2,1,2,2,2,200,1,1,1,64249997,1
2,3,1,2,2,2,403,1,1,1,63331,1
3,4,1,2,3,17,200,1,1,1,474895,1
4,5,1,2,7,1,200,1,1,1,296803,1
...,...,...,...,...,...,...,...,...,...,...,...
18208,18209,16,1764,11,13,200,1,1,1,119394,1
18209,18210,16,1764,11,13,404,1,1,1,87962,1
18210,18211,16,1765,11,31,200,1,1,1,113787,1
18211,18212,16,1765,11,31,404,1,1,1,87962,1
