# Laboratorio 5

Diego Andrés Morales Aquino - 21762

## Parte 1 – Filtrado y preprocesamiento

In [305]:
import pandas as pd
from tqdm import tqdm
from urllib.parse import urlparse

In [306]:
# Cargar large_eve.json a df
df = pd.read_json('large_eve.json', lines=True)

In [307]:
print("Cantidad de registros: ", len(df))

Cantidad de registros:  746909


In [308]:
print(df.head(2).to_string())

                         timestamp       flow_id  pcap_cnt event_type   vlan           src_ip  src_port          dest_ip  dest_port proto                                                                                                                                                                                                    alert                                                                                                                                             ssh  dns  tx_id http app_proto fileinfo  tls vars flow  icmp_type  icmp_code  tcp smtp email app_proto_tc app_proto_ts stats
0  2017-07-22T17:33:15.784100-0500  2.835707e+14   18519.0      alert  130.0  192.168.203.200    2328.0  192.181.145.109      445.0   TCP  {'action': 'allowed', 'gid': 1, 'signature_id': 2001569, 'rev': 15, 'signature': 'ET SCAN Behavioral Unusual Port 445 traffic Potential Scan or Infection', 'category': 'Misc activity', 'severity': 3}                                                          

In [309]:
# Normalizar columnas que tienen jsons
json_columns = [col for col in df.columns if df[col].apply(lambda x: isinstance(x, dict)).any()]
df_normalized = pd.DataFrame()

for col in tqdm(json_columns):

    # Normalizar cada columna JSON y concatenarlas al df completo
    df_col_normalized = pd.json_normalize(df[col])
    df_normalized = pd.concat([df_normalized, df_col_normalized], axis=1)

# Concatenar df original con df normalizado
df = pd.concat([df, df_normalized], axis=1)

# Eliminar columnas con JSONs
df = df.drop(columns=json_columns)

100%|██████████| 12/12 [00:49<00:00,  4.12s/it]


In [310]:
print("Shape del df normalizado: ", df_normalized.shape)

Shape del df normalizado:  (746909, 183)


In [311]:
# Mostar los primeros 2 registros de df normalizado
print(df.head(100).to_string())

                          timestamp       flow_id  pcap_cnt event_type   vlan                                   src_ip  src_port                                  dest_ip  dest_port proto  tx_id app_proto  icmp_type  icmp_code app_proto_tc app_proto_ts   action  gid  signature_id   rev                                                                signature                category  severity client.proto_version        client.software_version server.proto_version        server.software_version    type       id                                       rrname rrtype  tx_id     rcode      ttl rdata        hostname                                                       url                                                                                                                                      http_user_agent       http_content_type http_method  protocol status                           redirect  length                                                                                    

In [312]:
# Filtrar solo los registros dns
df_dns = df[df['event_type'] == 'dns']

In [313]:
# Mantener solo los registros 'rrtype' == 'A'
df_reg_a = df_dns[df_dns['rrtype'] == 'A']
print("Cantidad de registros dns con rrtype A: ", len(df_reg_a))

Cantidad de registros dns con rrtype A:  2849


In [314]:
# Filtrar dominios únicos
df_unique_domains = df_reg_a.drop_duplicates(subset=['rrname'])
print("Cantidad de dominios únicos: ", len(df_unique_domains))

Cantidad de dominios únicos:  177


In [315]:
# imprimir valores de  rrname
print(df_unique_domains['rrname'].to_string())

2                                      api.wunderground.com
38                                      stork79.dropbox.com
39               hpca-tier2.office.aol.com.ad.aol.aoltw.net
44                     safebrowsing.clients.google.com.home
48                                      fxfeeds.mozilla.com
53                                       www.metasploit.com
56                               aolmtcmxm03.office.aol.com
64              aolmtcmxm02.office.aol.com.ad.aol.aoltw.net
94                               aolmtcmxm02.office.aol.com
100                               hpca-tier2.office.aol.com
104             aolmtcmxm03.office.aol.com.ad.aol.aoltw.net
107                              aolmtcmxm04.office.aol.com
111                         safebrowsing.clients.google.com
133                                               wpad.home
251          safebrowsing.clients.google.com.stayonline.net
275             aolmtcmxm04.office.aol.com.ad.aol.aoltw.net
444              AOLDTCMA04.ad.aol.aoltw

La siguiente función fue realizada con el LLM GPT4-O

Prompt: 
```
Realiza una función en python que obtenga el TLD para un dominio. Te doy dos ejemplos de su funcionamiento:

Entrada: api.wunderground.com
Salida: wunderground.com

Entrada 2: safebrowsing.clients.google.com.home
Salida 2: home
```

In [316]:
from tldextract import extract

def get_tld(domain: str) -> str:
    ext = extract(domain)
    if ext.suffix:
        return f"{ext.domain}.{ext.suffix}"
    return ext.domain

# Ejemplos de uso
print(get_tld("api.wunderground.com"))  # wunderground.com
print(get_tld("safebrowsing.clients.google.com.home"))  # home


wunderground.com
home


In [317]:
# Agregar columna domain_tld y eliminar el resto
df_final = df_unique_domains.copy()
df_final['domain_tld'] = df_final['rrname'].apply(get_tld)
df_final = df_final[['rrname', 'domain_tld']]

In [318]:
df_tld = df_final.drop_duplicates(subset=['domain_tld']) # Eliminar duplicados TLD
print("Cantidad de TLD únicos: ", len(df_tld))

Cantidad de TLD únicos:  102


## Parte 2 – Data Science

In [319]:
import google.generativeai as genai
import time
from tqdm import tqdm
import json 

In [320]:
# Configurar la API de Gemini
API_KEY = "AIzaSyCjQXdW7j2L9XVt85RdV1k1XWWNkjLAq48"
genai.configure(api_key=API_KEY)
model = genai.GenerativeModel("gemini-2.0-flash")

In [321]:
def classify_domains(domains, model):
    prompt = (
        "Clasifica los siguientes TLDs de dominios como 1 si son generados por algoritmos de generación de dominios (DGA) y 0 si son legítimos.\n"
        "Debes ser muy cuidadoso de solo colocar valores numéricos 0 o 1 para cada dominio.\n"
        f"El total de dominios a clasificar es de {len(domains)}, no puedes agregar más o repetir.\n\n"
        "Responde solo con un JSON en este formato (sin explicaciones adicionales):\n"
        "{ \"resultados\": [{\"domain_tld\": \"xxx\", \"DGA\": 0}, {\"domain_tld\": \"yyy\", \"DGA\": 1}] }\n\n"
        f"Lista de TLDs: {domains}"
    )
    
    try:
        response = model.generate_content(prompt)
        result_text = response.text.strip()  # Limpiar espacios y saltos de línea
        
        # Extraer solo la parte JSON si hay texto adicional
        json_start = result_text.find("{")
        json_end = result_text.rfind("}")
        if json_start != -1 and json_end != -1:
            result_text = result_text[json_start:json_end+1]
        
        result_json = json.loads(result_text)  # Convertir a JSON de forma segura
        return result_json.get("resultados", [])
    except Exception as e:
        print(f"Error en la clasificación: {e}")
        return []

In [322]:
# Procesar en batches
batch_size = 25
results = []

for i in tqdm(range(0, len(df_tld), batch_size)):
    batch = df_tld["domain_tld"].iloc[i : i + batch_size].tolist()
    batch_results = classify_domains(batch, model)
    results.extend(batch_results)
    time.sleep(2)  # Pausa para evitar restricciones de uso

# Convertir resultados en DataFrame y unir con el original
df_results = pd.DataFrame(results)
df_clasified = df_final.merge(df_results, on="domain_tld", how="left")

100%|██████████| 5/5 [00:24<00:00,  4.85s/it]


In [323]:
# Cantidad de TLDs clasificados
print("Cantidad de TLDs clasificados: ", len(df_results.drop_duplicates()))

Cantidad de TLDs clasificados:  102


In [324]:
# Cantidad de TLDs clasificados como DGA
df_results['DGA'].value_counts()

DGA
0    85
1    17
Name: count, dtype: int64

In [325]:
# Filtrar solo los TLDs clasificados como DGA
df_dga = df_results[df_results['DGA'] == 1]
df_dga = df_dga.drop(columns=['DGA'])
print("Cantidad de TLDs clasificados como DGA: ", len(df_dga))

Cantidad de TLDs clasificados como DGA:  17


In [326]:
df_dga.head()

Unnamed: 0,domain_tld
3,home
9,110phpmyadmin
11,localdomain
14,ntkrnlpa.info
22,vpn


## Parte 3 – Dominio experto

Funciones desarrolladas con ayuda del modelo GPT 4o

Prompt:
```
Tengo un archivo top-1m.csv que contiene la lista de un millón de TLD. Escribe una función que devuelva 0 si el TLD se encuentra en la lista y 1 si no está. Asegurate de no cargar la lista cada vez que se llama a la función.

Esta se debe aplicar al df df_dga que tiene la columna domain_tld, agregando una nueva columna expert_dga
```

In [327]:
malicious = []
def load_tld_list(file_path):
    tld_df = pd.read_csv(file_path, header=None, names=["tld"])
    return set(tld_df["tld"].astype(str))

def check_tld(domain_tld, tld_set):
    global malicious
    domain_tld = str(domain_tld)
    for tld in tld_set:
        if domain_tld in tld or domain_tld == tld:
            malicious.append(tld)
            return 0  # Se encontró como TLD o subpalabra
    return 1  # No se encontró

# Aplicación a un DataFrame
def apply_expert_dga(df, tld_set):
    df["expert_dga"] = df["domain_tld"].apply(lambda x: check_tld(x, tld_set))
    return df



In [328]:
tld_set = load_tld_list("top-1m.csv")

In [329]:
# Aplicar la función al DataFrame
df_dga = apply_expert_dga(df_dga, tld_set)

In [330]:
df_dga['expert_dga'].value_counts()

expert_dga
1    9
0    8
Name: count, dtype: int64

In [331]:
print("Cantidad de TLDs clasificados como DGA por expertos: ", len(df_dga[df_dga['expert_dga'] == 1]))

Cantidad de TLDs clasificados como DGA por expertos:  9


In [332]:
df_dga_expert = df_dga[df_dga['expert_dga'] == 1]
df_dga_expert = df_dga_expert.drop(columns=['expert_dga'])

In [333]:
df_dga_expert

Unnamed: 0,domain_tld
9,110phpmyadmin
11,localdomain
14,ntkrnlpa.info
35,"56"""
78,FL
80,saruman
95,vtlfccmfxlkgifuf.com
98,ejfodfmfxlkgifuf.xyz
99,192.168.22.201


In [334]:
# Filtrar df_final con los TLDs clasificados como DGA por expertos
df_final_dga = df_final[df_final['domain_tld'].isin(df_dga_expert['domain_tld'])]
df_final_dga

Unnamed: 0,rrname,domain_tld
518,192.168.22.110phpmyadmin,110phpmyadmin
547,secure.informaction.com.localdomain,localdomain
716,safebrowsing.clients.google.com.localdomain,localdomain
2879,192.168.22.110phpmyadmin.localdomain,localdomain
5071,proxim.ntkrnlpa.info,ntkrnlpa.info
51930,"""192.168.206.56""","56"""
122832,FL,FL
140857,saruman,saruman
223685,whitecell.localdomain,localdomain
339172,vtlfccmfxlkgifuf.com,vtlfccmfxlkgifuf.com


Función generada con el apoyo del modelo GPT 4o:
```
Cree una función de python que en base al TLD, devuelva la fecha de creación de este. Recibe como parametro un df con la columna domain_tld. Utiliza el módulo whois.query().
```

In [335]:
import whois

def get_tld_creation_date(df, tld_column='domain_tld'):
    
    if tld_column not in df.columns:
        raise ValueError(f"La columna '{tld_column}' no existe en el DataFrame")
    
    result_df = df.copy()
    result_df['creation_date'] = pd.NaT
    
    for index, row in result_df.iterrows():
        tld = row[tld_column]
        if pd.isna(tld) or not tld.strip():
            continue
        
        try:
            domain_info = whois.query(tld)
            if domain_info and domain_info.creation_date:
                result_df.at[index, 'creation_date'] = domain_info.creation_date
        except Exception as e:
            print(f"Error con {tld}: {str(e)}")
    
    return result_df


In [336]:
# Obtener fecha de creación de los TLDs clasificados como DGA por expertos
result_df = get_tld_creation_date(df_dga_expert)
result_df

Error con 192.168.22.201: The TLD 201 is currently not supported by this package. Use validTlds() to see what toplevel domains are supported.


Unnamed: 0,domain_tld,creation_date
9,110phpmyadmin,NaT
11,localdomain,NaT
14,ntkrnlpa.info,NaT
35,"56""",NaT
78,FL,NaT
80,saruman,NaT
95,vtlfccmfxlkgifuf.com,NaT
98,ejfodfmfxlkgifuf.xyz,NaT
99,192.168.22.201,NaT


Se intentó utilizar el módulo whois para determinar la fecha de creación de los TLD; sin embargo, no fue posible obtener la fecha de creación de los TLD filtrados, dado que estos son desconocidos para esta base de datos. 

**Recuerde que los dominios DGA son conocidos por formarse de forma aleatoria: secuencias aleatorias de caracteres, no palabras. Indique que dominios sospechosos tienen este patrón y que pueden confirmarse como dominios DGA.**

En los resultados, los dominios "ejfodfmfxlkgifuf.xyz" y "ejfodfmfxlkgifuf.com" parecen ser generados algorítmicamente (DGA). Son sospechosos porque no forman palabras reales, usan combinaciones aleatorias de letras sin sentido y tienen extensiones genéricas. Estos dominios parecen generados por un algoritmo para dificultar su rastreo, usando secuencias aleatorias de caracteres que no representan ningún nombre con significado.