Parte 1 – Filtrado y preprocesamiento

Cargue la información del archivo large_even.json en una lista, muestre la cantidad de
registros total (deben ser 746, 909). Este es nuestro tráfico inicial!

In [2]:
import json


total_records = 0
dns_events = []
all_events=[]


with open('large_eve.json', 'r') as file:
    for line in file:
        total_records += 1
        try:
            
            data = json.loads(line)
            all_events.append(data)
            if data.get('event_type') == 'dns':
                dns_events.append(data)
        
            # print(data)
        except json.JSONDecodeError as e:
            print(f"Error en la línea: {line}")
            print(f"Detalles del error: {e}")
print(f"Total de registros en el archivo: {total_records}")

Total de registros en el archivo: 746909


Debido a que estamos buscando dominios web, del total de registros, solamente estamos
interesados en los registros DNS. Cargue únicamente aquellos registros que sean DNS.

In [3]:

# Guardar los eventos DNS en un nuevo archivo JSON
with open('dns_events.json', 'w') as outfile:
    json.dump(dns_events, outfile, indent=4)

print(f"{len(dns_events)} eventos DNS guardados en 'dns_events.json'.")

15749 eventos DNS guardados en 'dns_events.json'.


Muestre la información de 2 registros cualesquiera

In [4]:
print(all_events[12])
print(all_events[20])

{'timestamp': '2017-07-22T17:33:17.786254-0500', 'flow_id': 1135816796360543, 'pcap_cnt': 30365, 'event_type': 'http', 'vlan': 140, 'src_ip': '192.168.204.59', 'src_port': 38012, 'dest_ip': '192.168.24.201', 'dest_port': 80, 'proto': 'TCP', 'tx_id': 1, 'http': {'hostname': '192.168.24.201', 'url': '/phppgadmin/browser.php', 'http_user_agent': 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.15) Gecko/2009102814 Ubuntu/8.10 (intrepid) Firefox/3.0.15', 'http_content_type': 'text/html', 'http_refer': 'http://192.168.24.201/phppgadmin/', 'http_method': 'GET', 'protocol': 'HTTP/1.1', 'status': 200, 'length': 1125}}
{'timestamp': '2017-07-22T17:33:18.003156-0500', 'flow_id': 1135816796360543, 'pcap_cnt': 32000, 'event_type': 'http', 'vlan': 140, 'src_ip': '192.168.204.59', 'src_port': 38012, 'dest_ip': '192.168.24.201', 'dest_port': 80, 'proto': 'TCP', 'tx_id': 5, 'http': {'hostname': '192.168.24.201', 'url': '/phppgadmin/xloadtree/xloadtree2.js', 'http_user_agent': 'Mozilla/5.0 (X11; U; Li

Debido a que la data consiste en estructuras JSON anidadas, utilice la característica
json_normalize para normalizar la información y asignarla en un dataframe. Muestre el shape
del dataframe

In [5]:
from pandas import json_normalize

# Normalizar la data JSON anidada
df = json_normalize(all_events)

# Mostrar shape del DataFrame
print("Shape del DataFrame:", df.shape)

Shape del DataFrame: (746909, 199)


Como estamos buscando dominios DGA, debemos filtrar los registros DNS para aquellos
registros tipo A (son aquellos que mantienen una dirección IP asociada a un dominio)

In [6]:
import json

# Cargar los eventos DNS guardados
with open('dns_events.json', 'r') as f:
    dns_events = json.load(f)

# Filtrar consultas DNS donde rrtype sea 'A'
dns_rrtype_a = [
    event for event in dns_events
    if event.get("dns", {}).get("rrtype") == "A"
]

# Mostrar cantidad de registros con rrtype A
print("Cantidad de consultas DNS tipo A:", len(dns_rrtype_a))


Cantidad de consultas DNS tipo A: 2849


Filtre los dominios únicos

In [7]:
# Extraer los dominios (rrname) de los eventos DNS tipo A
dominios = [event["dns"]["rrname"] for event in dns_rrtype_a if "rrname" in event["dns"]]

# Obtener dominios únicos
dominios_unicos = set(dominios)

# Mostrar cantidad y ejemplo
print(f"Cantidad de dominios únicos: {len(dominios_unicos)}")
print("Ejemplo de dominios únicos:")
for dominio in list(dominios_unicos)[:10]:
    print("-", dominio)


Cantidad de dominios únicos: 177
Ejemplo de dominios únicos:
- 
- www.arduino.cc
- www.freepbx.org
- tools.google.com.ad.aol.aoltw.net
- ueip.vmware.com
- secure.informaction.com.home
- widgets.alexa.com
- gg.arrancar.org
- www.sql-ledger.org
- mirrors.tummy.com


Escriba una función que obtenga el TLD para un dominio. Por ejemplo, para
api.wunderground.com el TLD es wunderground.com, para
safebrowsing.clients.google.com.home, el TLD es home. Utilice un LLM para ayudarle a
escribir esta función, verifique que obtiene correctamente el TLD, incluya el prompt utilizado
en su notebook.

In [8]:
# 1. Función para extraer el TLD
def obtener_tld(dominio):
    """
    Extrae el TLD personalizado de un dominio.
    - Si termina en '.home', retorna 'home'.
    - Si tiene múltiples subdominios, retorna los dos últimos segmentos (como dominio.tld).
    """
    partes = dominio.strip('.').split('.')
    if len(partes) == 1:
        return partes[0]
    elif partes[-1] == "home":
        return "home"
    else:
        return ".".join(partes[-2:])  # dominio.tld

# 2. Extraer los dominios de los registros DNS tipo A
dominios = [event["dns"]["rrname"] for event in dns_rrtype_a if "rrname" in event["dns"]]

# 3. Obtener TLDs aplicando la función
tlds = [obtener_tld(d) for d in dominios]

# 4. Mostrar algunos TLDs únicos y su cantidad
tlds_unicos = set(tlds)
print(f"Cantidad de TLDs únicos: {len(tlds_unicos)}")

print("Ejemplo de TLDs únicos:")
for t in list(tlds_unicos)[:10]:
    print("-", t)


Cantidad de TLDs únicos: 106
Ejemplo de TLDs únicos:
- 
- youtube.com
- tummy.com
- nvidia.com
- 22.201:
- mozilla.com
- usf.edu
- sql-ledger.org
- bluehost.com
- umoss.org


Utilice Gemini para clasificar los dominios como DGA (1) o legítimos (0).

In [17]:
import json
import google.generativeai as genai

with open('dns_events.json', 'r') as f:
    dns_events = json.load(f)

dominios = [
    event['dns']['rrname']
    for event in dns_events
    if event.get('dns', {}).get('rrtype') == 'A' and 'rrname' in event['dns']
]


dominios_unicos = list(set(dominios))

genai.configure(api_key="AIzaSyBIjVW_T1yEKT-5SQKxes-8jxJqLeV389A")

model = genai.GenerativeModel(model_name="models/gemini-1.5-pro-latest")


prompt = (
    "Actúa como un detector de dominios DGA.\n"
    "Devuelve 1 si es DGA, 0 si es legítimo.\n"
    "Formato JSON por dominio.\n"
    "Ejemplos:\n"
    "- google.com → 0\n"
    "- asdkl123zx.biz → 1\n"
    "Ahora clasifica y dime cuantos registros DGA unicos hay:\n" +
    "\n".join(f"- {dominio}" for dominio in dominios_unicos)
)


response = model.generate_content(prompt)
print(response.text)


```json
{
  "www.arduino.cc": 0,
  "www.freepbx.org": 0,
  "tools.google.com.ad.aol.aoltw.net": 0,
  "ueip.vmware.com": 0,
  "secure.informaction.com.home": 0,
  "widgets.alexa.com": 0,
  "gg.arrancar.org": 0,
  "www.sql-ledger.org": 0,
  "mirrors.tummy.com": 0,
  "aolmtcmxm04.office.aol.com.ad.aol.aoltw.net": 1,
  "safebrowsing.clients.google.com.localdomain": 0,
  "safebrowsing.clients.google.com.stayonline.net": 0,
  "192.168.26-27.0": 1,
  "repo.genomics.upenn.edu": 0,
  "192.168.22.201:.stayonline.net": 1,
  "hpca-tier2.office.aol.com": 1,
  "AOLDTCMA04.ad.aol.aoltw.net": 1,
  "www.acunetix.com": 0,
  "192.168.21.1201": 1,
  "www.securityfocus.com": 0,
  "1922.168.22.254": 1,
  "www.metasploit.com.office.aol.com": 0,
  "www.stopbadware.org": 0,
  "clients1.google.com.ad.aol.aoltw.net": 0,
  "whitecell.localdomain": 0,
  "www.sql-ledger.org.hsd1.pa.comcast.net": 0,
  "safebrowsing.clients.google.com.hsd1.pa.comcast.net": 0,
  "ky.hec.net": 0,
  "secure.informaction.com": 0,
  "mirr