# **TP2 NLP**
# **TUIA**

## **Alumno:** Ponce, Daniel

# **Segu Bot:**
Es un asistente virtual especializado en responder preguntas sobre seguridad informática y ataques cibernéticos.

Utiliza bases de datos como **Exploit-DB**, el sistema de enumeración y descripción de vulnerabilidades (**CVE**) y fuentes de noticias como **Segu-Info** como fuentes de alimentación del bot con información relevante y actualizada sobre seguridad informática.

**Exploit-DB**: Esta base de datos es una valiosa fuente de información sobre exploits y vulnerabilidades conocidas. Mantiene actualizado al bot sobre las últimas vulnerabilidades descubiertas, exploits publicados y detalles técnicos sobre cómo se pueden explotar estas vulnerabilidades.

**CVE (Common Vulnerabilities and Exposures)**: CVE es un sistema de enumeración y descripción de vulnerabilidades que proporciona identificadores únicos para las vulnerabilidades de seguridad conocidas. Integrar la base de datos CVE en el bot permite acceder a una amplia gama de información sobre vulnerabilidades, incluyendo descripciones detalladas de las vulnerabilidades, la gravedad de las mismas, las soluciones o parches disponibles, y cualquier otra información relevante.

**Segu-Info**: Segu-Info es una fuente confiable de noticias y actualizaciones sobre seguridad informática. Al integrarlo, lo mantiene informado sobre las últimas noticias, tendencias y eventos en el mundo de la seguridad cibernética. Esto puede incluir informes sobre nuevos ataques, vulnerabilidades importantes, consejos de seguridad, actualizaciones de productos y mucho más.


## **Instalar dependecias para la ejecución de los scrapper y armado de la base de datos neo4j**

In [1]:
!pip install requests beautifulsoup4
!pip install neo4j pandas
!pip install tqdm
!pip install langchain chromadb sentence-transformers langchain-openai pypdf python-decouple==3.8
!pip install unstructured==0.7.12
!pip install llama-index-vector-stores-chroma
!pip install llama-index-embeddings-huggingface
!pip install llama-index
!pip install requests
!pip install zoomeye

Collecting requests<3,>=2 (from langchain)
  Using cached requests-2.31.0-py3-none-any.whl (62 kB)
Installing collected packages: requests
  Attempting uninstall: requests
    Found existing installation: requests 2.26.0
    Uninstalling requests-2.26.0:
      Successfully uninstalled requests-2.26.0
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchdata 0.7.0 requires torch==2.1.0, but you have torch 2.2.1 which is incompatible.
torchtext 0.16.0 requires torch==2.1.0, but you have torch 2.2.1 which is incompatible.
torchvision 0.16.0+cu121 requires torch==2.1.0, but you have torch 2.2.1 which is incompatible.
zoomeye 2.2.0 requires requests==2.26.0, but you have requests 2.31.0 which is incompatible.[0m[31m
[0mSuccessfully installed requests-2.31.0
Collecting requests==2.26.0 (from zoomeye)
  Using cached requests-2.26.0-py2.py3-none-any.whl (62 kB)

La clase **Scraper** ha sido diseñada para obtener noticias de seguridad informática desde el sitio web de Seguinfo. Durante su desarrollo, se enfrentaron varios desafíos, uno de los cuales fue la necesidad de evitar el bloqueo de solicitudes por parte del servidor, así como evitar ser detectado mediante técnicas como el uso de proxies y user-agent aleatorios.

Se consideró que si el sitio web utiliza un Web Application Firewall (WAF), es muy probable que detecte tales técnicas, lo que requeriría un enfoque más sofisticado. En caso de que se bloquee el proxy, se necesitaría cambiar a otro método de conexión, como una red Tor o proxies privados. Sin embargo, es importante tener en cuenta que el uso de Tor puede ralentizar significativamente el proceso debido a su naturaleza de anonimato.

Con estas consideraciones en mente, opté por diseñar la clase Scraper de manera que equilibre la necesidad de evitar la detección con la funcionalidad requerida

In [2]:
import os
if not os.path.exists('data'):
  os.mkdir('data')

In [3]:
from concurrent.futures import ThreadPoolExecutor
import random
import re
import time
from tqdm import tqdm
import requests
from bs4 import BeautifulSoup
import xml.etree.ElementTree as ET
import logging
import pandas as pd

def remove_p_with_a(tag):
    return tag.name == 'p' and tag.find('a')

def remove_p_with_span(tag):
    return tag.name == 'p' and tag.find('span')

def extract_elements(div_with_classes, element_name, condition=None):
    elements = div_with_classes.find_all(element_name) if not condition else div_with_classes.find_all(condition)
    for elem in elements:
        elem.extract()

def clean_text(text):
    text = text.replace('\n', '')
    text = re.sub(r'[,|\t]', ' ', text)
    return text

def has_unwanted_elements(element):
    unwanted_tags = ['noscript', 'img', 'script', 'div', 'section', 'span']
    return element.name in unwanted_tags

def clean_p(div_with_classes):
    if any(div_with_classes.find_all(has_unwanted_elements)):
        return clean_text(div_with_classes.get_text(strip=True, separator=' '))

    tags = ['noscript', 'img', 'script', 'div', 'section', 'span']
    extract_elements(div_with_classes, tags)

    extract_elements(div_with_classes, ['p'], remove_p_with_a)
    extract_elements(div_with_classes, ['p'], remove_p_with_span)

    paragraphs = div_with_classes.find_all('p')
    text = ''.join(paragraph.text for paragraph in paragraphs)
    text = clean_text(text)
    return text

USER_AGENTS = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 '
    'Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 '
    'Safari/537.36',
    'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110'
    'Safari/537.36',
    'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 '
    'Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100'
    'Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 '
    'Safari/537.36',
    'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 '
    'Safari/537.36',
    'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 '
    'Safari/537.36'
]




class Scraper:
    def __init__(self, output_file, url, request_delay=1):
        """
        constructor de la clase Scraper con las URLs de los sitios a trabajar.

        Args:
            request_delay: tiempo entre peticion
            output_file (str): Nombre del archivo CSV de salida.
            url (str): URL de noticias de seguridad .xml.

        """
        self.security_url = url
        self.output_file = output_file
        self.request_delay = request_delay

        logging.basicConfig(filename='scraper.log', level=logging.INFO,
                            format='%(asctime)s [%(levelname)s]: %(message)s')

    def get_news_urls(self, url):
        try:
            headers = {'User-Agent': get_random_user_agent()}
            response = requests.get(url, headers=headers, stream=True)
            if response.status_code == 200:
                root = ET.fromstring(response.content)
                url_list = []
                for url_elem in root.findall(".//{http://www.sitemaps.org/schemas/sitemap/0.9}url"):
                    loc_elem = url_elem.find("{http://www.sitemaps.org/schemas/sitemap/0.9}loc")
                    if loc_elem is not None:
                        url = loc_elem.text
                        url_list.append(url)
                return url_list
        except Exception as e:
            logging.error(f"Error al obtener URLs de noticias: {e}")
            return []

    def scrape_url(self, url, body='post-body entry-content', category='Seguridad Informatica'):
        try:
            headers = {'User-Agent': get_random_user_agent()}
            response_url = requests.get(url, headers=headers, stream=True)
            if response_url.status_code == 200:
                soup = BeautifulSoup(response_url.text, 'html.parser')

                if category == 'Seguridad Informatica':
                    title = soup.find('h2', class_='post-title entry-title')
                    if title:
                        title = title.text.replace('\n', '').lstrip()
                    else:
                        title = "No title found"
                else:
                    title = soup.h1.text
                    title = title.replace('\n', '').lstrip()
                div_with_classes = soup.find('div', class_=body)
                if div_with_classes:
                    text = clean_p(div_with_classes)
                    _file = open(self.output_file, 'a')
                    _file.write(title + '\n')
                    _file.write(text + '\n')
                    _file.close()
        except Exception as e:
            logging.error(f"Error al obtener la URL: {url}, {e}")

    def scrape_security_news(self, site_url):
      security_news_urls = self.get_news_urls(site_url)[0:201]
      with ThreadPoolExecutor(max_workers=10) as executor:  # Establecemos el número máximo de hilos
          batch_size = 100
          for i in range(0, len(security_news_urls), batch_size):
              url_batch = security_news_urls[i:i+batch_size]
              try:
                executor.submit(self.process_batch, url_batch, 'post-body entry-content', 'Seguridad Informatica')
              except ConnectionError as e:
                print('error ', e)

    def process_batch(self, url_batch, class_name, category):
        for url in url_batch:
            self.scrape_url(url, class_name, category)

    def run(self):
      result = self._contains_xml(self.security_url)
      if result is None:
          print("Error: No se pudo obtener la información del sitemap.")
          return
      constains_xml, sub_xml = result
      if constains_xml:
          for link in self._get_link_xml(sub_xml):
            self.scrape_security_news(link)
      else:
          self.scrape_security_news(self.security_url)

    def _contains_xml(self, url):
      try:

          headers = {'User-Agent': get_random_user_agent()}
          response = requests.get(url, headers=headers)
          if response.status_code == 200:
              response_text = response.text
              if '.xml' in response_text:
                  return True, response_text
              else:
                  return False, None
      except requests.ConnectionError as ce:
          # Manejo específico para errores de conexión
          print('Error de conexión:', ce)
          logging.error(f"Error de conexión al obtener url: {ce}")
          return False, None
      except requests.RequestException as re:
          # Manejo general para otros tipos de errores de solicitud
          print('Error de solicitud:', re)
          logging.error(f"Error de solicitud al obtener url: {re}")
          return False, None

    def _get_link_xml(self, xml_content):
        root = ET.fromstring(xml_content)
        for sitemap in root.findall("{http://www.sitemaps.org/schemas/sitemap/0.9}sitemap"):
            yield sitemap.find("{http://www.sitemaps.org/schemas/sitemap/0.9}loc").text

def get_random_user_agent():
    """
        Obtiene un User-Agent aleatorio de la lista de User-Agents.
        Returns:
            str: User-Agent aleatorio.
    """
    return random.choice(USER_AGENTS)




## Ejecutar el scrapper

In [4]:
scraper = Scraper(url='http://blog.segu-info.com.ar/sitemap.xml?page=1', output_file='/content/data/segu-info.txt')
scraper.run()

201
<Response [200]> http://blog.segu-info.com.ar/2023/12/mas-de-20000-servidores-microsoft.html
<Response [200]> http://blog.segu-info.com.ar/2024/03/en-espana-sera-ilegal-fotocopiar-el-dni.html
<Response [200]> http://blog.segu-info.com.ar/2023/12/bloquear-lolbins-con-el-firewall-de.html
<Response [200]> http://blog.segu-info.com.ar/2024/03/alphvblackcat-estaba-de-vuelta-y-los.html
<Response [200]> http://blog.segu-info.com.ar/2023/12/ransomware-black-basta-recibio-al-menos.html
<Response [200]> http://blog.segu-info.com.ar/2024/03/github-aloja-repositorios-clonados-con.html
<Response [200]> http://blog.segu-info.com.ar/2023/11/nuevo-zero-day-en-google-chrome.html
<Response [200]> http://blog.segu-info.com.ar/2024/02/guias-para-analisis-webapi-owasp-wstg.html
<Response [200]> http://blog.segu-info.com.ar/2023/09/blastpass-zero-days-exploit-y-cadena-de.html
<Response [200]> http://blog.segu-info.com.ar/2023/11/en-eu-fichar-con-la-huella-dactilar-en.html
<Response [200]> http://blog.se

# Descargar las base de datos de **Exploit Database**:

In [5]:
!wget -P /content/data/ https://gitlab.com/exploit-database/exploitdb/-/raw/main/files_exploits.csv

--2024-03-06 20:48:32--  https://gitlab.com/exploit-database/exploitdb/-/raw/main/files_exploits.csv
Resolving gitlab.com (gitlab.com)... 172.65.251.78, 2606:4700:90:0:f22e:fbec:5bed:a9b9
Connecting to gitlab.com (gitlab.com)|172.65.251.78|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 10039155 (9.6M) [text/plain]
Saving to: ‘/content/data/files_exploits.csv’


2024-03-06 20:48:32 (90.1 MB/s) - ‘/content/data/files_exploits.csv’ saved [10039155/10039155]



# Descargar la base de datos de **CVE**:

In [6]:
!wget -P /content/data/ https://cve.mitre.org/data/downloads/allitems.csv

--2024-03-06 20:48:32--  https://cve.mitre.org/data/downloads/allitems.csv
Resolving cve.mitre.org (cve.mitre.org)... 192.52.194.205, 198.49.146.205
Connecting to cve.mitre.org (cve.mitre.org)|192.52.194.205|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 195783362 (187M) [text/csv]
Saving to: ‘/content/data/allitems.csv’


2024-03-06 20:48:38 (31.5 MB/s) - ‘/content/data/allitems.csv’ saved [195783362/195783362]



**Se eliminan las filas que no se utilizarán en el análisis ya que no contienen información relevante.**

In [7]:
df = pd.read_csv('/content/data/allitems.csv', skiprows=2, encoding='latin-1')
df = df.drop(index=range(0, 7))
df = df.drop('References', axis=1)
df = df.drop('Phase', axis=1)
df = df.drop('Votes', axis=1)
df = df.drop('Comments', axis=1)
df.to_csv('/content/data/allitems.csv', index=False)

  df = pd.read_csv('/content/data/allitems.csv', skiprows=2, encoding='latin-1')


# **Base de datos Neo4j:**
La estructura de la base de datos está diseñada para representar información sobre exploits y sus atributos asociados.

Cada **exploit** está representado como un nodo en el grafo y se identifica de manera única por su ID. Los nodos de exploit contienen información detallada, como el archivo asociado, la descripción, la fecha de publicación, el autor, el tipo, las fechas de agregación y actualización, la verificación, los códigos, las etiquetas, los alias y las URL, aplicaciones y fuentes.
Los exploits pueden afectar a diferentes plataformas, y esta relación se modela mediante una relación de "**Afecta_a**" entre los nodos de exploit y los nodos de plataforma. Cada plataforma afectada se representa como un nodo en el grafo con un nombre único.

Además, los exploits pueden usar diferentes puertos, lo que se modela mediante una relación de "**Usa_puerto**" entre los nodos de exploit y los nodos de puerto. Cada puerto utilizado se representa como un nodo en el grafo con un número único.

Las etiquetas son otra característica importante de los exploits y se representan como nodos de etiqueta en el grafo. Cada etiqueta se asocia con un exploit a través de una relación de "**Tiene_etiqueta**".

In [8]:
from neo4j import GraphDatabase
from tqdm import tqdm
import math

class ExploitDatabase:
    def __init__(self, uri, username, password):
        self.driver = GraphDatabase.driver(uri, auth=(username, password))

    def close(self):
        self.driver.close()

    def load_data(self, rows):
        with self.driver.session() as session:
            exploit_node_count = 0
            platform_node_count = 0
            port_node_count = 0

            # Crear nodos Exploit
            for row in tqdm(rows, desc="Creating Exploit Nodes"):
                exploit_node = session.write_transaction(self._create_exploit_node, row)
                exploit_node_count += 1

            # Crear nodos Platform
            for row in tqdm(rows, desc="Creating Platform Nodes"):
                self._create_platform_node(session, row)
                platform_node_count += 1

            # Crear nodos Port
            for row in tqdm(rows, desc="Creating Port Nodes"):
                self._create_port_node(session, row)
                port_node_count += 1

            print(f"Total Exploit Nodes created: {exploit_node_count}")
            print(f"Total Platform Nodes created: {platform_node_count}")
            print(f"Total Port Nodes created: {port_node_count}")

            # Crear relaciones entre los nodos
            for row in tqdm(rows, desc="Creating Relationships"):
                exploit_node = session.run("MATCH (e:Exploit {id: $id}) RETURN e", id=row["id"]).single()[0]
                platform_node = session.run("MATCH (p:Platform {name: $platform}) RETURN p", platform=row["platform"]).single()[0]
                port_node = session.run("MATCH (pt:Port {number: $port}) RETURN pt", port=row["port"]).single()[0]
                session.run("""
                    MATCH (e:Exploit {id: $exploit_id}), (p:Platform {name: $platform}), (pt:Port {number: $port})
                    MERGE (e)-[:Afecta_a]->(p)
                    MERGE (e)-[:Usa_puerto]->(pt)
                """, exploit_id=exploit_node["id"], platform=row["platform"], port=row["port"])

    def clean(self):
      with self.driver.session() as session:
        session.run(
            """
            MATCH (n) DETACH DELETE n;
            """
        )

    @staticmethod
    def _create_exploit_node(tx, row):
        return tx.run("""
            MERGE (e:Exploit {id: $id})
            ON CREATE SET e.file = $file, e.description = $description,
            e.type = $type, e.date_published = $date_published,
            e.verified = $verified, e.codes = $codes, e.aliases = $aliases,
            e.screenshot_url = $screenshot_url, e.application_url = $application_url
            RETURN e
        """, **row).single()

    @staticmethod
    def _create_platform_node(session, row):
        session.run("""
            MERGE (p:Platform {name: $platform})
        """, **row)

    @staticmethod
    def _create_port_node(session, row):
        session.run("""
            MERGE (pt:Port {number: $port})
        """, **row)


    def execute_query(self, cypher_query):
      results = []
      query = ''
      with self.driver.session() as session:
        result = session.run(cypher_query)
        i= 0
        for record in result:
          if i == 9:
            break
          tmp = record['e']
          if isinstance(tmp["codes"], str):
            query+=tmp['codes']+','
            rec ={
                'codigo': tmp['codes'],
                'file': tmp['file'],
                'type': tmp['type'],
                'description': tmp['description']
            }
            results.append(rec)
            i+=1
        return results,query[:-1]


Decido solo armar el grafo con los datos que son apartir del 2018 para enfocarme en las vulnerabilidades desde ese año en adelante.

In [9]:
exploit_db = ExploitDatabase(
    uri="neo4j+s://c191f6c4.databases.neo4j.io",
    username="neo4j",
    password="ETTVfKQN5HlHptA8rQ0FaNeqljttW76ZY7IlcyXx3vQ"
)
exploit_db.clean()
df = pd.read_csv('/content/data/files_exploits.csv')
df['port'] = df['port'].fillna(0)

df['date_published'] = pd.to_datetime(df['date_published'])

# Filtrar para obtener solo los registros de 2018 en adelante
df = df[df['date_published'].dt.year >= 2018]
data_list = df.to_dict(orient='records')
exploit_db.load_data(data_list)

  exploit_node = session.write_transaction(self._create_exploit_node, row)
Creating Exploit Nodes: 100%|██████████| 7684/7684 [01:40<00:00, 76.43it/s]
Creating Platform Nodes: 100%|██████████| 7684/7684 [00:28<00:00, 272.40it/s]
Creating Port Nodes: 100%|██████████| 7684/7684 [00:26<00:00, 288.90it/s]


Total Exploit Nodes created: 7684
Total Platform Nodes created: 7684
Total Port Nodes created: 7684


Creating Relationships: 100%|██████████| 7684/7684 [02:47<00:00, 45.77it/s]


# **Comenzamos la contrucción del RAG**

Instalar las dependencias necesarias para la construcción del RAG.

In [10]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.core import StorageContext
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from jinja2 import Template
from decouple import config
import chromadb
import pandas as pd
import requests
from transformers import AutoTokenizer

In [11]:
exploit_db = ExploitDatabase(
    uri="neo4j+s://c191f6c4.databases.neo4j.io",
    username="neo4j",
    password="ETTVfKQN5HlHptA8rQ0FaNeqljttW76ZY7IlcyXx3vQ"
)

In [12]:
HF_TOKEN = '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'

Sería más apropiado almacenar nuestro token de Hugging Face en un archivo de configuración, como .env, esto proporcionaría una mejor separación de funciones y facilitaría la gestión de los tokens de forma segura.

In [33]:
from zoomeye.sdk import ZoomEye
zm = ZoomEye(api_key="335FF578-20b7-4DfA8-3349-ab60377d90a")
def get_host(vuln):
  vuln_name = vuln['codigo']
  print(f'Vulnerabilidad: {vuln_name}')
  search = vuln['description'].split(' - ')[0]
  hosts = zm.dork_search(f"{search}")
  for host in hosts:
    print(host)


In [13]:
def contar_tokens(texto, modelo):
    tokenizer = AutoTokenizer.from_pretrained(modelo)
    tokens = tokenizer(texto)['input_ids']
    return len(tokens)

def zephyr_instruct_template(messages, add_generation_prompt=True):
    # Definir la plantilla Jinja
    template_str = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"
    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)
    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(
        messages=messages,
        add_generation_prompt=add_generation_prompt
        )

En este bloque, defino cómo interactuar con el modelo de lenguaje (**LLM**) de manera online. Cuando comencé este proyecto, considere inicialmente utilizar un **LLM local**. Sin embargo, note que el tiempo de respuesta era considerablemente largo. Debido a esta limitación, opte por utilizar un **LLM** remoto, que me proporciona respuestas más rápidas y eficientes.

In [14]:
def generate_answer(prompt: str, max_new_tokens: int = 2000) -> None:
    try:
        api_key = config('HUGGINGFACE_TOKEN', HF_TOKEN)

        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
        headers = {"Authorization": f"Bearer {api_key}"}

        data = {
            "inputs": prompt,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }
        response = requests.post(api_url, headers=headers, json=data)
        respuesta = response.json()[0]["generated_text"]
        return respuesta
    except Exception as e:
        print(f"An error occurred: {e}")

**Temperatura**: Controla la creatividad del texto generado. Valores más altos hacen que el texto sea más creativo pero menos coherente, mientras que valores más bajos hacen que sea más predecible y coherente.

**Top-k**: Limita la cantidad de tokens considerados en cada paso de generación. Selecciona los top-k tokens con las probabilidades más altas, evitando predicciones poco probables.

**Top-p**: Controla la diversidad del texto generado. Selecciona tokens hasta que la suma acumulada de las probabilidades alcance un umbral definido por top-p, adaptándose dinámicamente a las probabilidades de los tokens.

# Esta función prepara el prompt en estilo QA (pregunta-respuesta)

In [27]:
def prepare_prompt(query_str: str, context_str: str):
  TEXT_QA_PROMPT_TMPL = (
      "La información de contexto es la siguiente:\n"
      "---------------------\n"
      "{context_str}\n"
      "---------------------\n"
      "Dada la información de contexto anterior, y sin utilizar conocimiento previo, responde la siguiente pregunta. En espa\n"
      "Pregunta: {query_str}\n"
      "Respuesta: "
  )
  system_message = (
        "¡Accediendo al sistema! Preparando la respuesta...\n"
        "Como un experto en hacking, estoy aquí para proporcionar respuestas precisas y relevantes."
    )

  messages = [
      {
          "role": "system",
          #"content": "Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos.",
          "content":system_message
      },
      {"role": "user", "content": TEXT_QA_PROMPT_TMPL.format(context_str=context_str, query_str=query_str)},
  ]
  final_prompt = zephyr_instruct_template(messages)
  return final_prompt

In [16]:
def get_information_from_neo4j(query: str):
  operating_system = {
      "(p:Platform {name: 'alpha'}) OR (p:Platform {name: 'FreeBSD_x86-64'})"
      "alpha": "(p:Platform {name: 'alpha'})",
      "android": "(p:Platform {name: 'android'}) ",
      "ashx": "(p:Platform {name: 'ashx'})",
      "asp": "(p:Platform {name: 'asp'})",
      "aspx": "(p:Platform {name: 'aspx'})",
      "cfm": "(p:Platform {name: 'cfm'})",
      "cgi": "(p:Platform {name: 'cgi'})",
      "freebsd": "(p:Platform) WHERE p.name IN [ 'freebsd', 'FreeBSD_x86-64']",
      "go": "(p:Platform {name: 'go'})",
      "hardware": "(p:Platform {name: 'hardware'})",
      "ios":"(p:Platform {name: 'ios'})",
      "java": "(p:Platform {name: 'java'})",
      "json": "(p:Platform {name: 'json'})",
      "jsp": "(p:Platform {name: 'jsp'})",
      "linux": "(p:Platform) WHERE p.name IN ['linux', 'linux_x86']",
      "lua": "(p:Platform {name: 'lua'})",
      "nodejs": "(p:Platform {name: 'nodejs'})",
      "openbsd":"(p:Platform {name: 'openbsd'})",
      "osx": "(p:Platform {name: 'osx'})",
      "perl": "(p:Platform {name: 'perl'})",
      "php": "(p:Platform {name: 'php'})",
      "python": "(p:Platform {name: 'python'}) WHERE e.type = 'remoto'",
      "ruby": "(p:Platform {name: 'ruby'})",
      "sco": "(p:Platform {name: 'sco'})",
      "solaris": "(p:Platform {name: 'solaris'})",
      "tru64": "(p:Platform {name: 'tru64'})",
      "typescript": "(p:Platform {name: 'typescript'})",
      "unix": "(p:Platform {name: 'unix'})",
      "vxworks": "(p:Platform {name: 'vxworks'})",
      "watchos": "(p:Platform {name: 'watchos'})",
      "windows": "(p:Platform) WHERE p.name IN ['windows','windows_x86', 'windows_x86-64'] ",
      "xml": "(p:Platform {name: 'xml'})"
  }

  detect_atack = [
      'vulnerabilidad',
      'hackiar',
      'atacar','atacarias','ataco',
      'hackear',
      'hack',
      'exploit',
      'exploits',
      '0day',
      'zeroday',
      'hacking',
      'vuln',
      'vul',
      'explotar',
      'vulnerar'
  ]
  has_atack = False
  has_operating_system = False

  for actack in detect_atack:

    if actack in query:

      has_atack = True

  if has_atack:
    for os in operating_system.keys():
        if os in query:
          has_operating_system = operating_system[os]

  if has_atack and has_operating_system:
    _query = f"MATCH (e:Exploit)-[:Afecta_a]->{has_operating_system} RETURN e ORDER BY e.date_published DESC"
    return exploit_db.execute_query(_query)
  return [],''

# **Carga de modelo de embeddings**

In [17]:
model_name = "sentence-transformers/distiluse-base-multilingual-cased-v2"
embed_model = HuggingFaceEmbedding(model_name=model_name)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/610 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/539M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/531 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Defino el nombre de la colección como **"seguridad"**, donde posteriormente se almacenarán los embeddings generados a partir del procesamiento de los archivos.

In [18]:
chroma_client = chromadb.PersistentClient()
try:
  chroma_client.delete_collection("seguridad")
except Exception as e:
  print(e)
chroma_collection = chroma_client.create_collection("seguridad")
print('fue credo correctmente')

Collection seguridad does not exist.
fue credo correctmente


#**Proceso de creación de los embeddings**

Decidí tomar un subconjunto de 500 entradas del dataset CVE, que
originalmente contiene 307491 registros, para entrenar el modelo. Esta decisión la tomé debido al tiempo considerable que llevaría el entrenamiento si se utilizara todo el dataset.

In [19]:
header = pd.read_csv('/content/data/allitems.csv', nrows=1)
total_rows = sum(1 for line in open('/content/data/allitems.csv'))
skip_rows = max(0, total_rows - 500)
last_500_rows = pd.read_csv('/content/data/allitems.csv', skiprows=skip_rows, header=None)
cve_df = pd.concat([header, last_500_rows], ignore_index=True)
cve_df.to_csv('/content/data/cve.csv', index=False)

Seleccioné los archivos con los cuales voy a realizar los embeddings.


In [20]:
documents = SimpleDirectoryReader(
    input_files=["/content/data/cve.csv",
                "/content/data/segu-info.txt"]
).load_data()
vector_store = ChromaVectorStore(chroma_collection=chroma_collection)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(
    documents, show_progress=True, storage_context=storage_context, embed_model=embed_model
)
retriever = index.as_retriever(similarity_top_k=2)

Parsing nodes:   0%|          | 0/2 [00:00<?, ?it/s]

Generating embeddings:   0%|          | 0/331 [00:00<?, ?it/s]

## **RAG :**

In [34]:
while True:
    query_str = input("Ingrese su consulta sobre seguridad informatica: ")
    query_print = query_str
    vulns,query_ghap = get_information_from_neo4j(query_str)

    # print(query_ghap, vulns)
    query_ghap = ' '+ query_ghap
    query_str += query_ghap
    query_str += ' Responde en español siempre.'
    nodes = retriever.retrieve(query_str)
    # Construimos el contexto para usar con el LLM
    context_str = ''
    for node in nodes:
        if 'page_label' in node.metadata:
          page_label = node.metadata["page_label"]
        else:
          page_label = 0
        file_path = node.metadata["file_path"]
        context_str += f"\npage_label: {page_label}\n"
        context_str += f"file_path: {file_path}\n\n"
        context_str += f"{node.text}\n"
    #print(f'context_str: {context_str}')

    final_prompt = prepare_prompt(query_str, context_str)
    print('Pregunta:', query_print)
    print('Respuesta:')
    resp = generate_answer(final_prompt)
    print(resp)
    if 'jugar' in query_print:
      for vuln in vulns:
        get_host(vuln)

Ingrese su consulta sobre seguridad informatica: como hackear windows jugar
Pregunta: como hackear windows jugar
Respuesta:
An error occurred: 0
None
Vulnerabilidad: CVE-2024-22318
{'jarm': '', 'ico': {'mmh3': '', 'md5': ''}, 'txtfile': {'robotsmd5': '', 'securitymd5': ''}, 'ip': '138.68.36.135', 'portinfo': {'hostname': '', 'os': '', 'port': 5701, 'service': 'http', 'title': None, 'version': '', 'device': '', 'extrainfo': '', 'rdns': '', 'app': 'mini_httpd', 'banner': 'HTTP/1.1 200 OK\r\ncontent-type: text/html; charset=UTF-8\r\ncontent-length: 9122\r\nserver: mini_httpd/1.19 19dec2003\r\nconnection: close\r\n\r\n<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\n<html>\n<head>\n<meta http-equiv="Cache-Control" content="no-cache" />\n<meta http-equiv="Pragma" content="no-cache" />\n<meta http-equiv="Expires" content="-1">\n<meta http-equiv="content-type" content="text/html; charset=utf-8" />\n<link href="common.css" rel="stylesheet"

KeyboardInterrupt: 

# **Conclusión:**

Con este proyecto busque explorar, por medio de diversas técnicas, las vulnerabilidades que existen dentro de los sistemas, enfocado desde el punto de vista de la seguridad informática.

Al aprovechar fuentes de datos abiertas y aplicar técnicas de web scraping, he creado un bot capaz de recopilar información sobre vulnerabilidades de seguridad informática. Aunque la intención no es utilizar esta información para fines maliciosos, el proceso me ha brindado una visión única de cómo alguien con conocimientos básicos de programación y procesamiento de lenguaje puede desarrollar herramientas que detectan vulnerabilidades en los sistemas.

He tenido la oportunidad de aprender sobre diversas áreas de la seguridad informática, desde el funcionamiento interno de los scrapper hasta las medidas de evasión de detección utilizadas por los bots.

Además, este proyecto me ha permitido reflexionar sobre la importancia de la ética en la seguridad informática. Si bien es emocionante crear herramientas que puedan recopilar datos valiosos, es crucial recordar siempre utilizar estos conocimientos de manera responsable y ética. La seguridad informática es un campo poderoso que puede tener un gran impacto en la sociedad, y es fundamental que aquellos que trabajan en él lo hagan con integridad y respeto.

**Happy code**