# 01- Extracción de vulnerabilidades desde la API del NIST
Este notebook consulta la API pública del NIST para obtener vulnerabilidades (CVEs) que contengan una palabra clave específica (como 'windows') y que hayan sido modificadas en un año determinado. Luego exporta los datos filtrados a un archivo CSV para análisis posterior.

# Instalar dependencias necesarias en el terminal del DevContainer

In [None]:
pip install requests pandas matplotlib seaborn psycopg2-binar python-dotenv

Defaulting to user installation because normal site-packages is not writeable
Collecting requests
  Downloading requests-2.32.3-py3-none-any.whl.metadata (4.6 kB)
Collecting pandas
  Downloading pandas-2.2.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (89 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m89.9/89.9 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting matplotlib
  Downloading matplotlib-3.10.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting sqlalchemy
  Downloading sqlalchemy-2.0.40-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.6 kB)
Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Collecting charset-normalizer<4,>=2 (from requests)
  Downloading charset_normalizer-3.4.1-cp311-cp311-ma

## Importacion de librerias necesarias y api key de NIST para no tener los bloqueos

In [12]:
import requests
from datetime import datetime
import pandas as pd
from dotenv import load_dotenv
import os

# Cargar variables desde .env
load_dotenv()
API_KEY = os.getenv("NIST_API_KEY")

# Verificamos si la API_KEY fue cargada
print(" API Key cargada correctamente:", API_KEY[:6], "...")

# Definir headers para autorización y agente
headers = {
    "User-Agent": "Mozilla/5.0 (compatible; MyScript/1.0)",
    "apiKey": API_KEY
}


 API Key cargada correctamente: 2500f2 ...


In [None]:
print(" API Key cargada correctamente:", API_KEY[:6], "...")
# Definir headers para autorización y agente
headers = {
    "User-Agent": "Mozilla/5.0 (compatible; MyScript/1.0)",
    "apiKey": API_KEY
}

🔐 API Key cargada correctamente: 2500f2 ...


## Variables modificables para otro tipo de consultas, podemos cambiar por lo que deseemos consultar

In [2]:
PALABRA_CLAVE = "windows"
ANIO_OBJETIVO = 2024
MAX_VULNS = 6000
ARCHIVO_SALIDA = "vulnerabilidades_completas.csv"

Endpoint de la API del NIST

In [3]:
url = "https://services.nvd.nist.gov/rest/json/cves/2.0"
resultados_filtrados = []
start_index = 0
page_size = 2000

Paginación de resultados para obtener múltiples páginas

In [11]:
while len(resultados_filtrados) < MAX_VULNS:
    params = {
        "resultsPerPage": page_size,
        "startIndex": start_index
    }

    # ✅ AQUÍ incluimos los headers con la API key
    response = requests.get(url, params=params, headers=headers)

    if response.status_code != 200:
        print(f" Error: {response.status_code}")
        print(response.text)
        break

    data = response.json()
    cves = data.get("vulnerabilities", [])
    if not cves:
        break

    for item in cves:
        try:
            cve = item["cve"]
            description = cve["descriptions"][0]["value"].lower()
            mod_date = cve["lastModified"]
            pub_date = cve["published"]
            source = cve.get("sourceIdentifier", "")
            metrics = cve.get("metrics", {})

            # Convertir fecha de modificación a año
            try:
                year = datetime.strptime(mod_date, "%Y-%m-%dT%H:%M:%S.%f").year
            except ValueError:
                year = datetime.strptime(mod_date, "%Y-%m-%dT%H:%M:%S").year

            if PALABRA_CLAVE.lower() in description and year == ANIO_OBJETIVO:
                severity = ""
                score = ""
                vector = ""
                exploit_score = ""
                impact_score = ""

                for version in ["cvssMetricV31", "cvssMetricV30", "cvssMetricV2"]:
                    if version in metrics:
                        m = metrics[version][0]
                        cvss = m.get("cvssData", {})
                        severity = m.get("baseSeverity", "")
                        score = cvss.get("baseScore", "")
                        vector = cvss.get("vectorString", "")
                        exploit_score = m.get("exploitabilityScore", "")
                        impact_score = m.get("impactScore", "")
                        break

                resultados_filtrados.append({
                    "cve_id": cve["id"],
                    "published": pub_date,
                    "last_modified": mod_date,
                    "source_identifier": source,
                    "description": description,
                    "severity": severity,
                    "cvss_score": score,
                    "vector": vector,
                    "exploitability_score": exploit_score,
                    "impact_score": impact_score
                })

        except Exception as e:
            print(f" Error procesando una entrada: {e}")

    start_index += page_size


## Importando los datos para la prepararcion de analizis

In [13]:
# Exportar a CSV
if resultados_filtrados:
    df = pd.DataFrame(resultados_filtrados)
    df.to_csv(ARCHIVO_SALIDA, index=False)
    print(f" Se guardaron {len(df)} vulnerabilidades en '{ARCHIVO_SALIDA}'.")
else:
    print(" No se encontraron vulnerabilidades para exportar.")

 Se guardaron 6071 vulnerabilidades en 'vulnerabilidades_completas.csv'.


# Vamos al 02_preprocesamiento_y_visualizaciones.ipynb para el tratamiento de datos