## **Análisis de la Base de Datos CVE de Vulnerabilidades**

En este cuaderno, nos enfocaremos en la descarga y análisis de la base de datos CVE (Common Vulnerabilities and Exposures). La base de datos CVE es un listado de vulnerabilidades de seguridad conocidas, que es fundamental para el estudio y la mitigación de riesgos en ciberseguridad.

## Objetivos

1. **Descarga de datos**: Obtener la base de datos CVE más reciente desde una fuente confiable.
2. **Carga de datos**: Importar los datos descargados en un DataFrame de pandas para su manipulación y análisis.
3. **Filtrado por palabras clave**: Aplicar un filtro para identificar las vulnerabilidades que contienen términos específicos relacionados con áreas de interés en ciberseguridad.

## **Preparando Librerias**



Para llevar a cabo el análisis y procesamiento de datos de submissions de Reddit, necesitaremos utilizar varias librerías de Python que proporcionan funcionalidades esenciales para la manipulación y visualización de datos. En esta sección, importaremos las librerías necesarias y explicaremos brevemente su propósito en el contexto de nuestro proyecto.

Las principales librerías que utilizaremos son:

- **pandas**: Una poderosa biblioteca para la manipulación y análisis de datos, especialmente útil para trabajar con estructuras de datos tabulares como DataFrames.
- **numpy**: Una biblioteca fundamental para el cálculo numérico en Python, que nos ayudará a realizar operaciones matemáticas y estadísticas.
- **ydata-profiling**: Una herramienta de perfilado de datos que genera un informe exploratorio detallado sobre los datos, facilitando la comprensión y limpieza inicial de los datos antes de su análisis más profundo.
- **request**: Una libreria que nos permite descargar el archivo consultando la pagina del CVE


A continuación, importaremos estas librerías y nos aseguraremos de que estén listas para ser utilizadas en las siguientes secciones del cuaderno.

In [1]:
import requests

import pandas as pd
import numpy as np
import sys
import statistics

## **Descarga de Datos**

El primer paso es descargar la base de datos CVE. Asegúrate de obtener los datos desde una fuente oficial y confiable para garantizar su integridad y actualidad. En esta sección, proporcionaremos el código necesario para realizar esta descarga.

In [2]:

# URL del archivo CSV correspondiente al CSV de CVE
url = 'https://cve.mitre.org/data/downloads/allitems.csv'

# Descarga del archivo
response = requests.get(url)

# Revision de si la peticion fue exitosa
if response.status_code == 200:
    # Save the file locally
    with open('allitems.csv', 'wb') as f:
        f.write(response.content)
    print("CSV file downloaded successfully")
else:
    print(f"Failed to download file. Status code: {response.status_code}")

CSV file downloaded successfully


## **Carga de Datos**

Una vez descargados los datos, los cargaremos en un DataFrame de pandas. Esto nos permitirá realizar operaciones de filtrado y análisis de manera eficiente.

In [7]:
# Leer los datos CSV de las submissions

data_CVE = pd.read_csv('allitems.csv', encoding='utf-8', skiprows= 9, header= None)

# Asignar nombres a las columnas de las submissions

columns_name = ["Name","Status","Description","References","Phase","body","Votes"]
data_CVE.columns = columns_name

# Mostrar las primeras filas del dataframe de submissions
data_CVE.head()

  data_CVE = pd.read_csv('allitems.csv', encoding='utf-8', skiprows= 9, header= None)


Unnamed: 0,Name,Status,Description,References,Phase,body,Votes
0,CVE-1999-0009,Entry,Inverse query buffer overflow in BIND 4.9 and ...,BID:134 | URL:http://www.securityfocus.com...,,,
1,CVE-1999-0010,Entry,Denial of Service vulnerability in BIND 8 Rele...,CERT:CA-98.05.bind_problems | HP:HPSBUX980...,,,
2,CVE-1999-0011,Entry,Denial of Service vulnerabilities in BIND 4.9 ...,CERT:CA-98.05.bind_problems | HP:HPSBUX980...,,,
3,CVE-1999-0012,Entry,Some web servers under Microsoft Windows allow...,CERT:CA-98.04.Win32.WebServers | MISC:http...,,,
4,CVE-1999-0013,Entry,Stolen credentials from SSH clients via ssh-ag...,CERT:CA-98.03.ssh-agent | MISC:https://exc...,,,


## **Filtrado por Palabras Clave** 

Aplicaremos un filtro utilizando una lista de palabras clave relevantes para identificar las vulnerabilidades más significativas en nuestro contexto de estudio. Este proceso es crucial para enfocar nuestro análisis en los aspectos más críticos de seguridad de la infraestructura de una empresa especifica

In [10]:
# Diccionario que contiene los elementos de infraestuctura de la empresa.

values = ["Apache 2.4","PostgreSQL 13","Ubuntu 20.04","Google Cloud","Palo Alto PA-220"]

# Función para contar palabras clave en un texto

def count_words(string):
    count = 0
    counted_words = set()
    for word in values:
        if word in string and word not in counted_words:
            count += 1
            counted_words.add(word)
    return count

# Filtrar textos con al menos 13 palabras clave en submissions, el numero de palabras clave depende del objetivo de investigacion

filtered_df = data_CVE[data_CVE['Description'].apply(lambda x: count_words(x) >= 1)]

# Mostrar el DataFrame filtrado

print(filtered_df)

                  Name     Status  \
71381    CVE-2014-3250  Candidate   
122470   CVE-2018-1197  Candidate   
123501  CVE-2018-12907  Candidate   
127428  CVE-2018-16477  Candidate   
142611  CVE-2019-10379  Candidate   
144382  CVE-2019-11989  Candidate   
145683  CVE-2019-13171  Candidate   
192641   CVE-2020-8903  Candidate   
192645   CVE-2020-8907  Candidate   
192671   CVE-2020-8933  Candidate   
198538  CVE-2021-22547  Candidate   
219145  CVE-2021-41773  Candidate   
219409  CVE-2021-42013  Candidate   
219543  CVE-2021-42135  Candidate   
220051  CVE-2021-42597  Candidate   
229355  CVE-2022-22302  Candidate   
244493  CVE-2022-36065  Candidate   
245429  CVE-2022-36916  Candidate   
245430  CVE-2022-36917  Candidate   
252709  CVE-2022-43549  Candidate   
268721  CVE-2023-27587  Candidate   
271979  CVE-2023-30549  Candidate   
281824   CVE-2023-3950  Candidate   
292966  CVE-2023-49652  Candidate   
294163   CVE-2023-5077  Candidate   
299646   CVE-2024-1385  Candidate   
3

In [11]:
filtered_df.head()

Unnamed: 0,Name,Status,Description,References,Phase,body,Votes
71381,CVE-2014-3250,Candidate,The default vhost configuration file in Puppet...,CONFIRM:https://bugzilla.redhat.com/show_bug.c...,Assigned (20140507),None (candidate not yet proposed),
122470,CVE-2018-1197,Candidate,In Windows Stemcells versions prior to 1200.14...,CONFIRM:https://www.cloudfoundry.org/blog/cve-...,Assigned (20171206),None (candidate not yet proposed),
123501,CVE-2018-12907,Candidate,"In Rclone 1.42, use of ""rclone sync"" to migrat...",MISC:http://openwall.com/lists/oss-security/20...,Assigned (20180627),None (candidate not yet proposed),
127428,CVE-2018-16477,Candidate,A bypass vulnerability in Active Storage >= 5....,MISC:https://groups.google.com/d/msg/rubyonrai...,Assigned (20180904),None (candidate not yet proposed),
142611,CVE-2019-10379,Candidate,Jenkins Google Cloud Messaging Notification Pl...,MISC:[oss-security] 20190807 Multiple vulnerab...,Assigned (20190329),None (candidate not yet proposed),


## **Exportación de Datos Filtrados**

Una vez que hemos filtrado nuestros datos para obtener las vulnerabilidades relacionados a la infraestructura de una empresa, el siguiente paso es exportar estos datos a archivos CSV. Esto nos permitirá almacenar y compartir los datos filtrados de manera eficiente, así como utilizarlos en análisis posteriores y en el entrenamiento de modelos predictivos.

En esta sección, convertiremos los DataFrames filtrados en archivos CSV. Este paso es crucial para garantizar que nuestros datos procesados estén bien organizados y sean fácilmente accesibles para futuros usos.

El código siguiente realiza la exportación de los DataFrames filtrados a archivos CSV.


In [12]:
# Los datos filtrados son almacenados en una archivo CSV

filtered_df.to_csv('CVE_filtrado.csv', index=False)

In [13]:
filtered_df.shape

(27, 7)