#### **Procesamiento de Archivos CSV de Submissions de Reddit**

En este cuaderno encontrarán el proceso necesario para filtrar archivos tipo CSV de submissions de Reddit a través del conteo de palabras y demás procesos que serán explicados a continuación.

#### **Introducción**

El análisis de datos de redes sociales como Reddit puede proporcionar información valiosa y que muchas veces no es tenida en cuenta sobre posibles ataques ciberataques que esten por realizarse o que ya hayan sido realizados. En este cuaderno, nos enfocaremos en el procesamiento y análisis de archivos CSV que contienen submissions (publicaciones) de Reddit.

#### **Objetivos**

1. **Filtrado de datos**: Aprenderemos a filtrar los datos para seleccionar las submissions relevantes según ciertos criterios.
2. **Conteo de palabras**: Realizaremos un análisis de frecuencia de palabras para identificar los registros que nos interesan




## **Preparando Librerias**


Para llevar a cabo el análisis y procesamiento de datos de submissions de Reddit, necesitaremos utilizar varias librerías de Python que proporcionan funcionalidades esenciales para la manipulación y visualización de datos. En esta sección, importaremos las librerías necesarias y explicaremos brevemente su propósito en el contexto de nuestro proyecto.

Las principales librerías que utilizaremos son:

- **pandas**: Una poderosa biblioteca para la manipulación y análisis de datos, especialmente útil para trabajar con estructuras de datos tabulares como DataFrames.
- **numpy**: Una biblioteca fundamental para el cálculo numérico en Python, que nos ayudará a realizar operaciones matemáticas y estadísticas.
- **ydata-profiling**: Una herramienta de perfilado de datos que genera un informe exploratorio detallado sobre los datos, facilitando la comprensión y limpieza inicial de los datos antes de su análisis más profundo.


A continuación, importaremos estas librerías y nos aseguraremos de que estén listas para ser utilizadas en las siguientes secciones del cuaderno.

In [1]:
#Instalaciones

#Y Data Profiling

!pip install ydata-profiling

!pip install --user ipywidgets



Defaulting to user installation because normal site-packages is not writeable


In [1]:
#Imports generales para analisis de datos y ML

import pandas as pd
import numpy as np
import sys
import statistics


## **Carga de datos**


El primer paso en nuestro análisis es la carga de los datos. Trabajaremos con dos conjuntos de datos en formato CSV que contienen información sobre submissions de Reddit relacionados con temas de ciberseguridad. Estos archivos han sido previamente filtrados para incluir solo aquellos registros pertinentes a nuestra área de estudio.

En esta sección, leeremos los datos desde los archivos CSV y los cargaremos en estructuras de datos de pandas DataFrame, lo que nos permitirá manipular y analizar los datos de manera eficiente. Asignaremos nombres adecuados a las columnas para facilitar su comprensión y exploración posterior.

A continuación, se presenta el código para cargar y visualizar los primeros registros de cada conjunto de datos.


In [129]:
# Leer los datos CSV de las submissions

data = pd.read_csv('Inputs Submissions/filtered_submissions4.csv', sep=',', encoding='utf-8', header = None)

# Asignar nombres a las columnas de las submissions

columns_name = ["score","date","title","user","url","body"]
data.columns = columns_name

data['calificacion'] = 0

# Mostrar las primeras filas del dataframe de submissions
data.head()

Unnamed: 0,score,date,title,user,url,body,calificacion
0,16,2021-03-31,Looking for kennel recommendations,u/Charleston2Seattle,https://www.reddit.com/r/eastside/comments/mhj...,"We'll be putting our two dogs, an 8-year-old h...",0
1,12,2021-03-31,Favorite recent leaks,u/DennyKalid32,https://www.reddit.com/r/playboicarti/comments...,Just wanna see what yall favorite leak from th...,0
2,6,2021-03-31,Monthly Ragnarok Server Listings [New or retur...,u/Flamefury,https://www.reddit.com/r/RagnarokOnline/commen...,*This is an automated post that will be re-pos...,0
3,10,2021-03-31,"[April 01, 2021] Monthly /r/PHGamers FAQ &amp;...",u/Ryvaeus,https://www.reddit.com/r/PHGamers/comments/mhj...,The r/PHGamers community is full of helpful us...,0
4,8,2021-03-31,Monthly Discussion and Chat Thread,u/hypd09,https://www.reddit.com/r/datasets/comments/mhj...,"Show off, complain, and generally have a chat ...",0


In [79]:
# Copia del dataframe para mantener un registro inicial
df_turi = data.copy()

In [130]:
# Numero de registros y filas del mismo
data.shape

(413888, 7)

## **Filtrado por palabras**


En esta sección, aplicaremos un filtro a nuestro conjunto de datos para identificar aquellos registros que contienen términos relacionados con ciberseguridad. El objetivo es aislar las submissions que sean relevantes para nuestro estudio, utilizando una lista predefinida de palabras clave.

Para lograr esto, seguiremos los siguientes pasos:

1. **Definir palabras clave**: Estableceremos una lista de palabras y frases que son indicativas de temas de ciberseguridad.
2. **Función de conteo**: Implementaremos una función que cuente la ocurrencia de estas palabras clave en los textos de las submissions y comentarios.
3. **Aplicar filtro**: Utilizaremos la función de conteo para filtrar aquellos registros que contienen al menos un número mínimo de palabras clave, asegurando que solo se seleccionen los textos más relevantes.

El código siguiente realiza estos pasos, aplicando el filtro tanto a las submissions como a los comentarios.


In [151]:
data = pd.read_csv('dataset_test.csv', sep=',', encoding='utf-8')

In [152]:
# Definir la lista de palabras relacionadas con ciberseguridad

values = ["hack","attack","breach","leak","vulnerability","exploit","phish","phishing","malware","ransomware","cyber","hacker","password","service","security","account"]

values2 = ["phone", "number","tech","support","Phone","Number","Tech","Support"]
# Función para contar palabras clave en un texto

def count_words(string):
    count = 0
    counted_words = set()
    for word in values:
        if word in string and word not in counted_words:
            count += 1
            counted_words.add(word)
    return count

# Funcion para eliminar registros inutiles referentes a Tech Support

def count_words_title(string):
    count = 0
    counted_words = set()
    for word in values2:
        if word in string and word not in counted_words:
            count += 1
            counted_words.add(word)
    return count

# Filtrar textos con al menos 13 palabras clave en submissions, el numero de palabras clave depende del objetivo de investigacion

#filtered_df2 = data[data['title'].apply(lambda x: count_words_title(x) >= 2)]

#data = data.drop(filtered_df2.index)


# Mostrar el DataFrame filtrado

#print(filtered_df2)

In [175]:
filtered_df = data[data['body'].apply(lambda x: count_words(x) >= 8)]

In [169]:
filtered_df.head()

Unnamed: 0,score,date,title,user,url,body,calificacion
4,22,2021-01-01,List of all the analysis tools and EDRs that s...,u/BitDrill,https://www.reddit.com/r/Malware/comments/ko7j...,"As you all probably know, in the solarwinds ba...",1
5,2,2021-01-01,Is it safe to use android apps on public WiFi?,u/StunningGourav444,https://www.reddit.com/r/techsupport/comments/...,I know if I accidentally connect to a hacker's...,1
6,38,2021-01-01,Under attack from Huawei AspiegelBot (PetalBot),u/SirFletch,https://www.reddit.com/r/cybersecurity/comment...,&gt;This is a brief and partly mundane account...,1
8,1,2021-01-01,The FBI says the US government is being subjec...,u/hackerhacked24,https://www.reddit.com/r/u_hackerhacked24/comm...,\n\n* **Federal computer systems in Washingto...,1
10,5,2021-01-01,"The 22 biggest tech scandals of 2020, from the...",u/autobuzzfeedbot,https://www.reddit.com/r/buzzfeedbot/comments/...,1. JANUARY: New details emerge about Jeff Bezo...,1


In [176]:

calificacion_counts = filtered_df['calificacion'].value_counts()

# Extract the counts for 0, 1, and 2
count_0 = calificacion_counts.get(0, 0)
count_1 = calificacion_counts.get(1, 0)
count_2 = calificacion_counts.get(2, 0)

print(count_0)
print(count_1)
print(count_2)

0
31
0


## **Exportación de Datos Filtrados**

Una vez que hemos filtrado nuestros datos para obtener las submissions y comentarios más relevantes relacionados con ciberseguridad, el siguiente paso es exportar estos datos a archivos CSV. Esto nos permitirá almacenar y compartir los datos filtrados de manera eficiente, así como utilizarlos en análisis posteriores y en el entrenamiento de modelos predictivos.

En esta sección, convertiremos los DataFrames filtrados en archivos CSV. Este paso es crucial para garantizar que nuestros datos procesados estén bien organizados y sean fácilmente accesibles para futuros usos.

El código siguiente realiza la exportación de los DataFrames filtrados a archivos CSV.


In [91]:
# Los datos filtrados son almacenados en una archivo CSV


In [136]:
filtered_df.to_csv('Output Data/filtered_test_49.csv', index=False)

In [135]:
filtered_df.shape

(49, 7)