# Clean empty rows in JA4 generated datasets

## DATASET 1

### Dridex

In [7]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX"
output_dir = os.path.join(base_dir, "Dridex") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX/Dridex/2019-07-09-password-protected-Word-doc-pushes-Dridex-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX/Dridex/2017-12-04-Dridex-infection-traffic-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX/Dridex/2018-01-25-Dridex-infection-traffic-1-of-2-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX/Dridex/2018-01-25-Dridex-infection-traffic-2-of-2-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX/Dridex/2018-01-30-Dridex-infection-traffic-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX/Dridex/2018-02-05-Dridex-infection-traffic-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX/Dridex/2018-11-21-Ursnif-infection-with-Dridex-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1

In [10]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX/Dridex"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/DRIDEX//Dridex/Dridex.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: 2017-12-04-Dridex-infection-traffic-ja4.csv
Procesando: 2018-01-25-Dridex-infection-traffic-1-of-2-ja4.csv
Procesando: 2018-01-25-Dridex-infection-traffic-2-of-2-ja4.csv
Procesando: 2018-01-30-Dridex-infection-traffic-ja4.csv
Procesando: 2018-02-05-Dridex-infection-traffic-ja4.csv
Procesando: 2018-11-21-Ursnif-infection-with-Dridex-ja4.csv
Procesando: 2018-11-27-Ursnif-infection-traffic-with-Dridex-ja4.csv
Procesando: 2018-12-10-Ursnif-infection-with-Dridex-ja4.csv
Procesando: 2019-03-29-password-protected-Word-doc-pushes-Dridex-ja4.csv
Procesando: 2019-05-01-Ursnif-infection-with-Dridex-ja4.csv
Procesando: 2019-06-17-password-protected-Word-doc-causes-Dridex-infection-ja4.csv
Procesando: 2019-07-09-password-protected-Word-doc-pushes-Dridex-ja4.csv
Procesando: 2019-07-12-Dridex-infection-traffic-ja4.csv
Procesando: 2019-10-28-Ursnif-infection-with-Dridex-ja4.csv
Procesando: 2019-10-29-Ursnif-infection-with-Dridex-ja4.csv
Procesando: 2019-10-30-Ursnif-infection-with-Dridex-j

### Emotet

In [11]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET"
output_dir = os.path.join(base_dir, "Emotet") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET/Emotet/2021-11-29-Emotet-epoch-5-infection-traffic-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET/Emotet/2018-01-09-Emotet-infection-with-Zeus-Panda-Banker-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET/Emotet/2018-12-07-Emotet-infection-with-IcedID-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET/Emotet/2018-12-10-Emotet-infection-with-IcedID-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET/Emotet/2018-12-14-Emotet-infection-with-Qakbot-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET/Emotet/2018-12-20-Emotet-infection-with-Gootkit-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET/Emotet/2020-09-30-Emotet-infection-with-Trickbot-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/J

In [12]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET/Emotet"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/EMOTET//Emotet/Emotet.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: 2021-11-29-Emotet-epoch-5-infection-traffic-ja4.csv
Procesando: 2018-01-09-Emotet-infection-with-Zeus-Panda-Banker-ja4.csv
Procesando: 2018-12-07-Emotet-infection-with-IcedID-ja4.csv
Procesando: 2018-12-10-Emotet-infection-with-IcedID-ja4.csv
Procesando: 2018-12-14-Emotet-infection-with-Qakbot-ja4.csv
Procesando: 2018-12-20-Emotet-infection-with-Gootkit-ja4.csv
Procesando: 2020-09-30-Emotet-infection-with-Trickbot-ja4.csv
Procesando: 2021-01-04-Emotet-infection-with-Trickbot-traffic-ja4.csv
Procesando: 2021-01-13-Emotet-epoch-2-infection-traffic-with-Trickbot-gtag-mor13-ja4.csv
Procesando: 2021-01-15-Emotet-epoch-1-infection-traffic-ja4.csv
Procesando: 2021-11-18-Emotet-infection-with-spambot-activity-carved-and-sanitized-ja4.csv
Procesando: 2021-11-30-Emotet-epoch4-infection-from-appinstaller-ja4.csv
Procesando: 2022-02-25-Emotet-epoch4-with-spambot-activity-ja4.csv
Procesando: 2022-02-25-Emotet-epoch5-spambot-traffic-snippet-ja4.csv
Procesando: 2022-02-25-Emotet-epoch5-wi

### Hancitor

In [13]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR"
output_dir = os.path.join(base_dir, "Hancitor") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR/Hancitor/2019-07-25-Hancitor-style-Amadey-with-Pony-and-Cobalt-Strike-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR/Hancitor/2019-12-10-Hancitor-infection-with-Ursnif-and-Cobalt-Strike-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR/Hancitor/2020-07-13-Hancitor-infection-with-Ursnif-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR/Hancitor/2020-11-04-Hancitor-infection-with-Cobalt-Strike-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR/Hancitor/2020-11-23-Hancitor-infection-with-Cobalt-Strike-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR/Hancitor/2020-12-14-Hancitor-infection-with-Cobalt-Strike-and-Ficker-Stealer-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR/Hancitor/2021-05

In [14]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR/Hancitor"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/HANCITOR//Hancitor/Hancitor.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: 2019-07-25-Hancitor-style-Amadey-with-Pony-and-Cobalt-Strike-ja4.csv
Procesando: 2019-12-10-Hancitor-infection-with-Ursnif-and-Cobalt-Strike-ja4.csv
Procesando: 2020-07-13-Hancitor-infection-with-Ursnif-ja4.csv
Procesando: 2020-11-04-Hancitor-infection-with-Cobalt-Strike-ja4.csv
Procesando: 2020-11-23-Hancitor-infection-with-Cobalt-Strike-ja4.csv
Procesando: 2020-12-14-Hancitor-infection-with-Cobalt-Strike-and-Ficker-Stealer-ja4.csv
Procesando: 2021-05-20-Hancitor-infection-ja4.csv
Procesando: 2021-06-01-Hancitor-with-Cobalt-Stike-and-netping-tool-ja4.csv
Procesando: 2021-06-15-Hancitor-with-Ficker-Stealer-and-Cobalt-Strike-ja4.csv
Procesando: 2021-06-17-Hancitor-infection-with-Cobalt-Strike-ja4.csv
Procesando: 2021-09-02-Hancitor-with-Cobalt-Strike-ja4.csv
Procesando: 2021-09-14-Hancitor-with-Cobalt-Strike-infection-traffic-ja4.csv
Procesando: 2021-09-29-Hancitor-with-Cobalt-Strike-traffic-ja4.csv
Procesando: 2021-12-16-Hancitor-infection-with-Cobalt-Strike-ja4.csv
Procesa

### Valak

In [15]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK"
output_dir = os.path.join(base_dir, "Valak") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK/Valak/2019-12-19-Ursnif-infection-with-IcedID-and-Valak-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK/Valak/2020-05-07-Valak-infection-traffic-with-IcedID-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK/Valak/2020-05-26-Word-macro-retrieving-initial-Valak-DLL-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK/Valak/2020-05-27-traffic-from-Valak-infection-with-IcedID-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK/Valak/2020-06-03-Valak-infection-with-IcedID-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK/Valak/2020-06-09-Valak-infection-with-IcedID-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK/Valak/2020-06-24-Valak-infection-with-IcedID-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/

In [16]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK/Valak"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK//Valak/Valak.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: 2019-12-19-Ursnif-infection-with-IcedID-and-Valak-ja4.csv
Procesando: 2020-05-07-Valak-infection-traffic-with-IcedID-ja4.csv
Procesando: 2020-05-26-Word-macro-retrieving-initial-Valak-DLL-ja4.csv
Procesando: 2020-05-27-traffic-from-Valak-infection-with-IcedID-ja4.csv
Procesando: 2020-06-03-Valak-infection-with-IcedID-ja4.csv
Procesando: 2020-06-09-Valak-infection-with-IcedID-ja4.csv
Procesando: 2020-06-24-Valak-infection-with-IcedID-ja4.csv
Procesando: 2020-06-26-Valak-infection-with-IcedID-ja4.csv
Procesando: 2020-06-30-Valak-infection-with-IcedID-ja4.csv
Procesando: 2020-07-01-Valak-infection-with-IcedID-ja4.csv
Archivos combinados guardados en: /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VALAK//Valak/Valak.csv


### Non-VPN-01

In [17]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01"
output_dir = os.path.join(base_dir, "NonVPN-01") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01/AIMchat1-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01/AIMchat2-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01/aim_chat_3a-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01/aim_chat_3b-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01/email1a-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01/email1b-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01/email2a-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01/email2b-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01/facebookchat1-ja4.csv
Archivo limpio guarda

In [18]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01/NonVPN-01"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01//NonVPN-01/NonVPN-01.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: AIMchat1-ja4.csv
Procesando: AIMchat2-ja4.csv
Procesando: aim_chat_3a-ja4.csv
Procesando: aim_chat_3b-ja4.csv
Procesando: email1a-ja4.csv
Procesando: email1b-ja4.csv
Procesando: email2a-ja4.csv
Procesando: email2b-ja4.csv
Procesando: facebookchat1-ja4.csv
Procesando: facebookchat2-ja4.csv
Procesando: facebookchat3-ja4.csv
Procesando: facebook_audio1a-ja4.csv
Procesando: facebook_audio1b-ja4.csv
Procesando: facebook_audio2a-ja4.csv
Procesando: facebook_audio2b-ja4.csv
Procesando: facebook_audio3-ja4.csv
Procesando: facebook_audio4-ja4.csv
Procesando: facebook_chat_4a-ja4.csv
Procesando: facebook_chat_4b-ja4.csv
Procesando: facebook_video1a-ja4.csv
Procesando: facebook_video1b-ja4.csv
Procesando: facebook_video2a-ja4.csv
Procesando: facebook_video2b-ja4.csv
Procesando: hangouts_video2a-ja4.csv
Archivos combinados guardados en: /media/fingopolo/Maxtor/TFG/JA4/DATASET1/NON-VPN-01//NonVPN-01/NonVPN-01.csv


### VPN 01

In [19]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01"
output_dir = os.path.join(base_dir, "VPN-01") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01/vpn_aim_chat1a-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01/vpn_aim_chat1b-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01/vpn_bittorrent-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01/vpn_email2a-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01/vpn_email2b-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01/vpn_facebook_audio2-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01/vpn_facebook_chat1a-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01/vpn_facebook_chat1b-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01/vpn_ftps_A-ja4.csv
Archivo limpio guardado como /me

In [20]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01/VPN-01"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01//VPN-01/VPN-01.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: vpn_aim_chat1a-ja4.csv
Procesando: vpn_aim_chat1b-ja4.csv
Procesando: vpn_bittorrent-ja4.csv
Procesando: vpn_email2a-ja4.csv
Procesando: vpn_email2b-ja4.csv
Procesando: vpn_facebook_audio2-ja4.csv
Procesando: vpn_facebook_chat1a-ja4.csv
Procesando: vpn_facebook_chat1b-ja4.csv
Procesando: vpn_ftps_A-ja4.csv
Procesando: vpn_ftps_B-ja4.csv
Procesando: vpn_hangouts_audio1-ja4.csv
Procesando: vpn_hangouts_audio2-ja4.csv
Procesando: vpn_hangouts_chat1a-ja4.csv
Procesando: vpn_hangouts_chat1b-ja4.csv
Archivos combinados guardados en: /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-01//VPN-01/VPN-01.csv


### VPN 02

In [21]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02"
output_dir = os.path.join(base_dir, "VPN-02") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02/vpn_icq_chat1a-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02/vpn_icq_chat1b-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02/vpn_netflix_A-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02/vpn_sftp_A-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02/vpn_sftp_B-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02/vpn_skype_audio1-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02/vpn_skype_audio2-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02/vpn_skype_chat1a-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02/vpn_skype_chat1b-ja4.csv
Archivo limpio guardado como /media/fi

In [22]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02/VPN-02"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02//VPN-02/VPN-02.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: vpn_icq_chat1a-ja4.csv
Procesando: vpn_icq_chat1b-ja4.csv
Procesando: vpn_netflix_A-ja4.csv
Procesando: vpn_sftp_A-ja4.csv
Procesando: vpn_sftp_B-ja4.csv
Procesando: vpn_skype_audio1-ja4.csv
Procesando: vpn_skype_audio2-ja4.csv
Procesando: vpn_skype_chat1a-ja4.csv
Procesando: vpn_skype_chat1b-ja4.csv
Procesando: vpn_skype_files1a-ja4.csv
Procesando: vpn_skype_files1b-ja4.csv
Procesando: vpn_spotify_A-ja4.csv
Procesando: vpn_vimeo_A-ja4.csv
Procesando: vpn_vimeo_B-ja4.csv
Procesando: vpn_voipbuster1a-ja4.csv
Procesando: vpn_voipbuster1b-ja4.csv
Procesando: vpn_youtube_A-ja4.csv
Archivos combinados guardados en: /media/fingopolo/Maxtor/TFG/JA4/DATASET1/VPN-02//VPN-02/VPN-02.csv


### Benign

In [1]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/Benign"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET1/Benign/Benign.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: NonVPN-01.csv
Procesando: VPN-01.csv
Procesando: VPN-02.csv
Archivos combinados guardados en: /media/fingopolo/Maxtor/TFG/JA4/DATASET1/Benign/Benign.csv


## DATASET 2

### Desktop Apps

In [23]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps"
output_dir = os.path.join(base_dir, "desktop-apps") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps/desktop-apps/Amazon_Music.exe-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps/desktop-apps/Amazon_Music_Helper.exe-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps/desktop-apps/AMPLibraryAgent.exe-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps/desktop-apps/AppleTV.exe-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps/desktop-apps/backgroundTaskHost.exe-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps/desktop-apps/Amazon_Music.exe-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps/desktop-apps/Amazon_Music_Helper.exe-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps/desktop-apps/AMPLibraryAgent.exe-ja4.csv
Archivo lim

In [24]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps/desktop-apps"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-apps//desktop-apps/desktop-apps.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: Amazon_Music.exe-ja4.csv
Procesando: Amazon_Music_Helper.exe-ja4.csv
Procesando: AMPLibraryAgent.exe-ja4.csv
Procesando: AppleTV.exe-ja4.csv
Procesando: backgroundTaskHost.exe-ja4.csv
Procesando: firefox.exe-ja4.csv
Procesando: FourNet.exe-ja4.csv
Procesando: GameBar.exe-ja4.csv
Procesando: HP.Omen.OmenCommandCenter.exe-ja4.csv
Procesando: iTunes.exe-ja4.csv
Procesando: maintenanceservice.exe-ja4.csv
Procesando: Maps.exe-ja4.csv
Procesando: Messenger.exe-ja4.csv
Procesando: ms-teams.exe-ja4.csv
Procesando: msedge.exe-ja4.csv
Procesando: msedgewebview2.exe-ja4.csv
Procesando: OmenCommandCenterBackground.exe-ja4.csv
Procesando: PrimeVideo.exe-ja4.csv
Procesando: pwsh.exe-ja4.csv
Procesando: RuntimeBroker.exe-ja4.csv
Procesando: SearchApp.exe-ja4.csv
Procesando: Skype.exe-ja4.csv
Procesando: Sky_Go.exe-ja4.csv
Procesando: smartscreen.exe-ja4.csv
Procesando: Spotify.exe-ja4.csv
Procesando: Telegram.exe-ja4.csv
Procesando: Trello.exe-ja4.csv
Archivos combinados guardados en: /me

### Desktop Malware

In [25]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware"
output_dir = os.path.join(base_dir, "desktop-malware") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware/desktop-malware/240610-m5m6vagd8s.behavioral2-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware/desktop-malware/240610-m32w8agd2w.behavioral1-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware/desktop-malware/240610-m32w8agd2w.behavioral2-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware/desktop-malware/240610-m4d7jsgh74.behavioral1-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware/desktop-malware/240610-m4d7jsgh74.behavioral2-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware/desktop-malware/240610-m4e4vagh76.behavioral1-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware/desktop-malware/240610-m4e4vagh76.behavioral2-ja4.csv
Archivo limpio guard

In [26]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware/desktop-malware"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/desktop-malware//desktop-malware/desktop-malware.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: 240521-fr5qeaaa87.behavioral1-ja4.csv
Procesando: 240603-sdp41sac6w.behavioral2-ja4.csv
Procesando: 240608-1a82qage8x.behavioral2-ja4.csv
Procesando: 220521-bebvcabgc9.behavioral1-ja4.csv
Procesando: 220521-bebvcabgc9.behavioral2-ja4.csv
Procesando: 220521-bednyaegel.behavioral1-ja4.csv
Procesando: 220521-bednyaegel.behavioral2-ja4.csv
Procesando: 220521-behynabgd2.behavioral1-ja4.csv
Procesando: 220521-behynabgd2.behavioral2-ja4.csv
Procesando: 220521-bfmy1abgf7.behavioral1-ja4.csv
Procesando: 220521-bfmy1abgf7.behavioral2-ja4.csv
Procesando: 220521-bfst9aeggq.behavioral1-ja4.csv
Procesando: 220521-bfst9aeggq.behavioral2-ja4.csv
Procesando: 220521-bft3babgg2.behavioral1-ja4.csv
Procesando: 220521-bft3babgg2.behavioral2-ja4.csv
Procesando: 240610-m5m6vagd8s.behavioral2-ja4.csv
Procesando: 240610-m7dp7age4t.behavioral2-ja4.csv
Procesando: 240610-m81lcage8w.behavioral2-ja4.csv
Procesando: 240610-m8apxshb43.behavioral2-ja4.csv
Procesando: 240610-mb23xagc88.behavioral1-ja4.csv


### Mobile Apps

In [27]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps"
output_dir = os.path.join(base_dir, "mobile-apps") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps/accuweather_01-11-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps/accuweather_01-13-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps/accuweather_01-14-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps/accuweather_02-11-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps/accuweather_02-13-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps/accuweather_02-14-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps/accuweather_03-11-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps/accuweather_03-13-ja4.csv
Archivo limpio guardado como /media/fing

In [28]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-apps/mobile-apps/mobile-apps.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: accuweather_01-11-ja4.csv
Procesando: accuweather_01-13-ja4.csv
Procesando: accuweather_01-14-ja4.csv
Procesando: accuweather_02-11-ja4.csv
Procesando: accuweather_02-13-ja4.csv
Procesando: accuweather_02-14-ja4.csv
Procesando: accuweather_03-11-ja4.csv
Procesando: accuweather_03-13-ja4.csv
Procesando: accuweather_03-14-ja4.csv
Procesando: aliexpress_01-11-ja4.csv
Procesando: aliexpress_01-13-ja4.csv
Procesando: aliexpress_01-14-ja4.csv
Procesando: aliexpress_02-11-ja4.csv
Procesando: aliexpress_02-13-ja4.csv
Procesando: aliexpress_02-14-ja4.csv
Procesando: aliexpress_03-13-ja4.csv
Procesando: aliexpress_03-14-ja4.csv
Procesando: alipay_01-11-ja4.csv
Procesando: alipay_01-13-ja4.csv
Procesando: alipay_01-14-ja4.csv
Procesando: alipay_02-11-ja4.csv
Procesando: alipay_02-13-ja4.csv
Procesando: alipay_02-14-ja4.csv
Procesando: alipay_03-11-ja4.csv
Procesando: alipay_03-13-ja4.csv
Procesando: alipay_03-14-ja4.csv
Procesando: alza_01-11-ja4.csv
Procesando: alza_01-13-ja4.csv
Pro

### Mobile Malware

In [29]:
import pandas as pd
import os


base_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware"
output_dir = os.path.join(base_dir, "mobile-malware") 

os.makedirs(output_dir, exist_ok=True)

for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith("-ja4.csv"):
            input_file = os.path.join(root, file)
            output_file = os.path.join(output_dir, file)
            
            try:
                df = pd.read_csv(input_file, sep=';')

                # Eliminar filas donde JA4, JA4S y JA4X estén vacías
                df_clean = df.dropna(subset=["JA4hash", "JA4Shash", "JA4X"], how="all")

                # Guardar el CSV limpio
                df_clean.to_csv(output_file, index=False, sep=';')

                print(f"Archivo limpio guardado como {output_file}")
            except Exception as e:
                print(f"Error al procesar el archivo {input_file}: {str(e)}")

Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware/mobile-malware/3d_skin_editor_for_minecraft_01-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware/mobile-malware/3d_skin_editor_for_minecraft_02-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware/mobile-malware/3d_skin_editor_for_minecraft_03-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware/mobile-malware/3d_skin_editor_for_minecraft_04-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware/mobile-malware/alaa_win_play_01-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware/mobile-malware/alaa_win_play_02-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware/mobile-malware/alaa_win_play_03-ja4.csv
Archivo limpio guardado como /media/fingopolo/Maxtor/TFG/JA4/DATA

In [31]:
import os
import pandas as pd

# Directorio donde se encuentran los archivos CSV
input_dir = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware/mobile-malware"
output_csv = "/media/fingopolo/Maxtor/TFG/JA4/DATASET2/mobile-malware/mobile-malware/mobile-malware.csv"

# Crear una lista para almacenar los DataFrames
dataframes = []

# Iterar sobre todos los archivos CSV en el directorio
for csv_file in os.listdir(input_dir):
    if csv_file.endswith(".csv"):  # Verificar que el archivo tenga extensión .csv
        full_path = os.path.join(input_dir, csv_file)
        print(f"Procesando: {csv_file}")
        # Cargar el CSV y agregarlo a la lista
        df = pd.read_csv(full_path, sep=';')
        dataframes.append(df)

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado en un archivo CSV
combined_df.to_csv(output_csv, index=False, sep=';')

print(f"Archivos combinados guardados en: {output_csv}")

Procesando: 3d_skin_editor_for_minecraft_01-ja4.csv
Procesando: 3d_skin_editor_for_minecraft_02-ja4.csv
Procesando: 3d_skin_editor_for_minecraft_03-ja4.csv
Procesando: 3d_skin_editor_for_minecraft_04-ja4.csv
Procesando: 3d_skin_editor_for_pe_minecraft_01-ja4.csv
Procesando: 3d_skin_editor_for_pe_minecraft_02-ja4.csv
Procesando: 3d_skin_editor_for_pe_minecraft_03-ja4.csv
Procesando: 3d_skin_for_pe_minecraft_01-ja4.csv
Procesando: 3d_skin_for_pe_minecraft_02-ja4.csv
Procesando: 3d_skin_for_pe_minecraft_03-ja4.csv
Procesando: alaa_win_play_01-ja4.csv
Procesando: alaa_win_play_02-ja4.csv
Procesando: alaa_win_play_03-ja4.csv
Procesando: auto_click_repeater_01-ja4.csv
Procesando: auto_click_repeater_02-ja4.csv
Procesando: auto_click_repeater_03-ja4.csv
Procesando: bank_bingo_01-ja4.csv
Procesando: bank_bingo_02-ja4.csv
Procesando: bank_bingo_03-ja4.csv
Procesando: bank_bingo_slot_01-ja4.csv
Procesando: bank_bingo_slot_02-ja4.csv
Procesando: bank_bingo_slot_03-ja4.csv
Procesando: bitcoin_mast