## Importación de librerías

In [None]:
%pip install skimpy

In [None]:
import gc
import pandas as pd
import os
from glob import glob
import numpy as np
import matplotlib.pyplot as plt
from pathlib import Path
from skimpy import skim
from sklearn.model_selection import train_test_split
import json

## Configuración de variables globales

In [None]:
with open('setup.json', 'r') as f:
    SETUP_JSON = json.load(f)
BASE_DIR = os.getcwd() # Base directory for the project,
DATASET_DIR = os.path.join(BASE_DIR, "datasets") # Input directory,
NA_VALUES = ['N/a', 'na', 'Na', 'NA', 'NAN', 'Nan', 'NaN', np.nan] # Consistent NA values,
EXPECTED_DTYPES = None
CHUNK_SIZE = SETUP_JSON['chunk_size'] # Chunk size for reading CSV files,
SAMPLE_FRACTION = SETUP_JSON['sample_fraction'] # Fraction of data to sample,
LABELS = SETUP_JSON['labels'] # Labels for the dataset
final_dataframe = pd.DataFrame() # Initialize an empty DataFrame for final output   

In [None]:
pd.set_option("display.max_columns", 80)

## Limpieza previa

In [None]:
import pandas as pd
import os
from glob import glob

def get_majority_dtype(series):
    """
    Determina el tipo de dato mayoritario en una columna de un DataFrame.

    Args:
        series (pd.Series): Columna del DataFrame.

    Returns:
        type: Tipo de dato mayoritario o None si la serie está vacía.
    """
    dtype_counts = series.map(type).value_counts()
    return dtype_counts.idxmax() if not dtype_counts.empty else None

def clean_by_majority_type_chunked(input_filepath, output_filepath, chunksize=10000):
    """
    Limpia un archivo CSV en bloques de manera eficiente, intentando convertir valores antes de eliminarlos.

    Args:
        input_filepath (str): Ruta del archivo CSV original.
        output_filepath (str): Ruta del archivo donde guardar el CSV limpio.
        chunksize (int): Tamaño del bloque para leer el archivo en partes.
    """

    cleaned_chunks = []

    for chunk in pd.read_csv(input_filepath, chunksize=chunksize, low_memory=False):
        chunk = chunk.convert_dtypes()  # Conversión automática de tipos en Pandas
        
        for col in chunk.columns:
            majority_dtype = get_majority_dtype(chunk[col])
            if majority_dtype:
                try:
                    chunk[col] = chunk[col].astype(majority_dtype)
                    print(f"\nColumna '{col}' convertida a {majority_dtype}.")
                except ValueError:
                    chunk[col] = pd.to_numeric(chunk[col], errors='coerce')  # Intentar conversión numérica
                    print(f"\nAlgunos valores en '{col}' no pudieron convertirse. Se reemplazaron con NaN.")

                # Eliminar valores que no pudieron convertirse
                chunk = chunk.dropna(subset=[col])

        cleaned_chunks.append(chunk)

    df_final = pd.concat(cleaned_chunks, ignore_index=True)

    # Guardar el dataset limpio
    df_final.to_csv(output_filepath, index=False)
    print(f"\nDataset limpio guardado en: '{output_filepath}'")

# Configuración de directorios
BASE_DIR = os.getcwd()
DATASET_DIR = os.path.join(BASE_DIR, "datasets")
csv_files = glob(os.path.join(DATASET_DIR, "*.csv"))

# Procesar cada archivo CSV
for file in csv_files:
    clean_by_majority_type_chunked(file, file)  # Procesar archivo en chunks y sobrescribirlo




## Agrupar por clase

In [None]:
import pandas as pd

def contar_paquetes_por_secuencia(df, columna_labels='Label'):
    """
    Cuenta el número de paquetes en cada secuencia consecutiva de etiquetas.

    Args:
        df (pd.DataFrame): El DataFrame que contiene los datos de los paquetes.
        columna_labels (str): El nombre de la columna que contiene las etiquetas
                              que definen las secuencias.

    Returns:
        pd.DataFrame: Un DataFrame con las columnas 'Labels' (la etiqueta de la secuencia),
                      'count' (el número de paquetes en esa secuencia), y
                      'sequence_id' (un identificador único para cada secuencia).
                      Las secuencias están en el orden en que aparecen.
    """
    if not isinstance(df, pd.DataFrame):
        raise TypeError("La entrada 'df' debe ser un DataFrame de pandas.")
    if columna_labels not in df.columns:
        raise ValueError(f"La columna '{columna_labels}' no se encuentra en el DataFrame.")
    if df.empty:
        return pd.DataFrame(columns=[columna_labels, 'count', 'sequence_id'])

    # Identificar dónde cambia la etiqueta para marcar el inicio de una nueva secuencia.
    # df[columna_labels].shift() desplaza los valores de la columna una posición hacia abajo.
    # La primera etiqueta siempre se considera el inicio de una nueva secuencia (manejo de NaN de shift()).
    inicio_nueva_secuencia = (df[columna_labels] != df[columna_labels].shift())

    # Asignar un ID único a cada secuencia usando cumsum() sobre la serie booleana.
    # Cada vez que 'inicio_nueva_secuencia' es True, el acumulado aumenta, creando un nuevo ID.
    id_secuencia = inicio_nueva_secuencia.cumsum()

    # Agrupar por el ID de secuencia y la etiqueta, luego contar el tamaño de cada grupo.
    # Esto nos da el conteo de paquetes para cada secuencia.
    conteo_secuencias = df.groupby([id_secuencia, df[columna_labels]], sort=False).size()
    conteo_secuencias = conteo_secuencias.reset_index(name='count')

    # Renombrar la columna del ID de secuencia para mayor claridad.
    conteo_secuencias.rename(columns={columna_labels: 'Labels', columna_labels + '_x': 'Labels_temp'}, inplace=True)
    # El nombre de la columna de id_secuencia es el nombre de la columna_labels original
    # después del groupby, así que lo renombramos a 'sequence_id'.
    conteo_secuencias.rename(columns={conteo_secuencias.columns[0]: 'sequence_id'}, inplace=True)


    return conteo_secuencias[['sequence_id', 'Labels', 'count']]

df = pd.read_csv('datasets\\02-14-2018.csv')
# Aplicar la función
resultados = contar_paquetes_por_secuencia(df, 'Label')

print("Conteo de paquetes por secuencia:")
print(resultados)

In [None]:
first_chunk_overall = True # Flag to control header writing in the output file

csv_files = glob(os.path.join(DATASET_DIR, "*.csv")) # Find all CSV files
file_count = len(csv_files)
print(f"Found {file_count} files to process.")

if not csv_files:
    print("No CSV files found. Exiting.")
else:
    # Iterate through each found CSV file
    for i, file_path_str in enumerate(csv_files):
        file_path = Path(file_path_str)
        print(f"\nProcessing file {i+1}/{file_count}: {file_path.name}...")

        file_df = pd.read_csv(file_path, sep=',', low_memory=False, na_values=NA_VALUES, dtype=EXPECTED_DTYPES)
        file_df[file_df['clase'] == 'B']
        total_rows = sum(1 for _ in open(file_path, 'r')) - 1  # Subtract 1 for the header row
        sample_size = max(1, int(total_rows * SAMPLE_FRACTION))  # Ensure at least one row is sampled
        sample_df = pd.read_csv(file_path, sep=',', low_memory=False, na_values=NA_VALUES, nrows=sample_size, dtype=EXPECTED_DTYPES)
        print(f"  Sample of {sample_size} rows taken from {file_path.name} (shape: {sample_df.shape})...")

    print(f"\nFinished processing all files.")

In [None]:
def process_csv_in_chunks(input_filepath):
    """
    Procesa un archivo CSV en chunks y realiza operaciones en cada chunk.

    Args:
        input_filepath (str): Ruta del archivo CSV a procesar.
        chunksize (int): Tamaño del chunk para leer el archivo en partes.
    """
    chunk_list = []  # Lista para almacenar los chunks procesados

    for chunk in pd.read_csv(input_filepath, chunksize=CHUNK_SIZE, na_values=NA_VALUES, dtype=EXPECTED_DTYPES):
        # Realiza operaciones en cada chunk aquí
        chunk_cleaned = chunk.dropna()  # Ejemplo: eliminar filas con valores NaN
        chunk_list.append(chunk_cleaned)

    # Combina todos los chunks procesados en un DataFrame final
    final_df = pd.concat(chunk_list, ignore_index=True)
    return final_df

In [None]:
first_chunk_overall = True # Flag to control header writing in the output file

csv_files = glob(os.path.join(DATASET_DIR, "*.csv")) # Find all CSV files
file_count = len(csv_files)
label_groups = {}
print(f"Found {file_count} files to process.")

# Iterate through each found CSV file
for i, file_path_str in enumerate(csv_files):
    file_path = Path(file_path_str)
    print(f"\nProcessing file {i+1}/{file_count}: {file_path.name}...")

    df = process_csv_in_chunks(file_path)
    for label in LABELS:
        label_groups[label] = df[df['Label'] == label]
print(f"\nFinished processing all files.")

In [None]:
print(f"Dimensiones del dataframe final: {final_dataframe.shape}")
print(f"Diferentes etiquetas encontradas en el dataframe: {final_dataframe['Label'].unique()}") # Display unique labels in the final DataFrame

## Análisis del dataframe

In [None]:
skim(final_dataframe[:100000]) # Display a summary of the first 100,000 rows of the DataFrame

## Limpieza del dataframe