In [98]:
import re
import pandas as pd 


def load_data(file_path):
    """Cargar datos desde un archivo CSV y eliminar columnas innecesarias."""
    data = pd.read_csv(file_path, header=None)
    column_names = ['Tipo', 'Subtipo', 'Descripcion', 'Columna4', 'Columna5', 'Columna6', 'Columna7', 'Columna8']
    data.columns = column_names
    
    # Eliminar las columnas 4, 5, 6 y 7
    data = data.drop(['Columna4', 'Columna5', 'Columna6', 'Columna7','Columna8'], axis=1)
    
    return data


In [99]:
def clean_description(text):
    """Limpiar el texto y devolver una lista de palabras."""
    if not isinstance(text, str):
        text = ""
    text = text.lower()
    text = re.sub(r'[^a-z\s]', '', text)
    words = text.split()
    stoplist = set([
        'de', 'con', 'y', 'sin', 'que', 'o', 'a', 'la', 'al', 'un', 'una', 
        'los', 'las', 'por', 'en', 'no', 'n.d', 'para', 's/m', 's/n', 
        'el', 'del', 'x/la', 'a', 'es','x',
    ])
    words = [word for word in words if word not in stoplist]
    return words

In [100]:
def process_and_classify(data):
    """Añadir nuevas columnas para cada palabra de la descripción."""
    # Aplicar limpieza a la columna 'Descripcion'
    data['Descripcion_Limpia'] = data['Descripcion'].apply(clean_description)
    return data

In [101]:
def filter_items(data, search_term):
    """Filtrar artículos que contengan el término de búsqueda en la descripción."""
    search_term = search_term.lower()
    filtered_data = data[data['Descripcion_Limpia'].apply(lambda x: search_term in x)]
    return filtered_data

In [102]:
def save_results(data, output_file):
    """Guardar el DataFrame con las nuevas columnas en un archivo CSV."""
    data.to_csv(output_file, index=False)
    print(f"Resultados guardados en '{output_file}'")

In [103]:
def print_attributes(data):
    """Imprimir todos los atributos y su total."""
    attributes = pd.DataFrame(data.columns, columns=['Atributos'])
    total_attributes = len(data.columns)
    total_row = pd.DataFrame({'Atributos': ['Total'], 'Total': [total_attributes]})
    attributes_with_total = pd.concat([attributes, total_row], ignore_index=True)
    print(attributes_with_total)

In [104]:
if __name__ == "__main__":
    # Cargar los datos
    data = load_data('Actividad10000.csv')

    # Procesar y clasificar los datos
    data = process_and_classify(data)

    # Imprimir los atributos y el total
    print_attributes(data)

    # Guardar resultados
    save_results(data, 'Clasificacion_Extendida.csv')

            Atributos  Total
0                Tipo    NaN
1             Subtipo    NaN
2         Descripcion    NaN
3  Descripcion_Limpia    NaN
4               Total    4.0
Resultados guardados en 'Clasificacion_Extendida.csv'
