In [64]:
import pandas as pd

file_path = 'Actividad - 10,000.xlsx'
df = pd.read_excel(file_path, header=None)
df.dropna(subset=[2], inplace=True)
df = df.iloc[:, :3]
df.columns = ['apartado', 'tipo', 'bien']
df.head()


Unnamed: 0,apartado,tipo,bien
0,Mobiliario,Mobiliario,SILLON EJECUTIVO RESPALDO MEDIO COLOR NEGRO. N...
1,Mobiliario,Mobiliario,PINTARRON 60X90 (ALTA 20 ENE 1999 MARCA ALFRA).
2,Equipo,Equipo,"MONITOR DE COLOR HP DE 15"", N.D. 017/2002 ALTA..."
3,Mobiliario,Mobiliario,"CESTO DE BASURA ALUMINIO N.D. 007/2005, ALTA 3..."
4,Transporte,Transporte,"AUTOMOVIL FORD ESCORT 1998, PLACAS: HZG1129, N..."


In [65]:
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
stoplist = set(stopwords.words('spanish'))

Unnamed: 0,bien,bien_limpio
0,SILLON EJECUTIVO RESPALDO MEDIO COLOR NEGRO. N...,sillon ejecutivo respaldo medio color negro nd...
1,PINTARRON 60X90 (ALTA 20 ENE 1999 MARCA ALFRA).,pintarron x alta ene marca alfra
2,"MONITOR DE COLOR HP DE 15"", N.D. 017/2002 ALTA...",monitor color hp nd alta octubre
3,"CESTO DE BASURA ALUMINIO N.D. 007/2005, ALTA 3...",cesto basura aluminio nd alta agosto
4,"AUTOMOVIL FORD ESCORT 1998, PLACAS: HZG1129, N...",automovil ford escort placas hzg serie fabpwr ...


In [None]:
def limpiar_texto(texto):
    if isinstance(texto, str):
        texto = texto.lower()
        texto = re.sub(r'\d+', '', texto)
        texto = re.sub(r'[^\w\s]', '', texto)
        texto = texto.strip()
        palabras = nltk.word_tokenize(texto)
        palabras_filtradas = [lemmatizer.lemmatize(palabra) for palabra in palabras if palabra not in stoplist]
        return ' '.join(palabras_filtradas)
    return texto

df['bien'] = df['bien'].astype(str)
df['bien_limpio'] = df['bien'].apply(limpiar_texto)
df[['bien', 'bien_limpio']].head()

In [66]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(max_features=1000)
X = vectorizer.fit_transform(df['bien_limpio'])

In [67]:
from sklearn.cluster import KMeans

num_clusters = 5
kmeans = KMeans(n_clusters=num_clusters, random_state=42)
kmeans.fit(X)
df['cluster'] = kmeans.labels_
df[['bien', 'cluster']].head()

Unnamed: 0,bien,cluster
0,SILLON EJECUTIVO RESPALDO MEDIO COLOR NEGRO. N...,4
1,PINTARRON 60X90 (ALTA 20 ENE 1999 MARCA ALFRA).,0
2,"MONITOR DE COLOR HP DE 15"", N.D. 017/2002 ALTA...",4
3,"CESTO DE BASURA ALUMINIO N.D. 007/2005, ALTA 3...",0
4,"AUTOMOVIL FORD ESCORT 1998, PLACAS: HZG1129, N...",0


In [68]:
def asignar_subgrupo(descripcion):
    palabras = descripcion.split()
    if palabras:
        return palabras[0]
    return 'desconocido'

df['subgrupo'] = df['bien_limpio'].apply(asignar_subgrupo)
df[['bien', 'bien_limpio', 'subgrupo']].head()

Unnamed: 0,bien,bien_limpio,subgrupo
0,SILLON EJECUTIVO RESPALDO MEDIO COLOR NEGRO. N...,sillon ejecutivo respaldo medio color negro nd...,sillon
1,PINTARRON 60X90 (ALTA 20 ENE 1999 MARCA ALFRA).,pintarron x alta ene marca alfra,pintarron
2,"MONITOR DE COLOR HP DE 15"", N.D. 017/2002 ALTA...",monitor color hp nd alta octubre,monitor
3,"CESTO DE BASURA ALUMINIO N.D. 007/2005, ALTA 3...",cesto basura aluminio nd alta agosto,cesto
4,"AUTOMOVIL FORD ESCORT 1998, PLACAS: HZG1129, N...",automovil ford escort placas hzg serie fabpwr ...,automovil


In [69]:
df_final = df[['apartado', 'subgrupo', 'bien']].rename(columns={'bien': 'Descripción'})
try:
    df_final.to_excel('Actividad 9 - Dataset Final.xlsx', index=False)
    print("Archivo exportado con éxito.")
except Exception as e:
    print(f"Ocurrió un error al exportar el archivo: {e}")

Archivo exportado con éxito.
