In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
import numpy as np
import re
import nltk
from nltk.stem import SnowballStemmer
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Josvaldes\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Josvaldes\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
# Leer el archivo CSV
df = pd.read_csv('C:/Users/Josvaldes/Documents/Maestria/Austral/2ano/textMining/proyecto/TextMining/TextMining/RECLAMOS 3.csv', encoding='utf-8')
df

Unnamed: 0,problema_id,descripcion,alias_8_nombre3,problema_n,obsitem,Concaobsitem
0,70e03aaf-6cfb-42e8-92ae-fcb46ff479dd,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.),GN - Gas Natural,B1 - Pérdidas de gas con piezas dañadas,HAY UNA PERILLA DE LAS HORNALLA QUE NO SE PUED...,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.) GN...
1,e5be47a0-c506-4a79-87e9-2a45f06d496c,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.),GN - Gas Natural,G - Perilla no gira / gira mal,HAY UNA PERILLA DE LAS HORNALLA QUE NO SE PUED...,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.) GN...
2,2b2af341-20c5-4607-baa0-01972617647e,TERMO ELECTRICO EL-55,ELE - Termo eléctrico,D - No enciende,DESPUÉS DE QUE UNA PERSONA SE DUCHO NO VOLVIÓ ...,"TERMO ELECTRICO EL-55 ELE - Termo eléctrico "" ..."
3,ab0ed03a-8aab-4317-9aad-fcc06dd41520,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.),GN - Gas Natural,D2 - Hornalla Mal funcionamiento,,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.) GN...
4,ab0ed03a-8aab-4317-9aad-fcc06dd41520,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.),GN - Gas Natural,D2 - Hornalla Mal funcionamiento,LAS HORNALLAS TARDAN MUCHÍSIMO TIEMPO EN PREND...,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.) GN...
...,...,...,...,...,...,...
18709,b3e96d44-2a08-4f8b-b63e-df346e84ecaa,COCINA PALACE CRISTAL LX S2 (GN) (U.),GN - Gas Natural,K - Fallas en encendido electrónico,,COCINA PALACE CRISTAL LX S2 (GN) (U.) GN - Gas...
18710,8c5fec8e-37bc-46ac-a031-717476ef2f6f,COCINA PALACE CRISTAL LX S2 (GN) (U.),GN - Gas Natural,E - Puerta de horno - No cierra / Se cae,SE ROMPIÓ LA BISAGRA DE LA PUERTA DEL HORNO,COCINA PALACE CRISTAL LX S2 (GN) (U.) GN - Gas...
18711,553f6bde-32ee-4099-a99a-15a4ff7729f4,COCINA PALACE CRISTAL LX S2 (GL) (U.),GE - Gas Envasado,C2 - Horno Mal funcionamiento,,COCINA PALACE CRISTAL LX S2 (GL) (U.) GE - Gas...
18712,5e810261-6a73-470d-b900-5018f9f83927,COCINA PALACE CRISTAL LX S2 (GL) (U.),GE - Gas Envasado,D3 - Hornalla Se Apaga,- PROBLEMAS CON EL HORNO.\n \n - EL HORNO PERM...,COCINA PALACE CRISTAL LX S2 (GL) (U.) GE - Gas...


In [3]:
# Obtener las columnas de diagnósticos y códigos AIS
Oitems = df['Concaobsitem'].tolist()
ids = df['problema_id'].tolist()

In [4]:
#Se almacenan los elementos de Oitems como cadenas de caracteres en descripciones
descripciones = [str(desc) for desc in Oitems]

In [5]:
# Codificar los códigos AIS como etiquetas numéricas
label_encoder = LabelEncoder()
codigos_AIS_numericos = label_encoder.fit_transform(ids)

In [6]:
# Función para realizar stemming en una descripción
stemmer = SnowballStemmer('spanish')
def stem_descripcion(descripcion):
    words = nltk.word_tokenize(descripcion)
    words = [stemmer.stem(word) for word in words if word not in stopwords.words('spanish')]
    return ' '.join(words)

In [7]:
# Aplicar stemming a las descripciones
descripciones_stemmed = [stem_descripcion(desc) for desc in descripciones]

In [8]:
# División de los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(descripciones_stemmed, codigos_AIS_numericos, test_size=0.20, random_state=42)

In [9]:
print(X_train[:1])

['term electr el-90 ele - term electr `` el tecnic le solucion el problem per sig con fall']


In [10]:
# Creación del pipeline para el clasificador basado en texto
pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', RandomForestClassifier())
])

In [None]:
# Entrenamiento del modelo
pipeline.fit(X_train, y_train)

In [None]:
# Evaluación del modelo
y_pred = pipeline.predict(X_test)

In [None]:
# Obtener las clases únicas de los datos de prueba y entrenamiento
unique_classes = np.unique(np.concatenate((y_train, y_test)))

In [None]:
# Crear un diccionario para mapear las etiquetas numéricas a los nombres de las clases originales
class_names_dict = {class_num: class_name for class_num, class_name in zip(unique_classes, label_encoder.inverse_transform(unique_classes))}

In [None]:
# Imprimir el reporte de clasificación
print(classification_report(y_test, y_pred, labels=unique_classes, target_names=class_names_dict.values(), zero_division=1))

In [None]:
# Ejemplo de predicción para diagnósticos nuevos
archivo_diagnosticos_csv = 'C:/Users/Josvaldes/Documents/Maestria/Austral/2ano/textMining/proyecto/TextMining/TextMining/testesco.xlsx'  # Cambia la ruta al archivo CSV
df_diagnosticos = pd.read_excel(archivo_diagnosticos_csv)
df_diagnosticos

In [None]:
# Filtrar las clases que existen en el conjunto de entrenamiento
clases_validas_prueba = label_encoder.classes_
df_diagnosticos_filtrados = df_diagnosticos[df_diagnosticos['obsitem'].isin(clases_validas_prueba)]

In [None]:
df_diagnosticos_filtrados

In [None]:
# Codificar las clases en los datos de prueba usando el mismo LabelEncoder
codigos_AIS_numericos_prueba = label_encoder.transform(df_diagnosticos_filtrados['obsitem'])

In [None]:
resultados = []
for diagnostico in df_diagnosticos_filtrados['obsitem']:
    diagnostico_stemmed = stem_descripcion(diagnostico.strip())
    predicciones = pipeline.predict([diagnostico_stemmed])
    
    clase_predicha = label_encoder.inverse_transform(predicciones)[0]
    
    resultados.append({
        'Descripción': diagnostico.strip(),
        'Código AIS predicho': clase_predicha
    })

In [None]:
resultados_df = pd.DataFrame(resultados)

resultados_csv = 'C:/Users/Josvaldes/Documents/Maestria/Austral/2ano/textMining/proyecto/TextMining/TextMining/testresultadoSVC2.csv'
resultados_df.to_csv(resultados_csv, index=False, encoding='latin-1')

print("Resultados guardados en:", resultados_csv)