In [1]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.preprocessing import LabelEncoder
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.metrics import classification_report

nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Josvaldes\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Josvaldes\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
# Leer el archivo CSV
df = pd.read_csv('C:/Users/Josvaldes/Documents/Maestria/Austral/2ano/textMining/proyecto/TextMining/TextMining/RECLAMOS 3.csv', encoding='utf-8')
df

Unnamed: 0,problema_id,descripcion,alias_8_nombre3,problema_n,obsitem,Concaobsitem
0,70e03aaf-6cfb-42e8-92ae-fcb46ff479dd,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.),GN - Gas Natural,B1 - Pérdidas de gas con piezas dañadas,HAY UNA PERILLA DE LAS HORNALLA QUE NO SE PUED...,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.) GN...
1,e5be47a0-c506-4a79-87e9-2a45f06d496c,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.),GN - Gas Natural,G - Perilla no gira / gira mal,HAY UNA PERILLA DE LAS HORNALLA QUE NO SE PUED...,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.) GN...
2,2b2af341-20c5-4607-baa0-01972617647e,TERMO ELECTRICO EL-55,ELE - Termo eléctrico,D - No enciende,DESPUÉS DE QUE UNA PERSONA SE DUCHO NO VOLVIÓ ...,"TERMO ELECTRICO EL-55 ELE - Termo eléctrico "" ..."
3,ab0ed03a-8aab-4317-9aad-fcc06dd41520,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.),GN - Gas Natural,D2 - Hornalla Mal funcionamiento,,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.) GN...
4,ab0ed03a-8aab-4317-9aad-fcc06dd41520,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.),GN - Gas Natural,D2 - Hornalla Mal funcionamiento,LAS HORNALLAS TARDAN MUCHÍSIMO TIEMPO EN PREND...,COCINA PALACE CRISTAL BLACK LX S2 (GN) (U.) GN...
...,...,...,...,...,...,...
18709,b3e96d44-2a08-4f8b-b63e-df346e84ecaa,COCINA PALACE CRISTAL LX S2 (GN) (U.),GN - Gas Natural,K - Fallas en encendido electrónico,,COCINA PALACE CRISTAL LX S2 (GN) (U.) GN - Gas...
18710,8c5fec8e-37bc-46ac-a031-717476ef2f6f,COCINA PALACE CRISTAL LX S2 (GN) (U.),GN - Gas Natural,E - Puerta de horno - No cierra / Se cae,SE ROMPIÓ LA BISAGRA DE LA PUERTA DEL HORNO,COCINA PALACE CRISTAL LX S2 (GN) (U.) GN - Gas...
18711,553f6bde-32ee-4099-a99a-15a4ff7729f4,COCINA PALACE CRISTAL LX S2 (GL) (U.),GE - Gas Envasado,C2 - Horno Mal funcionamiento,,COCINA PALACE CRISTAL LX S2 (GL) (U.) GE - Gas...
18712,5e810261-6a73-470d-b900-5018f9f83927,COCINA PALACE CRISTAL LX S2 (GL) (U.),GE - Gas Envasado,D3 - Hornalla Se Apaga,- PROBLEMAS CON EL HORNO.\n \n - EL HORNO PERM...,COCINA PALACE CRISTAL LX S2 (GL) (U.) GE - Gas...


In [3]:
# Obtener las columnas de diagnósticos y códigos AIS
descripciones = df['Concaobsitem'].tolist()
etiquetas = df['problema_n'].tolist()

In [4]:
# Codificar las etiquetas como etiquetas numéricas
label_encoder = LabelEncoder()
etiquetas_numericas = label_encoder.fit_transform(etiquetas)

In [5]:
# Preprocesamiento de texto
stemmer = SnowballStemmer('spanish')
stop_words = set(stopwords.words('spanish'))

In [6]:
def preprocesar_texto(texto):
    palabras = nltk.word_tokenize(texto.lower())
    palabras = [stemmer.stem(palabra) for palabra in palabras if palabra.isalpha() and palabra not in stop_words]
    return ' '.join(palabras)

In [7]:
descripciones_preprocesadas = [preprocesar_texto(desc) for desc in descripciones]

In [8]:
# División de los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(descripciones_preprocesadas, etiquetas_numericas, test_size=0.2, random_state=42)


In [9]:
# Creación del pipeline para el clasificador basado en texto
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(max_features=5000)),  # Experimenta con diferentes valores para max_features
    ('clf', SVC(kernel='linear'))  # Experimenta con diferentes kernels
])

In [10]:
# Entrenamiento del modelo
pipeline.fit(X_train, y_train)
scores = cross_val_score(pipeline, X_train, y_train, cv=5) 



In [11]:
print("Accuracy en validación cruzada:", scores.mean())

Accuracy en validación cruzada: 0.6003605430114541


In [12]:
# Evaluación del modelo en el conjunto de prueba
y_pred = pipeline.predict(X_test)
report = classification_report(y_test, y_pred, labels=np.unique(etiquetas_numericas), target_names=label_encoder.inverse_transform(np.unique(etiquetas_numericas)), zero_division=1)
print(report)

                                                                                                   precision    recall  f1-score   support

                                                                    B - Descargas de electricidad       0.50      0.22      0.31         9
                                               B - La llama no enciende al abrir el grifo de agua       0.85      0.95      0.90        43
                                                      B - Pérdidas de gas sin/con piezas quemadas       1.00      0.00      0.00         2
                                                    B - Pérdidas de gas – sin/con piezas quemadas       1.00      0.14      0.25         7
                                                          B1 - Pérdidas de gas con piezas dañadas       0.35      0.17      0.23        71
                                                          B2 - Pérdidas de gas sin piezas dañadas       0.68      0.72      0.70       220
                          

In [19]:
# Cargar descripciones de problemas para evaluar
archivo_evaluacion = 'C:/Users/Josvaldes/Documents/Maestria/Austral/2ano/textMining/proyecto/TextMining/TextMining/testesco.xlsx'
lineas = pd.read_excel(archivo_evaluacion)
lineas

Unnamed: 0,obsitem
0,ELE - Termo eléctrico 3150 - Cañerías/Otros ar...
1,GE - Gas Envasado C2 - Horno Mal funcionamient...
2,GN - Gas Natural 1010 - Instalación no realiza...
3,MG - Multi Gas D6 - Otra Hornalla Se Apaga
4,GAS - Termo a gas 2040 - Tiraje incorrecto cte...
5,ELE - Termo eléctrico E - El agua sale con tem...


In [20]:
resultados = []

for linea in lineas:
    problema = linea.strip()
    problema_preprocesado = preprocesar_texto(problema)
    predicciones = pipeline.predict([problema_preprocesado])
    clase_predicha = label_encoder.inverse_transform(predicciones)[0]
    resultados.append({
        'Problema': problema,
        'Etiqueta de Reclamo': clase_predicha
    })

resultados_df = pd.DataFrame(resultados)

In [21]:
archivo_resultado = 'C:/Users/Josvaldes/Documents/Maestria/Austral/2ano/textMining/proyecto/TextMining/TextMining/testresultadoCV_SVC.txt'
resultados_df.to_csv(archivo_resultado, index=False, sep='\t', encoding='utf-8')

print("Resultados guardados en:", archivo_resultado)

Resultados guardados en: C:/Users/Josvaldes/Documents/Maestria/Austral/2ano/textMining/proyecto/TextMining/TextMining/testresultadoCV_SVC.txt
