In [1]:
import pandas as pd
# Cargar el archivo CSV
df = pd.read_csv('DatosSinteticos.csv')

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

# Supongamos que tienes un DataFrame df con las columnas "Detalle", "Monto (CLP)" y "Categoría"
# Convertir la columna "Categoría" en una variable binaria: 1 para "Gasto Hormiga", 0 para "Gasto No Hormiga"
df['Target'] = df['Categoría'].apply(lambda x: 1 if x == "Gasto Hormiga" else 0)

# Dividir el conjunto de datos
X_train, X_test, y_train, y_test = train_test_split(df[['Detalle', 'Monto (CLP)']], df['Target'], test_size=0.2, random_state=42)

# Configurar el vectorizador de texto y el clasificador en un pipeline
pipeline = make_pipeline(
    TfidfVectorizer(),  # Convierte texto en vectores TF-IDF
    StandardScaler(with_mean=False),  # Normaliza el monto
    RandomForestClassifier(n_estimators=100, random_state=42)  # Clasificador Random Forest
)

# Ajustar el modelo
pipeline.fit(X_train['Detalle'], y_train)

# Predicción y evaluación
y_pred = pipeline.predict(X_test['Detalle'])
accuracy = accuracy_score(y_test, y_pred)
print(f"Exactitud del modelo: {accuracy}")


Exactitud del modelo: 0.995049504950495


In [3]:
from sklearn.metrics import confusion_matrix, classification_report

# Predicción en el conjunto de prueba
y_pred = pipeline.predict(X_test['Detalle'])

# Matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
print("Matriz de Confusión:")
print(conf_matrix)

# Reporte de clasificación
print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))


Matriz de Confusión:
[[119   0]
 [  1  82]]

Reporte de Clasificación:
              precision    recall  f1-score   support

           0       0.99      1.00      1.00       119
           1       1.00      0.99      0.99        83

    accuracy                           1.00       202
   macro avg       1.00      0.99      0.99       202
weighted avg       1.00      1.00      1.00       202

