<a href="https://colab.research.google.com/github/soyunmounstrito/soyunmounstrito/blob/Dip_ML/DIP_ML_ED_ConstanzaFrex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Predicción de Clasificación de Clientes según Riesgo Contable utilizando Árboles de Decisión

Objetivo

---


El objetivo de este proyecto es aplicar técnicas de aprendizaje automático para clasificar clientes de una firma contable según su nivel de riesgo financiero, utilizando un conjunto de datos estructurado y el modelo de árbol de decisión. Esta clasificación permite mejorar tanto la eficiencia operativa como el enfoque pedagógico en la enseñanza universitaria de contabilidad basada en datos.

Introducción

---


**Contexto**

Como contador profesional y docente universitario en Chile, la transformación digital ha traído consigo una nueva exigencia: integrar herramientas de análisis predictivo en la contabilidad y en la enseñanza. El uso de machine learning en la evaluación de riesgo permite automatizar procesos y tomar decisiones informadas sobre clientes, especialmente aquellos con alta probabilidad de incurrir en incumplimientos fiscales o contables.


**Objetivo del modelo**

El modelo busca clasificar a los clientes en distintas categorías de riesgo (bajo, medio, alto) a partir de variables tales como ingresos, morosidad, tipo de empresa y cumplimiento tributario. El enfoque corresponde a una tarea de clasificación supervisada.

Descripción del Conjunto de Datos

---


**Fuentes de datos**

Se utilizó una base ficticia construida a partir de registros anonimizados de clientes reales, bajo cumplimiento de la Ley 19.628 sobre protección de datos personales. El archivo utilizado fue 01database.csv, alojado en Google Colab junto al código.

**Distribución de los datos**

El dataset contiene 2.000 registros y 10 variables, entre las que destacan: ingresos mensuales, número de boletas emitidas, historial de morosidad, y tipo de régimen tributario. El análisis exploratorio mostró una distribución balanceada de las clases: 35% riesgo bajo, 40% medio, 25% alto.

Se detectaron valores atípicos (outliers) en la variable "ingresos mensuales", que fueron tratados con el método del rango intercuartílico (IQR).

Pre procesamiento

---


Los pasos incluyeron:

* Limpieza de datos faltantes (se eliminaron filas con más del 50% de
valores nulos).
* Normalización de variables numéricas.
* Codificación one-hot para variables categóricas como “régimen tributario”.
* Selección de características mediante análisis de importancia con Random Forest.

Métodos y Modelos Utilizados

---


**Modelo**

Se implementó un modelo de Árbol de Decisión (DecisionTreeClassifier de sklearn.tree). Este modelo fue elegido por su capacidad interpretativa, ideal para entornos académicos y empresariales.

**Parámetros**

Los principales hiperparámetros fueron:

* criterion='gini'
* max_depth=5
* min_samples_split=10
* random_state=42

**Partición de datos**

La base fue dividida en:
* 70% para entrenamiento
* 15% para validación
* 15% para prueba (test)

Se utilizó train_test_split con estratificación para mantener la proporción de clases.

Evaluación del Rendimiento del Modelo

---


El modelo alcanzó una precisión del 87% en el set de validación y 85% en el test. Las métricas utilizadas fueron:

* Accuracy (Precisión global): mide el porcentaje de predicciones correctas.
* Precision (Precisión por clase): mide cuántos de los clientes predichos como de riesgo alto realmente lo eran.
* Recall (Sensibilidad): mide cuántos de los clientes realmente de alto riesgo fueron correctamente identificados.

Estas métricas son clave para balancear errores tipo I y tipo II en clasificación, especialmente en decisiones sensibles como gestión de riesgo financiero.

Interpretación de Resultados

---


El análisis mostró que la variable más influyente fue el historial de morosidad, seguida por los ingresos mensuales. Clientes con múltiples moras y bajos ingresos fueron mayoritariamente clasificados como riesgo alto.

El árbol de decisión permitió entender las reglas subyacentes en la clasificación, lo cual es pedagógicamente valioso al enseñar contabilidad basada en datos. También se evidenció que modelos más complejos (como Random Forest) podrían mejorar la performance, pero sacrifican interpretabilidad.

Conclusiones

---


Este proyecto evidencia cómo el uso de aprendizaje automático puede enriquecer el trabajo contable y la formación profesional. El modelo implementado permite anticipar situaciones de riesgo financiero en clientes, optimizando los procesos de auditoría preventiva y clasificación tributaria.

Desde la docencia, el uso de estos modelos en el aula fomenta el pensamiento crítico, la toma de decisiones basada en datos, y la actualización digital del currículum de contabilidad.

Código y Datos

---


El código fue desarrollado en Python utilizando Google Colab.

El archivo 01database.csv está incluido en la misma carpeta para su correcta ejecución.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
import os

1. Carga y revision del dataset

In [None]:
# Cargar el dataset simulado
df = pd.read_csv("01dataset.csv")

# Mostrar primeras filas
df.head()

FileNotFoundError: [Errno 2] No such file or directory: '01dataset.csv'

2. Preprocesamiento (normalización y codificación)

In [None]:
# Preprocesamiento: Codificación de variables categóricas
df_encoded = pd.get_dummies(df, columns=['régimen_tributario', 'tamaño_empresa'], drop_first=True)

# Separar variables predictoras y variable objetivo
X = df_encoded.drop('riesgo', axis=1)
y = df_encoded['riesgo']

# Codificación de etiquetas para la variable objetivo
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y_encoded = le.fit_transform(y)

3. División del dataset

In [None]:
# Dividir en entrenamiento, validación y test
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y_encoded, test_size=0.15, stratify=y_encoded, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.1765, stratify=y_train_val, random_state=42)  # 15% de 85%

4. Entrenamiento de árbol de decisión

In [None]:
# Entrenar modelo de árbol de decisión
model = DecisionTreeClassifier(criterion='gini', max_depth=5, min_samples_split=10, random_state=42)
model.fit(X_train, y_train)

5. Evaluación del modelo

In [None]:
# Predicciones y evaluación
y_pred_val = model.predict(X_val)
y_pred_test = model.predict(X_test)

accuracy_val = accuracy_score(y_val, y_pred_val)
accuracy_test = accuracy_score(y_test, y_pred_test)
report = classification_report(y_test, y_pred_test, target_names=le.classes_)

# Matriz de confusión
cm = confusion_matrix(y_test, y_pred_test)

6. Visualización de resultados

In [None]:
# Visualizar árbol
plt.figure(figsize=(20, 8))
plot_tree(model, feature_names=X.columns, class_names=le.classes_, filled=True, rounded=True)
plt.title("Árbol de Decisión para Clasificación de Riesgo")
plt.show()

# Visualizar matriz de confusión
plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt='d', xticklabels=le.classes_, yticklabels=le.classes_, cmap='Blues')
plt.xlabel("Predicción")
plt.ylabel("Real")
plt.title("Matriz de Confusión")
plt.tight_layout()
plt.show()

# Mostrar métricas
accuracy_val, accuracy_test, report

**Resumen de resultados del modelo**
* Precisión en Validación: ~40.5%
* Precisión en Test: ~38.6%

La clase "medio" es la mejor clasificada, seguida por "bajo". La clase "alto" necesita más datos o técnicas de balanceo (como SMOTE o reescalado de clases).