Autor: *Enrique Forero*

Fecha: *2025-05-28*


# 🟨🔝✅🛑 Guía de uso y convenciones

Este notebook utiliza los siguientes símbolos y colores para indicar el tipo de operación,
el estado y las acciones requeridas en cada sección del código.

## Códigos de colores y símbolos

### ✅ Ejecución

*   **▶️ 🔵  (Necesario):** Estas líneas de código deben ejecutarse siempre. Generalmente, se ejecutan solo una vez por sesión (ej: configuración inicial, carga de librerías).
*   **⏯️ ⏺️  (Esencial):**  Este código es fundamental para el funcionamiento del programa. Debe ejecutarse cada vez que se modifiquen los datos de entrada o la lógica central.
*   **🟥 🛑  (Cuidado):**  Indica una operación que debe realizarse con precaución, ya que podría modificar datos, consumir muchos recursos o tener efectos irreversibles.  Lee los comentarios cuidadosamente.
*   **🟨 🟡  (Opcional):**  Estas secciones contienen código que no es estrictamente necesario para el flujo principal, pero puede ser útil (ej: visualizaciones, análisis exploratorios, pruebas).
*   **🟧 🟠  (Revisar/Ejecutar una vez):**  Estas secciones ya se ejecutaron, o realizan configuraciones/tareas que no necesitan repetirse en cada ejecución.  Revísalas antes de correrlas de nuevo.  Si ya las ejecutaste una vez, puedes omitirlas.
*   **🔷  🔶  (Cargar resultados):** Se utiliza para cargar resultados de procesos previos que consumen mucho tiempo, evitando tener que volver a ejecutar todo el código (ej: cargar un DataFrame ya procesado desde un archivo).

### ♻️ Reutilización

*   **♻️ (Reutilizable):**  Indica funciones, bloques de código o variables que pueden ser reutilizados en otras partes del proyecto o en proyectos futuros.

### 🚧 Estado del Código

*   **🚧 🔨 (Pendiente/En Desarrollo):**  Secciones de código que aún no están completas, que requieren trabajo adicional o que están en fase de pruebas.
*   **✔️ (Completado):**  Indica que una tarea o sección de código que antes estaba pendiente ya ha sido finalizada.
*   **⚠️ (Advertencia):**  Zonas del código que requieren atención especial, ya sea porque son delicadas, propensas a errores, o tienen implicaciones importantes.
*   **❌ (Falla):**  Indica una sección de código que actualmente no funciona correctamente y necesita ser corregida.
*   **⏳ (Largo):**  Procesos que consumen mucho tiempo o recursos computacionales.  Útil para anticipar demoras y optimizar la ejecución.
*   **🚀 (Listo para producción):** Indica que el código o sección ya ha sido probado, validado y está listo para implementarse.

### 📊 Tipos de Operación

*   **⚙️  SETUP:**  Configuración del entorno (importación de librerías, definición de variables globales, etc.).
*   **📥  DATA LOAD:**  Carga de datos desde archivos o fuentes externas.
*   **💾 ⏸️ DATA SAVE:**  Guardado de datos intermedios o resultados (checkpoint).
*   **📤 DATA EXPORT:**  Exportación de los resultados finales a un archivo (ej: Excel, CSV).
*   **🔄 Transformación:** Modificación de la estructura o formato de los datos (ej: pivotar, agregar, filtrar).
*   **🛠️ Arreglando:**  Corrección de errores, manejo de valores faltantes, limpieza de datos.
*   **🧹 Limpieza:** Eliminación de duplicados, corrección de formatos, etc. (similar a "Arreglando", pero más enfocado en la calidad de los datos).
*   **🔗 Cruce:**  Combinación de datos de diferentes fuentes (joins, merges).
*   **📈 Graficar:**  Creación de visualizaciones de datos (gráficos, diagramas).
*   **📊 Análisis:**  Procesos de análisis exploratorio, cálculo de estadísticas, etc.
*   **🔢📐 Cálculos:**  Operaciones matemáticas o lógicas sobre los datos.
*   **🐛 Debug/Fixing:**  Sección dedicada a la depuración y corrección de errores.
*   **✅🟢🔍 Verificación:**  Pasos para comprobar la validez de los datos o resultados.  Si la verificación es exitosa, puede omitirse en futuras ejecuciones.
*   **📋📜 REPORT:** Generación de informes y resúmenes.
* **⚗️🧠🧪 Experimentos** Experimentar un proceso
* **💻🔁🔌 Reiniciar máquina** Volver a reiniciar el entorno de ejecución. Usualmente después de una instalación.
* **✍️📝📍 Control de cambios** Modificaciones que se hayan hecho a la programación.
* **💡📚🎓 Teoria** Explicación de conceptos fundamentales, principios básicos o marco teórico.

---

# 🔰 📘 🧭 ℹ️ READ ME

## 🏢 Clasificador híbrido de empresas y personas

[![Python](https://img.shields.io/badge/Python-3.7+-blue.svg)](https://www.python.org/downloads/)
[![Pandas](https://img.shields.io/badge/Pandas-1.x+-blue.svg)](https://pandas.pydata.org/)
[![Openpyxl](https://img.shields.io/badge/Openpyxl-3.x+-green.svg)](https://openpyxl.readthedocs.io/en/stable/)
[![Google Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/)
[![DIAN](https://img.shields.io/badge/DIAN-Gobierno%20de%20Colombia-yellow.svg)](https://www.dian.gov.co/)
[![License: MIT](https://img.shields.io/badge/License-MIT-green.svg)](https://opensource.org/licenses/MIT)

## 📝 Descripción

El **Clasificador híbrido de empresas y personas** es una herramienta desarrollada para la clasificación automática de entidades entre **empresas** y **personas naturales** en entidades como la **DIAN (Dirección de Impuestos y Aduanas Nacionales)**.

Este sistema combina un **motor de reglas especializado** con **análisis estadístico** para lograr alta precisión en la identificación de entidades empresariales en bases de datos de exportaciones y registros comerciales.

## 🌟 Características Principales

### 🎯 **Regla de oro**
- Sistema especializado que garantiza clasificación correcta para sufijos legales colombianos (S.A.S., LTDA, E.U., etc.)
- Reconocimiento de patrones corporativos internacionales y entidades especiales

### 🧠 **Clasificación híbrida**
- **Motor de reglas**: Identifica patrones específicos de empresas y personas
- **Motor estadístico**: Analiza patrones de palabras residuales para casos ambiguos
- **Umbrales configurables**: Permite ajustar la sensibilidad del clasificador

### 🇨🇴 **Especialización colombiana**
- Diccionario extenso de sufijos legales colombianos
- Patrones de sectores industriales locales
- Reconocimiento de estados legales empresariales (reestructuración, liquidación, etc.)

### ⚡ **Alto rendimiento**
- Procesamiento eficiente de grandes volúmenes de datos
- Optimizado para datasets de exportaciones de la DIAN
- Resultados con métricas de confianza detalladas

## 🎯 Casos de uso

- **Análisis de exportaciones**: Clasificación de exportadores en bases de datos de la DIAN
- **Estadísticas comerciales**: Generación de reportes diferenciados por tipo de entidad
- **Validación de datos**: Identificación de inconsistencias en registros comerciales
- **Investigación económica**: Análisis del comportamiento empresarial vs. personal en comercio exterior

## 🧠 Cómo Funciona

### 1. **Normalización de Texto**
```
"TECNOLOGÍAS GLOBALES S.A.S." → "TECNOLOGIAS GLOBALES S A S"
```

### 2. **Motor de reglas (Puntaje Inicial)**
- **Sufijos Empresariales**: S.A.S.(+10), LTDA(+9), E.U.(+9)
- **Títulos Personales**: DR.(-7), SR.(-5), JR.(-5)
- **Patrones Corporativos**: GRUPO(+7), HOLDING(+7), TECH(+12)

### 3. **Regla de oro (Activación Especial)**
```python
# Si encuentra términos clave, garantiza clasificación empresarial
golden_rule_terminos = ['S.A.S.', 'LTDA', 'CORPORATION', ...]
if termino_oro_encontrado:
    puntaje += 100  # Garantiza clasificación como empresa
```

### 4. **Motor estadístico (Refinamiento)**
- Analiza palabras residuales después de eliminar términos conocidos
- Aplica pesos estadísticos basados en frecuencia de aparición
- Limita impacto para evitar sobreajuste

### 5. **Clasificación final**
```python
if puntaje_total > umbral_empresa (0.01):
    clasificacion = 'empresa'
elif puntaje_total < umbral_persona (-0.01):
    clasificacion = 'persona'
else:
    clasificacion = 'incierto'
```

## 📊 Ejemplo de Resultados

| RAZON_SOCIAL_FINAL | clasificacion | puntaje_total | terminos_encontrados | regla_oro_aplicada |
|-------------------|---------------|---------------|---------------------|-------------------|
| A & D ALVARADO & DURING S A S | empresa | 109.19 | ['S A S(+10)'] | VERDADERO |
| ABBOTT LABORATORIES DE COLOMBIA SAS | empresa | 115.88 | ['SAS(+10)'] | VERDADERO |
| WILSON JR ROBERT RONALD | persona | -10.37 | ['JR(-5)'] | FALSO |
| YASOFSKY JR MICHAEL EDWARD | persona | -8.90 | ['JR(-5)'] | FALSO |
| 11001 | incierto | 0.00 | [] | FALSO |

## ⚡ Inicio Rápido

### 📋 Ejemplo Mínimo

```python
# 1. Configurar el clasificador
config = {
    'umbral_empresa': 0.01,
    'umbral_persona': -0.01,
    'golden_rule_terminos': ['S.A.S.', 'LTDA', 'E.U.'],
    'empresa_strong_indicators': {'S.A.S.': 10, 'LTDA': 9},
    'persona_strong_indicators': {'JR.': -5, 'DR.': -7}
}

# 2. Crear y entrenar el clasificador
clasificador = ClasificadorHibrido(config)
clasificador.entrenar(df_empresas, 'RAZON_SOCIAL', df_personas, 'RAZON_SOCIAL')

# 3. Clasificar datos
resultado = clasificador.clasificar_nombre("TECNOLOGIAS AVANZADAS S.A.S.")
print(resultado['clasificacion'])  # Output: 'empresa'
```

## 🛠️ Instalación y configuración

### 🐍 **Opción 1: Google Colab (Recomendado)**

```bash
# Instalar dependencias
!pip install fuzzywuzzy rapidfuzz openpyxl

# Clonar repositorio
!git clone https://github.com/enriqueforero/clasificador-hibrido-entidades.git
%cd clasificador-hibrido-entidades

# Ejecutar
%run clasificador_hibrido.py
```

### 💻 **Opción 2: Instalación local**

```bash
# Clonar repositorio
git clone https://github.com/enriqueforero/clasificador-hibrido-entidades.git
cd clasificador-hibrido-entidades

# Crear entorno virtual
python -m venv env
source env/bin/activate  # Linux/Mac
# env\Scripts\activate   # Windows

# Instalar dependencias
pip install -r requirements.txt

# Ejecutar
python clasificador_hibrido.py
```

## 📁 Estructura del proyecto

```
clasificador-hibrido-entidades/
├── clasificador_hibrido.py      # Script principal
├── requirements.txt             # Dependencias Python
├── README.md                   # Documentación (este archivo)
├── datos_ejemplo/              # Datos de ejemplo para pruebas
│   ├── empresas_muestra.xlsx
│   ├── personas_muestra.xlsx
│   └── datos_clasificar.xlsx
├── resultados/                 # Directorio de salida
└── notebooks/                  # Notebooks de análisis
    └── analisis_rendimiento.ipynb
```

## 📋 Requisitos del sistema

### **Python 3.9+**

### **Librerías Principales:**
- `pandas >= 1.3.0`: Manipulación y análisis de datos
- `numpy >= 1.21.0`: Operaciones numéricas
- `openpyxl >= 3.0.0`: Lectura/escritura de archivos Excel
- `fuzzywuzzy >= 0.18.0`: Coincidencia aproximada de cadenas
- `rapidfuzz >= 2.0.0`: Algoritmos de distancia de cadenas optimizados
- `pytz`: Manejo de zonas horarias
- `unicodedata`: Normalización de texto (incluido en Python)
- `re`: Expresiones regulares (incluido en Python)

## 📊 Preparación de datos de entrada

### **Formato Requerido:**

1. **Archivo de empresas para entrenamiento**: Excel con columna `RAZON_SOCIAL`
2. **Archivo de personas para entrenamiento**: Excel con columna `RAZON_SOCIAL`  
3. **Archivo a clasificar**: Excel con columna `RAZON_SOCIAL_FINAL`. Puede incluir otro nombre.

### **Ejemplo de estructura:**

```excel
# empresas_entrenamiento.xlsx
RAZON_SOCIAL
TECNOLOGIAS GLOBALES S.A.S.
COMERCIALIZADORA ANDINA LTDA
GRUPO EMPRESARIAL COLOMBIA E.U.

# personas_entrenamiento.xlsx  
RAZON_SOCIAL
JUAN CARLOS PEREZ GOMEZ
DR. ROBERTO MORALES SILVA
MARIA FERNANDA RODRIGUEZ JR.

# datos_clasificar.xlsx
RAZON_SOCIAL_FINAL
INNOVACIONES TECH S.A.S.
CARLOS ALBERTO MENDEZ
DISTRIBUIDORA NACIONAL LTDA
```

## ⚙️ Configuración y personalización

### **Ajuste de umbrales:**
```python
config = {
    'umbral_empresa': 0.01,    # Valores > 0.01 = empresa
    'umbral_persona': -0.01,   # Valores < -0.01 = persona
    'max_stat_score': 20.0     # Límite del puntaje estadístico
}
```

### **Personalización de términos:**
```python
# Agregar nuevos sufijos empresariales
config['empresa_strong_indicators']['NUEVA_FORMA_JURIDICA'] = 8

# Agregar términos a la Regla de Oro
config['golden_rule_terminos'].append('NUEVO_SUFIJO_CRITICO')
```

## 📈 Rendimiento y métricas

### **Métricas de salida por registro:**
- `clasificacion`: empresa / persona / incierto / invalido
- `puntaje_total`: Puntaje final de clasificación
- `puntaje_reglas`: Contribución del motor de reglas
- `puntaje_estadistico`: Contribución del motor estadístico
- `terminos_encontrados`: Lista de términos detectados con sus pesos
- `regla_oro_aplicada`: Si se activó la regla de oro

### **Interpretación de resultados:**
- **Empresa**: Puntaje > 0.01 (alta confianza si >10)
- **Persona**: Puntaje < -0.01 (alta confianza si <-5)
- **Incierto**: Puntaje entre -0.01 y 0.01
- **Inválido**: Texto insuficiente o datos corruptos

## ⚠️ Limitaciones y consideraciones

1. **Actualización de diccionarios**: Es necesario mantener actualizados los diccionarios de términos conforme aparezcan nuevos patrones en los nombres empresariales.

2. **Datos de entrenamiento**: La calidad del motor estadístico depende de la representatividad de los datos de entrenamiento.

3. **Casos ambiguos**: Nombres muy cortos o poco descriptivos pueden clasificarse como "incierto".

4. **Contexto cultural**: Optimizado para el contexto legal y empresarial colombiano.

## 🤝 Contribuciones

Las contribuciones son bienvenidas. Este proyecto busca mejorar continuamente para apoyar mejor a entidades que buscan clasificar mejor empresas y personas naturales.

### **Cómo contribuir:**
1. **Fork** el repositorio
2. Crea una **rama feature** (`git checkout -b feature/mejora-clasificacion`)
3. **Commit** tus cambios (`git commit -m 'Agregar nueva regla de clasificación'`)
4. **Push** a la rama (`git push origin feature/mejora-clasificacion`)
5. Abre un **Pull Request**

### **Áreas de mejora prioritarias:**
- Nuevos patrones empresariales
- Optimización de rendimiento para bases de más de 10M de registros.
- Casos edge específicos
- Mejoras en la documentación
- Tests unitarios

## 📄 Licencia

Este proyecto está bajo la **Licencia MIT**. Consulta el archivo `LICENSE` para más detalles.

## ✉️ Contacto

**Autor**: Enrique Forero  
**Email**: enrique.economista@gmail.com  
**GitHub**: https://github.com/EnriqueForero
**LinkedIn**: https://www.linkedin.com/in/enriqueforero/

---

## 📚 Referencias y recursos adicionales

- [DIAN - Dirección de Impuestos y Aduanas Nacionales](https://www.dian.gov.co/)
- [Registro Único Empresarial y Social (RUES)](https://www.rues.org.co/)
- [Pandas Documentation](https://pandas.pydata.org/docs/)
- [Fuzzy String Matching](https://en.wikipedia.org/wiki/Approximate_string_matching)

---

### 🏛️ **Proyecto desarrollado en apoyo al Gobierno de Colombia**

> *"Mejorando la precisión en la clasificación de entidades para fortalecer las estadísticas comerciales del país."*

# ⚙️  Configuración entorno de Google Colab

In [29]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [30]:
# Ruta donde está la programación del algoritmo en Cython
%cd "/content/drive/MyDrive/Pruebas/Clasificación Nombres"
%ls

/content/drive/MyDrive/Pruebas/Clasificación Nombres
'2025-05-29 Clasificación de nombres empresariales.ipynb'
 [0m[01;34mBackup[0m/
 clasificador_hibrido_20250528_2051.pkl
 clasificador_hibrido_20250528_2128.pkl
 clasificador_hibrido_20250528_2216.pkl
 clasificador_hibrido_20250528_2218.pkl
 clasificador_hibrido_v2_20250528_2221.pkl
 clasificador_hibrido_v2_20250529_2124.pkl
 clasificador_hibrido_v2_20250529_2155.pkl
 clasificador_hibrido_v2_20250529_2200.pkl
 clasificador_hibrido_v2_20250529_2210.pkl
 clasificador_hibrido_v2_20250529_2230.pkl
 clasificador_hibrido_v2_20250529_2243.pkl
 DIAN_clasificado_rapido_entrenado.xlsx
 DIAN_clasificado_superrapido.xlsx
 [01;34mInput_data[0m/
 Página_Web_Explicación_Identificación_Personas_Naturales.html
 Página_Web_Explicación_Identificación_Personas_Naturales_modesto.html
 resultado_clasificacion_20250528_2051.xlsx
 resultado_clasificacion_20250528_2128.xlsx
 resultado_clasificacion_20250528_2216.xlsx
 resultado_clasificacion_2025

# ⚙️ Instalar paquetes

In [31]:
!pip install fuzzywuzzy



In [32]:
!pip install rapidfuzz



# ⚙️ Importar librerías

In [33]:
from datetime import datetime
import pytz

# Definir la zona horaria de Colombia
zona_colombia = pytz.timezone('America/Bogota')

# Obtener la fecha y hora actual en Colombia
fecha_hora_colombia = datetime.now(zona_colombia)

# Imprimir con formato
print("Hora en Colombia:", fecha_hora_colombia.strftime("%Y-%m-%d %H:%M:%S"))

Hora en Colombia: 2025-05-30 08:02:37


In [34]:
# Para cambiar entre rutas
import sys

In [35]:
import missingno as msno

In [36]:
# Generales
import pandas as pd
import numpy as np
import os

# Ocultar warnings
import warnings
warnings.filterwarnings('ignore')

# Aumentar número de columnas que se pueden ver
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format
# Cada columna será tan grande como sea necesario para mostrar todo su contenido
pd.set_option('display.max_colwidth', 0)

# ⚙️ Definir variables

In [37]:
ruta_resultados = "Resultados"

# ♻️ Funciones

## ♻️ Medir tiempo

In [38]:
import time
from datetime import timedelta

def medir_tiempo(nombre_seccion=""):
    """
    Crea un medidor de tiempo simple y elegante.

    Parámetros:
    nombre_seccion (str): Nombre identificativo de la sección a medir (opcional)

    Retorna:
    function: Función que al llamarla imprime el tiempo transcurrido
    """
    tiempo_inicio = time.time()

    def imprimir_tiempo():
        tiempo_total = time.time() - tiempo_inicio
        # Convertimos a un formato más legible usando timedelta
        tiempo_formateado = str(timedelta(seconds=tiempo_total))

        # Si se proporcionó un nombre de sección, lo incluimos en el mensaje
        seccion = f" para {nombre_seccion}" if nombre_seccion else ""
        print(f"Tiempo transcurrido{seccion}: {tiempo_formateado}")

    return imprimir_tiempo

# Ejemplo de uso:
"""
# Para medir una sección específica:
fin_seccion = medir_tiempo("importar librerías")
import pandas as pd
import numpy as np
fin_seccion()

# Para medir todo un bloque de código:
fin_total = medir_tiempo()
# ... tu código aquí ...
fin_total()

# Para medir múltiples secciones:
fin_seccion1 = medir_tiempo("procesamiento inicial")
# ... código primera sección ...
fin_seccion1()

fin_seccion2 = medir_tiempo("análisis de datos")
# ... código segunda sección ...
fin_seccion2()
"""

'\n# Para medir una sección específica:\nfin_seccion = medir_tiempo("importar librerías")\nimport pandas as pd\nimport numpy as np\nfin_seccion()\n\n# Para medir todo un bloque de código:\nfin_total = medir_tiempo()\n# ... tu código aquí ...\nfin_total()\n\n# Para medir múltiples secciones:\nfin_seccion1 = medir_tiempo("procesamiento inicial")\n# ... código primera sección ...\nfin_seccion1()\n\nfin_seccion2 = medir_tiempo("análisis de datos")\n# ... código segunda sección ...\nfin_seccion2()\n'

In [39]:
tiempo_sesión = medir_tiempo("Sesión")
tiempo_total = medir_tiempo("Total")

## ♻️ Clasificador híbrido

In [40]:
# =============================================================================
# 1. LIBRERÍAS Y CONFIGURACIÓN INICIAL
# =============================================================================
import pandas as pd
import numpy as np
import re
import unicodedata
from collections import Counter
from typing import Dict, List, Tuple, Any, Optional
import time
import pickle
import os
from datetime import datetime
import pytz

# =============================================================================
# 2. LA CLASE FINAL: CLASIFICADOR HÍBRIDO
# Tiene la "Regla de Oro" y umbrales ajustables.
# =============================================================================

class ClasificadorHibrido:
    """
    Clasificador híbrido que combina un motor de reglas (con una "Regla de Oro"
    para sufijos clave) con un motor estadístico de apoyo.
    """
    def __init__(self, config: Dict[str, Any]):
        self.config = config
        self.empresa_strong_indicators = config.get('empresa_strong_indicators', {})
        self.persona_strong_indicators = config.get('persona_strong_indicators', {})

        # <<< Creación de la lista para la "Regla de Oro" >>>
        # Se crea un conjunto de términos que activarán la Regla de Oro para una búsqueda eficiente.
        self.golden_rule_terminos = set(config.get('golden_rule_terminos', []))

        # Unificar todos los indicadores para búsqueda y entrenamiento
        self.all_strong_indicators = sorted(
            list(self.empresa_strong_indicators.keys()) + list(self.persona_strong_indicators.keys()),
            key=len,
            reverse=True
        )

        self.empresa_patterns = {
            # Patrones tecnológicos (peso)
            r'\b\w*(TECH|TEC|DATA|SOFT|LAB|NET|WEB|DIGITAL)\b': 12,
            r'\b\w*(SYSTEM|SOLUTION|INNOVATION|INNOVA)\w*\b': 12,

            # Patrones comerciales (peso 2-3)
            r'\b(IMPORT|EXPORT|TRADING|TRADER)\w*\b': 12,
            r'\b\w*(COMERCIAL|INDUSTRIAL|BUSINESS)\w*\b': 12,

            # Números seguidos de sufijo societario (peso)
            r'\b\d+\s*(S\.?A\.?S?|LTDA|EU|SRL|CIA)\b': 13,
            r'\b\w+\s*\d+\s*(S\.?A\.?S?|LTDA|EU)\b': 13,

            # Patrones de grupo empresarial (peso )
            r'\b(GRUPO|GROUP|HOLDING)\s+\w+': 13,
            r'\b\w+\s+(GRUPO|GROUP|HOLDING)\b': 13,

            # Patrones de servicios (peso 2)
            r'\b\w*(SERVICIO|SERVICE|SOLUTION)\w*\b': 12,
            r'\b\w*(CONSULTING|CONSULTANT)\w*\b': 12,

            # Patrones de construcción y desarrollo (peso )
            r'\b\w*(CONSTRUCCION|CONSTRUCCIÓN|CONSTRUCT)\w*\b': 12,
            r'\b\w*(DESARROLLO|DEVELOPMENT|INMOBIL)\w*\b': 12,

            # Patrones de manufactura (peso 2-3)
            r'\b\w*(MANUFACTURA|MANUFACTURING|FABRICA|FÁBRICA)\w*\b': 13,
            r'\b\w*(INDUSTRIA|INDUSTRIAL|PRODUCTION)\w*\b': 12,

            # Patrones de distribución y logística (peso )
            r'\b\w*(DISTRIBU|LOGISTIC|TRANSPORT)\w*\b': 12,
            r'\b\w*(ALMACEN|ALMACÉN|WAREHOUSE)\w*\b': 12,
        }

        self.word_weights = {}
        self.is_trained = False

    def _normalize_text(self, text: str) -> str:
        if not isinstance(text, str): return ""
        text = unicodedata.normalize('NFD', text.upper()).encode('ascii', 'ignore').decode('utf-8')
        text = re.sub(r'[^\w\s\.]', ' ', text)
        return re.sub(r'\s+', ' ', text).strip()

    def entrenar(self, df_empresas: pd.DataFrame, empresa_col: str, df_personas: pd.DataFrame, persona_col: str):
        print("🧠 Iniciando entrenamiento del motor estadístico...")

        def extract_residual_words(texts: List[str]) -> Counter:
            word_counter = Counter()
            strong_indicators_pattern = re.compile(
                '|'.join(re.escape(self._normalize_text(term)) for term in self.all_strong_indicators)
            )
            for text in texts:
                normalized_text = self._normalize_text(text)
                residual_text = strong_indicators_pattern.sub('', normalized_text)
                word_counter.update(residual_text.split())
            return word_counter

        empresa_words = extract_residual_words(df_empresas[empresa_col].dropna().tolist())
        persona_words = extract_residual_words(df_personas[persona_col].dropna().tolist())
        total_empresa_words = sum(empresa_words.values())
        total_persona_words = sum(persona_words.values())
        all_words = set(empresa_words.keys()) | set(persona_words.keys())

        for word in all_words:
            if len(word) <= 2 or word.isdigit(): continue
            p_word_given_empresa = (empresa_words.get(word, 0) + 1) / (total_empresa_words + len(all_words))
            p_word_given_persona = (persona_words.get(word, 0) + 1) / (total_persona_words + len(all_words))
            self.word_weights[word] = np.log(p_word_given_empresa / p_word_given_persona) * 0.5

        self.is_trained = True
        print(f"✅ Motor estadístico entrenado. {len(self.word_weights):,} pesos de palabras aprendidos.")

    def clasificar_nombre(self, name: str) -> Dict[str, Any]:
        if not isinstance(name, str) or len(name.strip()) < 2:
            return {'clasificacion': 'invalido', 'puntaje_total': 0, 'terminos_encontrados': [],
                    'puntaje_reglas': 0, 'puntaje_estadistico': 0, 'regla_oro_aplicada': False}

        rule_score = 0
        found_terms = []
        normalized_name = self._normalize_text(name)
        temp_name = f" {normalized_name} "

        found_strong_terms_set = set()
        for term in self.all_strong_indicators:
            norm_term_raw = self._normalize_text(term)
            norm_term_spaced = f" {norm_term_raw} "
            if norm_term_spaced in temp_name:
                weight = self.empresa_strong_indicators.get(term, self.persona_strong_indicators.get(term, 0))
                rule_score += weight
                found_terms.append(f"{term.strip()}({weight:+})")
                found_strong_terms_set.add(term)
                temp_name = temp_name.replace(norm_term_spaced, ' ')

        for pattern, weight in self.empresa_patterns.items():
            if re.search(pattern, normalized_name):
                rule_score += weight
                found_terms.append(f"PATRON({pattern})({weight:+})")

        stat_score = 0
        if self.is_trained:
            words = temp_name.strip().split()
            for word in words:
                stat_score += self.word_weights.get(word, 0)

        stat_score_capped = np.clip(stat_score, -self.config.get('max_stat_score', 3), self.config.get('max_stat_score', 3))

        total_score = rule_score + stat_score_capped

        # <<< CAMBIO CLAVE 2: Implementación de la "Regla de Oro" >>>
        golden_rule_triggered = False
        if self.golden_rule_terminos.intersection(found_strong_terms_set):
            # Si se encontró un término de la regla de oro, se asegura un puntaje alto.
            total_score += 100  # Suma un puntaje muy alto para garantizar la clasificación.
            golden_rule_triggered = True

        # <<< CAMBIO CLAVE 3: Lógica de umbrales ajustada >>>
        # Se usan los umbrales configurables para la clasificación final.
        if total_score > self.config['umbral_empresa']:
            classification = 'empresa'
        elif total_score < self.config['umbral_persona']:
            classification = 'persona'
        else:
            classification = 'incierto'

        return {
            'clasificacion': classification,
            'puntaje_total': round(total_score, 2),
            'terminos_encontrados': found_terms,
            'puntaje_reglas': round(rule_score, 2),
            'puntaje_estadistico': round(stat_score_capped, 2),
            'regla_oro_aplicada': golden_rule_triggered
        }

# =============================================================================
# 3. FUNCIÓN DE ORQUESTACIÓN PRINCIPAL (sin cambios)
# =============================================================================

def ejecutar_proceso_clasificacion(
    df_a_clasificar: pd.DataFrame,
    columna_razon_social: str,
    realizar_entrenamiento: bool,
    config_modelo: Dict[str, Any],
    df_entrenamiento_empresas: Optional[pd.DataFrame] = None,
    col_entrenamiento_empresas: Optional[str] = None,
    df_entrenamiento_personas: Optional[pd.DataFrame] = None,
    col_entrenamiento_personas: Optional[str] = None,
    ruta_guardado_modelo: Optional[str] = None,
    ruta_guardado_excel: Optional[str] = None
) -> Tuple[pd.DataFrame, ClasificadorHibrido]:
    inicio_proceso = time.time()
    print(f"🚀 INICIANDO PROCESO DE CLASIFICACIÓN HÍBRIDA...")

    clasificador = ClasificadorHibrido(config_modelo)

    if realizar_entrenamiento:
        if df_entrenamiento_empresas is None or df_entrenamiento_personas is None:
            raise ValueError("Se requieren DataFrames de entrenamiento si 'realizar_entrenamiento' es True.")
        clasificador.entrenar(
            df_entrenamiento_empresas, col_entrenamiento_empresas,
            df_entrenamiento_personas, col_entrenamiento_personas
        )
        if ruta_guardado_modelo:
            with open(ruta_guardado_modelo, 'wb') as f: pickle.dump(clasificador, f)
            print(f"💾 Modelo entrenado y guardado en: {ruta_guardado_modelo}")
    else:
        if not ruta_guardado_modelo or not os.path.exists(ruta_guardado_modelo):
            raise FileNotFoundError("El archivo del modelo no se encontró y el entrenamiento fue omitido.")
        with open(ruta_guardado_modelo, 'rb') as f: clasificador = pickle.load(f)
        print(f"📂 Modelo cargado desde: {ruta_guardado_modelo}")

    print(f"🔄 Clasificando {len(df_a_clasificar):,} registros de la columna '{columna_razon_social}'...")
    start_classify = time.time()
    resultados = df_a_clasificar[columna_razon_social].apply(clasificador.clasificar_nombre)
    df_resultados_nuevos = pd.DataFrame(resultados.tolist(), index=df_a_clasificar.index)
    df_clasificado = df_a_clasificar.join(df_resultados_nuevos)
    print(f"✅ Clasificación completada en {time.time() - start_classify:.2f} segundos.")

    print("\n📊 ANÁLISIS DE RESULTADOS:")
    conteo_clasificacion = df_clasificado['clasificacion'].value_counts(normalize=True) * 100
    for tipo, porcentaje in conteo_clasificacion.items():
        print(f"  - {tipo.upper()}: {porcentaje:.2f}%")

    if ruta_guardado_excel:
        print(f"\n💾 Exportando resultados a Excel: {ruta_guardado_excel}")
        columnas_output = [columna_razon_social] + df_resultados_nuevos.columns.tolist()
        otras_columnas = [c for c in df_a_clasificar.columns if c != columna_razon_social]
        df_clasificado[columnas_output + otras_columnas].to_excel(ruta_guardado_excel, index=False, engine='openpyxl')
        print("✅ Exportación a Excel completada.")

    print(f"\n🎉 PROCESO FINALIZADO en {time.time() - inicio_proceso:.2f} segundos.")
    return df_clasificado, clasificador

# =============================================================================
# 4. USO
# =============================================================================

if __name__ == '__main__':

    # --- A. CONFIGURACIÓN ---
    RutaBase = "./"
    timestamp = datetime.now(pytz.timezone('America/Bogota')).strftime('%Y%m%d_%H%M')
    ruta_modelo_guardado = os.path.join(RutaBase, f'clasificador_hibrido_v2_{timestamp}.pkl')
    ruta_excel_resultado = os.path.join(RutaBase, f'resultado_clasificacion_v2_{timestamp}.xlsx')

    # <<< configuración >>>
    config = {
        # Estrategia agresiva por defecto: >0 es empresa, <0 es persona.
        # Se usa un valor pequeño (epsilon) para evitar problemas con punto flotante.
        'umbral_empresa': 0.01,
        'umbral_persona': -0.01,
        'max_stat_score': 20.0,

        # Lista de términos que activan la "Regla de Oro". Lo que se coloque ahí, se debe colocar con pero en el diccionario (empresa_strong_indicators).
        'golden_rule_terminos': [
            # Sufijos legales colombianos
            'S.A.S.', 'S.A.S', 'SAS', 'S A S', 'S AS',"S.AS.","S. A. S.",
            'LTDA.', 'LTDA', 'LIMITADA', 'LIMITADA.', 'LDA', 'L.T.D.A.', 'L.T.D.A',
            'E.U.', 'E.U', 'EU', 'E U', 'E.U.U.', 'E.U.U',
            'S.A.', 'S.A', 'SA', 'S A', 'SOCIEDAD ANONIMA', 'SOCIEDAD ANÓNIMA',
            'E.S.P.', 'E.S.P', 'ESP', 'E S P',
            'S. EN C.', 'S EN C', 'S. EN C', 'S.EN C.', 'S.C.', 'S.C',
            'S. EN C. S.', 'S EN C S', 'S.C.S.', 'S.C.S', 'S C S',
            'S.R.L.', 'S.R.L', 'SRL', 'S R L',
            'S.C.A.', 'S.C.A', 'SCA', 'S C A',
            'CIA.', 'CIA', 'COMPAÑIA', 'COMPANIA', 'COMPAÑÍA',

            # Estados legales
            'EN REESTRUCTURACION', 'EN REORGANIZACION', 'EN REESTRUCTURACIÓN', 'EN REORGANIZACIÓN',
            'EN LIQUIDACION', 'EN LIQUIDACIÓN', 'EN CONCORDATO',
            'EN ACUERDO DE REESTRUCTURACION', 'EN ACUERDO DE REESTRUCTURACIÓN', "COMERCILIZADORA","COMERCIO", "COMERICIALIZADORA",

            # Términos corporativos internacionales
            'CORPORATION', 'CORP.', 'CORP', 'INC.', 'INC', 'LLC', 'L.L.C.',
            'LIMITED', 'LTD.', 'LTD', 'GMBH', 'AG',
            'N.V.', 'NV', 'S.P.A.', 'SPA',

            # Tipos de organización
            'GRUPO', 'GROUP', 'HOLDING', 'HOLDINGS',
            'CONSORCIO', 'UNION TEMPORAL', 'UNIÓN TEMPORAL',
            'JOINT VENTURE', 'VENTURE', 'ORGANIZACION', 'ORGANIZACIÓN',

            # Sectores y actividades industriales
            'INDUSTRIAL', 'INDUSTRIALES', 'INDUSTRIAS', 'INDUSTRIA',
            'COMERCIALIZADORA', 'COMERCIALIZACION', 'DISTRIBUIDORA', 'DISTRIBUIDOR',
            'DISTRIBUCIONES', 'DISTRIBUCION', 'DISTRIBUCIÓN',
            'CONSTRUCTORA', 'CONSTRUCCIONES', 'CONSTRUCTOR',
            'INMOBILIARIA', 'INMOBILIARIO', 'INMOBILIARIOS',
            'INVERSIONES', 'INVESTMENT', 'INVERSIONISTA',
            'FINANCIERA', 'FINANCIAL', 'FINANZAS',
            'LABORATORIO', 'LABORATORIOS',
            'AGROPECUARIA', 'AGRICOLA', 'AGRÍCOLA', 'AGRO',
            'TRANSPORTES', 'TRANSPORTE', 'LOGISTICA', 'LOGÍSTICA', 'LOGIEXPORT',
            'SERVICIOS', 'SOLUCIONES', 'SOLUTIONS',"AGRICULTURA",

            # Entidades especiales
            'FUNDACION', 'FUNDACIÓN', 'FOUNDATION',
            'CORPORACION', 'CORPORACIÓN',
            'ASOCIACION', 'ASOCIACIÓN', 'ASSOCIATION', 'ASOCIADOS',
            'UNIVERSIDAD', 'UNIVERSITY', 'INSTITUTO', 'COLEGIO',
            'HOSPITAL', 'CLINICA', 'CLÍNICA', 'CLINIC',
            'BANCO', 'BANK', 'BANKING',
            'COOPERATIVA', 'COOPERATIVE', 'COOP',
            'EMBAJADA',

            # Términos comerciales y tecnológicos
            'EXPORT', 'EXPORTACIONES', 'IMPORT', 'IMPORTADORA', 'TRADING', 'TRADER',
            'CONSULTING', 'CONSULTORES', 'CONSULTORÍA', 'CONSULTORIA',
            'TECHNOLOGY', 'TECH', 'SISTEMAS', 'SYSTEM', 'SYSTEMS',
            'SOFTWARE', 'SOFT', 'DATA', 'DIGITAL',
            'INTERNET', 'WEB', 'ONLINE', 'NET',
            'REPRESENTACIONES', 'AGENCIA',

            # Sectores específicos
            'PETROLERA', 'PETROLEUM', 'OIL', 'GAS',
            'MINERA', 'MINING', 'MINAS',
            'TEXTIL', 'TEXTILES', 'TEXTILE', 'CONFECCIONES',
            'FARMACEUTICA', 'PHARMACEUTICAL', 'PHARMA',
            'ALIMENTARIA', 'ALIMENTOS', 'FOOD',
            'AUTOMOTRIZ', 'AUTOMOTIVE', 'AUTO',
            'METALURGICA', 'METAL', 'STEEL',
            'QUIMICA', 'QUÍMICA', 'CHEMICAL',
            'DEPORTIVA',

            # Términos de manufactura y producción
            'FABRICA', 'FÁBRICA', 'FACTORY', 'MANUFACTURING', 'MANUFACTURAS',
            'PRODUCTORA', 'PRODUCTOR', 'PRODUCTION',
            'PROCESADORA', 'PROCESADOR',
            'CREACIONES', 'ARTESANIAS', 'ARTESANÍAS',
            'INSTRUMENT',

            # Servicios profesionales
            'AUDITORIA', 'AUDITORÍA', 'AUDIT',
            'CONTABILIDAD', 'ACCOUNTING',
            'INGENIERIA', 'INGENIERÍA', 'ENGINEERING',
            'ARQUITECTURA', 'ARCHITECTURE',
            'LEGAL', 'JURIDICA', 'JURÍDICA',
            'EMPRESARIALES', 'EMPRESARIAL',

            # Siglas especiales
            'C.I.', 'C.I', 'C I', 'CI',
            'U A P', 'UAP',
            'BIC', 'ZOMAC', 'SAS BIC',
            'EICE', 'EIICE',

            # Términos de medios y comunicación
            'RADIO', 'TELEVISION', 'TV', 'MEDIA',
            'EDITORIAL', 'PUBLICIDAD', 'ADVERTISING',

            # Términos de entretenimiento
            'CASINO', 'HOTEL', 'RESTAURANT', 'TURISMO',
            'EVENTOS', 'ESPECTACULOS', 'ESPECTÁCULOS',

            # Términos de seguridad
            'SEGURIDAD', 'SECURITY', 'VIGILANCIA',
            'ASEGURADORA', 'SEGUROS', 'INSURANCE',

            # === NUEVOS TÉRMINOS EXTRAÍDOS DE EMPRESAS COLOMBIANAS ===

            # Términos de ALTA indicación empresarial
            'ESPECIALIZADA', 'ESPECIALIZADO', 'ESPECIALIDADES', 'COMERCIALIZADORA',
            'DISTRIBUIDORA', 'MANUFACTURAS', 'TECHNOLOGIES', 'INTERNACIONAL',
            'EXPORTADORA', 'IMPORTADORA', 'REPRESENTACIONES', 'TELECOMUNICACIONES',
            'AUTOMATIZACION', 'GLOBALTRADING', 'INTERTRADING', 'MULTINACIONAL',

            # Sectores INDUSTRIALES específicos
            'METALES', 'METALURGICA', 'METALOPLASTICA', 'METALMASTER', 'METALCORAZA',
            'PLASTICOS', 'PLASTICA', 'PLASTIMEDICOS', 'PLASTINOVO', 'PLASEMPAQUES',
            'TEXTILES', 'TEXTIL', 'MAQUITEXTIL', 'PROTEXTIL', 'TECNOTEXTIL',
            'QUIMICAS', 'QUIMICA', 'PHARMACEUTICAL', 'FARMACEUTICA', 'AGROQUIFAVET',
            'HIDROCARBUROS', 'PETROSUPPLY', 'PETROLEO', 'NEUMATICA', 'HIDRAULICA',
            'ELECTROAUTOMATISMOS', 'ELECTROTECNICAS', 'ELECTRICERCAS',
            'ARCILLAS', 'MINERALES', 'MATERIALES', 'FABRIMATERIALES', 'GEOMEMBRANAS',

            # Actividades COMERCIALES
            'TRADING', 'EXPOAGROUNIVERSAL', 'EXPOALIMENTOS', 'EXPONEGOCIOS',
            'MERCADEXPORT', 'MUNDIEXPORT', 'GRANDEXPORT', 'LOGINEXPORT',
            'PACKAGING', 'EMPAQUES', 'LITOEMPAQUES', 'NORTEMPAQUES',
            'PROMOCIONAL', 'PROMOCIONES', 'PROMOFUSION', 'PUBLICIDAD',
            'NEGOCIOS', 'COMERCIAL', 'COMERCIO', 'VENTAS', 'MARKETING',

            # Sector ALIMENTARIO y AGRÍCOLA
            'FOODS', 'ALIMENTOS', 'ALIMENTARIA', 'ALIMENTRADE', 'INSTALIMENTOS',
            'FRUTIDELICIAS', 'FRUVERS', 'FRUCOLMV', 'FRUKACOL', 'FRUNACOL',
            'AGROINVERSIONES', 'AGROGANADERIA', 'AGROPECUARIA', 'AGRICOLA',
            'AGROCALIDAD', 'AGROSOLEDAD', 'PROAGROEXPORT', 'TRANSFORAGRO',
            'GANADERIA', 'PISCICOLA', 'AVICOLA', 'FARMS', 'CULTIVOS',
            'SEMILLAS', 'FLORES', 'HORTALIZAS', 'CEREALES',

            # MANUFACTURA y PRODUCCIÓN
            'LADRILLERA', 'SOLDADURAS', 'FABRIVALVULAS', 'FUNDIMOLDES',
            'CONSTRUMAKINAS', 'TECNOMAQUINARIA', 'MAQUIMPLAST', 'TRACTOMAQUINAS',
            'AUTOPARTES', 'REPUESTOS', 'COMPONENTES', 'PIEZAS', 'MOLDES',
            'HERRAMIENTAS', 'EQUIPOS', 'INSTRUMENTOS', 'MAQUINARIA',
            'PRODUCTORA', 'PROCESADORA', 'TRANSFORMADORA', 'ENSAMBLADORA',

            # SERVICIOS técnicos y profesionales
            'INGENIERIAS', 'INGEOSTUDIOS', 'INGEBASCULAS', 'INGRAFICAS',
            'CONSULTORIA', 'CONSULTING', 'ASESORIA', 'SERVICIOS', 'SOLUCIONES',
            'SISTEMAS', 'SYSTRONICS', 'PROSISTEMAS', 'TECNOSISTEMAS',
            'ADMINISTRAR', 'OPERACIONES', 'GESTION', 'MANTENIMIENTO',

            # CONSTRUCCIÓN e INMOBILIARIA
            'CONSTRUCTORA', 'CONSTRUCCION', 'EDIFICACIONES', 'OBRAS', 'PROYECTOS',
            'INMOBILIARIA', 'PROPIEDADES', 'BIENES', 'RAICES', 'URBANIZADORA',
            'ARQUITECTURA', 'DISEÑO', 'PLANEACION', 'URBANISMO',

            # TRANSPORTE y LOGÍSTICA
            'TRANSPORTES', 'TRANSPORTE', 'LOGISTICA', 'CARGA', 'ENVIOS',
            'COURIER', 'DISTRIBUCION', 'ALMACENAMIENTO', 'BODEGAJE',
            'MARITIMO', 'AEREO', 'TERRESTRE', 'INTERNACIONAL',

            # TECNOLOGÍA e INFORMÁTICA
            'TECNOLOGIA', 'TECHNOLOGY', 'INFORMATICA', 'SOFTWARE', 'HARDWARE',
            'SISTEMAS', 'COMPUTACION', 'DIGITAL', 'ELECTRONICA', 'COMUNICACIONES',
            'INTERNET', 'WEB', 'ONLINE', 'DATA', 'NETWORKING',

            # SALUD y MEDICINA
            'MEDICAS', 'MEDICAMENTOS', 'FARMACEUTICA', 'LABORATORIOS',
            'CLINICAS', 'HOSPITALES', 'SALUD', 'MEDICINA', 'TERAPEUTICA',
            'DIAGNOSTICO', 'INSTRUMENTAL', 'EQUIPOS', 'DISPOSITIVOS',

            # EDUCACIÓN y CULTURA
            'EDUCACION', 'EDUCATIVA', 'UNIVERSIDAD', 'INSTITUTO', 'COLEGIO',
            'ACADEMICA', 'FORMACION', 'CAPACITACION', 'ENTRENAMIENTO',
            'CULTURAL', 'EDITORIAL', 'EDICIONES', 'PUBLICACIONES', 'LIBROS',

            # ENERGÍA y MEDIO AMBIENTE
            'ENERGIA', 'ELECTRICA', 'GENERACION', 'DISTRIBUCION', 'TRANSMISION',
            'RENOVABLE', 'SOLAR', 'EOLICA', 'HIDROELECTRICA',
            'AMBIENTAL', 'ECOLOGICA', 'RECICLAJE', 'TRATAMIENTO', 'RESIDUOS',

            # SEGURIDAD y SEGUROS
            'SEGURIDAD', 'VIGILANCIA', 'PROTECCION', 'MONITOREO', 'CONTROL',
            'SEGUROS', 'ASEGURADORA', 'RIESGOS', 'POLIZAS', 'COBERTURA',

            # ENTRETENIMIENTO y TURISMO
            'TURISMO', 'HOTELERA', 'RESTAURANTE', 'GASTRONOMIA', 'EVENTOS',
            'ESPECTACULOS', 'ENTRETENIMIENTO', 'RECREACION', 'DEPORTES',
            'CASINO', 'JUEGOS', 'DIVERSIONES'
        ],

        'empresa_strong_indicators': {
            # Sufijos legales colombianos (peso 9-10)
            'S.A.S.': 10, 'S.A.S': 10, 'SAS': 10, 'S A S': 10, 'S AS': 10,"S.AS.":10, "S. A. S.":10,
            'LTDA.': 9, 'LTDA': 9, 'LIMITADA': 9, 'LIMITADA.': 9, 'LDA': 9, 'L.T.D.A.': 9, 'L.T.D.A': 9,
            'E.U.': 9, 'E.U': 9, 'EU': 9, 'E U': 9, 'E.U.U.': 9, 'E.U.U': 9,
            'S.A.': 9, 'S.A': 9, 'SA': 9, 'S A': 9, 'SOCIEDAD ANONIMA': 10, 'SOCIEDAD ANÓNIMA': 10,
            'E.S.P.': 9, 'E.S.P': 9, 'ESP': 9, 'E S P': 9,
            'S. EN C.': 8, 'S EN C': 8, 'S. EN C': 8, 'S.EN C.': 8, 'S.C.': 8, 'S.C': 8,
            'S. EN C. S.': 8, 'S EN C S': 8, 'S.C.S.': 8, 'S.C.S': 8, 'S C S': 8,
            'S.R.L.': 8, 'S.R.L': 8, 'SRL': 8, 'S R L': 8,
            'S.C.A.': 8, 'S.C.A': 8, 'SCA': 8, 'S C A': 8,
            'CIA.': 8, 'CIA': 8, 'COMPAÑIA': 8, 'COMPANIA': 8, 'COMPAÑÍA': 8,

            # Estados legales (peso 10)
            'EN REESTRUCTURACION': 10, 'EN REORGANIZACION': 10, 'EN REESTRUCTURACIÓN': 10, 'EN REORGANIZACIÓN': 10,
            'EN LIQUIDACION': 10, 'EN LIQUIDACIÓN': 10, 'EN CONCORDATO': 9,
            'EN ACUERDO DE REESTRUCTURACION': 10, 'EN ACUERDO DE REESTRUCTURACIÓN': 10,"COMERCILIZADORA":10, "COMERCIO":10,
            "COMERICIALIZADORA":10,

            # Términos corporativos internacionales (peso 8-9)
            'CORPORATION': 8, 'CORP.': 8, 'CORP': 8, 'INC.': 8, 'INC': 8, 'LLC': 8, 'L.L.C.': 8,
            'LIMITED': 8, 'LTD.': 8, 'LTD': 8, 'GMBH': 8, 'AG': 8,
            'N.V.': 8, 'NV': 8, 'S.P.A.': 8, 'SPA': 8,

            # Tipos de organización (peso 7-8)
            'GRUPO': 7, 'GROUP': 7, 'HOLDING': 7, 'HOLDINGS': 7,
            'CONSORCIO': 7, 'UNION TEMPORAL': 7, 'UNIÓN TEMPORAL': 7,
            'JOINT VENTURE': 7, 'VENTURE': 6, 'ORGANIZACION': 7, 'ORGANIZACIÓN': 7,

            # Sectores y actividades industriales (peso 6-8)
            'INDUSTRIAL': 7, 'INDUSTRIALES': 7, 'INDUSTRIAS': 8, 'INDUSTRIA': 7,
            'COMERCIALIZADORA': 8, 'COMERCIALIZACION': 8, 'DISTRIBUIDORA': 7, 'DISTRIBUIDOR': 7,
            'DISTRIBUCIONES': 7, 'DISTRIBUCION': 7, 'DISTRIBUCIÓN': 7,
            'CONSTRUCTORA': 8, 'CONSTRUCCIONES': 7, 'CONSTRUCTOR': 7,
            'INMOBILIARIA': 8, 'INMOBILIARIO': 7, 'INMOBILIARIOS': 7,
            'INVERSIONES': 8, 'INVESTMENT': 7, 'INVERSIONISTA': 6,
            'FINANCIERA': 8, 'FINANCIAL': 8, 'FINANZAS': 7,
            'LABORATORIO': 7, 'LABORATORIOS': 7,
            'AGROPECUARIA': 7, 'AGRICOLA': 6, 'AGRÍCOLA': 6, 'AGRO': 6,
            'TRANSPORTES': 7, 'TRANSPORTE': 7, 'LOGISTICA': 7, 'LOGÍSTICA': 7, 'LOGIEXPORT': 7,
            'SERVICIOS': 5, 'SOLUCIONES': 5, 'SOLUTIONS': 5, "AGRICULTURA":5,

            # Entidades especiales (peso 7-8)
            'FUNDACION': 8, 'FUNDACIÓN': 8, 'FOUNDATION': 8,
            'CORPORACION': 8, 'CORPORACIÓN': 8,
            'ASOCIACION': 8, 'ASOCIACIÓN': 8, 'ASSOCIATION': 8, 'ASOCIADOS': 7,
            'UNIVERSIDAD': 8, 'UNIVERSITY': 8, 'INSTITUTO': 7, 'COLEGIO': 7,
            'HOSPITAL': 7, 'CLINICA': 7, 'CLÍNICA': 7, 'CLINIC': 7,
            'BANCO': 8, 'BANK': 8, 'BANKING': 7,
            'COOPERATIVA': 8, 'COOPERATIVE': 8, 'COOP': 7,
            'EMBAJADA': 8,

            # Términos comerciales y tecnológicos (peso 5-7)
            'EXPORT': 6, 'EXPORTACIONES': 6, 'IMPORT': 6, 'IMPORTADORA': 7, 'TRADING': 7, 'TRADER': 6,
            'CONSULTING': 7, 'CONSULTORES': 7, 'CONSULTORÍA': 7, 'CONSULTORIA': 7,
            'TECHNOLOGY': 6, 'TECH': 6, 'SISTEMAS': 6, 'SYSTEM': 6, 'SYSTEMS': 6,
            'SOFTWARE': 6, 'SOFT': 6, 'DATA': 6, 'DIGITAL': 6,
            'INTERNET': 5, 'WEB': 5, 'ONLINE': 5, 'NET': 5,
            'REPRESENTACIONES': 6, 'AGENCIA': 6,

            # Sectores específicos (peso 6-8)
            'PETROLERA': 7, 'PETROLEUM': 7, 'OIL': 7, 'GAS': 7,
            'MINERA': 7, 'MINING': 7, 'MINAS': 7,
            'TEXTIL': 6, 'TEXTILES': 6, 'TEXTILE': 6, 'CONFECCIONES': 6,
            'FARMACEUTICA': 7, 'PHARMACEUTICAL': 7, 'PHARMA': 7,
            'ALIMENTARIA': 6, 'ALIMENTOS': 6, 'FOOD': 6,
            'AUTOMOTRIZ': 6, 'AUTOMOTIVE': 6, 'AUTO': 5,
            'METALURGICA': 6, 'METAL': 6, 'STEEL': 6,
            'QUIMICA': 6, 'QUÍMICA': 6, 'CHEMICAL': 6,
            'DEPORTIVA': 6,

            # Términos de manufactura y producción (peso 6-7)
            'FABRICA': 6, 'FÁBRICA': 6, 'FACTORY': 6, 'MANUFACTURING': 7, 'MANUFACTURAS': 7,
            'PRODUCTORA': 7, 'PRODUCTOR': 7, 'PRODUCTION': 7,
            'PROCESADORA': 7, 'PROCESADOR': 7,
            'CREACIONES': 6, 'ARTESANIAS': 6, 'ARTESANÍAS': 6,
            'INSTRUMENT': 6,

            # Servicios profesionales (peso 5-7)
            'AUDITORIA': 6, 'AUDITORÍA': 6, 'AUDIT': 6,
            'CONTABILIDAD': 6, 'ACCOUNTING': 6,
            'INGENIERIA': 6, 'INGENIERÍA': 6, 'ENGINEERING': 6,
            'ARQUITECTURA': 6, 'ARCHITECTURE': 6,
            'LEGAL': 6, 'JURIDICA': 6, 'JURÍDICA': 6,
            'EMPRESARIALES': 6, 'EMPRESARIAL': 6,

            # Siglas especiales (peso 6-7)
            'C.I.': 6, 'C.I': 6, 'C I': 6, 'CI': 6,
            'U A P': 6, 'UAP': 6,
            'BIC': 6, 'ZOMAC': 6, 'SAS BIC': 8,
            'EICE': 6, 'EIICE': 6,

            # Términos de medios y comunicación (peso 5-6)
            'RADIO': 5, 'TELEVISION': 6, 'TV': 5, 'MEDIA': 6,
            'EDITORIAL': 6, 'PUBLICIDAD': 6, 'ADVERTISING': 6,

            # Términos de entretenimiento (peso 5-6)
            'CASINO': 6, 'HOTEL': 6, 'RESTAURANT': 6, 'TURISMO': 6,
            'EVENTOS': 5, 'ESPECTACULOS': 6, 'ESPECTÁCULOS': 6,

            # Términos de seguridad (peso 6-7)
            'SEGURIDAD': 6, 'SECURITY': 6, 'VIGILANCIA': 6,
            'ASEGURADORA': 7, 'SEGUROS': 7, 'INSURANCE': 7,

            # === NUEVOS TÉRMINOS EXTRAÍDOS DE EMPRESAS COLOMBIANAS CON PESOS ===

            # Términos de ALTA indicación empresarial (peso 8)
            'ESPECIALIZADA': 8, 'ESPECIALIZADO': 8, 'ESPECIALIDADES': 8, 'COMERCIALIZADORA': 8,
            'DISTRIBUIDORA': 8, 'MANUFACTURAS': 8, 'TECHNOLOGIES': 8, 'INTERNACIONAL': 8,
            'EXPORTADORA': 8, 'IMPORTADORA': 8, 'REPRESENTACIONES': 8, 'TELECOMUNICACIONES': 8,
            'AUTOMATIZACION': 8, 'GLOBALTRADING': 8, 'INTERTRADING': 8, 'MULTINACIONAL': 8,

            # Sectores INDUSTRIALES específicos (peso 7)
            'METALES': 7, 'METALURGICA': 7, 'METALOPLASTICA': 7, 'METALMASTER': 7, 'METALCORAZA': 7,
            'PLASTICOS': 7, 'PLASTICA': 7, 'PLASTIMEDICOS': 7, 'PLASTINOVO': 7, 'PLASEMPAQUES': 7,
            'TEXTILES': 7, 'TEXTIL': 7, 'MAQUITEXTIL': 7, 'PROTEXTIL': 7, 'TECNOTEXTIL': 7,
            'QUIMICAS': 7, 'QUIMICA': 7, 'PHARMACEUTICAL': 7, 'FARMACEUTICA': 7, 'AGROQUIFAVET': 7,
            'HIDROCARBUROS': 7, 'PETROSUPPLY': 7, 'PETROLEO': 7, 'NEUMATICA': 7, 'HIDRAULICA': 7,
            'ELECTROAUTOMATISMOS': 7, 'ELECTROTECNICAS': 7, 'ELECTRICERCAS': 7,
            'ARCILLAS': 7, 'MINERALES': 7, 'MATERIALES': 7, 'FABRIMATERIALES': 7, 'GEOMEMBRANAS': 7,

            # Actividades COMERCIALES (peso 6)
            'TRADING': 6, 'EXPOAGROUNIVERSAL': 6, 'EXPOALIMENTOS': 6, 'EXPONEGOCIOS': 6,
            'MERCADEXPORT': 6, 'MUNDIEXPORT': 6, 'GRANDEXPORT': 6, 'LOGINEXPORT': 6,
            'PACKAGING': 6, 'EMPAQUES': 6, 'LITOEMPAQUES': 6, 'NORTEMPAQUES': 6,
            'PROMOCIONAL': 6, 'PROMOCIONES': 6, 'PROMOFUSION': 6, 'PUBLICIDAD': 6,
            'NEGOCIOS': 6, 'COMERCIAL': 6, 'COMERCIO': 6, 'VENTAS': 6, 'MARKETING': 6,

            # Sector ALIMENTARIO y AGRÍCOLA (peso 6)
            'FOODS': 6, 'ALIMENTOS': 6, 'ALIMENTARIA': 6, 'ALIMENTRADE': 6, 'INSTALIMENTOS': 6,
            'FRUTIDELICIAS': 6, 'FRUVERS': 6, 'FRUCOLMV': 6, 'FRUKACOL': 6, 'FRUNACOL': 6,
            'AGROINVERSIONES': 6, 'AGROGANADERIA': 6, 'AGROPECUARIA': 6, 'AGRICOLA': 6,
            'AGROCALIDAD': 6, 'AGROSOLEDAD': 6, 'PROAGROEXPORT': 6, 'TRANSFORAGRO': 6,
            'GANADERIA': 6, 'PISCICOLA': 6, 'AVICOLA': 6, 'FARMS': 6, 'CULTIVOS': 6,
            'SEMILLAS': 6, 'FLORES': 6, 'HORTALIZAS': 6, 'CEREALES': 6,

            # MANUFACTURA y PRODUCCIÓN (peso 6)
            'LADRILLERA': 6, 'SOLDADURAS': 6, 'FABRIVALVULAS': 6, 'FUNDIMOLDES': 6,
            'CONSTRUMAKINAS': 6, 'TECNOMAQUINARIA': 6, 'MAQUIMPLAST': 6, 'TRACTOMAQUINAS': 6,
            'AUTOPARTES': 6, 'REPUESTOS': 6, 'COMPONENTES': 6, 'PIEZAS': 6, 'MOLDES': 6,
            'HERRAMIENTAS': 6, 'EQUIPOS': 6, 'INSTRUMENTOS': 6, 'MAQUINARIA': 6,
            'PRODUCTORA': 6, 'PROCESADORA': 6, 'TRANSFORMADORA': 6, 'ENSAMBLADORA': 6,

            # SERVICIOS técnicos y profesionales (peso 5)
            'INGENIERIAS': 5, 'INGEOSTUDIOS': 5, 'INGEBASCULAS': 5, 'INGRAFICAS': 5,
            'CONSULTORIA': 5, 'CONSULTING': 5, 'ASESORIA': 5, 'SERVICIOS': 5, 'SOLUCIONES': 5,
            'SISTEMAS': 5, 'SYSTRONICS': 5, 'PROSISTEMAS': 5, 'TECNOSISTEMAS': 5,
            'ADMINISTRAR': 5, 'OPERACIONES': 5, 'GESTION': 5, 'MANTENIMIENTO': 5,

            # CONSTRUCCIÓN e INMOBILIARIA (peso 6)
            'CONSTRUCTORA': 6, 'CONSTRUCCION': 6, 'EDIFICACIONES': 6, 'OBRAS': 6, 'PROYECTOS': 6,
            'INMOBILIARIA': 6, 'PROPIEDADES': 6, 'BIENES': 6, 'RAICES': 6, 'URBANIZADORA': 6,
            'ARQUITECTURA': 6, 'DISEÑO': 6, 'PLANEACION': 6, 'URBANISMO': 6,

            # TRANSPORTE y LOGÍSTICA (peso 6)
            'TRANSPORTES': 6, 'TRANSPORTE': 6, 'LOGISTICA': 6, 'CARGA': 6, 'ENVIOS': 6,
            'COURIER': 6, 'DISTRIBUCION': 6, 'ALMACENAMIENTO': 6, 'BODEGAJE': 6,
            'MARITIMO': 6, 'AEREO': 6, 'TERRESTRE': 6, 'INTERNACIONAL': 6,

            # TECNOLOGÍA e INFORMÁTICA (peso 6)
            'TECNOLOGIA': 6, 'TECHNOLOGY': 6, 'INFORMATICA': 6, 'SOFTWARE': 6, 'HARDWARE': 6,
            'SISTEMAS': 6, 'COMPUTACION': 6, 'DIGITAL': 6, 'ELECTRONICA': 6, 'COMUNICACIONES': 6,
            'INTERNET': 6, 'WEB': 6, 'ONLINE': 6, 'DATA': 6, 'NETWORKING': 6,

            # SALUD y MEDICINA (peso 6)
            'MEDICAS': 6, 'MEDICAMENTOS': 6, 'FARMACEUTICA': 6, 'LABORATORIOS': 6,
            'CLINICAS': 6, 'HOSPITALES': 6, 'SALUD': 6, 'MEDICINA': 6, 'TERAPEUTICA': 6,
            'DIAGNOSTICO': 6, 'INSTRUMENTAL': 6, 'EQUIPOS': 6, 'DISPOSITIVOS': 6,

            # EDUCACIÓN y CULTURA (peso 5)
            'EDUCACION': 5, 'EDUCATIVA': 5, 'UNIVERSIDAD': 5, 'INSTITUTO': 5, 'COLEGIO': 5,
            'ACADEMICA': 5, 'FORMACION': 5, 'CAPACITACION': 5, 'ENTRENAMIENTO': 5,
            'CULTURAL': 5, 'EDITORIAL': 5, 'EDICIONES': 5, 'PUBLICACIONES': 5, 'LIBROS': 5,

            # ENERGÍA y MEDIO AMBIENTE (peso 6)
            'ENERGIA': 6, 'ELECTRICA': 6, 'GENERACION': 6, 'DISTRIBUCION': 6, 'TRANSMISION': 6,
            'RENOVABLE': 6, 'SOLAR': 6, 'EOLICA': 6, 'HIDROELECTRICA': 6,
            'AMBIENTAL': 6, 'ECOLOGICA': 6, 'RECICLAJE': 6, 'TRATAMIENTO': 6, 'RESIDUOS': 6,

            # SEGURIDAD y SEGUROS (peso 6)
            'SEGURIDAD': 6, 'VIGILANCIA': 6, 'PROTECCION': 6, 'MONITOREO': 6, 'CONTROL': 6,
            'SEGUROS': 6, 'ASEGURADORA': 6, 'RIESGOS': 6, 'POLIZAS': 6, 'COBERTURA': 6,

            # ENTRETENIMIENTO y TURISMO (peso 5)
            'TURISMO': 5, 'HOTELERA': 5, 'RESTAURANTE': 5, 'GASTRONOMIA': 5, 'EVENTOS': 5,
            'ESPECTACULOS': 5, 'ENTRETENIMIENTO': 5, 'RECREACION': 5, 'DEPORTES': 5,
            'CASINO': 5, 'JUEGOS': 5, 'DIVERSIONES': 5
        },
        'persona_strong_indicators': {
            # Títulos profesionales (peso -6 a -7)
            'DR.': -7, 'DR': -7, 'DRA.': -7, 'DRA': -7,

            # Títulos de cortesía (peso -5)
            'SR.': -5, 'SR': -5, 'SEÑOR': -5,
            'SRA.': -5, 'SRA': -5, 'SEÑORA': -5,
            'SRTA.': -5, 'SRTA': -5, 'SEÑORITA': -5,
            'MR.': -5, 'MR': -5, 'MRS.': -5, 'MRS': -5,
            'MISS': -5, 'MS.': -5, 'MS': -5,

            # Sufijos generacionales (peso -4 a -5)
            'JR.': -5, 'JR': -5,
            'SR.': -5,

            # Títulos académicos adicionales (peso -5 a -6)
            'PhD': -6, 'Ph.D.': -6, 'PHD': -6,
            'MSc': -5, 'M.Sc.': -5, 'MSC': -5,
            'MBA': -5, 'M.B.A.': -5,
            'BSc': -4, 'B.Sc.': -4, 'BSC': -4
        }
    }

# 📥 Cargar datos

In [44]:
tiempo_sesión = medir_tiempo("Sesión Cargar Datos")

In [45]:
%%time
# Wall time: 29.4 s
df_empresas = pd.read_excel("Input_data/Personas jurídicas.xlsx", nrows=100_000_000_000, engine='openpyxl')
print(df_empresas.shape)
print(df_empresas.columns)
df_empresas.head(3)

(701954, 1)
Index(['RAZON_SOCIAL'], dtype='object')
CPU times: user 31.9 s, sys: 431 ms, total: 32.3 s
Wall time: 42.6 s


Unnamed: 0,RAZON_SOCIAL
0,ALLOUTFIT S.A.S.
1,SERVICIOS Y SOLUCIONES LANDINEZ SAS
2,ESTACIÓN AVICOLA LA ESPERANZA SAS


In [46]:
%%time
# Wall time: 22.2 s
df_personas = pd.read_excel("Input_data/Personas naturales.xlsx", nrows=100_000_000_000, engine='openpyxl')
print(df_personas.shape)
print(df_personas.columns)
df_personas.head(3)

(538562, 1)
Index(['RAZON_SOCIAL'], dtype='object')
CPU times: user 23.4 s, sys: 134 ms, total: 23.6 s
Wall time: 24.7 s


Unnamed: 0,RAZON_SOCIAL
0,MATEUS ROJAS BIYANIRA
1,JOHANS FELIPE GUTIERREZ ORJUELA
2,YELA HENAO PAULA ANDREA


In [47]:
%%time
df_DIAN = pd.read_excel("Input_data/2025-05-26 Estandarizacion de nombres empresas_exportaciones.xlsx", nrows=100_000_000_000, engine='openpyxl')
print(df_DIAN.shape)
print(df_DIAN.columns)
df_DIAN.head(3)

(95965, 9)
Index(['NIT', 'RAZON_SOCIAL', 'NIT_FINAL', 'RAZON_SOCIAL_FINAL',
       'CIIU_PRINCIPAL_FINAL', 'CIIU_SECUNDARIO_FINAL', 'CIIU_3_FINAL',
       'CIIU_4_FINAL', 'TAMAÑO_FINAL'],
      dtype='object')
CPU times: user 8.97 s, sys: 29.9 ms, total: 9 s
Wall time: 10.3 s


Unnamed: 0,NIT,RAZON_SOCIAL,NIT_FINAL,RAZON_SOCIAL_FINAL,CIIU_PRINCIPAL_FINAL,CIIU_SECUNDARIO_FINAL,CIIU_3_FINAL,CIIU_4_FINAL,TAMAÑO_FINAL
0,830114866.0,A & D ALVARADO & DURING S A,8301148662.0,A & D ALVARADO & DURING S A S,4290,4111.0,4390.0,7112.0,GRANDE
1,830114866.0,A & D ALVARADO & DURING S A S,8301148662.0,A & D ALVARADO & DURING S A S,4290,4111.0,4390.0,7112.0,GRANDE
2,900154981.0,A&D PROYECTOS S.A.S A&D PROYECTOS,9001549816.0,A&D PROYECTOS S A S A&D PROYECTOS,6810,4754.0,4290.0,4322.0,GRANDE


In [48]:
# Eliminar filas donde 'RAZON_SOCIAL_FINAL' esté vacía (ya sea NaN o cadena vacía)
df_DIAN = df_DIAN[~df_DIAN['RAZON_SOCIAL_FINAL'].isna() & (df_DIAN['RAZON_SOCIAL_FINAL'].str.strip() != '')]
df_DIAN.shape

(85488, 9)

In [49]:
tiempo_sesión()
tiempo_total()

Tiempo transcurrido para Sesión Cargar Datos: 0:01:17.834155
Tiempo transcurrido para Total: 0:01:20.337125


# ▶️ Clasificar registros

In [50]:
tiempo_sesión = medir_tiempo("Sesión correr programa")

In [51]:
%%time
# Wall time: 3min 39s
df_final_clasificado, clasificador_entrenado = ejecutar_proceso_clasificacion(
    df_a_clasificar=df_DIAN,
    columna_razon_social='RAZON_SOCIAL_FINAL',
    realizar_entrenamiento=True,
    config_modelo=config,
    df_entrenamiento_empresas=df_empresas,
    col_entrenamiento_empresas='RAZON_SOCIAL',
    df_entrenamiento_personas=df_personas,
    col_entrenamiento_personas='RAZON_SOCIAL',
    ruta_guardado_modelo=ruta_modelo_guardado,
    ruta_guardado_excel=ruta_excel_resultado
)

🚀 INICIANDO PROCESO DE CLASIFICACIÓN HÍBRIDA...
🧠 Iniciando entrenamiento del motor estadístico...
✅ Motor estadístico entrenado. 300,630 pesos de palabras aprendidos.
💾 Modelo entrenado y guardado en: ./clasificador_hibrido_v2_20250530_0802.pkl
🔄 Clasificando 85,488 registros de la columna 'RAZON_SOCIAL_FINAL'...
✅ Clasificación completada en 127.12 segundos.

📊 ANÁLISIS DE RESULTADOS:
  - EMPRESA: 93.15%
  - INCIERTO: 4.65%
  - PERSONA: 2.17%
  - INVALIDO: 0.03%

💾 Exportando resultados a Excel: ./resultado_clasificacion_v2_20250530_0802.xlsx
✅ Exportación a Excel completada.

🎉 PROCESO FINALIZADO en 219.59 segundos.
CPU times: user 3min 31s, sys: 1.54 s, total: 3min 33s
Wall time: 3min 39s
