# Test Práctico - Científico de Datos SICEX
## Desafío: Unificación y Normalización de Entidades


### Instrucciones

Bienvenido al test práctico para el puesto de Científico de Datos en SICEX.

### CONTEXTO:
SICEX maneja grandes volúmenes de datos de comercio exterior donde uno de los principales 
desafíos es la consistencia y normalización de entidades como nombres de empresas,
ciudades y productos. Este test evaluará tu capacidad para proponer e implementar
soluciones a este problema real.

### OBJETIVOS DE EVALUACIÓN:
- Capacidad de análisis y limpieza de datos
- Habilidad para desarrollar algoritmos de matching y normalización
- Pensamiento creativo en la resolución de problemas
- Capacidad de escalar soluciones
- Documentación y comunicación técnica

Tiempo estimado: 2 horas

In [7]:
# Configuración inicial
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

from etl_data_science_test import config

In [None]:
# 1. Cargar datos
def load_and_examine_data():
    # Cargar el dataset
    filepath = os.path.join(config.RAW_DATA_DIR, '10_Importaciones_2024_Octubre.xlsx')
    df = pd.read_excel(filepath)
    
    # Información básica del dataset
    print("=== INFORMACIÓN BÁSICA DEL DATASET ===")
    print(f"Número de registros: {len(df)}")
    print(f"Número de columnas: {len(df.columns)}")
    
    return df

##  EJERCICIO 1: ANÁLISIS EXPLORATORIO Y DIAGNÓSTICO 

Trabajaremos con un dataset real de importaciones que contiene información sobre empresas
y ubicaciones. Tu primera tarea es realizar un análisis exploratorio enfocado en 
la calidad de los datos de las entidades.

### Analiza específicamente:
1. Nombres de empresas (NOMBRE_IMPORTADOR, NOMBRE_EXPORTADOR)
2. Ubicaciones (CIUDAD_PAIS_EXPORTADOR, DEPARTAMENTO_IMPORTADOR)
3. Direcciones (DIRECCION_IMPORTADOR, DIRECCION_EXPORTADOR)

### Para cada campo:
- Identifica patrones en las inconsistencias
- Cuantifica el impacto de estas inconsistencias
- Propón una estrategia de limpieza y normalización


In [18]:
def analyze_entity_fields(df):
  # Tu código aquí
  pass

In [19]:
# 3. Análisis de patrones y anomalías
def analyze_patterns(df):
    print("\n=== ANÁLISIS DE PATRONES Y ANOMALÍAS ===")
    # Tu código aquí
    pass

In [20]:
# 4. Generar visualizaciones
def create_visualizations(df, entity_stats):
    # Configuración de estilo
    plt.style.use('seaborn')
    
    # 1. Gráfico de completitud de datos
    plt.figure(figsize=(10, 5))
    # Tu código aquí
    pass


In [None]:
df = load_and_examine_data()
    
# 2. Analizar campos de entidades
entity_stats = analyze_entity_fields(df)

# 3. Analizar patrones
patterns = analyze_patterns(df)

# 4. Crear visualizaciones
create_visualizations(df, entity_stats)



## EJERCICIO 2: DESARROLLO DE ALGORITMO DE MATCHING


Desarrolla un algoritmo que pueda identificar cuando dos nombres de empresa se refieren
a la misma entidad, considerando:
- Variaciones en el orden de las palabras
- Errores tipográficos comunes
- Abreviaciones y acrónimos
- Diferentes formatos legales (S.A., LTDA, etc.)

Requerimientos:
1. Implementa al menos dos métodos diferentes de matching
2. Evalúa y compara su efectividad
3. Propón una métrica para medir la calidad del matching
4. Documenta los casos edge que identificaste

In [9]:
def normalize_company_name(name):
    """
    Implementa la normalización básica de nombres de empresas.
    """
    # Tu código aquí
    pass

In [None]:
def match_companies(name1, name2, threshold=0.85):
    """
    Implementa el algoritmo de matching entre dos nombres de empresa.
    """
    # Tu código aquí
    pass

In [None]:
# Prueba tu implementación con algunos casos de ejemplo

## EJERCICIO 3: ESCALABILIDAD Y OPTIMIZACIÓN

Ahora que has desarrollado un algoritmo básico, necesitamos escalarlo para procesar
grandes volúmenes de datos eficientemente.

### Tareas:
1. Optimiza tu algoritmo para mejorar su rendimiento
2. Implementa una estrategia para reducir comparaciones innecesarias
3. Propón una estructura de datos eficiente para almacenar los matches
4. Sugiere una arquitectura para procesar actualizaciones incrementales

In [10]:
# Tu código aquí

## EJERCICIO BONUS: INTEGRACIÓN CON LLMs

Demuestra cómo podrías mejorar la solución anterior utilizando Large Language Models (LLMs).
Específicamente, integra Groq (https://groq.com/) y otros modelos open source como Llama.

#### Objetivos:
1. Uso de LLMs para mejorar el matching y normalización
2. Implementación eficiente y costos-efectiva
3. Manejo de casos edge con ayuda de LLMs

##### Tareas:
1. Implementa un pipeline que utilice Groq API para:
   - Normalización de nombres de empresas
   - Detección de entidades similares
   - Validación de matches dudosos

2. Compara el rendimiento y precisión entre:
   - Tu solución basada en reglas/algoritmos
   - Solución utilizando LLMs
   - Enfoque híbrido

3. Optimización de costos:
   - Estrategia para minimizar llamadas a la API
   - Caching inteligente de resultados
   - Balance entre precisión y costos

4. Casos de uso avanzados:
   - Extracción de información adicional de las descripciones
   - Categorización automática de empresas
   - Detección de anomalías en los datos

In [13]:
from groq import Groq
from dotenv import load_dotenv
load_dotenv()
client = Groq(
    api_key=os.environ.get("GROQ_API_KEY"),
)

In [14]:
def normalize_entity_with_llm(entity_name, client):
    """
    Utiliza Groq para normalizar nombres de entidades
    """
    prompt = f"""
    Normaliza el siguiente nombre de empresa, eliminando variaciones innecesarias 
    y manteniendo la información esencial: {entity_name}
    
    Formato deseado:
    - Sin puntuación innecesaria
    - Siglas de forma estándar
    - Tipo de empresa al final (SA, LTDA, etc.)
    """
    
    try:
        response = client.chat.completions.create(
            model="mixtral-8x7b-32768",  # o cualquier otro modelo disponible en Groq
            messages=[
                {"role": "system", "content": "Eres un experto en normalización de nombres de empresas."},
                {"role": "user", "content": prompt}
            ],
            temperature=0.2
        )
        return response.choices[0].message.content.strip()
    except Exception as e:
        print(f"Error al llamar a Groq API: {e}")
        return entity_name

In [15]:
def match_entities_with_llm(entity1, entity2, client):
    """
    Utiliza Groq para determinar si dos entidades son la misma
    """
    prompt = f"""
    Determina si las siguientes dos empresas son la misma entidad:
    Empresa 1: {entity1}
    Empresa 2: {entity2}
    
    Responde con:
    - MATCH: Si son definitivamente la misma empresa
    - POSSIBLE_MATCH: Si probablemente son la misma empresa
    - NO_MATCH: Si son empresas diferentes
    
    Explica tu razonamiento.
    """
    
    try:
        response = client.chat.completions.create(
            model="mixtral-8x7b-32768",
            messages=[
                {"role": "system", "content": "Eres un experto en identificación y matching de entidades empresariales."},
                {"role": "user", "content": prompt}
            ],
            temperature=0.1
        )
        return response.choices[0].message.content.strip()
    except Exception as e:
        print(f"Error al llamar a Groq API: {e}")
        return "ERROR"

In [16]:
# Implementa tu solución utilizando estas funciones como base
# Demuestra cómo integrarías esto en tu pipeline general de matching