Ahora voy a ejecutar el mismo programa, pero modificado para la condición "edad <= 23"

In [1]:
import math

datos = [
    {"edad": 22, "departamento": "IT", "nivel_educativo": "terciario", "en_formacion": True},
    {"edad": 24, "departamento": "IT", "nivel_educativo": "universitario", "en_formacion": True},
    {"edad": 21, "departamento": "RRHH", "nivel_educativo": "terciario", "en_formacion": True},
    {"edad": 35, "departamento": "IT", "nivel_educativo": "universitario", "en_formacion": False},
    {"edad": 40, "departamento": "Finanzas", "nivel_educativo": "maestría", "en_formacion": False},
    {"edad": 29, "departamento": "RRHH", "nivel_educativo": "universitario", "en_formacion": False},
    {"edad": 23, "departamento": "IT", "nivel_educativo": "terciario", "en_formacion": True},
    {"edad": 38, "departamento": "Finanzas", "nivel_educativo": "universitario", "en_formacion": False}
]

def calcular_foil_gain_comparacion(datos, atributo, operador, valor_umbral):
    
    P = sum(1 for d in datos if d["en_formacion"] == True)
    N = sum(1 for d in datos if d["en_formacion"] == False)
    
    if operador == "<=":
        datos_filtrados = [d for d in datos if d[atributo] <= valor_umbral]
    elif operador == ">=":
        datos_filtrados = [d for d in datos if d[atributo] >= valor_umbral]
    elif operador == "<":
        datos_filtrados = [d for d in datos if d[atributo] < valor_umbral]
    elif operador == ">":
        datos_filtrados = [d for d in datos if d[atributo] > valor_umbral]
    elif operador == "==":
        datos_filtrados = [d for d in datos if d[atributo] == valor_umbral]
    else:
        raise ValueError(f"Operador {operador} no soportado")
    
    p = sum(1 for d in datos_filtrados if d["en_formacion"] == True)
    n = sum(1 for d in datos_filtrados if d["en_formacion"] == False)
    
    # Calcular proporciones
    if p + n > 0:
        proporcion_despues = p / (p + n)
    else:
        proporcion_despues = 0
    
    proporcion_antes = P / (P + N)
    
    if proporcion_despues == 0:
        log_despues = float('-inf')
    elif proporcion_despues == 1:
        log_despues = 0
    else:
        log_despues = math.log2(proporcion_despues)
    
    log_antes = math.log2(proporcion_antes)
    
    # Calcular FOIL Gain
    foil_gain = p * (log_despues - log_antes)
    
    return {
        'P': P,
        'N': N,
        'p': p,
        'n': n,
        'proporcion_despues': proporcion_despues,
        'proporcion_antes': proporcion_antes,
        'log_despues': log_despues,
        'log_antes': log_antes,
        'foil_gain': foil_gain
    }

# Calcular FOIL Gain para la condición: edad <= 23
condicion_atributo = "edad"
condicion_operador = "<="
condicion_valor = 23

resultado = calcular_foil_gain_comparacion(datos, condicion_atributo, condicion_operador, condicion_valor)

# Mostrar resultados
print("="*60)
print(f"Condición: {condicion_atributo} {condicion_operador} {condicion_valor}")
print("="*60)
print(f"P (positivos antes) = {resultado['P']}")
print(f"N (negativos antes) = {resultado['N']}")
print(f"p (positivos después) = {resultado['p']}")
print(f"n (negativos después) = {resultado['n']}")
print(f"p / (p + n) = {resultado['proporcion_despues']:.3f}")
print(f"P / (P + N) = {resultado['proporcion_antes']:.3f}")
print(f"log2(p / (p + n)) = {resultado['log_despues']:.3f}")
print(f"log2(P / (P + N)) = {resultado['log_antes']:.3f}")
print(f"FOIL Gain = {resultado['foil_gain']:.3f}")
print("="*60)

# Mostrar detalles de los datos filtrados
print("\n** Ejemplos que cumplen la condición: **")
datos_filtrados = [d for d in datos if d[condicion_atributo] <= condicion_valor]
for d in datos_filtrados:
    estado = "✓ Positivo" if d["en_formacion"] else "✗ Negativo"
    print(f"  Edad: {d['edad']}, Dpto: {d['departamento']}, Nivel: {d['nivel_educativo']} → {estado}")

print("\n** Interpretación: **")
print(f"- La condición '{condicion_atributo} {condicion_operador} {condicion_valor}' captura {resultado['p']} de {resultado['P']} positivos")
print(f"- No captura ningún negativo (pureza = 100%)")
print(f"- FOIL Gain = {resultado['foil_gain']:.3f} → Excelente discriminador")

Condición: edad <= 23
P (positivos antes) = 4
N (negativos antes) = 4
p (positivos después) = 3
n (negativos después) = 0
p / (p + n) = 1.000
P / (P + N) = 0.500
log2(p / (p + n)) = 0.000
log2(P / (P + N)) = -1.000
FOIL Gain = 3.000

** Ejemplos que cumplen la condición: **
  Edad: 22, Dpto: IT, Nivel: terciario → ✓ Positivo
  Edad: 21, Dpto: RRHH, Nivel: terciario → ✓ Positivo
  Edad: 23, Dpto: IT, Nivel: terciario → ✓ Positivo

** Interpretación: **
- La condición 'edad <= 23' captura 3 de 4 positivos
- No captura ningún negativo (pureza = 100%)
- FOIL Gain = 3.000 → Excelente discriminador
