**a) Desarrollar un programa en Python que obtenga el cálculo del FOIL Gain para la condición nivel_educativo == 'terciario', con la siguiente salida:**
<br>Condición: nivel_educativo == 'terciario'
<br>P (positivos antes) = 4
<br>N (negativos antes) = 4
<br>p (positivos después) = 3
<br>n (negativos después) = 0
<br>p / (p + n) = 1.000
<br>P / (P + N) = 0.500
<br>log2(p / (p + n)) = 0.000
<br>log2(P / (P + N)) = -1.000
<br>FOIL Gain = 3.000

In [2]:
import math

datos = [
    {"edad": 22, "departamento": "IT", "nivel_educativo": "terciario", "en_formacion": True},
    {"edad": 24, "departamento": "IT", "nivel_educativo": "universitario", "en_formacion": True},
    {"edad": 21, "departamento": "RRHH", "nivel_educativo": "terciario", "en_formacion": True},
    {"edad": 35, "departamento": "IT", "nivel_educativo": "universitario", "en_formacion": False},
    {"edad": 40, "departamento": "Finanzas", "nivel_educativo": "maestría", "en_formacion": False},
    {"edad": 29, "departamento": "RRHH", "nivel_educativo": "universitario", "en_formacion": False},
    {"edad": 23, "departamento": "IT", "nivel_educativo": "terciario", "en_formacion": True},
    {"edad": 38, "departamento": "Finanzas", "nivel_educativo": "universitario", "en_formacion": False}
]

def calcular_foil_gain(datos, condicion_atributo, condicion_valor):
    P = sum(1 for d in datos if d["en_formacion"] == True)
    N = sum(1 for d in datos if d["en_formacion"] == False)
    
    datos_filtrados = [d for d in datos if d[condicion_atributo] == condicion_valor]
    p = sum(1 for d in datos_filtrados if d["en_formacion"] == True)
    n = sum(1 for d in datos_filtrados if d["en_formacion"] == False)
    
    if p + n > 0:
        proporcion_despues = p / (p + n)
    else:
        proporcion_despues = 0
    
    proporcion_antes = P / (P + N)
    
    if proporcion_despues == 0:
        log_despues = float('-inf')
    elif proporcion_despues == 1:
        log_despues = 0
    else:
        log_despues = math.log2(proporcion_despues)
    
    log_antes = math.log2(proporcion_antes)
    
    # Calcular FOIL Gain
    foil_gain = p * (log_despues - log_antes)
    
    return {
        'P': P,
        'N': N,
        'p': p,
        'n': n,
        'proporcion_despues': proporcion_despues,
        'proporcion_antes': proporcion_antes,
        'log_despues': log_despues,
        'log_antes': log_antes,
        'foil_gain': foil_gain
    }

# Calcular FOIL Gain para la condición: nivel_educativo == 'terciario'
condicion = "nivel_educativo"
valor = "terciario"

resultado = calcular_foil_gain(datos, condicion, valor)

# Mostrar resultados
print("="*60)
print(f"Condición: {condicion} == '{valor}'")
print("="*60)
print(f"P (positivos antes) = {resultado['P']}")
print(f"N (negativos antes) = {resultado['N']}")
print(f"p (positivos después) = {resultado['p']}")
print(f"n (negativos después) = {resultado['n']}")
print(f"p / (p + n) = {resultado['proporcion_despues']:.3f}")
print(f"P / (P + N) = {resultado['proporcion_antes']:.3f}")
print(f"log2(p / (p + n)) = {resultado['log_despues']:.3f}")
print(f"log2(P / (P + N)) = {resultado['log_antes']:.3f}")
print(f"FOIL Gain = {resultado['foil_gain']:.3f}")
print("="*60)

# Explicación del resultado
print("\n** Interpretación: **")
print(f"- Antes de aplicar la condición: {resultado['P']} positivos y {resultado['N']} negativos")
print(f"- Después de aplicar la condición: {resultado['p']} positivos y {resultado['n']} negativos")
print(f"- La condición mejora la pureza de {resultado['proporcion_antes']:.1%} a {resultado['proporcion_despues']:.1%}")
print(f"- FOIL Gain = {resultado['foil_gain']:.3f} (indica ganancia de información)")
print("\nUn FOIL Gain positivo indica que la condición es útil para discriminar positivos.")

Condición: nivel_educativo == 'terciario'
P (positivos antes) = 4
N (negativos antes) = 4
p (positivos después) = 3
n (negativos después) = 0
p / (p + n) = 1.000
P / (P + N) = 0.500
log2(p / (p + n)) = 0.000
log2(P / (P + N)) = -1.000
FOIL Gain = 3.000

** Interpretación: **
- Antes de aplicar la condición: 4 positivos y 4 negativos
- Después de aplicar la condición: 3 positivos y 0 negativos
- La condición mejora la pureza de 50.0% a 100.0%
- FOIL Gain = 3.000 (indica ganancia de información)

Un FOIL Gain positivo indica que la condición es útil para discriminar positivos.
