# Cálculo de Información Mutua: Ejemplo Didáctico
Este notebook explica cómo se calcula la información mutua paso a paso usando variables categóricas en una tabla simple.

## Paso 1: Crear el conjunto de datos
Representamos 10 registros con dos variables categóricas: `Clima` y `Actividad`.

In [1]:
import pandas as pd

# Crear dataset
datos = pd.DataFrame({
    'Clima': ['Soleado', 'Soleado', 'Nublado', 'Lluvia', 'Lluvia',
              'Nublado', 'Soleado', 'Lluvia', 'Nublado', 'Soleado'],
    'Actividad': ['Playa', 'Playa', 'Cine', 'Cine', 'Cine',
                  'Cine', 'Playa', 'Cine', 'Cine', 'Playa']
})
datos

Unnamed: 0,Clima,Actividad
0,Soleado,Playa
1,Soleado,Playa
2,Nublado,Cine
3,Lluvia,Cine
4,Lluvia,Cine
5,Nublado,Cine
6,Soleado,Playa
7,Lluvia,Cine
8,Nublado,Cine
9,Soleado,Playa


## Paso 2: Calcular las frecuencias y probabilidades

In [2]:
# Frecuencias absolutas
freq_absolutas = datos.value_counts().reset_index(name='Frecuencia')
freq_absolutas

Unnamed: 0,Clima,Actividad,Frecuencia
0,Soleado,Playa,4
1,Lluvia,Cine,3
2,Nublado,Cine,3


In [3]:
# Probabilidades conjuntas
freq_absolutas['P(x,y)'] = freq_absolutas['Frecuencia'] / len(datos)
freq_absolutas

Unnamed: 0,Clima,Actividad,Frecuencia,"P(x,y)"
0,Soleado,Playa,4,0.4
1,Lluvia,Cine,3,0.3
2,Nublado,Cine,3,0.3


In [4]:
# Probabilidades marginales
p_clima = datos['Clima'].value_counts(normalize=True)
p_actividad = datos['Actividad'].value_counts(normalize=True)

p_clima, p_actividad

(Clima
 Soleado    0.4
 Nublado    0.3
 Lluvia     0.3
 Name: proportion, dtype: float64,
 Actividad
 Cine     0.6
 Playa    0.4
 Name: proportion, dtype: float64)

## Paso 3: Calcular la información mutua manualmente

In [5]:
import numpy as np

# Función para obtener P(x) y P(y)
def obtener_marginales(row):
    px = p_clima[row['Clima']]
    py = p_actividad[row['Actividad']]
    return px, py

# Calcular contribuciones
mi_total = 0
for idx, row in freq_absolutas.iterrows():
    px, py = obtener_marginales(row)
    pxy = row['P(x,y)']
    contribucion = pxy * np.log2(pxy / (px * py))
    mi_total += contribucion
    print(f"({row['Clima']}, {row['Actividad']}): {contribucion:.4f} bits")

print(f"\nInformación mutua total: {mi_total:.4f} bits")

(Soleado, Playa): 0.5288 bits
(Lluvia, Cine): 0.2211 bits
(Nublado, Cine): 0.2211 bits

Información mutua total: 0.9710 bits


## Conclusión
En este ejemplo, se muestra que la información mutua entre `Clima` y `Actividad` es significativa y refleja que existe dependencia entre ambas variables.
Este tipo de análisis es muy útil en etapas de preprocesamiento para selección de características.