In [1]:
import random
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt

from stats import get_entropy 

plt.style.use("ggplot")
pd.options.display.float_format = "{:,.6f}".format

# **Dados teóricos** 

## **Definições**

**Entropia:**

$$
H(X) = - \sum_{x \in X} p(x) \log p(x)
$$

**Informação mútua:**

$$I(X, T) = H(X) + H(T) - H(X,T)$$

In [2]:
# distribuição teórica de X
X = [1.5,-1,-2]
probX = [0.389868, 0.384999, 0.225133]

T = [-1, 0, 1]
probT = [0.328204, 0.361075, 0.310721]

probXT = [0.101629, 0.147197, 0.141042, 0.092462, 0.156602, 
          0.135936, 0.134113, 0.057277,0.033743,]

In [3]:
# # Visualizando a distribuição teórica
# fig, axs = plt.subplots(2,2,figsize=(10,4))

# for i, ax in enumerate(axs.flatten()):
#     sample_size = 10**(1+i)
#     samples = random.choices(X, probX, k=sample_size)
#     pd.Series(samples).value_counts(normalize=True).plot(kind="bar",ax=ax)
#     ax.set_title(f"Quantidade de amostras: {sample_size}")
#     ax.set_ylim([0.1,0.6])
# plt.tight_layout()

Quanto mais amostras temos melhor representamos a distribuição original.

In [4]:
# Comparando funções de entropia
samples = random.choices(X, probX, k=10*6)
prob_sample_outcomes = pd.Series(samples).value_counts(normalize=True).tolist()
print(f"Entropy from scipy: {round(stats.entropy(prob_sample_outcomes, base=2),6)}")
print(f"My Entropy: {round(get_entropy(pd.Series(samples)),6)}")

Entropy from scipy: 1.537112
My Entropy: 1.537112


In [5]:
hX = stats.entropy(probX, base=2)
hT = stats.entropy(probT, base=2)
hXT = stats.entropy(probXT, base=2)

iXT = hX + hT - hXT

print(f"Informação mútua teórica: {round(iXT,10)}")

Informação mútua teórica: 0.0678865545


---

# **Estimando a informação mútua**

## **Caso 1** 

In [6]:
df1 = pd.read_csv("data/amostras.txt",sep=" ",header=None,names=["X", "T"])
print(f"Quantidade de amostras: {len(df1)}")

Quantidade de amostras: 1000


In [7]:
df1 = df1.astype(str)
get_entropy(df1["X"].add(df1["T"]))

3.058545801527299

In [8]:
hx = get_entropy(df1["X"])
ht = get_entropy(df1["T"])
hxt = get_entropy(df1["X"].add(df1["T"]))
iXT_estimado = hx + ht - hxt

print(f"Informação mútua teórica: {round(iXT,10)}")
print(f"Informação mútua estimada: {round(iXT_estimado,10)}")

Informação mútua teórica: 0.0678865545
Informação mútua estimada: 0.067807611
