# 1

Implemente o algoritmo acima em uma função que retorne as entropias conjunta e condicional de duas fontes de entrada.

In [1]:
import numpy as np
import pandas as pd
from collections import Counter

def calcular_entropias(X, Y):
    df = pd.DataFrame({'X': X, 'Y': Y})
    tabela_contingencia = pd.crosstab(df['X'], df['Y'], margins=True, normalize=True)

    prob_conjunta = tabela_contingencia.drop('All', axis=1).drop('All', axis=0)

    H_xy = -np.sum((prob_conjunta * np.log2(prob_conjunta + 1e-9)).values)

    p_x = tabela_contingencia.loc[:, 'All'].iloc[:-1]
    p_y = tabela_contingencia.loc['All', :].iloc[:-1]

    H_x = -np.sum(p_x * np.log2(p_x + 1e-9))
    H_y = -np.sum(p_y * np.log2(p_y + 1e-9))

    H_y_x = H_xy - H_x
    H_x_y = H_xy - H_y

    return H_xy, H_y_x, H_x_y

X = ['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'C']
Y = ['D', 'D', 'A', 'B', 'B', 'C', 'A', 'D', 'B', 'A']

H_xy, H_y_x, H_x_y = calcular_entropias(X, Y)
print(f"Entropia Conjunta: {H_xy}")
print(f"Entropia Condicional H(Y|X): {H_y_x}")
print(f"Entropia Condicional H(X|Y): {H_x_y}")


Entropia Conjunta: 2.7219280847884972
Entropia Condicional H(Y|X): 1.236452791889248
Entropia Condicional H(X|Y): 0.8264662463209556


# 2

Use sua implementação acima para calcular as entropias conjunta e condicional de bigramas (pares de palavras ou caracteres) de um texto.

In [2]:
def formar_bigramas(texto):
    palavras = texto.split()
    bigramas = [(palavras[i], palavras[i + 1]) for i in range(len(palavras) - 1)]
    return bigramas

texto = "A tecnologia é só uma ferramenta. No que se refere a motivar as crianças e conseguir que trabalhem juntas, um professor é um recurso mais importante"
bigramas = formar_bigramas(texto)

X_bigramas, Y_bigramas = zip(*bigramas)

H_xy_bigramas, H_y_x_bigramas, H_x_y_bigramas = calcular_entropias(X_bigramas, Y_bigramas)
print(f"Entropia Conjunta (Bigramas): {H_xy_bigramas}")
print(f"Entropia Condicional H(Y|X) (Bigramas): {H_y_x_bigramas}")
print(f"Entropia Condicional H(X|Y) (Bigramas): {H_x_y_bigramas}")


Entropia Conjunta (Bigramas): 4.6438561537073495
Entropia Condicional H(Y|X) (Bigramas): 0.23999999567191477
Entropia Condicional H(X|Y) (Bigramas): 0.23999999567191477


**Questão 3**

Calcule as entropias conjunta e condicional das variáveis `Survived`, `Pclass` e `Sex` do *dataset* [titanic.csv](https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv). Discuta os resultados obtidos.

In [3]:
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df_titanic = pd.read_csv(url)

H_xy_survived_pclass, H_y_x_survived_pclass, H_x_y_survived_pclass = calcular_entropias(df_titanic['Survived'], df_titanic['Pclass'])
H_xy_survived_sex, H_y_x_survived_sex, H_x_y_survived_sex = calcular_entropias(df_titanic['Survived'], df_titanic['Sex'])

print(f"Entropia Conjunta Survived & Pclass: {H_xy_survived_pclass}")
print(f"Entropia Condicional H(Pclass|Survived): {H_y_x_survived_pclass}")
print(f"Entropia Condicional H(Survived|Pclass): {H_x_y_survived_pclass}")

print(f"Entropia Conjunta Survived & Sex: {H_xy_survived_sex}")
print(f"Entropia Condicional H(Sex|Survived): {H_y_x_survived_sex}")
print(f"Entropia Condicional H(Survived|Sex): {H_x_y_survived_sex}")


Entropia Conjunta Survived & Pclass: 2.3161983183675936
Entropia Condicional H(Pclass|Survived): 1.3554904193773367
Entropia Condicional H(Survived|Pclass): 0.87687685225155
Entropia Conjunta Survived & Sex: 1.6792524326941045
Entropia Condicional H(Sex|Survived): 0.7185445337038476
Entropia Condicional H(Survived|Sex): 0.7430477923296426


A análise da entropia no conjunto de dados do Titanic revela que a relação entre sobrevivência e classe, embora relevante, apresenta uma incerteza moderada (entropia conjunta de 2.316). Conhecer a classe do passageiro auxilia na previsão de sobrevivência (entropia condicional de 0.877), evidenciando sua importância. Em contraste, a ligação entre sobrevivência e sexo é mais forte (entropia conjunta de 1.679). Saber o sexo do passageiro reduz consideravelmente a incerteza sobre sua sobrevivência (entropia condicional de 0.743), confirmando a priorização das mulheres no resgate. Concluindo, o sexo teve um impacto mais determinante na sobrevivência em comparação à classe, resultando em previsões mais precisas quando essa variável é considerada.