# Projeto 6: "Jogador de forca"

1: A primeira letra escolhida sempre é a letra "a". Qual a entropia associada a essa escolha?

Entropia é uma medida da incerteza ou surpresa associada a um conjunto de possíveis resultados. No contexto do jogo de forca, a entropia associada à escolha da primeira letra, como a letra "a", pode ser entendida como a medida de quão surpreendente é essa escolha em relação às palavras possíveis.

A entropia (H) para a letra "a" pode ser calculada usando a seguinte fórmula:

$H = - p(a) \log_2 p(a) - p(- a) \log_2 p(-a)$

onde $ p(a) $ é a probabilidade de a letra "a" estar presente em uma palavra aleatória e $ p(-a) $ é a probabilidade de a letra "a" não estar presente.

In [31]:
# read br-sem-acentos.txt

import pandas as pd
import numpy as np
counter_a = 0
counter_total = 0
with open('br-sem-acentos.txt', 'r') as arquivo:
    for linha in arquivo:
        if 'a' in linha:
            counter_a += 1
        counter_total += 1

print('Total de linhas: ', counter_total)
print('Total de linhas com a: ', counter_a)

# Entropia de A
p_a = counter_a / counter_total
p_not_a = 1 - p_a
entropia_a = -p_a * np.log2(p_a) - p_not_a * np.log2(p_not_a)
print('Entropia de A: ', entropia_a)

print("Probabilidade de A: ", p_a)
print("Probabilidade de não A: ", p_not_a)

Total de linhas:  245366
Total de linhas com a:  205828
Entropia de A:  0.6370271453820535
Probabilidade de A:  0.8388611299038987
Probabilidade de não A:  0.16113887009610128


2: Qual seria a entropia associada a escolher qualquer outra letra (a sua escolha) como o primeiro chute? Como as entropias das duas letras ("a" e a escolhida) se relacionam?

Se escolhermos outra letra, como "b", a entropia será calculada de maneira similar:

$H = - p(b) \log_2 p(b) - p(\neg b) \log_2 p(\neg b)$

A relação entre as entropias da letra "a" e outra letra escolhida dependerá de suas frequências relativas no conjunto de palavras. Se "a" for mais comum que "b", então a entropia associada a "a" será menor, indicando que sua presença é menos surpreendente.

In [32]:
counter_b = 0
with open('br-sem-acentos.txt', 'r') as arquivo:
    for linha in arquivo:
        if 'b' in linha:
            counter_b += 1

print('Total de linhas: ', counter_total)
print('Total de linhas com b: ', counter_b)

# Entropia de B

p_b = counter_b / counter_total
p_not_b = 1 - p_b
entropia_b = -p_b * np.log2(p_b) - p_not_b * np.log2(p_not_b)
print('Entropia de B: ', entropia_b)
print("Probabilidade de B: ", p_b)
print("Probabilidade de não B: ", p_not_b)

Total de linhas:  245366
Total de linhas com b:  29695
Entropia de B:  0.5322951387476988
Probabilidade de B:  0.12102328766006701
Probabilidade de não B:  0.878976712339933


In [30]:
from scipy.stats import entropy

low_entropy = entropy([0.9, 0.1], base=2)
print('Entropia baixa: ', low_entropy)

high_entropy = entropy([0.5, 0.5], base=2)
print('Entropia alta: ', high_entropy)

Entropia baixa:  0.46899559358928117
Entropia alta:  1.0


Em qualquer sistema, se existe uma alta probabilidade de uma coisa e uma baixa de outra, esse sistema tem baixa entropia. Por outro lado, se a probabilidade de ambas as coisas for igual, o sistema terá alta entropia.

Em ambos os sistemas de uma palavra ter um a e ter um b, eles tem baixa entropia. Porém! No sistema de uma palavra ter um a, a probabilidade de ter um a é gigante, 0.83. No sistema de uma palavra ter um b, a probabilidade de ter um b é 0.12. Ou seja, mesmo que os dois sistemas tem baixa entropia, essa alta entropia significa coisas completamente diferentes.

Baixa entropia no sistema A: É super não surpreendente uma palavra qualquer ter um a. 
Baixa entropia no sistema B: É super não surpreendente uma palavra qualquer não ter um b -> É surpeer surpreendente uma palavra qualquer ter um b.

3: A análise dos principais casos de erro apresentada está correta? Forneça uma justificativa baseada em dados.

Para avaliar se a análise dos casos de erro está correta, devemos incluir:

- Frequência de erros associados a cada letra.
- Padrões nas palavras que frequentemente levam a erros.
- Comparação entre a eficácia das estratégias de escolha de letras.

In [39]:
import math

# Função para calcular a entropia de uma letra no dicionário
def calcular_entropia(letra, dicionario):
    total_palavras = len(dicionario)
    palavras_com_letra = sum(letra in palavra for palavra in dicionario)
    p_letra = palavras_com_letra / total_palavras
    p_nao_letra = 1 - p_letra

    entropia = 0
    if p_letra > 0:
        entropia -= p_letra * math.log2(p_letra)
    if p_nao_letra > 0:
        entropia -= p_nao_letra * math.log2(p_nao_letra)
    
    return entropia

dicionario_path = 'br-sem-acentos.txt'
with open(dicionario_path, 'r', encoding='utf-8') as file:
    dicionario = file.read().splitlines()

alfabeto = 'abcdefghijklmnopqrstuvwxyz'
entropia_letras = {letra: calcular_entropia(letra, dicionario) for letra in alfabeto}

def calcular_entropia_palavra(palavra, entropia_letras):
    letras_unicas = set(palavra)
    entropia_total = sum(entropia_letras[letra] for letra in letras_unicas if letra in entropia_letras)
    return entropia_total

casos_de_erro = ["inegavel", "atalharao", "falho", "arcabuz", "adelgacou", "golpeara", "abalizas", "coexista", "pulavas", "teste", "oi"]

entropia_casos_de_erro = {palavra: calcular_entropia_palavra(palavra, entropia_letras) for palavra in casos_de_erro}
entropia_casos_de_erro_sorted = sorted(entropia_casos_de_erro.items(), key=lambda x: x[1], reverse=True)
entropia_casos_de_erro_sorted

[('adelgacou', 6.475029240471162),
 ('coexista', 6.428867702832918),
 ('golpeara', 5.488307334463556),
 ('inegavel', 5.437505196472681),
 ('atalharao', 4.700198805811467),
 ('pulavas', 4.578312261438134),
 ('abalizas', 4.258645753828666),
 ('arcabuz', 4.221616840560879),
 ('falho', 3.359657758879701),
 ('teste', 2.6953713041931957),
 ('oi', 1.9477075944493865)]

Adicionei duas palavras simples para os casos de erro: "Teste" e "Oi". Fiz isso para mostrar a entropia de uma palavra simples.

Como conseguimos ver acima, nos nossos casos de erro, existem varias palavras com altíssimas entropias, como adelgacou e coexista.

Porém, também tem palabtas com entropias altas mas não astronomicas, como abalizas e arcabuz. 

Em cima disso, a palavra "falho" tem entropia baixa, e persiste nos casos de erro.

Diria que os casos de erro, por maior parte, estão ok, mas tem alguns casos que não estão tão bons assim. Isso pode ser por causa da quantidade de palavras que temos no dicionario, que é relativamente pequena, ou por causa da estratégia de escolha de letras.