In [9]:
import string
import unicodedata

def normalizeText(text):
    """Se encarga de normalizar todo el texto, elimina , ; : á é etc
    Args:
        text = Recibe todo el texto

    Returns:
        text = Texto ya normalizado sin caracteres especiales
    """
    text = text.lower()
    text = text.translate(str.maketrans("", "", string.punctuation))
    text = unicodedata.normalize('NFD', text)
    text = text.encode('ascii', 'ignore').decode("utf-8")
    return text


def wordsCounter(text, words):
    """Cuenta las palabras de un texto y retorna un diccionario con todas
    Args:
        text = Contenido escrito
        words = Diccionario de datos vacio para llenar

    Returns:
        words: Diccionario de datos donde se alojan palabra : repeticiones
    """
    counter = 0
    list_words = text.split()

    for palabra in list_words:
        if palabra in words:
            words[palabra] += 1
        else:
            words[palabra] = 1
        counter += 1

    return counter, words


def conditionalProbability(userWord, words, similar_words):
  """Calcula la probabilidad condicional de una palabra, donde solo mostramos las
  palabras donde aparezca lo que el usuario nos mando

    Args:
        userWord = Letra/palabra tecleada por el usuario
        words = diccionario de datos para realizar la busqueda
        similar_words = lista de palabras vacia

    Returns:
        similar_words = Modifica la direccion de memoria, llenando la lista

  """
  similar_words = []
  wordLength = len(userWord)

  for palabra in words:
    if palabra[:wordLength] == userWord:
      #print(palabra)
      similar_words.append(palabra)

  return similar_words




def bayesianProbability(similar_words, words, counter):
    """ Calcula la probabilidad Bayesiana de las palabras encontradas
    Args:
        similar_words = Lista de palabras con similitud
        words = Diccionario que aloja las palabras
        counter = Cantidad de palabras totales
    """
    userWordsFound = 0
    for i in range(len(similar_words)):
        userWordsFound += words[similar_words[i]]

    userWordProbability = userWordsFound/counter

    for word in similar_words:
        wordProbability = words[word]/counter
        totalProbability = (wordProbability/userWordProbability)*100
        print(f"{word}: {totalProbability:.2f}%")


def main():
    counter = 0
    words = {}
    similar_words = []

    #Se puede llegar a obtener el texto de un libro

    text = (
        "Apenas sé por dónde empezar, pero a veces, en broma, pongo la causa "
        "de datos en ello en la cuenta de Charley  Furuseth. Este poseía una "
        "residencia de verano en Mill Valley"
    )

    text = normalizeText(text)
    counter, words = wordsCounter(text, words)

    print("Texto normalizado:\n",text, end = "\n\n")

    print("Cantidad de palabras: ",counter, end = "\n\n")

    print(words, end = "\n\n")


    userWord = str(input("Ingrese una palabra o letra: "))
    similar_words = conditionalProbability(userWord, words, similar_words)

    if (len(similar_words) == 0):
        print("No hubo palabras con dicha similitud")
        return

    print("\n\nCalculando probabilidades....\nPalabra: Probabilidad Bayesiana\n")
    bayesianProbability(similar_words, words, counter)

main()


Texto normalizado:
 apenas se por donde empezar pero a veces en broma pongo la causa de datos en ello en la cuenta de charley  furuseth este poseia una residencia de verano en mill valley

Cantidad de palabras:  32

{'apenas': 1, 'se': 1, 'por': 1, 'donde': 1, 'empezar': 1, 'pero': 1, 'a': 1, 'veces': 1, 'en': 4, 'broma': 1, 'pongo': 1, 'la': 2, 'causa': 1, 'de': 3, 'datos': 1, 'ello': 1, 'cuenta': 1, 'charley': 1, 'furuseth': 1, 'este': 1, 'poseia': 1, 'una': 1, 'residencia': 1, 'verano': 1, 'mill': 1, 'valley': 1}

Ingrese una palabra o letra: d


Calculando probabilidades....
Palabra: Probabilidad Bayesiana

donde: 20.00%
de: 60.00%
datos: 20.00%
