# Игра "5 Букв"
Тинькофф перезапустил игру "5 букв", в которой нужно отгадывать слова. Вам нужно набрать существительное из пяти букв, система покажет какие буквы этого слова есть в загаданном слове, на основе этой информации вы должны отгадать слово за несколько попыток.  
Для призов банк подготовил скидки, кэшбэки и др. Например, за 60 слов можно получить 50%-й кэшбэк в Ozon.
Играем в игру из приложения Тиньков банка "5 букв".  Правила игры похожи на игру Wordle.
<div>
<img src="game.jpeg" width="200"/>
</div>   
Попробуем придумать какую-нибудь стратегию для выигрыша.

## Чтение файла

Для нашей игры прочитаем список слов, которые:
* состоят из 5 букв
* не содержат символы не из алфавита (дефисы, английские буквы)
* не начинаются с заглавной буквы  

Исходный файл [nouns.csv](https://github.com/Badestrand/russian-dictionary/blob/master/nouns.csv) взят с гитхаба (https://github.com/Badestrand/russian-dictionary) (Creative Commons Attribution Share Alike 4.0).

In [1]:
words = []
with open('nouns.txt', encoding='utf-8') as file:
    words = [w.strip() for w in file.readlines()]
words.sort()
(words[:10], len(words))

(['аарон',
  'аббат',
  'абвер',
  'абзац',
  'аборт',
  'абрек',
  'абрис',
  'абхаз',
  'аванс',
  'авгур'],
 2593)

## Класс WordPredictor

In [2]:
class WordPredictor:
    def __init__(self, words, takeplace=True):
        """
        words     : массив слов
        takeplace : Учитывать место буквы при подсчете рейтинга слова. 
                    Например встречаемость буквы й в зависимости от места: [0, 1, 38, 8, 50]
        """
        self.takeplace = takeplace
        self.words = words.copy() # TODO: проверка, что бы все слова были одинаковой длины
        self.alphabet = ''
        
        # для расчета рейтинга слова соберем статистику по буквам
        dict={}

        for w in self.words:
            for l in w:
                if not l in self.alphabet:
                    self.alphabet += l
                dict[l] = dict.get(l, 0) + 1
        
        sorted_tuples = sorted(dict.items(), key=lambda x: x[1],reverse=True)
        self.letter_rating = {k: v for k, v in sorted_tuples}
        mostusedletters = "".join(list(self.letter_rating.keys()))
        self.alphabet = ''.join(sorted(self.alphabet))
        print(f"Алфавит: {self.alphabet}")
        print(f"Буквы, отсортированные по степени встречаемости: {mostusedletters}")
        
        # а теперь посмотрим, на каких местах каждая буква встречается чаще
        self.letter_places={k: [0]*5 for k in self.alphabet}
        for w in self.words:
            for l,i in zip(w, range(5)):        
                self.letter_places[l][i] += 1
         
        self.reset()
        
                
    def score(self, w, ignore=''):
        """
        Подсчет рейтинга слова
        ignore     : Строка с метками для, определающая, учитывать букву при расчете рейтинга слова (символ "_") или нет.
                     Это нужно, что бы считать рейтинг слов, для которых уже угаданы позиции букв. 
                     В этом случае угаданные буквы игнорируются в рейтинге
        """
        if ignore == '': ignore = '_'*len(w) # если ignore не задана, то считаем рейтинг по всем буквам
        s=0
        for i in range(len(w)):
            if ignore[i] not in self.alphabet: # вместо буквы находится символ, значит буква учавствует в подсчете
                if not self.takeplace:
                    s += self.sorted_dict[w[i]]//w.count(w[i])
                else:
                    s += self.letter_places[w[i]][i]//w.count(w[i])
        return s
    
    def reset(self):
        """
        сброс попыток подбора слова
        """
        self.wrongletters=''               # список букв, которых вообще нет в угадываемом слове
        self.wrongplaces={}                # словарь букв, которые есть в слове, но не на неправильной позиции
        self.rightplaces='_'*len(words[0]) # список угаданных букв
        self.attempts = []                 # список попыток с результатом
        self.goodwords = words.copy()      # список слов, которые удовлетворяют условиям
        self.endgame = False               # флаг окончания поиска
        
    
    def scan_results(self, testword, result):
        """
        Разбор результата проверки с записью в соответствующие переменные
        testword : слово, которое проверялось
        result   : результат проверки, "-" - буквы в слове нет, "*" - буква есть, но не на другом месте
                   "+" - буква угадана
        """
        # TODO: проверка на равенство длин testword, result и words
        for i, r in enumerate(result):
            l = testword[i]
            if (r=='-'): 
                self.wrongletters = ''.join(set(self.wrongletters) | set(l))
            elif (r=='*'):
                self.wrongplaces[l] = self.wrongplaces.get(l,[]) + [i]
            else:
                t = list(self.rightplaces)
                t[i] = l
                self.rightplaces = ''.join(t)
                

    def is_good_word(self, w):
        """
        проверка слова по условиям wrongletters, wrongplaces, rightplaces
        """
        
        # 1) в слове должны быть найденные буквы в нужных местах
        for testletter, goodletter in zip(w, self.rightplaces):
            if goodletter != '_': # если угаданная буква есть на этом месте
                if testletter != goodletter: # и она не равна проверяемой букве
                    return False # сразу нет

        # 2) в слове не должно быть отсутствующих букв
        for testletter in w:
            if testletter in self.wrongletters:
                return False

        # 3) в слове должны быть неправильно расположенные буквы
        for goodletter in list(self.wrongplaces.keys()): # берем каждую неправильно расположенную букву
            if goodletter not in w: # неправильно расположенные буквы должны быть в слове (странно, да?)
                return False
            # 4) в слове неправильно расположенные буквы не должны быть на неправильных местах
            else: # если неправильно расположенная буква есть в проверяемом слове
                if w.index(goodletter) in self.wrongplaces[goodletter]: # место буквы в слове есть в списке неправильных мест
                    return False
                
        return True # если слово прошло все проверки

    def find_good_words(self):
        """
        Вывод списка слов, удовлетворяющих условиям в переменных wrongletters, wrongplaces, rightplaces
        """
        goodwordsnext = []

        for w in self.goodwords:
            if self.is_good_word(w):
                goodwordsnext += [w]
        return goodwordsnext
        
    def predict_next_words(self, testword, result):
        """
        главная функция предсказания следующих слов
        testword  :  слово, которое было указано в приложении
        result    :  результат предсказания этого слова
        """
        if self.endgame:
            print('Нужно сбросить поиск вызвав reset()')
            return None, None
        
        self.attempts.append([testword, result]) # добавляем попытку в массив попыток (зачем?)
        self.scan_results(testword, result)      # сканируем результат попытки
        nextwords = self.find_good_words()  # ищем слова, подходящие под условия
        
        if len(nextwords) == 0:
            print('Что-то пошло не так. Не могу найти слова, попадающие под условия')
            self.endgame = True
            return None, (None, None)
        elif len(nextwords) == 1:
            # print(f'Слово найдено: {nextwords[0]}.\nЧисло ходов {len(self.attempts)}.')
            self.endgame = True
            return "1 из 1:", [[nextwords[0], self.score(nextwords[0])]]
        else:
            self.goodwords = nextwords
            scorelist=[[w, self.score(w, self.rightplaces)] for w in self.goodwords] # считаем рейтинг слов...
            newwords=sorted(scorelist,key=lambda x: x[1],reverse=True) # и сортируем по убыванию
            return f"{min(10, len(newwords))} из {len(newwords)}:", newwords[:10]
    
    @staticmethod
    def check_word(rightword, testword):
        """
        проверка слова, как это присходит в игре
        """
        result=''
        for rl, tl in zip(rightword, testword):
            if tl not in rightword:
                result = result + '-'
            else:
                if tl==rl:
                    result = result + '+'
                else:
                    result = result + '*'
        return result
    

    def find_word(self, secret, tryword='порка'):
        """
        поиск загаданного слова secret, используюя описанные в классе алгоритмы
        """
        self.reset()
    
        i = 0
        while i < 10:
            i += 1
            checkresult = WordPredictor.check_word(secret, tryword) # проверяем слово
            _, nextwords = self.predict_next_words(tryword, checkresult) # ищем новые слова
            print( (tryword, checkresult, self.rightplaces, len(nextwords)) )
            if(len(nextwords)==1):
                print(f'Конец игры. Загаданное слово: {nextwords[0][0]}')
                break
            else:
                tryword=nextwords[0][0]

## Проверка алгоритма поиска

In [3]:
wp = WordPredictor(words)

Алфавит: абвгдежзийклмнопрстуфхцчшщъыьэюя
Буквы, отсортированные по степени встречаемости: аокретилнсупмвбдзгьяшчыхжфйцющэъ


In [4]:
wp.reset()
wp.find_word('чайка')

('порка', '---++', '___ка', 10)
('белка', '---++', '___ка', 10)
('самка', '-+-++', '_а_ка', 10)
('ватка', '-+-++', '_а_ка', 10)
('ганка', '-+-++', '_а_ка', 10)
('кадка', '*+-++', '_а_ка', 6)
('заика', '-+-++', '_а_ка', 4)
('шайка', '-++++', '_айка', 1)
Конец игры. Загаданное слово: чайка


## Пример поиска слова "манеж"

<div>
<img src="example.png" width="200"/>  
</div>  
1) Начинаем со слова "порка":

In [8]:
wp.reset() # сбрасываем поиск
wp.predict_next_words('порка', '----*')

('10 из 265:',
 [['балет', 1425],
  ['валет', 1399],
  ['сатин', 1374],
  ['налет', 1346],
  ['салун', 1308],
  ['баден', 1280],
  ['ватин', 1279],
  ['валец', 1265],
  ['талия', 1260],
  ['малец', 1255]])

2\) "Балет" и "валет" почему-то не понравились, пусть следующее слово будет "сатин"

In [11]:
wp.predict_next_words('сатин', '-+--*')

('10 из 24:',
 [['банда', 703],
  ['майна', 645],
  ['ванна', 621],
  ['манна', 611],
  ['ганец', 610],
  ['манеж', 603],
  ['фанза', 569],
  ['фауна', 567],
  ['надел', 561],
  ['ханжа', 540]])

3\) "Банда", "майна", "ванна" и "манна" не подходят, так как там есть повторяющиеся буквы. Что такое "ганец" я не знаю (житель Ганы?), так что следующее слово "манеж", и оно оказывается верным