# Laboratorium 5
### Klasy
Uzupełnij brakujące metody poniższej klasy.

In [3]:
class FrozenDictionary(object):
    """
    Odpowiednik frozenset dla zbiorów, czyli słownik, który nie jest modyfikowalny,
    a dzięki temu może być np. elementem zbiorów, albo kluczem w innym słowniku.
    """

    def __init__(self, dictionary):
        """Tworzy nowy zamrożony słownik z podanego słownika"""
        self.dict = dictionary

    def __hash__(self):
        """Zwraca hasz słownika (int)"""
        return hash(tuple(sorted(self.dict.items())))

    def __eq__(self, d):
        """Porównuje nasz słownik z zamrożonym słownikiem d"""
        return self.dict == d.dict

    def __repr__(self):
        """Zwraca reprezentację naszego słownika jako string"""
        elements = ', '.join(['{0} : {1}'.format(key, value) for key, value in self.dict.items()])
        return '{ ' + elements + '}'
        

dicts = [FrozenDictionary({'ala': 4}),
         FrozenDictionary({'ala': 1, 'jacek': 0}),
         FrozenDictionary({'ala': 4}),
         FrozenDictionary({'ala': 2}),
         FrozenDictionary({'jacek': 0, 'ala': 1})]

s = set(dicts)
print(dicts[0] == dicts[2])
print(dicts[0] != dicts[3])
print(len(s) == 3)
for d in dicts:
    print(d in s)

# Powinno wyświetlić coś w stylu set([{'ala': 4}, {'ala': 1, 'jacek': 0}, {'ala': 2}])
print(s)


True
True
True
True
True
True
True
True
{{ jacek : 0, ala : 1}, { ala : 2}, { ala : 4}}


#### Bag of Words
Napisz klasę "Bag of words", która będzie "workiem słów" z zadanego dokumentu. Oznacza to, że ma w sobie przechowywać informacje o tym ile razy każde słowo wystąpiło w dokumencie. Dodatkowo ma udostępniać następującą funkcjonalność:
* Można utworzyć go na dwa sposoby:
```
bow = BagOfWords("ala ma kota ala ma ala")
bow = BagOfWords(open("plik.txt"))
```
* Możliwość wyświetlania go po prostu pisząc print(bow) (kolejność taka sama jak przy przeglądaniu forem)
```
ala:3, ma:2, kota:1
```
* Sprawdzanie czy jakieś słowo należy do naszego worka pisząc
```
if 'ala' in bow:
    ...
```
* Przeglądanie słów w worku od najczęściej do najrzadziej występującego, czyli
```
for word in bow:
  print(word)
```
    powinniśmy zobaczyć
```
ala
ma
kota
```
* Możliwość dodawania dwóch worków, pisząc
```
bow1 = BagOfWords("ala ma kota ala ma ala")
bow2 = BagOfWords("tomek tez ma kota")
bow3 = bow1 + bow2
print('tomek' in bow1) # False
print('tomek' in bow3) # True
print('ala' in bow3) # True
print(bow3) # ala:3, ma:3, kota:2, tez:1, tomek:1
    ```
* Odczytywanie częstości wystąpień słów poprzez nawiasy kwadratowe
```
print(bow1["ala"]) # 3
print(bow3["ala"]) # 3
```
* Aktualizację cześtości wystąpień
```
bow3['tomek'] = 10
for el in bow3:
    print el
```
    powinno wyświetlić najpierw `tomek`

In [3]:
from io import TextIOWrapper
from functools import reduce


class BagOfWords:
    def __init__(self, arg):
        self.frequency = {}
        if isinstance(arg, TextIOWrapper):
            self.raw = reduce(lambda previous, current: previous + current, arg, '')
        else:
            self.raw = arg
        for word in self.raw.split(' '):
            self.frequency[word] = self.frequency.setdefault(word, 0) + 1

    def get_sorted(self):
        return sorted(self.frequency.items(), key=lambda x: -x[1])
    
    def __contains__(self, item):
        return item in self.frequency.keys()

    def __repr__(self):
        return ', '.join(list(map(lambda x: '{0}:{1}'.format(*x), self.get_sorted())))

    def __getitem__(self, item):
        return self.frequency[item]

    def __setitem__(self, key, value):
        self.frequency[key] = value

    def __iter__(self):
        return iter(map(lambda x: x[0], self.get_sorted()))

    def __add__(self, other):
        return BagOfWords(self.raw + ' ' + other.raw)


bow1 = BagOfWords("ala ma kota ala ma ala")
bow2 = BagOfWords("tomek tez ma kota")
bow3 = bow1 + bow2
print('tomek' in bow1)  # False
print('tomek' in bow3)  # True
print('ala' in bow3)  # True
print(bow3)  # ala:3, ma:3, kota:2, tez:1, tomek:1

print(bow1["ala"])  # 3
print(bow3["ala"])  # 3

bow3['tomek'] = 10
for el in bow3:
    print(el, bow3[el])


False
True
True
ala:3, ma:3, kota:2, tez:1, tomek:1
3
3
tomek 10
ala 3
ma 3
kota 2
tez 1


#### Set of Words
Napisz klasę pochodną o nazwie `SetOfWords`, która zapamiętuje jedynie które słowa wystąpiły, bez zliczania ile razy. Powinno zmienić się wyświetlanie (zamiast `ala:3, ma:2, kota:1` powinniśmy zobaczyć `ala, ma, kota`), postaraj się napisać ją jak najwydaniej, z których elementów obecnych wewnątrz klasy `BagOfWords` możesz zrezygnować? Dlaczego? Jak dużo kodu musisz zmodyfikować by mieć z jednej strony poprawną implementację a z drugiej jak najmniej zmienić klasy bazowej?

In [4]:
class SetOfWords(BagOfWords):
    def __getitem__(self, item):
        raise TypeError('SetOfWords is not subscriptable')

    def __setitem__(self, key, value):
        raise TypeError('SetOfWords is not subscriptable')

    def __repr__(self):
        return ', '.join(list(map(lambda x: x[0], self.get_sorted())))


set1 = SetOfWords("ala ma kota ma ala")
for word in set1:
    print(word)
print()

set2 = SetOfWords('tomek tez ma kota kota')
set3 = set1 + set2

for word in set3:
    print(word)

ala
ma
kota

ma
kota
ala
tez
tomek


### Zadanie dodatkowe
Przerób implementację `BagOfWords` na `BagOfPairsOfWords`, gdzie zamiast przechowywać liczność pojedynczych słów, przechowuj jak wiele razy wystąpiły obok siebie pary słów, np.
```
"ala ma kota ala ma psa"
```

zawiera następujące pary:
```
(None, 'ala'): 1
('ala', 'ma'): 2
('ma', 'kota'): 1
('kota', 'ala'): 1
('ma', 'psa'): 1
('psa', None): 1
```

Powinny działać wszystkie funkcjonalności `BagOfWords`, po prostu pracujemy na parach, czyli np.
```
bopow = BagOfPairsOfWords('ala ma kota ala ma psa')
bopow[('ala', 'ma')] == 2
('ala', 'ma') in bopow
for word1, word2 in bopow:
    print(word1, word2, bopow[(word1, word2)])
```

Dodatkowo jeśli użytkownik poprosi o słowo, zamiast o parę to powinien dostać wszystkie słowa, z którymi zadane występuje w parze, czyli np.
```
for word in bopow['ala']:
    print word, bopow[('ala', word)]
```
wyświetla
```
ma, 2
```

In [2]:
def fst(iterable):
    return iterable[0]


def snd(iterable):
    return iterable[1]


class BagOfPairsOfWords:
    def __init__(self, text):
        self.frequency = {}
        self.raw = text

        words = text.split(' ')
        pairs = zip(words, words[1:])
        for w in pairs:
            self.frequency[w] = self.frequency.setdefault(w, 0) + 1

    def get_sorted(self):
        return sorted(self.frequency.items(), key=lambda x: -x[1])

    def __repr__(self):
        return ', '.join(list(map(lambda x: '{0}:{1}'.format(*x), self.get_sorted())))

    def __getitem__(self, item):
        if type(item) is str:
            keys_sorted = map(fst, self.get_sorted())
            keys_with_item = filter(lambda x: x[0] == item, keys_sorted)
            return iter(map(snd, keys_with_item))

        return self.frequency[item]

    def __setitem__(self, key, value):
        self.frequency[key] = value

    def __iter__(self):
        return iter(map(lambda x: x[0], self.get_sorted()))

    def __add__(self, other):
        return BagOfWords(self.raw + ' ' + other.raw)


bopow = BagOfPairsOfWords('ala ma kota ala ma psa ala kota')
print(bopow)
print(bopow[('ala', 'ma')] == 2)
print(('ala', 'ma') in bopow)

for word1, word2 in bopow:
    print(word1, word2, bopow[(word1, word2)])

print()
print('iterator po stringu')
for word in bopow['ala']:
    print(word, bopow[('ala', word)])


('ala', 'ma'):2, ('ma', 'kota'):1, ('ma', 'psa'):1, ('psa', 'ala'):1, ('kota', 'ala'):1, ('ala', 'kota'):1
True
True
ala ma 2
ma kota 1
ma psa 1
psa ala 1
kota ala 1
ala kota 1

iterator po stringu
ma 2
kota 1
