# Wyrazy - zabawa słownikiem

[Piotr Migdał](http://migdal.wikidot.com/), 2015, [DELab UW](http://www.delab.uw.edu.pl/)

Słownik języka polskiego do literaków (do 15 liter, bez nazw własnych)
http://sjp.pl/slownik/growy/ (nie zawarty w repozytorium - należy samemu ściągnąć).

### Różne kodowania znaków

**Uwaga**: języki polskie bywają różnie kodowane (tj. *'ź'* może być różnie zapisane na komputerze). Jeśli spróbujemy odczytać inaczej znaki niż zostały zapisane, dostaniemy dziwne symbole, pytajniki lub jeszcze coś innego.

Dobrym kodowaniem jest [UTF-8](https://en.wikipedia.org/wiki/UTF-8) (Unicode) - pozwala zapisywać znaki z różnych języków. Jednak w wielu miejscach (głównie z powodów historycznych) jest użwyane do znaków polskich `Windows-1250` (znane też jako `CP1250`) lub `ISO-8859-2`.

Gdy mamy do wyboru kodowanie **zawsze** używajmy `UTF-8`. Inaczej wcześniej czy później będziemy mieli problemy.

In [1]:
# biblioteka do wczytywania znaków w różnych kodowaniach
import codecs

In [2]:
# niestety, plik jest zapisany w innym kodowaniu, więc musimy go przekonwertować
plik = codecs.open("../dane/slowa-win.txt", 'r',
                   encoding='cp1250')

In [3]:
slowa = plik.read().split()

In [4]:
# liczba slow
len(slowa)

2709883

In [5]:
slowa[:5]

['aa', 'aaa', 'abace', 'abaci', 'abacie']

In [6]:
# obiekt Counter służy do zliczania wystąpień okiektów
from collections import Counter

Counter(["Ala", "Python", "Andrzej", "Python", "Ala", "Python"])

Counter({'Python': 3, 'Ala': 2, 'Andrzej': 1})

In [7]:
Counter([len(slowo) for slowo in slowa])

Counter({12: 383690, 11: 376712, 13: 362607, 10: 336076, 14: 320210, 9: 268738, 15: 262562, 8: 188657, 7: 115799, 6: 59079, 5: 26439, 4: 7664, 3: 1523, 2: 127})

In [8]:
Counter([slowo[0] for slowo in slowa])

Counter({'n': 611326, 'p': 396811, 'w': 197169, 'z': 189766, 's': 164409, 'o': 163399, 'k': 122792, 'r': 108067, 'd': 105516, 'm': 78328, 'u': 75444, 'b': 68633, 't': 60757, 'a': 60324, 'c': 57907, 'g': 46252, 'f': 36296, 'l': 32024, 'e': 28644, 'h': 27678, 'i': 23810, 'j': 17337, 'ś': 13475, 'ł': 11277, 'ż': 10147, 'ć': 1422, 'ź': 593, 'y': 191, 'ó': 88, 'ę': 1})

In [9]:
Counter([slowo[-1] for slowo in slowa])

Counter({'y': 372874, 'm': 343349, 'i': 335706, 'e': 321838, 'a': 215227, 'h': 167903, 'ą': 156844, 'o': 156285, 'u': 150806, 'j': 117144, 'ś': 79605, 'ę': 43326, 'ż': 42524, 'ń': 39093, 'w': 34438, 'ć': 28603, 'z': 26538, 'ł': 22263, 'k': 16918, 'c': 12878, 'n': 7168, 't': 4578, 'r': 4097, 'l': 2179, 's': 1943, 'd': 1566, 'g': 1320, 'p': 929, 'ź': 827, 'b': 625, 'f': 431, 'x': 53, 'v': 4, 'q': 1})

In [10]:
print(slowa[10])

abadańskie


In [11]:
def zlicz(slowo, lit):
    zliczenia = 0
    for litera in slowo:
        if litera == lit:
            zliczenia += 1
    return zliczenia

In [12]:
for slowo in slowa:
    if zlicz(slowo, 'y') == 6:
        print(slowo)

wybyczyłybyśmy
wypytywałybyśmy
wysypywałybyśmy
wytyczyłybyśmy
wywyższyłybyśmy


### Zadania

* Palindromy
* Słowa:
    * zaczynające się od (`.startswith(poczatek)`)
    * kończące się na (`.endswith(koniec)`)
    * zamierające (`.counts(podslowo)`)
* Punkty w Scrabble lub Literaki a częstość występowania