## Przykładowe rozwiązania

1. Pobierz *Alice's Adventures in Wonderland* Lewis Carroll z [tego adresu](http://www.gutenberg.org/files/11/11-0.txt)
1. Przeczytaj plik używając Pythona; zobacz [dokumentację](https://docs.python.org/3/tutorial/inputoutput.html)
1. Zlicz wystąpienia liter w utworze (★ wykluczając nagłówek i stopkę w pliku)

In [None]:
# pobranie pliku z sieci
!wget http://www.gutenberg.org/files/11/11-0.txt

In [None]:
# słownik do zliczania liter
letters = dict()
# analizujemy plik linia po linii
with open("11-0.txt") as file:
    for line in file:
        for char in line:
            if not char.isalpha():
                continue
            char = char.upper()
            if char in letters:
                letters[char] += 1
            else:
                letters[char] = 1
print(letters)

In [None]:
# analogiczne rozwiązanie wykorzystujące defaultdict
from collections import defaultdict

# domyślna wartość
def default_value():
    return 0


# słownik do zliczania liter z domyślną wartością
letters = defaultdict(default_value) # lub = defaultdict(lambda: 0)
# analizujemy plik linia po linii
with open("11-0.txt") as file:
    for line in file:
        for char in line:
            if not char.isalpha():
                continue
            char = char.upper()
            # nie ma potrzeby sprawdzania czy litera jest już w słowniku
            letters[char] += 1
print(letters)

In [None]:
# słownik do zliczania liter
letters = dict()
# flaga wskazująca czy analizujemy tekst książki
is_book = False
# analizujemy plik linia po linii
with open("11-0.txt") as file:
    for line in file:
        # przełączenie flagi po napotkaniu znacznika nagłówka/końca książki
        if line.startswith('*** '):
            is_book = not is_book
            continue
        if not is_book:
            continue
        for char in line:
            if not char.isalpha():
                continue
            char = char.upper()
            if char in letters:
                letters[char] += 1
            else:
                letters[char] = 1
print(letters)

1. Ile słów występuje w utworze
1. Zlicz wystąpienia unikalnych słów (skorzystaj z pakietu `re` i metody `findall`)
1. Ile unikalnych słów występuje w utworze
1. Jakie słowo występuje najczęściej

In [None]:
# zliczanie słów z użyciem split
total_words = 0
with open('11-0.txt') as file:
    for line in file:
        for word in line.strip().split():
            total_words += 1
print(total_words)

In [None]:
import re
# zliczanie słów
total_words = 0
with open("11-0.txt") as file:
    for line in file:
        for word in re.findall(r'\w+', line):
            total_words += 1
print(total_words)

Metoda `split` nie radzi sobie z wyrażeniami w których użyte zostały znaki przystankowe (zostały one złączone ze słowami).

In [None]:
import re
# zliczanie słów bez dodatkowej pętli
total_words = 0
with open("11-0.txt") as file:
    for line in file:
        total_words += len(re.findall(r'\w+', line))
print(total_words)

In [None]:
import re
# słownik do zliczania unikalnych słów
words = dict()
with open("11-0.txt") as file:
    for line in file:
        for word in re.findall(r'\w+', line.lower()):
            if word in words:
                words[word] += 1
            else:
                words[word] = 1
# słownik unikalnych słów
print(words)
# liczba wpisów (kluczy) w słowniku
print(len(words))
# suma wartości dla kluczy słownika
print(sum(words.values()))
# największa liczba wystąpień
print(max(words.values()))
# najczęściej występujące słowo
print(list(words.keys())[list(words.values()).index(max(words.values()))])
print([word for word, occurrences in words.items() if occurrences == max(words.values())])

Nim przystąpimy do implementacji warto sprawdzić czy nie istnieje pakiet implementujący dany algorytm

In [None]:
import re, urllib.request
from collections import Counter
# pobranie książki
response = urllib.request.urlopen('http://www.gutenberg.org/files/11/11-0.txt')
data = response.read()
text = data.decode('utf-8')
# lista słów
words = re.findall(r'\w+', text.lower())
# odnalezienie najczęstszego słowa
Counter(words).most_common(1)