## Przykładowe rozwiązania

1. Pobierz *Alice's Adventures in Wonderland* Lewis Carroll z [tego adresu](http://www.gutenberg.org/files/11/11-0.txt)
1. Przeczytaj plik używając Pythona; zobacz [dokumentację](https://docs.python.org/3/tutorial/inputoutput.html)
1. Zlicz wystąpienia liter w utworze (★ wykluczając nagłówek i stopkę w pliku)

In [None]:
# pobranie pliku z sieci
!wget http://www.gutenberg.org/files/11/11-0.txt

In [None]:
# słownik do zliczania liter
letters = dict()
# analizujemy plik linia po linii
with open("11-0.txt") as file:
    for line in file:
        for char in line:
            if not char.isalpha():
                continue
            char = char.upper()
            if char in letters:
                letters[char] += 1
            else:
                letters[char] = 1
print(letters)

In [None]:
# analogiczne rozwiązanie wykorzystujące defaultdict
from collections import defaultdict

# domyślna wartość
def default_value():
    return 0


# słownik do zliczania liter z domyślną wartością
letters = defaultdict(default_value) # lub = defaultdict(lambda: 0)
# analizujemy plik linia po linii
with open("11-0.txt") as file:
    for line in file:
        for char in line:
            if not char.isalpha():
                continue
            char = char.upper()
            # nie ma potrzeby sprawdzania czy litera jest już w słowniku
            letters[char] += 1
print(letters)

In [None]:
# słownik do zliczania liter
letters = dict()
# flaga wskazująca czy analizujemy tekst książki
is_book = False
# analizujemy plik linia po linii
with open("11-0.txt") as file:
    for line in file:
        # przełączenie flagi po napotkaniu znacznika nagłówka/końca książki
        if line.startswith('*** '):
            is_book = not is_book
            continue
        if not is_book:
            continue
        for char in line:
            if not char.isalpha():
                continue
            char = char.upper()
            if char in letters:
                letters[char] += 1
            else:
                letters[char] = 1
print(letters)

1. Ile słów występuje w utworze?
1. Zlicz wystąpienia unikalnych słów (skorzystaj z pakietu `re` i metody `findall`)
1. Ile unikalnych słów występuje w utworze?
1. Które słowo występuje najczęściej?
1. Jakimi częściami tekstu (w procentach) jest kolejnych pięć najczęściej występujących słów?

In [None]:
# zliczanie słów z użyciem split
total_words = 0
with open('11-0.txt') as file:
    for line in file:
        for word in line.strip().split():
            total_words += 1
print(total_words)

In [None]:
import re
# zliczanie słów
total_words = 0
with open("11-0.txt") as file:
    for line in file:
        for word in re.findall(r'\w+', line):
            total_words += 1
print(total_words)

Metoda `split` nie radzi sobie z wyrażeniami w których użyte zostały znaki przystankowe (zostały one złączone ze słowami).

In [None]:
import re
# zliczanie słów bez dodatkowej pętli
total_words = 0
with open("11-0.txt") as file:
    for line in file:
        total_words += len(re.findall(r'\w+', line))
print(total_words)

In [None]:
import re
# słownik do zliczania unikalnych słów
words = dict()
with open("11-0.txt") as file:
    for line in file:
        for word in re.findall(r'\w+', line.lower()):
            if word in words:
                words[word] += 1
            else:
                words[word] = 1
# słownik unikalnych słów
print(words)
# liczba wpisów (kluczy) w słowniku
print(len(words))
# suma wartości dla kluczy słownika
print(sum(words.values()))
# największa liczba wystąpień
print(max(words.values()))
# najczęściej występujące słowo
print(list(words.keys())[list(words.values()).index(max(words.values()))])
print([word for word, occurrences in words.items() if occurrences == max(words.values())])

In [None]:
# pięć najczęściej występujących słów (posortowania lista wartości i kluczy ze słownika)
words_sorted = sorted([(value, key) for (key, value) in words.items()], reverse = True)
five_common = words_sorted[:5]
print(five_common)
for word in five_common:
    print(f'{word[1]}\t{word[0]*100.0/total_words:.2f}%')

Można zaznajomić się z pakietem [heapq](https://docs.python.org/3/library/heapq.html), który dostarcza implementacji funkcji `nlargest`. `sorted` umożliwia również bezpośrednie podanie klucza według którego mają być posortowane dane (parametr `key`), ale ta implementacja pozwoliła na uniknięcie użycia `lambda`, której jeszcze nie znamy.

1. Ile unikalnych słów wypełnia połowę całego tekstu?
1. ★ Narysuj zależność w skali logarytmicznej pomiędzy rangą słowa a częstotliwością jego występowania (ranga to liczby 1, 2, 3, ... przyporządkowane kolejno najczęściej występującym słowom)

In [None]:
# ile słów wypełnia połowę całego tekstu
# zlicza wystąpienia najczęściej występujących słów, aż do przekroczenia połowy
total = 0
i = 0
for word in words_sorted:
    total += word[0]
    if (total > total_words / 2):
        break
    i += 1
print(total)
print(i)

In [None]:
# wykres ranga - częstotliwość (pakiety numpy i matplotlib)
import numpy as np
import matplotlib.pyplot as plt
# specjalna komenda, która powoduje wklejanie wykresu do notebooka
%matplotlib inline
rank = np.arange(1, len(words_sorted) + 1) # ranga to kolejne liczby naturalne
# częstotliwość to iloraz liczby wystąpień słowa i wszystkich słów
freq = np.array(words_sorted)[:,0].astype(float) / total_words
plt.loglog(rank, freq);

Nim przystąpimy do implementacji warto sprawdzić czy nie istnieje pakiet implementujący dany algorytm

In [None]:
import re, urllib.request
from collections import Counter
# pobranie książki
response = urllib.request.urlopen('http://www.gutenberg.org/files/11/11-0.txt')
data = response.read()
text = data.decode('utf-8')
# lista słów
words = re.findall(r'\w+', text.lower())
print(len(words))

In [None]:
# odnalezienie najczęstszego słowa
Counter(words).most_common(1)

In [None]:
# odnalezienie pięciu najczęstszych słów oraz częstotliwości ich występowania
five_common = Counter(words).most_common(5)
print(five_common)
for word in five_common:
    print(f'{word[0]}\t{word[1]*100.0/len(words):.2f}%')