## Przykładowe rozwiązania

1. Pobierz *Alice's Adventures in Wonderland* Lewis Carroll z [tego adresu](http://www.gutenberg.org/files/11/11-0.txt)
1. Przeczytaj plik używając Pythona; zobacz [dokumentację](https://docs.python.org/3/tutorial/inputoutput.html)
1. Zlicz wystąpienia liter w utworze (★ wykluczając nagłówek i stopkę w pliku)

In [1]:
# pobranie pliku z sieci
!wget http://www.gutenberg.org/files/11/11-0.txt

--2024-09-20 15:19:36--  http://www.gutenberg.org/files/11/11-0.txt
Resolving www.gutenberg.org (www.gutenberg.org)... 152.19.134.47, 2610:28:3090:3000:0:bad:cafe:47
Connecting to www.gutenberg.org (www.gutenberg.org)|152.19.134.47|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://www.gutenberg.org/files/11/11-0.txt [following]
--2024-09-20 15:19:36--  https://www.gutenberg.org/files/11/11-0.txt
Connecting to www.gutenberg.org (www.gutenberg.org)|152.19.134.47|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 154638 (151K) [text/plain]
Saving to: ‘11-0.txt’


2024-09-20 15:19:37 (323 KB/s) - ‘11-0.txt’ saved [154638/154638]



In [2]:
# słownik do zliczania liter
letters = dict()
# analizujemy plik linia po linii
with open("11-0.txt") as file:
    for line in file:
        for char in line:
            if not char.isalpha():
                continue
            char = char.upper()
            if char in letters:
                letters[char] += 1
            else:
                letters[char] = 1
print(letters)

{'S': 6520, 'T': 10740, 'A': 8834, 'R': 5478, 'O': 8171, 'F': 2005, 'H': 7399, 'E': 13640, 'P': 1545, 'J': 148, 'C': 2425, 'G': 2538, 'U': 3481, 'N': 7040, 'B': 1487, 'K': 1161, 'L': 4739, 'I': 7549, 'D': 4947, 'V': 855, 'W': 2680, 'Y': 2265, 'M': 2110, 'Q': 212, 'X': 152, 'Z': 78, 'Ù': 1}


In [3]:
# analogiczne rozwiązanie wykorzystujące defaultdict
from collections import defaultdict

# domyślna wartość
def default_value():
    return 0


# słownik do zliczania liter z domyślną wartością
letters = defaultdict(default_value) # lub = defaultdict(lambda: 0)
# analizujemy plik linia po linii
with open("11-0.txt") as file:
    for line in file:
        for char in line:
            if not char.isalpha():
                continue
            char = char.upper()
            # nie ma potrzeby sprawdzania czy litera jest już w słowniku
            letters[char] += 1
print(letters)

defaultdict(<function default_value at 0x782efd19b9c0>, {'S': 6520, 'T': 10740, 'A': 8834, 'R': 5478, 'O': 8171, 'F': 2005, 'H': 7399, 'E': 13640, 'P': 1545, 'J': 148, 'C': 2425, 'G': 2538, 'U': 3481, 'N': 7040, 'B': 1487, 'K': 1161, 'L': 4739, 'I': 7549, 'D': 4947, 'V': 855, 'W': 2680, 'Y': 2265, 'M': 2110, 'Q': 212, 'X': 152, 'Z': 78, 'Ù': 1})


In [4]:
# słownik do zliczania liter
letters = dict()
# flaga wskazująca czy analizujemy tekst książki
is_book = False
# analizujemy plik linia po linii
with open("11-0.txt") as file:
    for line in file:
        # przełączenie flagi po napotkaniu znacznika nagłówka/końca książki
        if line.startswith('*** '):
            is_book = not is_book
            continue
        if not is_book:
            continue
        for char in line:
            if not char.isalpha():
                continue
            char = char.upper()
            if char in letters:
                letters[char] += 1
            else:
                letters[char] = 1
print(letters)

{'W': 1, 'O': 1, 'N': 2, 'D': 2, 'E': 1, 'R': 1, 'L': 1, 'A': 1}


1. Ile słów występuje w utworze?
1. Zlicz wystąpienia unikalnych słów (skorzystaj z pakietu `re` i metody `findall`)
1. Ile unikalnych słów występuje w utworze?
1. Które słowo występuje najczęściej?
1. Jakimi częściami tekstu (w procentach) jest kolejnych pięć najczęściej występujących słów?

In [5]:
# zliczanie słów z użyciem split
total_words = 0
with open('11-0.txt') as file:
    for line in file:
        for word in line.strip().split():
            total_words += 1
print(total_words)

26549


In [6]:
import re
# zliczanie słów
total_words = 0
with open("11-0.txt") as file:
    for line in file:
        for word in re.findall(r'\w+', line):
            total_words += 1
print(total_words)

27463


Metoda `split` nie radzi sobie z wyrażeniami w których użyte zostały znaki przystankowe (zostały one złączone ze słowami).

In [7]:
import re
# zliczanie słów bez dodatkowej pętli
total_words = 0
with open("11-0.txt") as file:
    for line in file:
        total_words += len(re.findall(r'\w+', line))
print(total_words)

27463


In [8]:
import re
# słownik do zliczania unikalnych słów
words = dict()
with open("11-0.txt") as file:
    for line in file:
        for word in re.findall(r'\w+', line.lower()):
            if word in words:
                words[word] += 1
            else:
                words[word] = 1
# słownik unikalnych słów
print(words)
# liczba wpisów (kluczy) w słowniku
print(len(words))
# suma wartości dla kluczy słownika
print(sum(words.values()))
# największa liczba wystąpień
print(max(words.values()))
# najczęściej występujące słowo
print(list(words.keys())[list(words.values()).index(max(words.values()))])
print([word for word, occurrences in words.items() if occurrences == max(words.values())])

2695
27463
1653
the
['the']


In [9]:
# pięć najczęściej występujących słów (posortowania lista wartości i kluczy ze słownika)
words_sorted = sorted([(value, key) for (key, value) in words.items()], reverse = True)
five_common = words_sorted[:5]
print(five_common)
for word in five_common:
    print(f'{word[1]}\t{word[0]*100.0/total_words:.2f}%')

[(1653, 'the'), (873, 'and'), (729, 'to'), (637, 'a'), (592, 'it')]
the	6.02%
and	3.18%
to	2.65%
a	2.32%
it	2.16%


Można zaznajomić się z pakietem [heapq](https://docs.python.org/3/library/heapq.html), który dostarcza implementacji funkcji `nlargest`. `sorted` umożliwia również bezpośrednie podanie klucza według którego mają być posortowane dane (parametr `key`), ale ta implementacja pozwoliła na uniknięcie użycia `lambda`, której jeszcze nie znamy.

1. Ile unikalnych słów wypełnia połowę całego tekstu?
1. ★ Narysuj zależność w skali logarytmicznej pomiędzy rangą słowa a częstotliwością jego występowania (ranga to liczby 1, 2, 3, ... przyporządkowane kolejno najczęściej występującym słowom)

In [13]:
# ile słów wypełnia połowę całego tekstu
# zlicza wystąpienia najczęściej występujących słów, aż do przekroczenia połowy
total = 0
i = 0
for word in words_sorted:
    total += word[0]
    if (total > total_words / 2):
        break
    i += 1
print(total)
print(i)

13773
55


Nim przystąpimy do implementacji warto sprawdzić czy nie istnieje pakiet implementujący dany algorytm

In [16]:
import re, urllib.request
from collections import Counter
# pobranie książki
response = urllib.request.urlopen('http://www.gutenberg.org/files/11/11-0.txt')
data = response.read()
text = data.decode('utf-8')
# lista słów
words = re.findall(r'\w+', text.lower())
print(len(words))

27463


In [17]:
# odnalezienie najczęstszego słowa
Counter(words).most_common(1)

[('the', 1653)]

In [18]:
# odnalezienie pięciu najczęstszych słów oraz częstotliwości ich występowania
five_common = Counter(words).most_common(5)
print(five_common)
for word in five_common:
    print(f'{word[0]}\t{word[1]*100.0/len(words):.2f}%')

[('the', 1653), ('and', 873), ('to', 729), ('a', 637), ('it', 592)]
the	6.02%
and	3.18%
to	2.65%
a	2.32%
it	2.16%
