In [1]:
import math
from collections import Counter

In [2]:
def openFile(path):
    """Otwiera plik i zwraca jego zawartosc"""
    with open(path, "r") as f:
        return f.read()

def entropia(tekst):
    """Funkcja obliczajaca entropie dla podanego tekstu"""
    entropia = 0
    counter = Counter(tekst)
    for znak in counter:
        p = counter[znak] / len(tekst)
        entropia += -p * math.log2(p)
    return entropia

def entropiaSlow(tekst):
    """Funkcja obliczająca entropię słów w tekście"""
    slowa = tekst.split()
    counter = Counter(slowa)
    total = sum(counter.values())
    entropia = 0
    for count in counter.values():
        p = count / total
        entropia += -p * math.log2(p)
    return entropia


def entropiaLaczna(tekst, n):
    """Funkcja obliczajaca entropie laczna"""
    pair_counter = Counter(tekst[i:i+n] for i in range(len(tekst) - n + 1))
    entropia = 0
    total = sum(pair_counter.values())
    for pair in pair_counter:
        p = pair_counter[pair] / total
        entropia += -p * math.log2(p)
    return entropia

def entropiaWarunkowa(tekst, n):
    """Funkcja obliczająca entropie warunkowa dla danego rzedu n"""
    laczna = entropiaLaczna(tekst, n+1)
    zwykla = entropiaLaczna(tekst, n)
    return laczna - zwykla

def wyliczenieEntropi(tekst, nazwa, rzad=5):
    """Funkcja obliczajaca entropie dla znakow i slow w podanym tekscie"""
    wikiEnEntropia = entropia(tekst)
    print(f"Entropia dla znakow {nazwa}: {wikiEnEntropia}")

    wikiEnEntropiaSlowa = entropiaSlow(tekst)
    print(f"Entropia dla slow {nazwa}: {wikiEnEntropiaSlowa}")

    for i in range(1, rzad+1):
        print(f"Entropia warunkowa dla {nazwa} rzedu {i}: {entropiaWarunkowa(tekst, i)}")
    print()

Zadanie 1

In [3]:
wikiEn = openFile("daneFolder/norm_wiki_en.txt")
wyliczenieEntropi(wikiEn, "wikiEn", 6)

Entropia dla znakow wikiEn: 4.288221453845133
Entropia dla slow wikiEn: 11.543993773635416
Entropia warunkowa dla wikiEn rzedu 1: 3.5166049576878438
Entropia warunkowa dla wikiEn rzedu 2: 3.018318972912313
Entropia warunkowa dla wikiEn rzedu 3: 2.4815655628514435
Entropia warunkowa dla wikiEn rzedu 4: 2.021184496790042
Entropia warunkowa dla wikiEn rzedu 5: 1.672408138872889
Entropia warunkowa dla wikiEn rzedu 6: 1.3876954581701355



Zadanie 2

In [4]:
wikiLo = openFile("daneFolder/norm_wiki_la.txt")
wyliczenieEntropi(wikiLo, "wikiLo", 6)

Entropia dla znakow wikiLo: 4.228247465746812
Entropia dla slow wikiLo: 11.969194044355133
Entropia warunkowa dla wikiLo rzedu 1: 3.450126149804748
Entropia warunkowa dla wikiLo rzedu 2: 2.8234919874322983
Entropia warunkowa dla wikiLo rzedu 3: 2.1520314708890176
Entropia warunkowa dla wikiLo rzedu 4: 1.6427640481916423
Entropia warunkowa dla wikiLo rzedu 5: 1.3127478385050058
Entropia warunkowa dla wikiLo rzedu 6: 1.0690519135476855



Zadanie 3

In [5]:
sample0 = openFile("daneFolder/sample0.txt")
wyliczenieEntropi(sample0, "sample0", 6)

Entropia dla znakow sample0: 4.273001240566633
Entropia dla slow sample0: 7.748741386140158
Entropia warunkowa dla sample0 rzedu 1: 2.9158940586296893
Entropia warunkowa dla sample0 rzedu 2: 2.0003594502801
Entropia warunkowa dla sample0 rzedu 3: 1.5392819556315551
Entropia warunkowa dla sample0 rzedu 4: 1.4385819180679196
Entropia warunkowa dla sample0 rzedu 5: 1.3919687943795243
Entropia warunkowa dla sample0 rzedu 6: 1.3028459094169005



In [6]:
sample1 = openFile("daneFolder/sample1.txt")
wyliczenieEntropi(sample1, "sample1", 6)

Entropia dla znakow sample1: 4.1270061355497205
Entropia dla slow sample1: 11.500698483659841
Entropia warunkowa dla sample1 rzedu 1: 3.239150179725745
Entropia warunkowa dla sample1 rzedu 2: 2.8612796313848845
Entropia warunkowa dla sample1 rzedu 3: 2.3266847632336045
Entropia warunkowa dla sample1 rzedu 4: 1.8135099934567247
Entropia warunkowa dla sample1 rzedu 5: 1.4311245337510048
Entropia warunkowa dla sample1 rzedu 6: 1.1420020506221888



In [7]:
sample2 = openFile("daneFolder/sample2.txt")
wyliczenieEntropi(sample2, "sample2", 6)

Entropia dla znakow sample2: 3.993311800232584
Entropia dla slow sample2: 8.023869815826421
Entropia warunkowa dla sample2 rzedu 1: 3.050439233847188
Entropia warunkowa dla sample2 rzedu 2: 2.4676603219157514
Entropia warunkowa dla sample2 rzedu 3: 1.9397721340083418
Entropia warunkowa dla sample2 rzedu 4: 1.7020323068326775
Entropia warunkowa dla sample2 rzedu 5: 1.614413198682863
Entropia warunkowa dla sample2 rzedu 6: 1.5398780591981307



In [8]:
sample3 = openFile("daneFolder/sample3.txt")
wyliczenieEntropi(sample3, "sample3", 6)

Entropia dla znakow sample3: 3.930297834157987
Entropia dla slow sample3: 9.061119324692852
Entropia warunkowa dla sample3 rzedu 1: 3.184467264594503
Entropia warunkowa dla sample3 rzedu 2: 2.6278950708415243
Entropia warunkowa dla sample3 rzedu 3: 2.0239908647525233
Entropia warunkowa dla sample3 rzedu 4: 1.5342422105414606
Entropia warunkowa dla sample3 rzedu 5: 1.2504125342084844
Entropia warunkowa dla sample3 rzedu 6: 1.0840526759776825



In [9]:
sample4 = openFile("daneFolder/sample4.txt")
wyliczenieEntropi(sample4, "sample4", 6)

Entropia dla znakow sample4: 4.2538095673790135
Entropia dla slow sample4: 17.129669110943123
Entropia warunkowa dla sample4 rzedu 1: 4.229101474093364
Entropia warunkowa dla sample4 rzedu 2: 4.226829073279905
Entropia warunkowa dla sample4 rzedu 3: 4.178535298161005
Entropia warunkowa dla sample4 rzedu 4: 3.7661316733038994
Entropia warunkowa dla sample4 rzedu 5: 2.390571247487678
Entropia warunkowa dla sample4 rzedu 6: 0.7084144154614904



In [10]:
sample5 = openFile("daneFolder/sample5.txt")
wyliczenieEntropi(sample5, "sample5", 6)

Entropia dla znakow sample5: 4.441688018481797
Entropia dla slow sample5: 16.50952760746038
Entropia warunkowa dla sample5 rzedu 1: 3.5230982499155203
Entropia warunkowa dla sample5 rzedu 2: 3.2506208225520457
Entropia warunkowa dla sample5 rzedu 3: 2.834271345189844
Entropia warunkowa dla sample5 rzedu 4: 2.172440826214544
Entropia warunkowa dla sample5 rzedu 5: 1.446868002946811
Entropia warunkowa dla sample5 rzedu 6: 0.8847413135718014



Zawierają język naturalny: sample1, sample3