# Problem klasyfikacji gęstości (DCP)

### Importy

In [1]:
import math
import numpy as np
from operator import itemgetter

Funkcje generujące diagram czasoprzestrzenny:

In [2]:
def eca_get_lut(rule_num: int) -> np.ndarray:
    return np.array([int(x) for x in bin(rule_num)[2:].zfill(8)], dtype=np.uint8)

def eca_evolve(lut: np.ndarray, x: np.ndarray) -> np.ndarray:
    return lut[7 - (np.roll(x, 1) * 4 + x * 2 + np.roll(x, -1))]

def eca_evolve_spacetime(lut: np.ndarray, initial_conf: np.ndarray, steps: int) -> np.ndarray:
    rows = [initial_conf]
    for _ in range(1, steps):
        rows.append(eca_evolve(lut, rows[-1]))
    return np.stack(rows)


Funkcja do losowania konfiguracji początkowej:

In [3]:
def generate_random_initial_configuration(length: int) -> np.ndarray:
    return np.random.randint(2, size=length)

## Wczytywanie konfiguracji pana Marcina
Pliki z konfiguracjami można pobrać z https://github.com/D3M80L/CA/tree/master/phd/data.

Funkcja konwertująca ciąg bajtów na binarną reprezentację. Zwraca tablicę N pierwszych bitów:

In [4]:
def convert_configuration(configuration: bytes, N: int):
    binary_str = ''.join(f'{byte:08b}' for byte in configuration)
    return np.array([int(bit) for bit in binary_str[:N]])


Funkcja wczytująca wszystkie konfiguracje z pliku do pamięci operacyjnej:

In [5]:
def configuration_reader(file_name: str, N: int, negate: bool):
    bytes_per_configuration = math.ceil(N / 8)
    configurations = []

    with open(file_name, 'rb') as file:
        while True:
            bytes_read = file.read(bytes_per_configuration)
            if not bytes_read:
                break

            cfg = convert_configuration(bytes_read, N)
            configurations.append(cfg)
            
            if negate:
                configurations.append(1 - cfg)

    return np.stack(configurations)


- Pierwszy argument (str): nazwa pliku, zktórego chcemy pobrać konfiguracje.
- Drugi argument (int): długość konfiguracji zapisanych w pliku.
- Trzeci argument (bool): czy w wynikowej liście mają znaleźć się też "zanegowane" konfiguracje; False - konfiguracje będą miały gęstość mniejszą niż 0.5; True - konfiguracje, których gęstość jest mniejsza jaki i większa od 0.5.

Przykład użycia:

In [6]:
configurations = configuration_reader("ALL_N21.bin", 21, True)
configurations2 = configuration_reader("ALL_N21.bin", 21, False)

In [7]:
print(configurations[0:10])
print(configurations2[0:10])

[[0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1]
 [1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 1 1 1 1]
 [1 1 1 1 1 1 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 1 1 1 1]
 [1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 1 1 0 1 1 1 1 1 1 1]
 [1 1 1 1 1 1 1 1 1 1 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 1 1 1 1 1]
 [1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0 0]]
[[0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 1 1 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 1 1 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 1 1 0 1 1 1 1 1 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 1 1 1 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 1 1 1 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 1 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 1 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 0 1]]


---

# zad.7
ECAs to nie są dobre, przybliżone rozwiązania DCP. Sprawdź jak słabo
sobie radzą! To znaczy dla ustalonego N, przebadaj wszystkie ECAs dając im limit
czasu i wylicz dla jakiego % wszystkich konfiguracji początkowych
otrzymaną poprawną klasyfikację gęstości. Zaprezentuj wyniki w postaci listy par
(numer reguły, % poprawnych klasyfikacji), np.

(0, 50%)

...

(255, 50%)

Znajdź / wyróżnij regułę, która ma największy wśród ECAs % poprawnych
klasyfikacji.

In [None]:
# gęstość konfiguracji po N krokach porównujemy z gęstością konfiguracji początkowej
# konfiguracje początkowe do badania weźmiemy z pliku ALL_N21.bin
# limit czasu to jest maksymalna długość kroków w diagramie czasoprzestrzennym

In [10]:
def dcp(rule_num, initial_config, steps):
    initial_density = sum(initial_config)/len(initial_config)
    lut = eca_get_lut(rule_num)
    config = eca_evolve_spacetime(lut, initial_config, steps)[-1]
    result_density = sum(config)/len(config)

    if initial_density < 0.5 and result_density < 0.5:
        return 1
    elif initial_density > 0.5 and result_density > 0.5:
        return 1
    return 0

In [12]:
len(configurations)

99880

In [13]:
configurations = configuration_reader("ALL_N21.bin", 21, True)
results = []
for rule in range(256):
    print(f'Rule {rule}...')
    l = [dcp(rule, config, 21) for config in configurations]
    results.append((rule, round(sum(l)/len(configurations),5)))
    print(results[-1])

Rule 0...
(0, 0.5)
Rule 1...
(1, 0.58546)
Rule 2...
(2, 0.5)
Rule 3...
(3, 0.71023)
Rule 4...
(4, 0.5)
Rule 5...
(5, 0.71023)
Rule 6...
(6, 0.5)
Rule 7...
(7, 0.85408)
Rule 8...
(8, 0.5)
Rule 9...
(9, 0.48475)
Rule 10...
(10, 0.5)
Rule 11...
(11, 0.68522)
Rule 12...
(12, 0.5)
Rule 13...
(13, 0.50001)
Rule 14...
(14, 0.57869)
Rule 15...
(15, 1.0)
Rule 16...
(16, 0.5)
Rule 17...
(17, 0.71023)
Rule 18...
(18, 0.5)
Rule 19...
(19, 0.77703)
Rule 20...
(20, 0.5)
Rule 21...
(21, 0.85408)
Rule 22...
(22, 0.5029)
Rule 23...
(23, 0.8963)
Rule 24...
(24, 0.5)
Rule 25...
(25, 0.51822)
Rule 26...
(26, 0.53868)
Rule 27...
(27, 0.74534)
Rule 28...
(28, 0.63075)
Rule 29...
(29, 1.0)
Rule 30...
(30, 0.50095)
Rule 31...
(31, 0.85408)
Rule 32...
(32, 0.5)
Rule 33...
(33, 0.66419)
Rule 34...
(34, 0.5)
Rule 35...
(35, 0.65309)
Rule 36...
(36, 0.5)
Rule 37...
(37, 0.53275)
Rule 38...
(38, 0.50381)
Rule 39...
(39, 0.74534)
Rule 40...
(40, 0.50019)
Rule 41...
(41, 0.51456)
Rule 42...
(42, 0.53374)
Rule 43...


KeyboardInterrupt: 

In [None]:
# coś jest nie tak
# reguły {15, 29, 51, 71, 85} zwracają 1.0, ale dla parzystej liczby kroków zwracałyby 0.0
# jest bardzo mało wyników poniżej 0.5 {9, 45, 50, 62, 65, 73, 75, 77, 89, 101} i nie są mniejsze niż 0.45
# 104 reguły w 6700 sekund = niecałe 2h

In [None]:
configurations = configuration_reader("ALL_N21.bin", 21, True)
results = []
for rule in range(105, 256):
    print(f'Rule {rule}...')
    l = [dcp(rule, config, 21) for config in configurations]
    results.append((rule, round(sum(l)/len(configurations),5)))
    print(results[-1])

In [None]:
sorted(results, key=itemgetter(1), reverse=True)[0:15]

# zad.8
Henryk Fukś pokazał, że idealne rozwiązanie DCP można uzyskać stosując ECA 184 przez "połowę czasu" a następnie ECA 232 przez następną 
połowę czasu.

Stosując wybrany “zbiór Marcina” lub zbiór wygenerowany losowo sprawdź czy odkrycie prof. Fuksia daje się odtworzyć eksperymentalnie.

Wariant (*) czy poza ECA 184 istnieją inne ECAs, które w powiązaniu z ECA 232 dają taką własność? Chodzi o inną parę ECA x, ECA 232 lub ewentualnie ECA x, ECA y, które stosowane tak jak przez prof. Fuksia rozwiązują DCP dokładnie.

# zad.9
Zapoznaj się z wynikami z artykułu: *Mendonça, J. R. G. (2019).* **Simply modified GKL density classifiers that reach consensus faster.** *Physics Letters A, 383(19), 2264–2266.* doi:10.1016/j.physleta.2019.04.033 (https://sci-hub.se/https://www.sciencedirect.com/science/article/abs/pii/S0375960119303512?via=ihub).

Spróbuj powtórzyć eksperymenty tam wykonane dla wybranego N dla którego mamy "zbiór Marcina" badając średni czas klasyfikacji oraz % poprawnych klasyfikacji dla reguł GKL(j, k) dla kilku przypadków j, k.

Otrzymane wyniki porównaj z tymi z Zadania 7. To znaczy jak bardzo lepsze są najlepsze reguły GKL, które uda Ci się znaleźć w porównaniu do najlepszych ECAs.

# zad.10(*)
Sprawdź jak wybór zbioru testowych warunków początkowych wypływa na wyniki eksperymentów z Zadania 8.

Czy jesteś w stanie znaleźć przykład parametrów N (liczba komórek), num_conf (liczba losowanych warunków w zbiorze), p (prawdopodobieństwo 0 w 
komórce) do losowania, aby pokazać, że eliminacja duplikatów (shift-equal) ma znaczenie - tj. niechlujne dobranie "losowego" zbioru warunków początkowych zawyża / zaniża szacowaną jakość klasyfikacji.

**Podpowiedź**: Możesz porównać wyniki otrzymane na wybranym "zbiorze Marcina" z wynikami na zbiorze otrzymanym w zwykłym losowaniu dla konkretnego N.