# Priprema podataka

**Ucitavanje podataka iz datoteke**
  - u prvoj liniji su reci za koje treba naci regex (skup M)
  - u drugoj liniji su reci za koje ne treba naci regex (skup U)
  - reci u razdvojene sa: ", "

In [77]:
def readFile(filename):
    with open(filename, 'r') as f:
        match = [word for word in f.readline().split(", ")]
        # uklanjanje novog reda iz poslednje reci
        match[-1] = match[-1][:-1]
        unmatch = [word for word in f.readline().split(", ")]
        
    return match, unmatch

In [78]:
match, unmatch = readFile("example_1.txt")
print("Prvi skup: ", match)
print("Drugi skup: ", unmatch)

Prvi skup:  ['afoot', 'catfoot', 'dogfoot', 'fanfoot', 'foody', 'foolery', 'foolish', 'fooster', 'footage', 'foothot', 'footle', 'footpad', 'footway', 'hotfoot', 'jawfoot', 'mafoo', 'nonfood', 'padfoot', 'prefool', 'sfoot', 'unfool']
Drugi skup:  ['Atlas', 'Aymoro', 'Iberic', 'Mahran', 'Ormazd', 'Silipan', 'altared', 'chandoo', 'crenel', 'crooked', 'fardo', 'folksy', 'forest', 'hebamic', 'idgah', 'manlike', 'marly', 'palazzi', 'sixfold', 'tarrock', 'unfold']


In [36]:
# skup za poredjenje rezultata iz dokumentacije
# match = ['can', 'banana', 'and', 'ball']
# match = ['bar', 'den', 'foo', 'can']
# unmatch = ['indy', 'call', 'name', 'man']

In [79]:
# Broj reci u skupovima
num_m = len(match)
num_u = len(unmatch)
print(num_m)
print(num_u)

21
21


**Karakteri koji se pojavljuju u jednom skupu reci**

In [80]:
def charsInSet(wordSet):
    chars = []

    for word in wordSet:
        for c in word:
            if c not in chars:
                chars.append(c)

    chars.sort()

    return chars

In [81]:
chars_in_M = charsInSet(match)
print(chars_in_M)

['a', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'l', 'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'w', 'y']


**Opsezi reci (partial ranges) koji se javljaju u skupu M**

In [84]:
def makeRanges(chars_in_M):
    ranges = []

    i = 0
    while i < len(chars_in_M)-1:
        distance = 0
        for j in range(i+1, len(chars_in_M)):
            if ord(chars_in_M[j]) - ord(chars_in_M[i]) == distance + 1:
                distance += 1
            else:
                if chars_in_M[i] != chars_in_M[j-1]:
                    ranges.append(chars_in_M[i] + '-' + chars_in_M[j-1])
                i = j
                break

    return ranges

In [85]:
ranges = makeRanges(chars_in_M)
print(ranges)

['c-j', 'l-p', 'r-u']


**n-grami**

In [86]:
def ngram(M, U):
    res = {}

    # n-grami su duzine od 2 do 4
    for n in range(2, 5):
        # prolazimo kroz sve reci iz M i iz U 
        # (radi ako su skupovi iste duzine)
        for i in range(0, len(M)):
            word_m = M[i]
            word_u = U[i]
            
            word_m_visited = False
            word_u_visited = False
            
            # pravimo n-grame od jedne reci iz M i jedne iz U
            ngrams_m = zip(*[word_m[i:] for i in range(n)])
            ngrams_u = zip(*[word_u[i:] for i in range(n)])

            gram_m = ["".join(gr) for gr in ngrams_m]
            gram_u = ["".join(gr) for gr in ngrams_u]

            # ne smemo imati ponavljanje n-grama u istoj reci (pravimo skup)
            gram_m = set(gram_m)
            gram_u = set(gram_u)

            # azuriramo score za ngram u zavisnosti u kom skupu se nalazi
            for g in gram_m: # povecavamo score ako je u M
                if g not in res:
                    res[g] = 1
                elif g in res: 
                    res[g] += 1

            for g in gram_u: # smanjujemo score ako je u U
                if g not in res:
                    res[g] = -1
                elif g in res:
                    res[g] -= 1

    return res

In [87]:
ngrams = ngram(match, unmatch)
ngrams = sorted(ngrams.items(), key=lambda x: x[1], reverse=True)

# ngram_subset je najmanji podskup od ngrams tako da je skor reci bar |M|
ngram_subset = []
score = 0

for i in range(len(ngrams)):
    if ngrams[i][1] > 0: # azuriramo samo ako je skor pozitivan
        score += ngrams[i][1]
        ngram_subset.append(ngrams[i][0])

        if score >= num_m:
            break 

print(ngram_subset)
# print(score)

['foo']


**Terminal i Function skupovi**

In [88]:
# . je placeholder za dete cvor
FUNCTION_SET = ['.*+', '.++', '.?+', '.{.,.}+', # possessive quantifiers
                '(.)',                          # group
                '[.]',                          # character class
                '[^.]',                         # negated character
                '..',                           # concatenator (binary node)
                '.|.',                          # disjunction
                ]

In [89]:
TERMINAL_SET = ['a-z', 'A-Z', '0-9', '^', '$', '..', # instance independent terminals
                '\w', '\W', '\d', '\D', '\b', '\B', '\A', '\Z', '\s', '\S',
                chars_in_M,                          # instance dependent terminals
                ngram_subset
               ]

# Parametri za algoritam genetskog programiranja



In [None]:
# pocetni parametri (zasnovani na dokumentaciji)
POPULATION_SIZE = 500
GENERATIONS_NUM = 1000
POPULATION_NUM = 32
TOURNAMENT_SIZE = 7

# Algoritam genetskog programiranja

U nastavku je samo kostur/pseudokod GP-a

Svaka jedinka ima 2 vrste fitnesa:
- funkcija n_m - n_u treba da se maksimizuje
- duzina r treba da se minimizuje

r je trenutni regex, n_m je broj reci iz M koje su poklopljene sa r, n_u je broj reci iz U koje su poklopljene sa r

In [None]:
class Individual:
    def __init__(self, code, left, right):
        self.code = code
        self.fitnessFunction = self.calculateFitnessFunction()
        self.fitnessRegex = self.calculateFitnessRegex()


    def __lt__(self, other):
        pass

    def calculateFitnessFunction(self):
        pass

    def calculateFitnessRegex(self):
        pass

- Prvih |M| jedinki populacije se formiraju tako sto se koriste samo slova iz trenutne reci i operator konkatenacije (..)
- Ostalih POPULATION_SIZE-|M| jedinki se formiraju random, dubine drveta 1-5

Formiranje nove populacije:
- 10% random
- 10% mutacijom
- 80% ukrstanje

In [None]:
def genetic_programming():
    population = [Individual() for _ in range(POPULATION_SIZE)]
    newPopulation = [Individual() for _ in range(POPULATION_SIZE)]

    solutionFound = False

    for i in range(NUMBER_GENERATIONS):
        population.sort()

        if population[0].fitnessFunction == num_m:
            solutionFound = True
            break

        for j in range(0, POPULATION_SIZE, 2):
            parent1Index = selection(population)
            parent2Index = selection(population)

            crossover(population[parent1Index], population[parent2Index], newPopulation[j], newPopulation[j+1])

            mutation(newPopulation[j])
            mutation(newPopulation[j+1])

            newPopulation[j].fitness = newPopulation[j].calculateFitness()
            newPopulation[j+1].fitness = newPopulation[j+1].calculateFitness()

        population = newPopulation

In [None]:
for i in range(POPULATION_NUM):
    genetic_programming()