# Rizik aplikacije

Ulaz u algoritam su:

* informacije o raspoloživim pružateljima usluga (engl. cloud providers),
* jedna konkretna raspodjela podataka po pružateljima usluga,
* informacije o važnosti podataka.
* informacije o aplikacijama i njihov raspored na pojedine pružatelje usluga (engl. cloud providers)



Sljedeći dio jednak je kao u Eksperimenti.ipynb:

In [288]:
# Baza pružatelja usluga računarstva u oblaku s njihovim podacima

# Svaki pružatelj usluga ima reputaciju koja ide u rasponu od 0 do 1 pri čemu je 0 bez ikakve reputacije/nepoznato, 1 apsolutno pouzdan. Raspon je asimptotski podijeljen

cloud_providers = {
    "provider1": {
        "reputation": 0.7
    },
    "provider2": {
        "reputation": 0.6
    },
    "provider3": {
        "reputation": 0.5
    },
    "provider4": {
        "reputation": 0.4
    },
    "provider5": {
        "reputation": 0.1
    }
}

"""
U nastavku slijede različite fragmentacije jedne baze. Vrlo je bitno, zbog kasnije implementacije, da se isto ime ne nalazi u različitim tablicama, odnosno, sva imena kolona u tablicama moraju biti jedinstvena u cijeloj bazi!
"""

# Bez fragmentacije

configuration0 = {
    "radno_mjesto": ["vrsta", "satnica", "norma", "dodatak" ],
    "zaposlenik": ["oib", "vrsta", "broj_sati" ]
}

distribution0 = {
    "provider1": [ "radno_mjesto", "zaposlenik" ]
}


# Fragmenti baze podataka za maksimalnu fragmentaciju i raspodjela po pružateljima usluga

configuration1 = {
    "radno_mjesto_1": ["vrsta", "satnica" ],
    "radno_mjesto_2": ["vrsta", "norma"],
    "radno_mjesto_3": ["vrsta", "dodatak"],
    "zaposlenik_1": ["oib", "vrsta"],
    "zaposlenik_2": ["oib", "broj_sati"],
}

distribution1 = {
    "provider1": [ "radno_mjesto_1" ],
    "provider2": [ "radno_mjesto_2" ],
    "provider3": [ "radno_mjesto_3" ],
    "provider4": [ "zaposlenik_1" ],
    "provider5": [ "zaposlenik_2" ],
}

# Fragmenti baze podataka za jednu fragmentaciju

configuration2 = {
    "radno_mjesto_1": ["vrsta", "satnica", "norma"],
    "radno_mjesto_2": ["vrsta", "dodatak"],
    "zaposlenik": ["oib", "vrsta", "broj_sati"]
}

distribution2 = {
    "provider1": [ "radno_mjesto_1" ],
    "provider2": [ "radno_mjesto_2" ],
    "provider3": [ "zaposlenik" ]
}

# Osjetljivost podataka i njihovih kombinacija. Osjetljivost se mjeri na skali od 0 do 1 pri čemu:
#
# 0 -> apsolutno neosjetljivo, 1 -> apsolutno osjetljivo
# raspodjela u intervalu 0 do 1 nije linearna već asimptotska (komprimiran raspon od 0 do beskonačno)
# osjetljivost - sama po sebi - nije apsolutna već relativna (vrijedi samo za jednu specifičnu konfiguraciju)

# Ovo su za sada konkretne vrijednosti. Trebalo bi razmisliti da se ovdje dozvole rasponi (jer je preciznije definirati raspon), a možda i distribucije

# Još jedna napomena. S obzirom da mi imamo raspon od 0 do 1 i asimptotsku raspodjelu unutar tog raspona, to znači da nakon što
# zbrojim dvije vrijednosti moramo ih propustiti kroz nekakvu funkciju (softmax, tanh ili tako nešto slično).

## IMPLEMENTACIJSKI ZAHTJEVI!!!

# 1. Ovdje treba uzeti u obzir da možemo imati 2**N kombinacija ali nam korisnik već neke kombinacije daje. Te kombinacije koje je
#    dao nemaju linearnu zavisnost (drugim riječima, rizik(a) + rizik(b) < rizik(a,b)). Mi ćemo pretpostaviti da kombinacije koje
#    korisnik nije dao imaju linearnu zavisnost za rizik, tj. treba ih samo zbrojiti!
#
# 2. Ova struktura podataka mora biti sortirana po opadajućem broju elemenata u prvoj listi!!

sensitivity = [

    ({ "oib", "vrsta", "norma", "broj_sati", "dodatak" }, 0.83),  # Napadač zna sve. Ima popis zaposlenika, njihova radna mjesta, plaće, dodatke, određen broj sati
    ({ "oib", "vrsta", "norma", "broj_sati" }, 0.81),              # Malo manje zna, sada ne zna dodatak pa ipak nema potpunu plaću
    ({ "oib", "vrsta", "norma" }, 0.8),                            # Sada napadač može samo odrediti s visokom vjerojatnošću i koliko tko zarađuje
    ({ "oib", "vrsta" }, 0.7),                                     # Napadač saznaje popis zaposlenih, njihovo radno mjesto, popis svih radnih mjesta
    
    # Prvo podaci/kolone samo za sebe
    ({ "vrsta" }, 0.5),        # Saznavši sve vrste, napadač može dobiti raspodjelu radnih mjesta u organizaciji
    ({ "satnica" }, 0.4),      # Na temelju satnice može saznati raspodjelu plaća u organizaciji te vjerojatnost da netko ima određenu plaću
    ({ "norma" }, 0.01),          # Za ovo baš i nisam siguran što bi trebalo značiti???
    ({ "dodatak" }, 0.01),        # Dodatak je?
    ({ "oib" }, 0.6),          # Ako se zna popis OIB-a onda se dobija popis zaposlenika, vrlo osjetljiv podatak
    ({ "broj_sati" }, 0.01),      # (PRETPOSTAVLJAM) radi se o broju odrađenih sati po zaposleniku. Množi se sa normom da se dobije plaća plus dodatak na radno mjesto  

]
import math


def sigmoid(x):
    return 1 / (1 + math.exp(-x))

def check_already_found_constraint(current, already_found):
    # Ova petlja sluzi samo za preskakanje vec pronadenih prekrsaja ogranicenja
    # Pretpostavka je da ce se prekrsena ogranicenja prvo traziti u samoj fragmentaciji baze
    # zatim u samom radu aplikacije,
    # zatim između aplikacije i fragmenta baze,
    # i na kraju između više aplikacija.
    # Na ovaj način prekršaji ograničenja traže se od najozbiljnijeg, do "najboljeg".
    # Ako je ograničenje prekršeno u ozbiljnijoj fazi, ne želi ga se računati i u boljem slučaju.
    for constraint in already_found:
        if current == set(constraint):
            return True
    return False

def determine_risk6(configuration, distribution, sensitivity, cloud_providers, already_found=[]):
    
    nezadovoljeni_zahtjevi = set()
    
    # Start with no risk at all
    aggregate_risk = 0
    
    
    # S obzirom da pretpostavljamo kako se svi podaci na pružatelju
    # usluga kompromitiraju odjednom, to znači da trebamo ići po
    # pružateljima usluga te gledati koliko podataka se nalazi na
    # pojedinom pružatelju pri čemu uzimamo u obzir osjetljivost
    # grupe podataka.
    for provider in distribution:
        
        # S obzirom da su sve tablice na jednom provideru zajedno, možemo ih
        # spojiti u jedan skup podataka koji se na pružatelju usluga nalazi i
        # potencijalno je kompromitiran
        columns = set()
        for table in distribution[provider]:
            columns.update(configuration[table])
        
        # Sada kada imamo sve kolone na jednom pružatelju usluga, moramo odrediti koliko su ti
        # podaci kritični. U osnovi, polje "sensitivity" nam to govori, pri čemu mi prvo uzimamo
        # najveći podskup iz "sensitivity" te uklonimo sve kolone koje pripadaju tom podskupu
        # iz columns. Zatim ponavljamo postupak dok nam columns ne ostane prazan skup.
        
        while (len(columns)):
            
            for s in sensitivity:
                
                if s[0] <= columns:
                    

                    if already_found and check_already_found_constraint(s[0], already_found):
                        columns -= s[0]
                        break
                    
                    aggregate_risk += (1)/(sigmoid((10 ** s[1])) * (math.sin(cloud_providers[provider]["reputation"]*math.pi/2 + math.pi) + 1))
                    columns -= s[0]
                    nezadovoljeni_zahtjevi.add(tuple(s[0]))
    if aggregate_risk:
        return aggregate_risk, nezadovoljeni_zahtjevi
    else:
        return 0.0, nezadovoljeni_zahtjevi

In [289]:
app_distribution1 = {
    "provider1": set([("vrsta",),("vrsta","r"), ("vrsta", "r", "satnica")])
}

app_distribution2 = {
    "provider1": set([("oib",),("norma",),("vrsta",)])
}


## Slucaj 0 - narusavanja sigurnosnih svojstva fragmentacijom baze

Ponovljeno iz prethodne biljeznice.


In [290]:
already_found = set()

risk_db, unsat_constraints = determine_risk6(configuration1, distribution1, sensitivity, cloud_providers)

already_found.update(unsat_constraints)

print(risk_db, unsat_constraints)

45.519170663227904 {('oib',), ('norma',), ('dodatak',), ('vrsta', 'oib'), ('broj_sati',), ('vrsta',), ('satnica',)}


## Slučaj 1 - narušavanje sigurnosnih svojstava samim korištenjem aplikacije

* Drugim rječima provjera je li sama aplikacija sigurna


In [291]:

def decomposition_to_individual_constraints(constraint_set):
    """
    Obzirom da aplikacija dobiva neka ogranicenja u zamaskiranom obliku, potrebno je 
    provjeriti moze li se od zamaskiranog oblika doći do pojedinog sigurnosnog zahtjeva
    s informacijama koje su dostupne pojedinom provideru. 
    Zadatak ove funkcije je dekompozicija skupa informacija iz ulaznog seta ogranicenja.

    """

    # rastavljaju se samo skupovi atributa koji imaju vise clanova.
    za_rastaviti = set([constraint for constraint in constraint_set if len(constraint) > 1])

    neuspjesna_rastavljanja = set()

    novi_atributi = set()

    atributi = set((constraint_set))

    while za_rastaviti:
        # trenutni skup atributa koji se rastavlja
        trenutno = za_rastaviti.pop()
        rastavljeno = False
        # za svaki skup atributa
        for atribut in atributi:            
            # provjera je li trenutni skup atributa jednak skupu atributa koji rastavljamo
            # ako je nema smisla rastavljati
            if atribut == trenutno:
                continue

            # atribut je u skupu atributa - slijedi rastavljanje
            if all(attr in trenutno for attr in atribut):
                rastavljeno = True
               
                # izracunaj ostatak oduzimanja skupova
                ostatak = trenutno[:]
                for char in atribut:
                    ostatak = tuple(ost for ost in ostatak if ost != char)

                # dodaj ostatak u nove atribute
                novi_atributi.add(ostatak)
                if len(ostatak) > 1:
                    # ako je ostatak sadrzi vise od jednog atributa potrebno ga je rastavljati
                    za_rastaviti.add(ostatak)

                # dodaj neuspjesna rastavljanja u skup koji je potrebno rastaviti i pokusaj ih ponovno rastaviti s novim saznanjima o atributima
                za_rastaviti = za_rastaviti.union(neuspjesna_rastavljanja)

                break

        if rastavljeno:
            # dodaj nove atribute u atribute s kojima testiras skup
            atributi = atributi.union(novi_atributi)

        else:
            # dodaj trenutni skup atributa u neuspjesna rastavljanja
            neuspjesna_rastavljanja.add(trenutno)
    # vrati samo atribute duljine 1 jer se od njih sastoje ogranicenja

    return [constraint for constraint in atributi if len(constraint) == 1 and constraint != ('r',)]


print(decomposition_to_individual_constraints(app_distribution1["provider1"]))

### Namjestanje dobivenih rezultata kako bi se mogla koristiti procjena rizika fragmentacije 

In [292]:


def make_distributions(app_distribution):
    app_conf = {}
    app_dist = {}
    for provider in app_distribution:
            app_conf["Konfiguracija-"+provider+str(app_distribution[provider])] = [attr[0] for attr in decomposition_to_individual_constraints(app_distribution[provider])]
            app_dist[provider] = ["Konfiguracija-"+provider+str(app_distribution[provider])]

    return app_conf, app_dist


In [293]:
app_conf, app_dist = make_distributions(app_distribution1) 


### Odredivanje rizika same aplikacije

In [294]:

risk_app, unsatisfied_constraints = determine_risk6(app_conf, app_dist, sensitivity, cloud_providers, already_found)

already_found.update(unsatisfied_constraints)
print(already_found)

print(risk_app, unsatisfied_constraints)

{('oib',), ('satnica',), ('broj_sati',), ('norma',), ('dodatak',), ('vrsta', 'oib'), ('vrsta',)}
0.0 set()


Rizik se sada moze nadodati na rizik koji uzrokuje fragmentacija baze podataka.

Primjer moze biti da se koristi formula:
    ukupni_rizik = rizik_fragmentacije + 0.5 * rizik_aplikacije
    
Konstanta 0.5  sluzi kako bi razlikovali dva slucaja. U slucaju narusavanja zahtjeva pri fragmentaciji napadac
ima na raspolaganju sve vrijednosti iz baze, dok u slucaju narusavanje zahtjeva u aplikaciji napadac na 
raspolaganju ima samo vrijednosti koje produ kroz aplikaciju.

0.5 je "bubnuti" broj bez koristenja ikakve statistike, za taj broj znamo da mora biti manji ili jednak riziku koji
se dogada pri povrijedivanju zahtjeva fragmentacijom. Kroz aplikaciju mogu proci sve vrijednosti, samo neke
ili nikakve. Ova konstanta trebala bi se dobiti kroz statistike uporabe sustava.



## Slucaj 2 - dio aplikacije i baza podataka su na istom posluzitelju

U odnosu na rizik kao posljedicu fragmentacije, ovaj slucaj moze biti losiji za napadaca. Iako je zahtjev narusen fragmentom baze podataka i fragmentom aplikacije, napadac mora povezati dobivenu vrijednost iz aplikacije s redkom
iz baze podataka sto ne mora biti jednoznacno, a moze biti i tezak zadatak.



In [295]:
def combine_configurations_and_distributions(conf1, conf2, dist1, dist2):
    app_conf_db_app = {**conf1, **conf2}
    app_dist_db_app = {**dist1}

    for provider in app_dist_db_app:
        app_dist_db_app[provider].extend(dist2[provider])
    return app_conf_db_app, app_dist_db_app

app_conf_db_app, app_dist_db_app = combine_configurations_and_distributions(app_conf, configuration1, app_dist, distribution1)

risk_app_db, unsat_constraints = determine_risk6(app_conf_db_app, app_dist_db_app, sensitivity, cloud_providers, already_found)
already_found.update(unsat_constraints)
print(risk_app_db, unsat_constraints)


0.0 set()


Iz izracuna rizika, vidi se da je on u slucaju povrede sigurnosnog svojstva na bazi i aplikaciji veci nego samo na aplikaciji, sto se prema prethodnim razmisljanima cini krivo. 
Medutim, razlog tome je sto se u ovom slucaju prekrsio bitniji zahtjev pa je tako i rizik veci.
Rizik bi bio jednak kao u slucaju prije da su prekrseni isti zahtjevi. Zato je ovaj slucaj potrebno skalirati s manjom konstantom od prethodnog kako bi dobili ispravan rezultat.

## Slucaj 3 - prekrsena svojstva izmedu dvije aplikacije

Najgori slucaj za napadaca. Dobiva vrijednosti koje mozda uopce nisu spojene. Primjerice dobije 25. redak iz oiba i 11 iz vrste koji cine sigurnosni zahtjev.
Moze se dogoditi da napadac sazna odgovarajuce redke iz obje tablice, no to je teze nego u prethodna dva slucaja.




In [296]:
app_conf1, app_dist1 = make_distributions(app_distribution1) 
app_conf2, app_dist2 = make_distributions(app_distribution2)

app_conf_db_app2, app_dist_db_app2 = combine_configurations_and_distributions(app_conf1, app_conf2, app_dist1, app_dist2)
risk_multiple_app, unsat_const = determine_risk6(app_conf_db_app2, app_dist_db_app2, sensitivity, cloud_providers, already_found)
print(risk_multiple_app, unsat_const)


9.191548406324328 {('vrsta', 'norma', 'oib')}


Rizik je manji nego u prethodnom slucaju jer je prekrsen laksi zahtjev. Da su prekrseni isti zahtjevi rizik bi bio jednak.
Ovaj slucaj je potrebno skalirati s jos manjom konstantom od prethodnog da bi imao smisla.

## Kombinacija prethodnih slucajeva s rizikom fragmentacije iz prethodne biljeznice



In [297]:
total_risk = risk_db + 0.5 * risk_app + 0.25 * risk_app_db + 0.125 * risk_multiple_app

print(total_risk)

46.668114214018445
