# Rizik aplikacije

Ulaz u algoritam su:

* informacije o raspoloživim pružateljima usluga (engl. cloud providers),
* jedna konkretna raspodjela podataka po pružateljima usluga,
* informacije o važnosti podataka.
* informacije o aplikacijama i njihov raspored na pojedine pružatelje usluga (engl. cloud providers)
* reputacija pruzatelja usluga



Sljedeći dio jednak je kao u Eksperimenti.ipynb:

In [1]:
# Baza pružatelja usluga računarstva u oblaku s njihovim podacima

# Svaki pružatelj usluga ima reputaciju koja ide u rasponu od 0 do 1 pri čemu je 0 bez ikakve reputacije/nepoznato, 1 apsolutno pouzdan. Raspon je asimptotski podijeljen

cloud_providers = {
    "provider1": {
        "reputation": 0.7
    },
    "provider2": {
        "reputation": 0.6
    },
    "provider3": {
        "reputation": 0.5
    },
    "provider4": {
        "reputation": 0.4
    },
    "provider5": {
        "reputation": 0.1
    }
}

"""
U nastavku slijede različite fragmentacije jedne baze. Vrlo je bitno, zbog kasnije implementacije, da se isto ime ne nalazi u različitim tablicama, odnosno, sva imena kolona u tablicama moraju biti jedinstvena u cijeloj bazi!
"""

# Bez fragmentacije

configuration0 = {
    "radno_mjesto": ["vrsta", "satnica", "norma", "dodatak" ],
    "zaposlenik": ["oib", "vrsta", "broj_sati" ]
}

distribution0 = {
    "provider1": [ "radno_mjesto", "zaposlenik" ]
}


# Fragmenti baze podataka za maksimalnu fragmentaciju i raspodjela po pružateljima usluga

configuration1 = {
    "radno_mjesto_1": ["vrsta", "satnica" ],
    "radno_mjesto_2": ["vrsta", "norma"],
    "radno_mjesto_3": ["vrsta", "dodatak"],
    "zaposlenik_1": ["oib", "vrsta"],
    "zaposlenik_2": ["oib", "broj_sati"],
}

distribution1 = {
    "provider1": [ "radno_mjesto_1" ],
    "provider2": [ "radno_mjesto_2" ],
    "provider3": [ "radno_mjesto_3" ],
    "provider4": [ "zaposlenik_1" ],
    "provider5": [ "zaposlenik_2" ],
}

# Fragmenti baze podataka za jednu fragmentaciju

configuration2 = {
    "radno_mjesto_1": ["vrsta", "satnica", "norma"],
    "radno_mjesto_2": ["vrsta", "dodatak"],
    "zaposlenik": ["oib", "vrsta", "broj_sati"]
}

distribution2 = {
    "provider1": [ "radno_mjesto_1" ],
    "provider2": [ "radno_mjesto_2" ],
    "provider3": [ "zaposlenik" ]
}

# Osjetljivost podataka i njihovih kombinacija. Osjetljivost se mjeri na skali od 0 do 1 pri čemu:
#
# 0 -> apsolutno neosjetljivo, 1 -> apsolutno osjetljivo
# raspodjela u intervalu 0 do 1 nije linearna već asimptotska (komprimiran raspon od 0 do beskonačno)
# osjetljivost - sama po sebi - nije apsolutna već relativna (vrijedi samo za jednu specifičnu konfiguraciju)

# Ovo su za sada konkretne vrijednosti. Trebalo bi razmisliti da se ovdje dozvole rasponi (jer je preciznije definirati raspon), a možda i distribucije

# Još jedna napomena. S obzirom da mi imamo raspon od 0 do 1 i asimptotsku raspodjelu unutar tog raspona, to znači da nakon što
# zbrojim dvije vrijednosti moramo ih propustiti kroz nekakvu funkciju (softmax, tanh ili tako nešto slično).

## IMPLEMENTACIJSKI ZAHTJEVI!!!

# 1. Ovdje treba uzeti u obzir da možemo imati 2**N kombinacija ali nam korisnik već neke kombinacije daje. Te kombinacije koje je
#    dao nemaju linearnu zavisnost (drugim riječima, rizik(a) + rizik(b) < rizik(a,b)). Mi ćemo pretpostaviti da kombinacije koje
#    korisnik nije dao imaju linearnu zavisnost za rizik, tj. treba ih samo zbrojiti!
#
# 2. Ova struktura podataka mora biti sortirana po opadajućem broju elemenata u prvoj listi!!

sensitivity = [

    ({ "oib", "vrsta", "norma", "broj_sati", "dodatak" }, 0.83),  # Napadač zna sve. Ima popis zaposlenika, njihova radna mjesta, plaće, dodatke, određen broj sati
    ({ "oib", "vrsta", "norma", "broj_sati" }, 0.81),              # Malo manje zna, sada ne zna dodatak pa ipak nema potpunu plaću
    ({ "oib", "vrsta", "norma" }, 0.8),                            # Sada napadač može samo odrediti s visokom vjerojatnošću i koliko tko zarađuje
    ({ "oib", "vrsta" }, 0.7),                                     # Napadač saznaje popis zaposlenih, njihovo radno mjesto, popis svih radnih mjesta
    
    # Prvo podaci/kolone samo za sebe
    ({ "vrsta" }, 0.5),        # Saznavši sve vrste, napadač može dobiti raspodjelu radnih mjesta u organizaciji
    ({ "satnica" }, 0.4),      # Na temelju satnice može saznati raspodjelu plaća u organizaciji te vjerojatnost da netko ima određenu plaću
    ({ "norma" }, 0.01),          # Za ovo baš i nisam siguran što bi trebalo značiti???
    ({ "dodatak" }, 0.01),        # Dodatak je?
    ({ "oib" }, 0.6),          # Ako se zna popis OIB-a onda se dobija popis zaposlenika, vrlo osjetljiv podatak
    ({ "broj_sati" }, 0.01),      # (PRETPOSTAVLJAM) radi se o broju odrađenih sati po zaposleniku. Množi se sa normom da se dobije plaća plus dodatak na radno mjesto  

]


## Klasa koja predstavlja jednu kolonu u fragmentu

* Radi lakseg upravljanja s ogranicenjima definira se klasa koja predstavlja jednu kolonu u fragmentu
* Klasa sadrzi informacije o koloni koje su potrebne za izracun kasnije:

     * ime aplikacije koristi se kako bi se otkrili razni dijelovi iste aplikacije
     * kolicina podataka koristi se kako bi se napravila razlika izmedu boljih i losijih slucajeva (bolje je kada se koristi manje podataka jer ce napadac moci doznati manje podataka)
     * ime kolone (atributa)
     * snaga transformacije koristi se kako bi se modelirala enkripcija 

In [2]:
class GenericColumn:
    
    def __init__(self, app_name, data_factor, column, transformation_strength):
        # Ime aplikacije, sluzi kako bi se rizik mogao razlikovati u slucaju da su fragmenti dio iste aplikacije
        # i u slucaju da su fragmenti dio razlicitih aplikacija
        # U slucaju da su kolone iz iste aplikacije onda rade s istim podacima sto nemora biti slucaj ako su dio
        # razlicitih aplikacija
        self.app_name = app_name
        
        # Kolicina podataka s kojom fragment raspolaze, 0 znaci da fragment ne raspolaze s podacima, 1 znaci da
        # fragment raspolaze sa svim podacima iz pojedine kolone
        self.data_factor = data_factor
        
        # Kolona s kojom aplikacija radi/kolona koju fragment sprema
        self.column = column
        
        # Snaga transformacije - 0 znaci da je kolona u cistom tekstu, 1 znaci da se iz transformiranih podataka
        # ne moze doci do podataka u cistom tekstu
        self.transformation_strength = transformation_strength
    
    # Korisna kolicina informacije o koloni do koje napadac moze doci
    # Dobiva se umnoskom informacija s kojima fragment baze/aplikacije radi i vidljivosti izvornih podataka
    # Vidljivost podataka definirana je s snagom transformacije odnosno dobiva se tako da od 1 oduzmemo snagu
    # transformacije
    def get_information_amount(self):
        return self.data_factor * (1 - self.transformation_strength)
        
    def __eq__(self, other):
        if not isinstance(other, GenericColumn):
            return False
        elif set(self.column) != set(other.column):
            return False
        elif self.app_name != other.app_name:
            return False
        return True
    
    def __hash__(self):
        return hash((frozenset(self.column), self.app_name))
    
    def __str__(self):
        return f"{self.app_name} - Amount = {self.data_factor}, Col = {self.column}, Enc = {self.transformation_strength}"
    
    def __repr__(self):
        return f"{self.app_name} - Amount = {self.data_factor}, Col = {self.column}, Enc = {self.transformation_strength}"


## Konfiguracije i distribucije

* Ispod se nalaze primjeri kofiguracija i distribucija koje koriste klasu GenericColumn za opis kolona s kojima rade

* Prvo su navedene konfiguracije i distribucije prema starom nacinu zapisa, a ispod njih prema novom kako bi bilo lakse uociti razliku.

In [3]:
configuration0 = {
    "radno_mjesto": ["vrsta", "satnica", "norma", "dodatak" ],
    "zaposlenik": ["oib", "vrsta", "broj_sati" ]
}

distribution0 = {
    "provider1": [ "radno_mjesto", "zaposlenik" ]
}

configuration1 = {
    "radno_mjesto_1": ["vrsta", "satnica" ],
    "radno_mjesto_2": ["vrsta", "norma"],
    "radno_mjesto_3": ["vrsta", "dodatak"],
    "zaposlenik_1": ["oib", "vrsta"],
    "zaposlenik_2": ["oib", "broj_sati"],
}

distribution1 = {
    "provider1": [ "radno_mjesto_1" ],
    "provider2": [ "radno_mjesto_2" ],
    "provider3": [ "radno_mjesto_3" ],
    "provider4": [ "zaposlenik_1" ],
    "provider5": [ "zaposlenik_2" ],
}



conf0 = {
    "radno_mjesto": [
        GenericColumn("db1", 1.0, "vrsta", 0.0),
        GenericColumn("db1", 1.0, "satnica", 0.0),
        GenericColumn("db1", 1.0, "norma", 0.0),
        GenericColumn("db1", 1.0, "dodatak", 0.0),
    ],
    "zaposlenik": [
        GenericColumn("db1", 1.0, "oib", 0.0),
        GenericColumn("db1", 1.0, "vrsta", 0.0),
        GenericColumn("db1", 1.0, "broj_sati", 0.0),
    ]
}

dist0 = {
    "provider1": [ "radno_mjesto", "zaposlenik" ]
}

conf1 = {
    "radno_mjesto_1": [
        GenericColumn("db1", 1.0, "vrsta", 0.0),
        GenericColumn("db1", 1.0, "satnica", 0.0),
    ],
    "radno_mjesto_2": [
        GenericColumn("db1", 1.0, "vrsta", 0.0),
        GenericColumn("db1", 1.0, "norma", 0.0),
    ],
    "radno_mjesto_3": [
        GenericColumn("db1", 1.0, "vrsta", 0.0),
        GenericColumn("db1", 1.0, "dodatak", 0.0),
    ],
    "zaposlenik_1": [
        GenericColumn("db1", 1.0, "oib", 0.0),
        GenericColumn("db1", 1.0, "vrsta", 0.0),
    ],
    "zaposlenik_2": [
        GenericColumn("db1", 1.0, "oib", 0.0),
        GenericColumn("db1", 1.0, "broj_sati", 0.0),
    ],
}

dist1 = {
    "provider1": [ "radno_mjesto_1" ],
    "provider2": [ "radno_mjesto_2" ],
    "provider3": [ "radno_mjesto_3" ],
    "provider4": [ "zaposlenik_1" ],
    "provider5": [ "zaposlenik_2" ],
}


## Zapisi aplikacija

* Ispod su prikazani zapisi aplikacija i distribucije dijelova aplikacija prema providerima
* Aplikacija je dictionary u kojemu su kljucevi provideri na kojima se dio aplikacije nalazi, a vrijednosti genericke kolone koje predstavljaju kolone s kojima dio aplikacije na pojedinom provideru radi
* Provider 1 za aplikaciju 1 koristi satnicu, kroz neki dio vremena (nije definirano koliki) dobiva informacije o pola redaka iz stupca satnica u obliku cistog teksta
* Provider 2 koristi dvije kolone (normu i satnicu) pri cemu od obije kroz neki period vremena dobiva pola redaka iz stupaca norma i satnica, ali je satnica kriptirana sifrom koja je jacine 0.7 (od mogucih 1 - primjerice dodavanje random broja na satnicu)
* Provider 3 dobiva zbroj kolona iz norme i satnice, kako bi se poslije olaksao izracun rizika odluceno je da se te kolone zapisuju kao dvije genericke kolone koje su dobivene rastavljanjem zbroja na komponente, pri tome je jako tesko (nemoguce bez dodatnih informacija) dobiti zasebne kolone koje mozda krse ogranicenje i zato je snaga enkripcije nad njima 0.99 (od mogucih 1)

* Aplikacija 2 koristi providera 1 na kojem koristi oib u obliku cistog teksta

In [4]:
apps =  [
    {
        "provider1": [GenericColumn("app1", 0.5, "satnica", 0.0)],
        "provider2": [GenericColumn("app1", 0.5, "norma", 0.0), GenericColumn("app1", 0.5, "satnica", 0.7)],
        "provider3": [GenericColumn("app1", 0.5, "satnica", 0.99), GenericColumn("app1", 0.5, "norma", 0.99)]
    },
    {
        "provider1": [GenericColumn("app2", 0.5, "oib", 0.0),]
        
    }
    
]


## Funkcija za odredivanje rizika



* Funkcija za izracun rizika radi tako da se gleda jedan po jedan provider, te da se dohvate sve kolone s kojima taj provider radi bilo iz baze podataka ili iz aplikacija koje se na njemu izvrsavaju
* Zatim se prolazi po sigurnosnim ogranicenjima i za svako ogranicenje se provjerava narusava li fragment ogranicenje
    * Ako fragment ne narusava ogranicenje rizik se ne povecava
    * Inace se rizik povecava za kombinaciju kolicine informacija o kolonama iz ogranicenja do kojih je napadac mogao doci, osjetljivost ogranicenja, i reputacije providera na kojem je doslo do krsenja ogranicenja
        * osjetljivost ogranicenja i reputacija pruzatelja usluge su unaprijed zadane vrijednosti, dok se kolicina informacija do koje napadac dolazi mora odrediti prema kolonama, kolicine podataka u kolonama i snazi transformacijske funkcije koju pojedina kolona koristi

### Odredivanje kolicine informacije do koje napadac moze doci prilikom krsenja ogranicenja

* Kada znamo da je naruseno pojedino ogranicenje moramo odrediti do koje kolicine podataka u tom ogranicenju napadac moze doci

* Svako sigurnosno ogranicenje definirano je kao skup kolona, a isto tako i informacije na pojedinom provideru su skupovi kolona
* Obzirom da medu kolonama na provideru moze biti duplikata (primjerice dvije aplikacije koriste neki podskup redaka iz kolone) svi duplikati se moraju uzeti u obzir jer oni predstavljaju informacije koje su na raspolaganju napadacu
* Kolicina informacije do koje napadac dolazi su sve moguce kombinacije kolona s obzirom na izvor kolone za sve kolone u ogranicenju, primjerice za ogranicenje koje se sastoji od kolona _(a, b, c)_ pri cemu se _a_ dobiva iz 3 izvora _a1_, _a2_, _a3_, _b_ iz dva izvora _b1_, _b2_ i _c_ iz jednog izvora, _c1_, kolicina informacije o ogranicenju se dobiva zbrojem kolicina informacije sljedecih kombinacija kolona:
    * _a1_, _b1_, _c1_
    * _a2_, _b1_, _c1_
    * _a3_, _b1_, _c1_
    * _a1_, _b2_, _c1_
    * _a2_, _b2_, _c1_
    * _a3_, _b2_, _c1_

* Pri cemu su izvori zapravo aplikacije koje pojedinu kolonu koriste na istom provideru
* Dobivanje kolicine informacija iz pojedine kombinacije obavlja se na sljedeci nacin:
    * Za svaku kolonu iz ogranicenja:
        - ako je neka od prethodnih kolona iz ogranicenja dio iste aplikacije onda je kolicina informacije minimum izmedu kolicine informacije nove kolone i kolicine informacije prethodnih kolona (koriste iste podatke)
        - inace kolicina informacija jednaka je umnosku kolicine informacija prethodnih kolona i nove kolone (ako gledamo jedan redak, sanse da se nalazi u svim prethodnim kolonama i novoj su jednake umnosku vidljivih korisnih informacija o prethodnim kolonama i trenutnoj koloni)
* Dobivanje kolicine informacija za jednu kolonu radi se tako da se pomnozi postotak informacija koje ta kolona koristi (data_factor) i "vidljivost" informacije (mjera obrnuta od snage transformacije tj. 1-snaga_transformacije)
        


In [5]:

import copy
import math


def sigmoid(x):
    return 1 / (1 + math.exp(-x))

def determine_risk(configuration, distribution, sensitivity, cloud_providers, applications, verbose=False):    
    # Start with no risk at all
    aggregate_risk = 0
    
    # Gledamo kolone koje se nalaze na istom provideru
    for provider in distribution:
        
        # Dohvati sve fragmente koji se nalaze kod istog providera
        # To ukljucuje i aplikacijske fragmente i fragmente baze podataka
        fragments = set()
        for table in distribution[provider]:
            fragments.update(configuration[table])
            for app in applications:
                if app.get(provider, None):
                    fragments.update(app[provider])
        
        # Sada gledamo svako ogranicenje zasebno
        for s in sensitivity:
            
            # Sve kolone koje se nalaze na jednom pruzatelju usluga
            all_columns = set([fragment.column for fragment in fragments])          
            
            # Ako su sve kolone iz ogranicenja kod jednog providera ogranicenje je naruseno
            if s[0] <= all_columns:
                if verbose:
                    print(f"Naruseno ogranicenje [{s[0]}] za providera: {provider}")
                
                # Optimizirani algoritam opisan u prethodnoj celiji
                constraint = tuple(s[0])
                previous = [(fragment.app_name, fragment.get_information_amount()) for fragment in fragments if fragment.column == constraint[0] ]
                current = []
                
                for i in range(1, len(constraint)):
                    current_fragments = [fragment for fragment in fragments if fragment.column == constraint[i]]
                    for prev in previous:
                        prev_app, prev_info_amount = prev
                        
                        for fragment in current_fragments:
                            if fragment.app_name in prev_app:
                                current.append((prev_app, min(prev_info_amount, fragment.get_information_amount())))
                            else:
                                current.append(((prev_app, fragment.app_name),  prev_info_amount * fragment.get_information_amount()))
                    previous = copy.deepcopy(current)
                    fragments -= set(current_fragments)

                information_amount = min(sum ([information for _, information in previous]), 1.0)
                
                aggregate_risk += (1)/((10 ** (s[1] * information_amount)) * (math.sin(cloud_providers[provider]["reputation"]*math.pi/2 + math.pi) + 1))
                
                
    return aggregate_risk


print(determine_risk(conf1, dist1, sensitivity, cloud_providers, apps, verbose=True))

Naruseno ogranicenje [{'oib', 'vrsta'}] za providera: provider1
Naruseno ogranicenje [{'satnica'}] za providera: provider1
Naruseno ogranicenje [{'oib'}] za providera: provider1
Naruseno ogranicenje [{'vrsta'}] za providera: provider2
Naruseno ogranicenje [{'satnica'}] za providera: provider2
Naruseno ogranicenje [{'norma'}] za providera: provider2
Naruseno ogranicenje [{'vrsta'}] za providera: provider3
Naruseno ogranicenje [{'satnica'}] za providera: provider3
Naruseno ogranicenje [{'norma'}] za providera: provider3
Naruseno ogranicenje [{'dodatak'}] za providera: provider3
Naruseno ogranicenje [{'oib', 'vrsta'}] za providera: provider4
Naruseno ogranicenje [{'oib'}] za providera: provider4
Naruseno ogranicenje [{'oib'}] za providera: provider5
Naruseno ogranicenje [{'broj_sati'}] za providera: provider5
37.460397922167296
