# Federatie
Grote keuzes:
 - Transacties zijn immutable, globaal geindentificeerd met een UUID, per server voorzien van een automatisch ophogend ID in een transactie tabel omdat volgorde belangrijk kan zijn.
 - Werken we alleen maar met direct verbonden nodes (producer-consumer), of moeten nodes ook indirect met elkaar verbonden kunnen zijn (producer-proxy-...-consumer)?
   - zodra we landelijk als centraal willen gebruiken, is dat eigenlijk al een proxy
       1. T0: source produceert Transactie0
       2. T1: source pusht naar landelijk
       3. T2: destination pullt van landelijk alles vanaf begin der tijden: Transactie0
       4. T3: source produceert Transactie1
       5. T4: soure pusht naar landelijk
       6. T5: destination pullt vanaf landelijk alles sinds T2: Transactie1
       7. T6: source produceert Transactie2, Transactie3
       8. T7: destination pullt vanaf landelijk alles sinds T5: geen
       9. T8: source pusht Transactie2 en Transactie3 naar landelijk
   - zoals te zien kunnen we niet met timestamps alleen werken.
   - wat we wel kunnen aannemen is dat alle transacties die gezien/ontstaan worden door landelijk opvolgend zijn (append only log), en dat dus alle regels met een `ID > [laatst geziene transactie]` relevant zijn (waarbij ID relevant is per platform en niet over de verschillende platformen).
       1. T0: source produceert Transactie0
       2. T1: source pusht naar landelijk(id:0)
       3. T2: destination pullt van landelijk alles vanaf begin der tijden: id > -1
       4. T3: source produceert Transactie1
       5. T4: soure pusht naar landelijk (id:1)
       6. T5: destination pullt vanaf landelijk alles sinds Transactie1 (id > 0): Transactie1
       7. T6: source produceert Transactie2, Transactie3
       8. T7: destination pullt vanaf landelijk alles sinds Transactie1 (id:1): niets
       9. T8: source pusht Transactie2(id:2) en Transactie3 (id:3) naar landelijk
       10. T9: destination pullt vanaf landelijk alles sinds Transactie1 (id:1): Transactie2 en Transactie3

# In- en outbox 
Een bron host (waar een item origine heeft) zet het item in een outbox, klaar om gelezen te worden. Het kan ook items pushen naar hosts die een abonnement hebben lopen.

## pull mogelijkeden: postvakken met 'wijzigingen sinds'
Een destination host kan een source host vragen om alles wat het klaar heeft liggen in de outbox op basis van een optionele transactie-gid. Alle transacties die op de bevraagde host zijn toegevoegd hebben een lokale id groter dan de lokale id van de meegegeven transactie-gid. De source of proxy host hoef niet alle resultaten te tonen om in redelijke batches te kunnen werken. Daarom moet een destination host eigenlijk altijd blijven doorvragen of er niet meer resultaten zijn, net zolang tot die er niet meer zijn. Dat scheelt volledige pagination met vaste aantallen, aangezien de webserver zelf kan beslissen welke batch-size het hanteerd omdat daar ook de zwaarte van de hosting ligt. Dat is niet aan de client om dat te beslissen.
```sql
 select *
   from transcation
  where id > (select id from transaction where gid = {ref_gid})
  order by id
   limit 100
```
De `order by` is belangrijk, omdat voor pagination dit niet in random order mag komen. anders krijg je gaten.


## push mogelijkheden: abonnementen
Een abonnement is van een destination host bij een source host. De destination host verzoekt de source host om bij elke update van de outbox een push melding af te geven bij de destination host's inbox. 
 - hier is later uitbreiding op te maken door filtering, maar vooralsnog is dat niet nodig.

## push en pull door elkaar gebruiken 
Push en pull kan door elkaar gebruikt worden. De transacties hebben immers een unieke transactie gid en zijn immutable. Daarmee is een wijziging snel terug te vinden en deduplicatie toe te passen.
Om mogelijke gaten op te lossen kunnen pushes aangevuld worden door af en toe een pull waar de destination bij de source alleen vraagt om de gids van toepasselijke transacties. De aanvragende destination host kijkt of er onbekende gids in de lijst voorkomen en vraagt de gegevens van alleen deze transacties in een nieuwe request op. Dit scheelt veel I/O overhead.

## crossposten en transactiegids 
Aangezien transactie gids overal vandaan mogen komen kan een transactie van een derde host doorgegeven worden bij een decentrale opbouw (wanneer de conversatie gaat over meer dan de transacties afkomstig van de source). 

## signing van transactie
Elke source ondertekend de transactie op basis van public key encryptie.
De public key is eenvoudig op te vragen op een vast url bij de source host.
Een destination host moet elke transactie op geldigheid controleren, en de public key opvragen bij de source host. De destination host is er verantwoordelijk voor om regelmatig te controleren dat het de laatste versie van de public key heeft. 
 - VRAAG: hoe signeren we een data record, aangezien er niet een vaste tekst is die gebruikt wordt om de data te valideren. Of moeten we hier een json dump bij in zetten zodat iemand die kan controleren met de payload? dan gaat de data dubbel....
 - ik dacht zelf aan een JWT oplossing, maar die payload blijft dan nog een issue
 - op een later moment kan een proxy signeren voor een source host waar vanuit de destination geen contact mee is (geweest). Bijvoorbeeld als deze uit de lucht gaat. Vertrouwen is dan verlegd naar de proxy. Of de destination dan vertrouwd wat de proxy aangeeft is aan de destination.

# Praktijken, Tags, Bijlagen, ...
Het gefedereerd synchroniseren kan gaan over onderwijspraktijken, maar ook over bijvoorbeeld tags (metadata). Zodoende is een landelijke metadataset te gebruiken. Terwijl ondertussen niet gesyncroniseerde items per platform gebruikt kunnen worden. Niet bekende tags-gids op een destination host moeten daarom genegeerd worden. Een onderwijspraktijk getagged met een tag-gid kan via federatie teruggevonden worden omdat de tag-gid een eigen veld heeft, net als een praktijk. Maar elke bewerking op een tag is een transactie die ook een eigen gid heeft. Inclusief eigen inbox en outbox, abonnementen enzovoorts.

# forks
Forks (zoals binnen git bekend) van een item verwijzen naar hun voorliggende praktijken via de forked-from-gids (een lijst van gids).
Meerdere parents zijn mogelijk. Omdat patching tussen de versies overdaad lijkt, kunnen we meerdere parents vooral bijhouden mochten er spinoffs komen en zo de impact vanuit de oorspronkelijke praktijk inzichtelijk te maken.

# parent-transacties
Een parent-transactie is het gid van de transactie waarbij de 'last known' transactie bij een edit opgeslagen staat. Dit is om concurrent editing aan hetzelfde item op te lossen via een 3way merge, vermoedelijk door een landelijke eddie.
 1. slimfit eddie schrijft artikel xyz in transactie `abc`
 2. slimfit pusht transactie `abc` naar landelijk
 3. slimfit eddie gaat door met artikel xyz in transactie `def`, parent-transactie:`abc`
 4. landelijke eddie bewerkt artikel xyz in transactie `fgh` met parent-transactie:`abc`
 5. slimfit eddie pusht herziene artikel xyz met transactie `def` en parent-transactie `abc` naar landelijk
 6. landelijke eddie krijgt melding dat xyz nu 2 versies heeft (uit `def` en `fgh` met dezelfde parent-transaction en voert een 3 way merge uit met resultaat in een nieuwe transactie `ghij`. vergelijkbaar met een gespleten head in git.


# Cross-references
Aangezien de inhoud altijd markdown is maar we wel graag willen verwijzen naar items (voor praktijken bijvoorbeeld) moet hiervoor een aparte notatie ontwikkeld worden. Bijvoorbeeld via `{item:gid}`, wat gebruikt  zou kunnen worden in een markdown link: `[Zie ook deze praktijk]({item:gid})` maar andere notaties zijn ook mogelijk. Als een artikel niet lokaal gesynced is (ivm filters of voorkeuren), zou het mooi zijn om een source url als alternatief op te nemen zodat een fallback ontstaat naar de bron: `{item:gid:https://fallbackurl}` Dit kan ook werken voor attachments als bijlagen en plaatjes.

# Combinatie met caching:
Omdat de caching mogelijkheid werkt met daadwerkelijke updates moet er na een wijziging gecontroleerd worden of er een update nodig is van een tabel met de laatste stand van zaken per entiteit (praktijken, tags, bijlagen, ...)

# combinatie met applog
Om statistieken per praktijk bij te houden in een gefedereerd systeem zijn een soort van pingbacks noodzakelijk. Dit is opgelost via de applog code, en wordt niet via gefedereerde synchronisatie geregeld. Dat gaat "ouderwets" client/server van het eindplatform naar landelijk waar de statistieken bekend zijn, en via een api op te vragen zijn voor elk artikel

# keyfiles
Gegenereerd met `openssl genrsa -out jwt-key 4096` gevolgd door `openssl rsa -in jwt-key -pubout > jwt-key.pub`

In [152]:
import os

for server in 'abcd':
    os.system(f"openssl genrsa -out {server}.jwt-key 4096")
    os.system(f"openssl rsa -in {server}.jwt-key -pubout > {server}.jwt-key.pub")

writing RSA key
writing RSA key
writing RSA key
writing RSA key


# Source code

In [48]:
from pydal import DAL, Field
from pydal import SQLCustomType
import uuid
from pathlib import Path
import jwt
import datetime
import json
from attrs import asdict

GID_TYPE = SQLCustomType(
    # http://web2py.com/book/default/chapter/06#Custom-Field-types
    type='string',  # web2py type
    native='uuid',
    encoder=(lambda x: str(uuid.UUID(str(x)))),  # applied when the data is stored
    decoder=(lambda x: uuid.UUID(x))  # applied when data is read
)
def not_guid(x):
    return str(x) if isinstance(x, uuid.UUID) else x

JSON_TYPE = SQLCustomType(
    # http://web2py.com/book/default/chapter/06#Custom-Field-types
    type='json',  # web2py type
    native='json',
    encoder=(lambda x: json.dumps({str(k):not_guid(v) for k,v in x.items()})),  # applied when the data is stored
    decoder=(lambda x: x)  # applied when data is read
)

In [49]:
from cryptography.hazmat.primitives import serialization
from cryptography.hazmat.backends import default_backend
from attrs import define
import enum


class AutoName(enum.Enum):
    def _generate_next_value_(name, start, count, last_values):
        return name


class VisibilityScope(AutoName):
    OWNER = enum.auto()
    TEAM = enum.auto()
    NETWORK = enum.auto()
    DOMAIN = enum.auto()
    PUBLIC = enum.auto()

class TransactionSource(AutoName):
    THIS = enum.auto()
    EXTERN = enum.auto()

@define
class Transaction:
    gid: uuid.UUID
    claims: dict
    scope: VisibilityScope
    origin: str
    author: str

    def __attrs_post_init__(self):
        self.claims['tr_gid'] = str(self.gid)
        self.claims['scope'] = self.scope.value
        self.claims['origin'] = self.origin
        self.claims['author'] = self.author

    @classmethod
    def from_dict(cls,d):
        return cls(
            gid = d['tr_gid'],
            claims = d,
            scope=VisibilityScope[d['scope']],
            origin=d['origin'],
            author=d['author']
        )

class Server:
    def __init__(self, public_domain, db_uri, privkey_path: Path) -> None:
        super().__init__()
        self.audience = f"urn:domain:{public_domain}"  # domain name, or something similar.
        self.db = DAL(db_uri)
        self.db.define_table('query_subscribed',
                             # pull from these servers
                             Field('audience','string',length=256)
                             )
        self.db.define_table('notify_subscribed',
                             # send to these servers
                             Field('audience','string',length=256)
                             )
        self.db.define_table('document',
                             Field('gid',GID_TYPE),
                             Field('markdown','text'),
                             Field('title','string'),
                             Field('origin','string'),
                             Field('authors','list:string'),
                             )
        self.db.define_table('transaction',
                             Field('gid', GID_TYPE),
                             Field('claims', JSON_TYPE),
                             Field('scope', 'string', length=32),
                             )
        with privkey_path.open('r') as stream:
            self.private_key = serialization.load_pem_private_key(
                stream.read().strip().encode(), password=None, backend=default_backend()
            )
        with Path(privkey_path.name + '.pub').open('r') as stream:
            self.public_key = stream.read()
        self.public_keys = [path.open('r').read() for path in Path('.').glob('*.pub') if
                            not path.name.startswith(privkey_path.name)]


    def sign(self, claims: dict, audiences: list = None):
        # add headers={} for additional headers
        # https://pyjwt.readthedocs.io/en/latest/usage.html#registered-claim-names
        # claims should be in the payload:
        # {"exp": datetime.now(tz=timezone.utc)+ datetime.timedelta(seconds=30)} - do not allow reading after this time
        # "nbf" works similarly, but is "Not BeFore"
        # "iss" as ISSuer, string or URI, like "urn:foo"
        claims['iss'] = self.audience  # public_uri
        # "aud" is a list of possible audiences, if present the claim (when read) MUST provide one of the
        # given audience records.
        if audiences:
            claims.setdefault('aud', [])
            for audience in audiences:
                if not audience.startswith('urn:'):
                    raise ValueError(f'audience "{audience}" should start with "urn:"')
                claims['aud'].append(audience)
        claims["iat"] = datetime.datetime.utcnow()
        return jwt.encode(claims, self.private_key, algorithm='RS256')

    def unsign(self, encoded_claims, with_audience=False):
        if __debug__:
            print(jwt.decode(signed, options={"verify_signature": False}))  # - without signature validation
        options = {}
        if with_audience:
            options['audience'] = self.audience
        return Transaction.from_dict(jwt.decode(encoded_claims, self.public_key, algorithms=["RS256"], **options))

    # def web_get_inbox(self):
    #     "only authenticated can request inbox, use to get all transactions received so far"
    #     ...

    def web_post_inbox(self, signed_transaction):
        "posts from others to our inbox, could be subscriptions or private transactions"
        claim = self.unsign(signed_transaction)

    def web_get_outbox(self):
        "Get public posts on display here, may include for the given requesting domain if authenticated"
        ...
        # query transactions from transactions table for public scope or authenticated private scope
        # use sync tools

    # def web_post_outbox(self):
    #     "this server should be only one posting to the outbox"
    #     ...


    def process_transaction(self, source: TransactionSource, transaction: Transaction):
        # test if transaction already exist, and drop if so
        db = self.db
        if db(db.transaction.gid == transaction.gid).count() > 0:
            if __debug__:
                print(f"{self.audience}: Not processing already processed transaction: {transaction.gid}")
            return
        else:
            # new transaction, save it as processed
            self.db.transaction.insert(
                gid=transaction.gid,
                claims=transaction.claims,
                scope=transaction.scope.value,
            )
        if source == TransactionSource.THIS:
            # origin is here, so push outward to subscribed
            db.commit()
            for row in db(db.notify_subscribed).select():
                print(f'Notify {row.audience} of transaction {transaction.gid}')
                SERVERS[row.audience].web_post_inbox(self.sign(transaction.claims))
        else:
            # origin out there, so absorb in local: update document
            transaction.claims.doc_gid
        db.commit()

    def new_document(self, title: str, markdown: str, scope: VisibilityScope):
        gid = uuid.uuid4()
        self.process_transaction(
            TransactionSource.THIS,
            transaction:=Transaction(
                gid=uuid.uuid4(),
                claims=dict(doc_gid=gid, title=title, markdown=markdown),
                scope=scope,
                origin=self.audience,
                author='me@'+self.audience
            )
        )
        return transaction

    def update_document(
            self,
            gid: uuid.UUID,
            title: str = None,
            markdown: str = None,
            scope: VisibilityScope = None,
            origin: str = None,
            author: str = None,

    ):
        document = self.db.document(gid=gid)
        self.process_transaction(
            TransactionSource.THIS,
            transaction := Transaction(
                uuid.uuid4(),
                claims=dict(
                    doc_gid = document.gid,
                    title=title or document.title,
                    markdown=markdown or document.markdown
                ),
                scope=scope or document.scope,
                origin=origin or document.origin,
                author=author or document.author
            )
        )
        return transaction

    def populate(self):
        self.new_document('Padaboom!','Hier is nummer 1',VisibilityScope.OWNER)
        self.db.commit()

    def test(self):
        print(self.db(self.db.transaction).select())


In [50]:
import os

server = os.getenv('POSTGRES_SERVER', '10.130.191.100')
a = server_a = Server('a.edwh.nl', f'postgres://username:password@{server}/db_a', Path('a.jwt-key'))
SERVERS:dict[str:Server] = {'a.edwh.nl':a}


In [51]:
a.db.rollback()
a.populate()
a.test()

transaction.id,transaction.gid,transaction.claims,transaction.scope
1,bb62b4b6-6038-4056-be31-887cbe32ba6d,"{'doc_gid': '2778f4e0-8d28-4295-998a-81bdbe4f89b8', 'title': 'Padaboom!', 'markdown': 'Hier is nummer 1', 'tr_gid': 'bb62b4b6-6038-4056-be31-887cbe32ba6d', 'scope': 'OWNER', 'origin': 'urn:domain:a.edwh.nl', 'author': 'me@urn:domain:a.edwh.nl'}",OWNER
2,55a1f222-8772-48c7-9258-588a85625cef,"{'doc_gid': 'f8615ed0-1417-4615-8bfb-61c4c7d8d65e', 'title': 'Padaboom!', 'markdown': 'Hier is nummer 1', 'tr_gid': '55a1f222-8772-48c7-9258-588a85625cef', 'scope': 'OWNER', 'origin': 'urn:domain:a.edwh.nl', 'author': 'me@urn:domain:a.edwh.nl'}",OWNER



In [62]:
signed = a.sign(dict(message='hoi', tr_gid='onbekend', scope='OWNER', origin=a.audience, author='remco@bla'), audiences=['urn:domain:a.edwh.nl'])
print(signed)

eyJhbGciOiJSUzI1NiIsInR5cCI6IkpXVCJ9.eyJtZXNzYWdlIjoiaG9pIiwidHJfZ2lkIjoib25iZWtlbmQiLCJzY29wZSI6Ik9XTkVSIiwib3JpZ2luIjoidXJuOmRvbWFpbjphLmVkd2gubmwiLCJhdXRob3IiOiJyZW1jb0BibGEiLCJpc3MiOiJ1cm46ZG9tYWluOmEuZWR3aC5ubCIsImF1ZCI6WyJ1cm46ZG9tYWluOmEuZWR3aC5ubCJdLCJpYXQiOjE2NjYzNjU5NTR9.MxIRvk3bXUaa-KXoD8AH9mybPf_VGNJpiCMnad7XTInvZCZSQaJJx4H7PX3lUPesslAjupXprA6WgFTHWryAvhZWe5LEQnXP8KJRcESjvupGOiDMaQSfx9nMeXQnUOmm2tJZEiR_p1DUva616UMAAhjxaOnnMNOAhzSD-hBinznHdxUGzHU0C4fSQtpfy-I62OGy1EqV67S2UmIvL9TWgnW75veVDH7LuK6ltAJsuF6AtUJsOGrfK_YKdbdljL-OgPWMUU1gokDCcPzUrBWHZna24gyL1jx0yNsZsUhn5VHBZPmsgbekcGHG6WQNgT7w1HY8bGx7BJTwFHkROC2xw9FbJuf_JL7PxX0d84RYf-bBQ8j1KaQr1u6FYBqeTWVFX4V2uqRmGZTvML-QI_xeP7ymD5UZmuK9aq4sfwQ2sYll54fps7tpnGGAC30gKU1pK_C62s21WDosLmRPP2oJ1Ift1seuzOoZuegSf1d8nd98oUhtbd2OlyXai_AYFnVt_NeOAKTKkKfbhvAWenY5-xcDeC4DTqdzYdoJfq7un7kCCn_lGWQX7YEPxEtFUhDb6-hP6eDtje_sTq872IlWFfRSuHDECwt3dyZTUECslogS_GeWZUoqJFBp9ti1DvhtDN1QOCqyy8V6c_EgtuzCBBvXXeeS0NNImNSFJWE1QME


In [63]:

unsigned = a.unsign(signed, with_audience=True)
print(unsigned)

{'message': 'hoi', 'tr_gid': 'onbekend', 'scope': 'OWNER', 'origin': 'urn:domain:a.edwh.nl', 'author': 'remco@bla', 'iss': 'urn:domain:a.edwh.nl', 'aud': ['urn:domain:a.edwh.nl'], 'iat': 1666365954}
Transaction(gid='onbekend', claims={'message': 'hoi', 'tr_gid': 'onbekend', 'scope': 'OWNER', 'origin': 'urn:domain:a.edwh.nl', 'author': 'remco@bla', 'iss': 'urn:domain:a.edwh.nl', 'aud': ['urn:domain:a.edwh.nl'], 'iat': 1666365954}, scope=<VisibilityScope.OWNER: 'OWNER'>, origin='urn:domain:a.edwh.nl', author='remco@bla')


In [None]:
jwt.decode(signed, options={"verify_signature": False})

In [19]:
t = Transaction(uuid.uuid4(), dict(), VisibilityScope.OWNER, a.audience, 'me@'+a.audience)
t

Transaction(gid=UUID('da455dba-b3d3-4736-b284-60d078040381'), claims={'tr_gid': 'da455dba-b3d3-4736-b284-60d078040381', 'scope': 'OWNER', 'origin': 'urn:domain:a.edwh.nl', 'author': 'me@urn:domain:a.edwh.nl'}, scope=<VisibilityScope.OWNER: 'OWNER'>, origin='urn:domain:a.edwh.nl', author='me@urn:domain:a.edwh.nl')

In [22]:
signed = a.sign(t.claims)
signed

'eyJhbGciOiJSUzI1NiIsInR5cCI6IkpXVCJ9.eyJ0cl9naWQiOiJkYTQ1NWRiYS1iM2QzLTQ3MzYtYjI4NC02MGQwNzgwNDAzODEiLCJzY29wZSI6Ik9XTkVSIiwib3JpZ2luIjoidXJuOmRvbWFpbjphLmVkd2gubmwiLCJhdXRob3IiOiJtZUB1cm46ZG9tYWluOmEuZWR3aC5ubCIsImlzcyI6InVybjpkb21haW46YS5lZHdoLm5sIiwiaWF0IjoxNjY2MzY0NDQyfQ.UlXc4B0h4on5qPQbF4eWCWnZyaKI0YC3Z-K3slnOj5UMWNY3qFncLu9wChDZfMwR3vPKHTF8DZ4cdcmP7GEQMuxjMueOi70bIgzNTLcTPOfrP5vCfOof-gZUUWHqpZwPQl5SfuGhX23yEhLBEUn5LzOHo_YAGS_AGun6s7APE0FwryEmzVZzUvBIFgh4EUByOJPfcaCbX9xWA8qxFAhf-3TYbhTFDMzahewl_sCZe-qWR0qLj_yx0LOXoyEA4WAsGDC0-RBtMx2aO5hwkjMEKkJl5qwXmHd0w_ENHoPME2YciiiJxjnkscuv8qCKVKYuAqufIPHK0qexIhebh8nRIMVLwESRSPSDPX-wiURj1sSZYcP63-Vm1lLayFmmjAIfRD8h5Cpug6fdQ32eepX1URpTAGJ3FKzERjTCZOxrdtkPaYWu3Ev1UIYt7DYqwwz6_Nm9lW_QwgxATJeLuTExURX105ZRRzqw4CCAkSrBJUzI_9BSaKS4f87f43IU_G8U6-735tlkHKfot_IXhLwbo_jqjA10cOc8wWWaz313tC0XczEzS4KPmJBnSlaoKeMr3xSjeW6IKRvs4-99z6VVhaHAmSGZa7p2WXbpTsa9W1oRs1mKnNgN0hFgIp7t2xR3e7opvqxVhfd1JdmDZyLrnHXOMRkbK9EnC2kuV984ThQ'

In [23]:
unsigned = a.unsign(signed)

{'tr_gid': 'da455dba-b3d3-4736-b284-60d078040381', 'scope': 'OWNER', 'origin': 'urn:domain:a.edwh.nl', 'author': 'me@urn:domain:a.edwh.nl', 'iss': 'urn:domain:a.edwh.nl', 'iat': 1666364442}


# Openstaande vragen
1. moeten we origins per artikel hebben, of 1 genoeg?