Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ta fram en rekommendation för lämplig uppdateringsfrekvens för datamängdsserier #111

Closed
matthiaspalmer opened this issue Apr 25, 2024 · 6 comments

Comments

@matthiaspalmer
Copy link
Collaborator

Contact Details

No response

What benefits does the suggestion solve?

Det ska vara tydligt för dataportalen om den kan förväntas sig några tiotal datamängder i en datamängdsserie eller om det kan vara tusentals.

Feature suggestion description

Tydliggör när det är lämpligt att förvalta data i en datamängdsserie:

  • När nya filer tillkommer månatligen?
  • Dagligen eller ännu oftare?
  • Närhelst det sker en manuell process?
  • När det är viktigt att ange metadata för att förtydliga något?

Ett förslag är att det ska vara behovsdrivet, men inte mer än 100 datamängder i en dataserie.
Beskriv också i rekommendationen vad man gör om man har behov som inte passar i en datamängdsserie, hur man går till väga då. T.ex:

  • dcat:accessURL till en webbfolder?
  • Paketera som en zip
  • Slå samman data, dvs uppdatera en fil som växer
  • Bygga system och peka ut API istället?

Alternative solutions

No response

Additional information

No response

@matthiaspalmer
Copy link
Collaborator Author

Förslag:

Vi rekommenderar att om man har en datamängdsserie som i huvudsak har en temporal dimension att man inte har en uppdateringsfrekvens som är mer frekvent än en gång i månaden. Dvs man inte lägger till nya datamängder till serien oftare än en gång i månaden.

@salgo60
Copy link

salgo60 commented Apr 29, 2024

Blir det inte bara konstigt att hitta på generella regler... är det Riksbankens styrränta skall saker uppdateras direkt gissar jag... gissar att hela tanken med en dataportal är lite föråldrat om man strävar efter att jobba datadrivet....

@matthiaspalmer
Copy link
Collaborator Author

Nu är två rekommendationer framtagna som är relevanta för denna issue:

Rekommendation 17 - Antalet datamängder i en datamängdsserie
och
Rekommendation 19 - Alternativ till datamängdsserier

@salgo60
Copy link

salgo60 commented May 29, 2024

Fundering: Är det inte mer dataportal produktens begränsningar som styr än vad som skapar bra data?

image

Borde vara enkelt att ställa en SPARQL fråga som hämtar allt som har

  • med en viss datamängd oberoende av år och land dvs. federated SPARQL med EDP borde enkelt kunna stödjas
  • är tanken fortfarande att alla dataserier skall skickas upp till EDP och hur tänker dom har dom samma begränsningar?

@matthiaspalmer
Copy link
Collaborator Author

matthiaspalmer commented May 29, 2024

@salgo60 Naturligtvis finns komplexiteten hos dataportalen med som en aspekt, det är ju punkt 2.
Det finns ingen bakomliggande komersiell produkt som står för begränsningarna i dataportalens gränssnitt då det är en produkt som utvecklas av DIGG som öppen källkod.

Men en minst lika viktig aspekt är hur lätt informationen är att ta emot av de som besöker portalen, punkt 1 i rekommendation 17. En datamängdsserie med tusentals datamängder i sig är svår att få översikt över.
I referensgruppen diskuterades denna aspekt och slutsatsen var att man bör fundera över mottagaren, hur ger man bäst tillgång till data. Att ha tusentals datamängder i en datamängdsserie låter som ett dåligt beslut. Det är därför som rekommendation 19 finns.

@salgo60
Copy link

salgo60 commented May 29, 2024

Att ha tusentals datamängder i en datamängdsserie låter som ett dåligt beslut. Det är därför som rekommendation 19 finns.

Tackar för svar förstår inte hur ni resonerar...

Gissat att med ett vettigt frågespråk som SPARQL så kan alla datamängder hämtas....

  • jag testade nyss Riksarkivets försök att ladda upp zipfiler som sedan skall innehålla datat vilket känns som en konstig väg framåt
    • dock en fördel att samma request hämtar allt även iform av en zip som sedan måste unzipas.......
      • vore kul om Riksarkivet var lite mer aktiva på sin GITHUB så man fatta hur dom tänker / nyligen kom datafil från Riksarkivet SBL som bara kändes fel #53
    • Riksarkivets val att ha län i varje dataset tror jag bara skapar problem för konsumenten om det är en icke svensk person

Vore kanske bättre att jobba på ett Change stream API modell det Wikidata har

image image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants