Ta fram en rekommendation för lämplig uppdateringsfrekvens för datamängdsserier #111

matthiaspalmer · 2024-04-25T02:45:09Z

Contact Details

No response

What benefits does the suggestion solve?

Det ska vara tydligt för dataportalen om den kan förväntas sig några tiotal datamängder i en datamängdsserie eller om det kan vara tusentals.

Feature suggestion description

Tydliggör när det är lämpligt att förvalta data i en datamängdsserie:

När nya filer tillkommer månatligen?
Dagligen eller ännu oftare?
Närhelst det sker en manuell process?
När det är viktigt att ange metadata för att förtydliga något?

Ett förslag är att det ska vara behovsdrivet, men inte mer än 100 datamängder i en dataserie.
Beskriv också i rekommendationen vad man gör om man har behov som inte passar i en datamängdsserie, hur man går till väga då. T.ex:

dcat:accessURL till en webbfolder?
Paketera som en zip
Slå samman data, dvs uppdatera en fil som växer
Bygga system och peka ut API istället?

Alternative solutions

No response

Additional information

No response

matthiaspalmer · 2024-04-25T03:18:09Z

Förslag:

Vi rekommenderar att om man har en datamängdsserie som i huvudsak har en temporal dimension att man inte har en uppdateringsfrekvens som är mer frekvent än en gång i månaden. Dvs man inte lägger till nya datamängder till serien oftare än en gång i månaden.

salgo60 · 2024-04-29T06:13:03Z

Blir det inte bara konstigt att hitta på generella regler... är det Riksbankens styrränta skall saker uppdateras direkt gissar jag... gissar att hela tanken med en dataportal är lite föråldrat om man strävar efter att jobba datadrivet....

fokusera på persistenta identifierare för dataset och organisationer
att det finns best practice hur man supportar ett ekosystem
- att logga fel med publika öppna backlogs
- arbeta ihop

matthiaspalmer · 2024-05-17T08:36:19Z

Nu är två rekommendationer framtagna som är relevanta för denna issue:

Rekommendation 17 - Antalet datamängder i en datamängdsserie
och
Rekommendation 19 - Alternativ till datamängdsserier

salgo60 · 2024-05-29T10:55:18Z

Fundering: Är det inte mer dataportal produktens begränsningar som styr än vad som skapar bra data?

Borde vara enkelt att ställa en SPARQL fråga som hämtar allt som har

med en viss datamängd oberoende av år och land dvs. federated SPARQL med EDP borde enkelt kunna stödjas
är tanken fortfarande att alla dataserier skall skickas upp till EDP och hur tänker dom har dom samma begränsningar?

matthiaspalmer · 2024-05-29T13:10:45Z

@salgo60 Naturligtvis finns komplexiteten hos dataportalen med som en aspekt, det är ju punkt 2.
Det finns ingen bakomliggande komersiell produkt som står för begränsningarna i dataportalens gränssnitt då det är en produkt som utvecklas av DIGG som öppen källkod.

Men en minst lika viktig aspekt är hur lätt informationen är att ta emot av de som besöker portalen, punkt 1 i rekommendation 17. En datamängdsserie med tusentals datamängder i sig är svår att få översikt över.
I referensgruppen diskuterades denna aspekt och slutsatsen var att man bör fundera över mottagaren, hur ger man bäst tillgång till data. Att ha tusentals datamängder i en datamängdsserie låter som ett dåligt beslut. Det är därför som rekommendation 19 finns.

salgo60 · 2024-05-29T15:06:54Z

Att ha tusentals datamängder i en datamängdsserie låter som ett dåligt beslut. Det är därför som rekommendation 19 finns.

Tackar för svar förstår inte hur ni resonerar...

Gissat att med ett vettigt frågespråk som SPARQL så kan alla datamängder hämtas....

jag testade nyss Riksarkivets försök att ladda upp zipfiler som sedan skall innehålla datat vilket känns som en konstig väg framåt
- dock en fördel att samma request hämtar allt även iform av en zip som sedan måste unzipas.......
  - vore kul om Riksarkivet var lite mer aktiva på sin GITHUB så man fatta hur dom tänker / nyligen kom datafil från Riksarkivet SBL som bara kändes fel #53
- Riksarkivets val att ha län i varje dataset tror jag bara skapar problem för konsumenten om det är en icke svensk person
  - vet att Frankrike har mer än 30 000 kommuner gissar att den indelningen skulle vara strulig för oss svenskar att konsumera....
  - detta med att inte uppge vad som saknas är ett problem med Riksarkivets data med avseende på län tycker jag, jag efterfrågade i annan tråd att det måste skapas ekosystem inte massa lösa specar vi ser avskräckande exempel där evighets ”projekt på drift” bara kostar tid och pengar men aldrig levereras och ingen verkar bry sig (Regeringskansliet vet inte ens att dom är ansvariga / där grundproblemet är att Riksdagens data inte är 5 star) och kompetensen på dom som borde leverera verkar ingen ifrågasätts…

Vore kanske bättre att jobba på ett Change stream API modell det Wikidata har

API Recent_Changes_stream
exempel websida byggt med detta https://tools.wmflabs.org/wikidata-todo/rcvis.html

sida att testa olika change streams

matthiaspalmer added godkänn DCAT3 labels May 17, 2024

matthiaspalmer closed this as completed May 29, 2024

salgo60 mentioned this issue May 29, 2024

Beskriv ert data bättre Riksarkivet/dataplattform#22

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Ta fram en rekommendation för lämplig uppdateringsfrekvens för datamängdsserier #111

Ta fram en rekommendation för lämplig uppdateringsfrekvens för datamängdsserier #111

matthiaspalmer commented Apr 25, 2024

matthiaspalmer commented Apr 25, 2024

salgo60 commented Apr 29, 2024

matthiaspalmer commented May 17, 2024

salgo60 commented May 29, 2024

matthiaspalmer commented May 29, 2024 •

edited

Loading

salgo60 commented May 29, 2024 •

edited

Loading

Ta fram en rekommendation för lämplig uppdateringsfrekvens för datamängdsserier #111

Ta fram en rekommendation för lämplig uppdateringsfrekvens för datamängdsserier #111

Comments

matthiaspalmer commented Apr 25, 2024

Contact Details

What benefits does the suggestion solve?

Feature suggestion description

Alternative solutions

Additional information

matthiaspalmer commented Apr 25, 2024

salgo60 commented Apr 29, 2024

matthiaspalmer commented May 17, 2024

salgo60 commented May 29, 2024

matthiaspalmer commented May 29, 2024 • edited Loading

salgo60 commented May 29, 2024 • edited Loading

matthiaspalmer commented May 29, 2024 •

edited

Loading

salgo60 commented May 29, 2024 •

edited

Loading