Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Hur man undviker dubbletter av organisationer på öppnadata.se #15

Closed
matthiaspalmer opened this issue Sep 9, 2019 · 10 comments
Closed

Comments

@matthiaspalmer
Copy link
Collaborator

Se förslag här:
https://metasolutionsab.github.io/DCAT-AP-SE/docs/harvesting.html#identifierare-för-utgivande-organisationer

@thomaskvist
Copy link

Hur hanterar man sammanslagningar/delningar av organisationer där organisationer byter orgnr till orgnr för den organisation man slås ihop med alt får ett nytt orgnr?

"Innehållet" i organisationen har ju förändrats i dessa fall. Här skulle man ju vilja ha en form av dubbletter där organisationsförändringen framgår på respektive post, dvs att det finns en skillnad trots att organisationsnumret är detsamma

@bjornhagstrom
Copy link

Thomas: Är det ett problem? Man ändrar då unik identifierare för org och inom något dygn så är att syndikerat genom ekosystemet. Det är identifierare, inte beständiga identifierare. Är det ett problem?

Mattias: Jag tycker det är klokt att använda sig av andras arbete här. Är KB nöjda med sin lösning eller finns det brister vi bör vara medvetna om?

Bra att det finns ett SE med så man har kopplingen till land med redan nu.

@thomaskvist
Copy link

Missförstod kanske men om man ändrar omfattningen/uppdraget t ex genom en sammanslagningar men använder ett orgnr för en av de inblandade parterna (och att använda orgnr i metadatat för att identifiera organisationen uppfattade jag som en tanke som tänks) avser ju datat för detta orgnr något annat efter förändringen.

Och det kan väl vara intressant att veta som datakonsument? Man kan ju t ex tänka sig att det blir kommunsammanslagningar så småningom. Eller att stora verksamheter byter huvudman.

Kanske ett icke-problem trots allt? Men om jag skulle jobba med t ex ekonomidata skulle jag vilja veta om den avsåg samma verksamhet/geografiska område etc om sådana förändringar är möjliga att spegla i metadatat.

Men jag är ju ingen statistiker å andra sidan. Som sagt - kanske ett icke-problem.

@matthiaspalmer
Copy link
Collaborator Author

@bjornhagstrom Ska höra med KB om erfarenheter från deras lösning.

@thomaskvist som Björn sa så kommer ändringar att uppdateras genom systemet efter ett dygn, eller tidigare om man loggar in i registrera och klickar på skörda om knappen.

Jag vill påpeka att det finns två nivåer av hur en sådan sammanslagning påverkar:

  1. Datamängders tillhörighet
  2. Hur data i datamängder ändras när organisationsmärkningar ändras. T.ex. kan det göra långsiktig statistik svår eller omöjlig då det geografiska området ändrats.

I denna konversation beaktar vi endast 1, dvs datamängders tillhörighet. Visserligen kan man vilja ha statistik över mängd datamängder en enskild organisation tillhandahåller, men detta problem skulle jag säga är försumbart och hanterbart relativt det större problem vi löser med duplicerade organisationer.

@matthiaspalmer matthiaspalmer changed the title Hur man undviker dupletter av organisationer på öppnadata.se Hur man undviker dubbletter av organisationer på öppnadata.se Sep 23, 2019
@bjornhagstrom
Copy link

@matthiaspalmer ändringar slår till och med igenom INOM ett dygn. Borde vara tillräckligt snabbt för de flesta?

@matthiaspalmer
Copy link
Collaborator Author

@bjornhagstrom Ja, du har rätt inom ett dygn inte efter.

@carwash
Copy link

carwash commented Sep 30, 2019

På mötet 2019-09-30 var det lite snack om hur organisationer skulle kunna identifieras kopplat (tror jag) den här issue:n. Specifikt nämndes något om identifierare som skulle kunna tilldelas av KB med organisationsnummer som "slug". Där finns det dock problem med aktörer som delar samma organisationsnummer.
Varför inte helt enkelt använda organisationens basdomän som identifierare (URI) i LOD-andan? Eller en avdelnings- enhetens URI under domänen om man behöver vara så specifik. Riksarkivet skulle t.ex. vara <http://www.ra.se/>. Vill man ha en koppling till organisationsnummer kan man väl ange detta i ett RDF-dokument på den URI:n som levereras till användaragent som kan acceptera den (tillsammans med andra beskrivande foaf:-uppgifter). Eller?

@matthiaspalmer
Copy link
Collaborator Author

Efter diskussion på mötet kom vi överens om att hålla oss till den modell som KB använder för URI:er till organisationerna. Dvs det förslag som ligger här kvarstår:
https://diggsweden.github.io/DCAT-AP-SE/docs/harvesting.html#identifierare-f%C3%B6r-utgivande-organisationer

@matthiaspalmer
Copy link
Collaborator Author

matthiaspalmer commented Nov 19, 2020

Efter vidare diskussioner med DIGG och vart dataportalen är på väg har vi valt att ändra rekommendationen från identifierare som använder Kungliga Bibliotekets adress struktur till adresser som ligger under dataportal.se.
De huvudsakliga fördelarna med detta är att:

  1. Det blir enklare att tillhandahålla landningssidor för varje organisation där man kan ge en sammanhängande bild av organisationens närvaro på dataportalen, t.ex. vilka datamängder, datatjänster, begrepp och specifikationer som tillhandahålls av denna organisation.
  2. Tillhandahålla metadata på dessa adresser i enlighet med länkade data principer.

Nackdelen är i huvudsak att vi får lite mindre interoperabilitet då data som uttrycks av KB, t.ex. i samband med e-plikt inte lika enkelt kan ses hänvisa till samma organisation. En lösning på detta är dock att man knyter samman adresserna med owl:sameAs så kan kompetenta konsumenter ändå förstår att det handlar om samma organisation.

Den adress som nu rekommenderas är:
http://dataportal.se/organisation/SE<orgnr>[-suffix]

Där orgnr är ett 10-siffrigt organisationsnummer och den valfria suffixet används efter överenskommelse om flera utgivande organisationer delar organisationsnummer. Observera att organisationsnummret ska anges utan mellanslag eller bindestreck.

@salgo60
Copy link

salgo60 commented Nov 19, 2020

A) Spännande när finns det i produktion ?

A-1) skall vi skapa en identifierare i Wikidata som kopplar mot era organisationer?
Jag har föreslaget det på community.entryscape.com

Andra frågor:
B) Google berättade i veckan om dataset search engine (video )och dom matchar direkt inkommande metadata etc mot sin Kunskapsgraf. Fråga finns tankar på att bygga en kunskapsgraf för dataseten.... jag har tidigare lyssnat till projektet grunddatat och dom verkar mer titta i backspegeln än att se nya möjligheter se min kommentar. Min fråga finns tankar på detta och vem driver detta

Slide med Knowledge Graph reconciliation vid 22:05
image

Har även kollat på den Europeana dataportal (webscraping) och dom har textsträngar med språktag och på en rak fråga under mötet ovan så kändes det som dom inser att dom borde ha en kunskapsgraf men verkar inte orka ta steget.... Bra artikel från Google AI "Fostering an Open Data Echosystem to deliver good data and metadata about datasets". Jag har tidigare kopplat ihop en annan aggregator Europeana som har Europas museer och startade 2012 och det är en katastrof hur dom gissar med textsträngar se blog "Carl Larsson who is that - sadly Europeana doesnt know --> #Metadatadebt" det slutade med att en:Wikipedia röstade igenom att inte länka Europeana pga att kvaliten är för dålig

C) Ett problem jag ser att dataseten flyttas runt mellan olika portaler att dataset med version behöver unika identifierare som återfinns i alla portaler finns det en lösning på detta? Vem driver detta? Jag tror på att ha något som DOI som pekar på version av datat

Skrik till om Wikidata kan hjälpa till det känns idag som Öppen Data inte tar fart ...

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

5 participants