New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Hur man undviker dubbletter av organisationer på öppnadata.se #15
Comments
Hur hanterar man sammanslagningar/delningar av organisationer där organisationer byter orgnr till orgnr för den organisation man slås ihop med alt får ett nytt orgnr? "Innehållet" i organisationen har ju förändrats i dessa fall. Här skulle man ju vilja ha en form av dubbletter där organisationsförändringen framgår på respektive post, dvs att det finns en skillnad trots att organisationsnumret är detsamma |
Thomas: Är det ett problem? Man ändrar då unik identifierare för org och inom något dygn så är att syndikerat genom ekosystemet. Det är identifierare, inte beständiga identifierare. Är det ett problem? Mattias: Jag tycker det är klokt att använda sig av andras arbete här. Är KB nöjda med sin lösning eller finns det brister vi bör vara medvetna om? Bra att det finns ett SE med så man har kopplingen till land med redan nu. |
Missförstod kanske men om man ändrar omfattningen/uppdraget t ex genom en sammanslagningar men använder ett orgnr för en av de inblandade parterna (och att använda orgnr i metadatat för att identifiera organisationen uppfattade jag som en tanke som tänks) avser ju datat för detta orgnr något annat efter förändringen. Och det kan väl vara intressant att veta som datakonsument? Man kan ju t ex tänka sig att det blir kommunsammanslagningar så småningom. Eller att stora verksamheter byter huvudman. Kanske ett icke-problem trots allt? Men om jag skulle jobba med t ex ekonomidata skulle jag vilja veta om den avsåg samma verksamhet/geografiska område etc om sådana förändringar är möjliga att spegla i metadatat. Men jag är ju ingen statistiker å andra sidan. Som sagt - kanske ett icke-problem. |
@bjornhagstrom Ska höra med KB om erfarenheter från deras lösning. @thomaskvist som Björn sa så kommer ändringar att uppdateras genom systemet efter ett dygn, eller tidigare om man loggar in i registrera och klickar på skörda om knappen. Jag vill påpeka att det finns två nivåer av hur en sådan sammanslagning påverkar:
I denna konversation beaktar vi endast 1, dvs datamängders tillhörighet. Visserligen kan man vilja ha statistik över mängd datamängder en enskild organisation tillhandahåller, men detta problem skulle jag säga är försumbart och hanterbart relativt det större problem vi löser med duplicerade organisationer. |
@matthiaspalmer ändringar slår till och med igenom INOM ett dygn. Borde vara tillräckligt snabbt för de flesta? |
@bjornhagstrom Ja, du har rätt inom ett dygn inte efter. |
På mötet 2019-09-30 var det lite snack om hur organisationer skulle kunna identifieras kopplat (tror jag) den här issue:n. Specifikt nämndes något om identifierare som skulle kunna tilldelas av KB med organisationsnummer som "slug". Där finns det dock problem med aktörer som delar samma organisationsnummer. |
Efter diskussion på mötet kom vi överens om att hålla oss till den modell som KB använder för URI:er till organisationerna. Dvs det förslag som ligger här kvarstår: |
Efter vidare diskussioner med DIGG och vart dataportalen är på väg har vi valt att ändra rekommendationen från identifierare som använder Kungliga Bibliotekets adress struktur till adresser som ligger under dataportal.se.
Nackdelen är i huvudsak att vi får lite mindre interoperabilitet då data som uttrycks av KB, t.ex. i samband med e-plikt inte lika enkelt kan ses hänvisa till samma organisation. En lösning på detta är dock att man knyter samman adresserna med owl:sameAs så kan kompetenta konsumenter ändå förstår att det handlar om samma organisation. Den adress som nu rekommenderas är: Där orgnr är ett 10-siffrigt organisationsnummer och den valfria suffixet används efter överenskommelse om flera utgivande organisationer delar organisationsnummer. Observera att organisationsnummret ska anges utan mellanslag eller bindestreck. |
A) Spännande när finns det i produktion ? A-1) skall vi skapa en identifierare i Wikidata som kopplar mot era organisationer? Andra frågor: Slide med Knowledge Graph reconciliation vid 22:05 Har även kollat på den Europeana dataportal (webscraping) och dom har textsträngar med språktag och på en rak fråga under mötet ovan så kändes det som dom inser att dom borde ha en kunskapsgraf men verkar inte orka ta steget.... Bra artikel från Google AI "Fostering an Open Data Echosystem to deliver good data and metadata about datasets". Jag har tidigare kopplat ihop en annan aggregator Europeana som har Europas museer och startade 2012 och det är en katastrof hur dom gissar med textsträngar se blog "Carl Larsson who is that - sadly Europeana doesnt know --> #Metadatadebt" det slutade med att en:Wikipedia röstade igenom att inte länka Europeana pga att kvaliten är för dålig C) Ett problem jag ser att dataseten flyttas runt mellan olika portaler att dataset med version behöver unika identifierare som återfinns i alla portaler finns det en lösning på detta? Vem driver detta? Jag tror på att ha något som DOI som pekar på version av datat Skrik till om Wikidata kan hjälpa till det känns idag som Öppen Data inte tar fart ... |
Se förslag här:
https://metasolutionsab.github.io/DCAT-AP-SE/docs/harvesting.html#identifierare-för-utgivande-organisationer
The text was updated successfully, but these errors were encountered: