Skip to content
This repository has been archived by the owner on Sep 7, 2022. It is now read-only.

Dedupliceringsregler

Tuija Drake edited this page Aug 30, 2018 · 21 revisions

Följande är en lista över dedupliceringsregler som används inom Swepub för analys och bibliometri.

Namn Viktning Beskrivning
Same URI match 1,01 Matchar poster med samma identifierare från MODS-formatet. SPARQL-query
Same ISBN match - Regel som konstaterar ISBN-match och genererar tripplar om detta. Ger ingen viktning. SPARQL-query
Same Alternative Sub Title match Antal tecken i alternativ undertitel, inklusive whitespace, delat med 100. Blir kvoten större än 0,3 returneras 0,3. Matchar alternativa undertitlar. SPARQL-query
Same Patent Number 0,9 Matchar på patentnummer. SPARQL-query
Same ISI match 0,9 Matchar på ISI ID SPARQL-query
Identifiable record tagging Lägger till trippel om att posten har en identifierare i form av ISBN, ISI ID, DOI, patentnummer, Pubmed ID, eller Scopus ID. SPARQL-query
Same Scopus ID match 0,9 Posterna har identiska Scopus ID:n. SPARQL-query
Same Alternative Title match Antal tecken i alternativ titel, inklusive whitespace, delat med 100. Blir kvoten större än 0,5 returneras 0,5. Posternas 15 första tecken i alternativtitlarna är identiska. SPARQL-query
Same PM ID match 0,9 Pubmed ID överrenstämmer. SPARQL-query
Same Sub-Title match Antal tecken i undertitel, inklusive whitespace, delat med 100. Blir kvoten större än 0,5 returneras 0,5 Posternas 15 första tecken i undertitlarna är identiska. SPARQL-query
Same Title match Antal tecken i normaliserad titel delat med 100. Blir kvoten större än 0,9 returneras 0,9. Blir kvoten mindre än 0,5 returneras 0,5 De första 15 tecknen i den normaliserade titeln överrensstämmer. SPARQL-query
Creator Count shortcutting - Lägger till uppgift om antalet upphovspersoner i SwePub-ontologin. SPARQL-query
Same DOI match - Konstaterar DOI-matchning. SPARQL-query
Same Publication Year match 0,11 Matchar publiceringsår. SPARQL-query
DOI match weight for non-KON publication type 0,85 DOI-matchning för icke konferensbidrag. SPARQL-query
Same DOI/Scopus/PMID match conflicts with ISI -0,9 Ger minuspoäng om DOI, Scopus ID eller Pubmed ID matchar men inte ISI ID. SPARQL-query
DOI match weight for KON publication type 0,4 DOI-matchning för konferensbidrag. SPARQL-query
Same Creator Count 0,1 Samma antal upphovsmän, men bara om där föreligger någon annan typ av matchning. SPARQL-query
ISBN match weight for BOK publication type 0,8 delat med antalet överrenstämmande ISBN. ISBN-matchning för poster med publikationstypen “bok”. SPARQL-query
ISBN match weight for non-BOK publication type 0,5 delat med antalet överensstämmande ISBN ISBN-matchning för poster som inte har publikationstypen “bok”. SPARQL-query
Same Author Local ID match 0,2 delat med antalet författare Matchning på lokalt användar-id. SPARQL-query
Same ISI/Scopus/PMID match conflicts with DOI -0,7 Posterna matchar på ISI ID, Scopus ID eller PM ID, men inte på DOI. SPARQL-query
Same Author Name match 0,15 delat med antalet författare Samma författarnamn, men också publikationsår, organisation (som levererat posten) och swpa_m:publicationTypeCode plus annan typ av matchning. SPARQL-query
Same Publication Channel match 0,05 Publikationskanalen är densamma. SPARQL-query
Same start and end page 0,1 Start- och slutsida överrensstämmer. Förutsätter tidigare matchningar. SPARQL-query
Same RelatedItem match 0,05 Redan tidigare matchande poster som har samma RelatedItem men som inte är publicerade i listan över publikationskanaler. SPARQL-query
Assert explicitly Match type - Konstaterar att posten matchar någon annan post. SPARQL-query
All possibly Same as with matching weight - SPARQL-query
Mark Records eligible for De-duplication - Märker upp alla poster färdiga för deduplicering. Dessa måste nå upp till datakvalitetsnivå 3. SPARQL-query
SamePublicationAs and SameCreativeWork from Blacklist - SPARQL-query
SamePublicationAs and Same CreativeWork without relatedItem - SPARQL-query
SamePublicationAs and SameCreativeWork with matching weight and exclude white list SPARQL-query
SameCreativeWork based on Channels list - SPARQL-query