This repository has been archived by the owner on Sep 7, 2022. It is now read-only.
Dedupliceringsregler
Tuija Drake edited this page Aug 30, 2018
·
21 revisions
Följande är en lista över dedupliceringsregler som används inom Swepub för analys och bibliometri.
Namn | Viktning | Beskrivning | |
---|---|---|---|
Same URI match | 1,01 | Matchar poster med samma identifierare från MODS-formatet. | SPARQL-query |
Same ISBN match | - | Regel som konstaterar ISBN-match och genererar tripplar om detta. Ger ingen viktning. | SPARQL-query |
Same Alternative Sub Title match | Antal tecken i alternativ undertitel, inklusive whitespace, delat med 100. Blir kvoten större än 0,3 returneras 0,3. | Matchar alternativa undertitlar. | SPARQL-query |
Same Patent Number | 0,9 | Matchar på patentnummer. | SPARQL-query |
Same ISI match | 0,9 | Matchar på ISI ID | SPARQL-query |
Identifiable record tagging | — | Lägger till trippel om att posten har en identifierare i form av ISBN, ISI ID, DOI, patentnummer, Pubmed ID, eller Scopus ID. | SPARQL-query |
Same Scopus ID match | 0,9 | Posterna har identiska Scopus ID:n. | SPARQL-query |
Same Alternative Title match | Antal tecken i alternativ titel, inklusive whitespace, delat med 100. Blir kvoten större än 0,5 returneras 0,5. | Posternas 15 första tecken i alternativtitlarna är identiska. | SPARQL-query |
Same PM ID match | 0,9 | Pubmed ID överrenstämmer. | SPARQL-query |
Same Sub-Title match | Antal tecken i undertitel, inklusive whitespace, delat med 100. Blir kvoten större än 0,5 returneras 0,5 | Posternas 15 första tecken i undertitlarna är identiska. | SPARQL-query |
Same Title match | Antal tecken i normaliserad titel delat med 100. Blir kvoten större än 0,9 returneras 0,9. Blir kvoten mindre än 0,5 returneras 0,5 | De första 15 tecknen i den normaliserade titeln överrensstämmer. | SPARQL-query |
Creator Count shortcutting | - | Lägger till uppgift om antalet upphovspersoner i SwePub-ontologin. | SPARQL-query |
Same DOI match | - | Konstaterar DOI-matchning. | SPARQL-query |
Same Publication Year match | 0,11 | Matchar publiceringsår. | SPARQL-query |
DOI match weight for non-KON publication type | 0,85 | DOI-matchning för icke konferensbidrag. | SPARQL-query |
Same DOI/Scopus/PMID match conflicts with ISI | -0,9 | Ger minuspoäng om DOI, Scopus ID eller Pubmed ID matchar men inte ISI ID. | SPARQL-query |
DOI match weight for KON publication type | 0,4 | DOI-matchning för konferensbidrag. | SPARQL-query |
Same Creator Count | 0,1 | Samma antal upphovsmän, men bara om där föreligger någon annan typ av matchning. | SPARQL-query |
ISBN match weight for BOK publication type | 0,8 delat med antalet överrenstämmande ISBN. | ISBN-matchning för poster med publikationstypen “bok”. | SPARQL-query |
ISBN match weight for non-BOK publication type | 0,5 delat med antalet överensstämmande ISBN | ISBN-matchning för poster som inte har publikationstypen “bok”. | SPARQL-query |
Same Author Local ID match | 0,2 delat med antalet författare | Matchning på lokalt användar-id. | SPARQL-query |
Same ISI/Scopus/PMID match conflicts with DOI | -0,7 | Posterna matchar på ISI ID, Scopus ID eller PM ID, men inte på DOI. | SPARQL-query |
Same Author Name match | 0,15 delat med antalet författare | Samma författarnamn, men också publikationsår, organisation (som levererat posten) och swpa_m:publicationTypeCode plus annan typ av matchning. | SPARQL-query |
Same Publication Channel match | 0,05 | Publikationskanalen är densamma. | SPARQL-query |
Same start and end page | 0,1 | Start- och slutsida överrensstämmer. Förutsätter tidigare matchningar. | SPARQL-query |
Same RelatedItem match | 0,05 | Redan tidigare matchande poster som har samma RelatedItem men som inte är publicerade i listan över publikationskanaler. | SPARQL-query |
Assert explicitly Match type | - | Konstaterar att posten matchar någon annan post. | SPARQL-query |
All possibly Same as with matching weight | - | SPARQL-query | |
Mark Records eligible for De-duplication | - | Märker upp alla poster färdiga för deduplicering. Dessa måste nå upp till datakvalitetsnivå 3. | SPARQL-query |
SamePublicationAs and SameCreativeWork from Blacklist | - | SPARQL-query | |
SamePublicationAs and Same CreativeWork without relatedItem | - | SPARQL-query | |
SamePublicationAs and SameCreativeWork with matching weight and exclude white list | SPARQL-query | ||
SameCreativeWork based on Channels list | - | SPARQL-query |