# Koordinatsättning med hjälp av socknar och landskap


För botaniska föremål insamlade i Sverige känner vi ofta till socken medan koordinat saknas. Genom att använda sockenkoordinater som tagits fram vid herbariet i Lund skulle vi därmed med relativt enkla medel förmodligen kunna koordinatsätta en stor del av våra svenska samlingsföremål.

Vad kan vi då åstadkomma genom att använda landskaps- och sockenkoordinater? Först undersöker jag hur många föremålsposter som potentiellt skulle kunna koordinatsättas för några botaniska samlingar vid Naturhistoriska riksmuseet i Stockholm (kärlväxter, mossor, alger och svampar (inklusive lavar). Sedan tittar jag på hur det kan se ut för en icke-botanisk samling. Jag använder den entomologiska samlingen vid Naturhistoriska riksmuseet som exempel.

In [1]:
# Importera diverse bibliotek
%matplotlib inline
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd




# Landskap och socknar hos kärlväxter


In [None]:
vasc_plants = pd.read_csv('s-vascular-plants-20160330.csv', encoding='utf8', dtype='unicode')
vasc_plants.tail(10)

### Antal svenska föremålsposter

In [None]:
vasc_plants_tot_cnt = len(vasc_plants)
vasc_plants_tot_cnt

### Poster med information om landskap

In [None]:
vasc_plants_landskap_cnt = vasc_plants.Province.notnull().sum()
vasc_plants_landskap_frq = vasc_plants_landskap_cnt / vasc_plants_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(vasc_plants_landskap_cnt, vasc_plants_landskap_frq))

### Poster med information om socken

In [None]:
vasc_plants_socken_cnt = vasc_plants.Parish.notnull().sum()
vasc_plants_socken_frq = vasc_plants_socken_cnt / vasc_plants_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(vasc_plants_socken_cnt, vasc_plants_socken_frq))

### Poster med detaljerad lokalinformation

Fördelningen hos antalet tecken i fältet "Locality". Textlängder upp till 300 tecken visas.

In [None]:
vasc_plants_strlen = vasc_plants.Locality.fillna('').str.len()
vasc_plants_strlen.plot.hist(
    bins=20, xlim=(0, 300), range=(0, 300),
    title='Kärlväxter: antal tecken i fältet "Locality"')

### Poster med koordinater

Huvudsakligen tre typer av koordinater förekommer: (1) WGS84 (eller förmodad WGS84), (2) Rikets Nät 1990 (RT90) eller en RUBIN (dvs. alfanumeriska koordinater enligt Rikets Nät.

In [None]:
vasc_plants_coordinates = pd.DataFrame({
        'WGS84': (vasc_plants['latitud grader'].notnull() & vasc_plants['longitud grader'].notnull()),
        'RT90': (vasc_plants.RT90E.notnull() & vasc_plants.RT90N.notnull()),
        'RUBIN': vasc_plants.rubin1.notnull()})
vasc_plants_coordinates.sum().plot.bar(title='Kärlväxter: förekomst av koordinater')

Antal poster med någon av koordinattyperna:

In [None]:
vasc_plants_coordinate_cnt = vasc_plants_coordinates.any(axis=1).sum()
vasc_plants_coordinate_frq = vasc_plants_coordinate_cnt / vasc_plants_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(vasc_plants_coordinate_cnt, vasc_plants_coordinate_frq))

# Landskap och socknar hos mossor

In [None]:
mosses = pd.read_csv('s-mosses-20160331.csv', encoding='utf8', dtype='unicode')
mosses.tail(10)

### Antal svenska föremålsposter

In [None]:
mosses_tot_cnt = len(mosses)
mosses_tot_cnt

### Poster med information om landskap

In [None]:
mosses_landskap_cnt = mosses.provins.notnull().sum()
mosses_landskap_frq = mosses_landskap_cnt / mosses_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(mosses_landskap_cnt, mosses_landskap_frq))

### Poster med information om socken

In [None]:
mosses_socken_cnt = mosses.distrikt.notnull().sum()
mosses_socken_frq = mosses_socken_cnt / mosses_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(mosses_socken_cnt, mosses_socken_frq))

### Poster med detaljerad lokalinformation

Fördelningen hos antalet tecken i fältet "lokal". Textlängder upp till 300 tecken visas.

In [None]:
mosses_strlen = mosses.lokal.fillna('').str.len()
mosses_strlen.plot.hist(
    bins=20, xlim=(0, 300), range=(0, 300),
    title='Mossor: antal tecken i fältet "lokal"')

### Poster med koordinater

Huvudsakligen tre typer av koordinater förekommer: (1) WGS84 (eller förmodad WGS84), (2) Rikets Nät 1990 (RT90) eller en RUBIN (dvs. alfanumeriska koordinater enligt Rikets Nät.

In [None]:
mosses_coordinates = pd.DataFrame({
        'WGS84': (mosses['latitud_grad'].notnull() & mosses['longitud_grad'].notnull()),
        'RT90': (mosses.RT90E.notnull() & mosses.RT90N.notnull()),
        'RUBIN': mosses.Rubin1.notnull()})
mosses_coordinates.sum().plot.bar(title='Mossor: förekomst av koordinater')

Antal poster med någon av koordinattyperna:

In [None]:
mosses_coordinate_cnt = mosses_coordinates.any(axis=1).sum()
mosses_coordinate_frq = mosses_coordinate_cnt / mosses_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(mosses_coordinate_cnt, mosses_coordinate_frq))

# Landskap och socknar hos alger

In [None]:
algae = pd.read_csv('s-algae-20160331.csv', encoding='utf8', dtype='unicode')
algae.tail(10)

### Antal svenska föremålsposter

In [None]:
algae_tot_cnt = len(algae)
algae_tot_cnt

### Poster med information om landskap

In [None]:
algae_landskap_cnt = algae.provins.notnull().sum()
algae_landskap_frq = algae_landskap_cnt / algae_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(algae_landskap_cnt, algae_landskap_frq))

### Poster med information om socken

In [None]:
algae_socken_cnt = algae.distrikt.notnull().sum()
algae_socken_frq = algae_socken_cnt / algae_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(algae_socken_cnt, algae_socken_frq))

### Poster med detaljerad lokalinformation

Fördelningen hos antalet tecken i fältet "lokal". Textlängder upp till 300 tecken visas.

In [None]:
algae_strlen = algae.lokal.fillna('').str.len()
algae_strlen.plot.hist(
    bins=20, xlim=(0, 300), range=(0, 300),
    title='Alger: antal tecken i fältet "lokal"')

### Poster med koordinater

Huvudsakligen tre typer av koordinater förekommer: (1) WGS84 (eller förmodad WGS84), (2) Rikets Nät 1990 (RT90) eller en RUBIN (dvs. alfanumeriska koordinater enligt Rikets Nät.

In [None]:
algae_coordinates = pd.DataFrame({
        'WGS84': (algae['latitud_grad'].notnull() & algae['longitud_grad'].notnull()),
        'RT90': (algae.RT90E.notnull() & algae.RT90N.notnull()),
        'RUBIN': algae.Rubin1.notnull()})
algae_coordinates.sum().plot.bar(title='Alger: förekomst av koordinater')

Antal poster med någon av koordinattyperna:

In [None]:
algae_coordinate_cnt = algae_coordinates.any(axis=1).sum()
algae_coordinate_frq = algae_coordinate_cnt / algae_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(algae_coordinate_cnt, algae_coordinate_frq))

# Landskap och socknar hos svampar och lavar

In [None]:
fungi = pd.read_csv('s-fungi-20160331.csv', encoding='utf8', dtype='unicode')
fungi.tail(10)

### Antal svenska föremålsposter

In [None]:
fungi_tot_cnt = len(fungi)
fungi_tot_cnt

### Poster med information om landskap

In [None]:
fungi_landskap_cnt = fungi.provins.notnull().sum()
fungi_landskap_frq = fungi_landskap_cnt / fungi_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(fungi_landskap_cnt, fungi_landskap_frq))

### Poster med information om socken

In [None]:
fungi_socken_cnt = fungi.distrikt.notnull().sum()
fungi_socken_frq = fungi_socken_cnt / fungi_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(fungi_socken_cnt, fungi_socken_frq))

### Poster med detaljerad lokalinformation

Fördelningen hos antalet tecken i fältet "lokal". Textlängder upp till 300 tecken visas.

In [None]:
fungi_strlen = fungi.lokal.fillna('').str.len()
fungi_strlen.plot.hist(
    bins=20, xlim=(0, 300), range=(0, 300),
    title='Svampar: antal tecken i fältet "lokal"')

### Poster med koordinater

Huvudsakligen tre typer av koordinater förekommer: (1) WGS84 (eller förmodad WGS84), (2) Rikets Nät 1990 (RT90) eller en RUBIN (dvs. alfanumeriska koordinater enligt Rikets Nät.

In [None]:
fungi_coordinates = pd.DataFrame({
        'WGS84': (fungi['latitud_grad'].notnull() & fungi['longitud_grad'].notnull()),
        'RT90': (fungi.RT90E.notnull() & fungi.RT90N.notnull()),
        'RUBIN': fungi.Rubin1.notnull()})
fungi_coordinates.sum().plot.bar(title='Svampar: förekomst av koordinater')

Antal poster med någon av koordinattyperna:

In [None]:
fungi_coordinate_cnt = fungi_coordinates.any(axis=1).sum()
fungi_coordinate_frq = fungi_coordinate_cnt / fungi_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(fungi_coordinate_cnt, fungi_coordinate_frq))

# Landskap och socknar i en entomologiska samling

Följande SQL-fråga kördes mot Specify-databasen för att ta ut alla poster med föremål som samlats in i **Sverige**.

```    
SELECT 
    collectionobject.remarks,
    locality.localityname,
    CONCAT_WS(
		', ', CAST(latitude1 AS CHAR), CAST(longitude1 AS CHAR)
	) AS coordinate,
    locality.disciplineid,
    geography.fullname
FROM
    collectionobject
        INNER JOIN
    collection USING (collectionid)
        LEFT JOIN
    collectingevent USING (collectingeventid)
        LEFT JOIN
    locality USING (localityid)
        LEFT JOIN
    geography USING (geographyid)
WHERE
    collection.code = 'NHRS'
        AND geography.fullname LIKE '%Sweden%'
LIMIT 100000
;

```

Posterna exporteras till CSV och läses sedan in i Python:

In [None]:
nhrs = pd.read_csv('nhrs-20160307.csv', encoding='utf8')

Låt oss ta en titt på hur data ser ut (här visas de 10 sista posterna):

In [None]:
nhrs.tail(10)

### Antal svenska föremålsposter

In [None]:
nhrs_tot_cnt = len(nhrs)
nhrs_tot_cnt

### Poster med information om landskap

Vi kollar också upp hur många poster som för närvarande är kopplade till landskap:

In [None]:
landskap = [
    'Blekinge', 'Bohuslän', 'Dalarna', 'Dalsland', 'Gotland',
    'Gästrikland', 'Halland', 'Hälsingland', 'Härjedalen', 'Jämtland',
    'Lappland', 'Lule Lappmark', 'Lycksele Lappmark', 'Medelpad',
    'Norrbotten', 'Närke', 'Pite Lappmark', 'Skåne', 'Småland',
    'Södermanland', 'Torne Lappmark', 'Uppland', 'Värmland',
    'Västerbotten', 'Västergötland', 'Västmanland', 'Ångermanland',
    'Åsele Lappmark', 'Öland', 'Östergötland']

matches = []
for lskp in landskap:
    matches.append(nhrs.fullname.str.contains(lskp))
nhrs_landskap_cnt = pd.concat(matches).sum()
nhrs_landskap_frq = nhrs_landskap_cnt / nhrs_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(nhrs_landskap_cnt, nhrs_landskap_frq))

### Poster med etikettavskrift

Information om socken kan man hitta i text som skrivits av från etiketter. Här räknas antalet svenska föremålsposter som troligen har en etikettavskrift (värdet är sannolikt överskattat eftersom fältet "remarks" även kan innehålla annat än ren etikettavskrift):

In [None]:
nhrs_labeltext_cnt = nhrs.remarks.notnull().sum()
nhrs_labeltext_frq = nhrs_labeltext_cnt / nhrs_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(nhrs_labeltext_cnt, nhrs_labeltext_frq))

### Poster som bör kunna kopplas till socken

Här räknar vi antalet poster som relativt enkelt bör kunna kopplas ihop med en socken:

In [None]:
nhrs_remarks_socken_mask = nhrs.remarks.str.contains(
    '\ssn$|\ssn[\s\.,;]|s:n|socken', na=False)
nhrs_localityname_socken_mask = nhrs.localityname.str.contains(
    '\ssn$|\ssn[\s\.,;]|s:n|socken', na=False)
nhrs_socken_cnt = (nhrs_remarks_socken_mask | nhrs_localityname_socken_mask).sum()
nhrs_socken_frq = nhrs_socken_cnt / nhrs_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(nhrs_socken_cnt, nhrs_socken_frq))

### Poster med detaljerad lokalinformation

Det är svårt att filtrera ut poster som har detaljerad information om insamlingsplatsen. Detta beror på att fältet "localityname" i Specify inte får lämnas tomt. Entomologerna brukar vanligtvis (dock inte alltid!) skriva "No precise locality information avialable" i fältet när detaljerad information saknas. Således kan vi räkna alla de övriga posterna:

In [None]:
nhrs_detailed_locality_cnt = (~nhrs.localityname.str.contains('[Nn]o\s+precise', na=True, regex=True)).sum()
nhrs_detailed_locality_frq = nhrs_detailed_locality_cnt / nhrs_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(nhrs_detailed_locality_cnt, nhrs_detailed_locality_frq))

Fördelningen hos antalet tecken i fältet "localityname". Textlängder upp till 300 tecken visas.

In [None]:
nhrs_localityname_strlen = nhrs.localityname.fillna('').str.len()
nhrs_localityname_strlen.plot.hist(
    bins=20, xlim=(0, 300), ylim=(0, 30000), range=(0, 300),
    title='NHRS: antal tecken i fältet "localityname"')

Fördelningen hos antalet tecken i fältet "remarks". Textlängder upp till 300 tecken visas.

In [None]:
nhrs_remarks_strlen = nhrs.remarks.fillna('').str.len()
nhrs_remarks_strlen.plot.hist(
    bins=20, xlim=(0, 300), ylim=(0, 30000), range=(0, 300),
    title='NHRS: antal tecken i fältet "remarks"')

### Poster med koordinater

Avslutningsvis räknar vi antalet svenska poster med koordinater:

In [None]:
nhrs_coord_cnt = nhrs.coordinate.notnull().sum()
nhrs_coord_frq = nhrs_coord_cnt / nhrs_tot_cnt
print(
    '{} poster ({:.1%} av alla svenska poster)'
    .format(nhrs_coord_cnt, nhrs_coord_frq))