In [36]:
import pandas as pd
import fnmatch
import numpy as np
import requests
import json
from bs4 import BeautifulSoup
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
import matplotlib.pyplot as plt 

In [33]:
# Load the weather data that has been downloaded from SMHI.
weather = pd.read_csv("weather_data.csv")

In [15]:
# Extract the unique locations of all weather stations.
locations = weather["location"].unique()

# The data from SMHI does not show what county each stations is located in.
# In order to retrieve this information we scrape Wikipedia for each 
# weather station and find the county.
def scrape_wikipedia(locations):
    all_counties = []
    for location in locations:

        try:
            new_location = location.split(' ')[0]

            r = requests.get(url = "https://sv.wikipedia.org/wiki/"+new_location, timeout=5)
            soup = BeautifulSoup(r.text)
            county = soup.find(title="Län orten ligger i").find('span').find("a")["title"]
            all_counties.append(county)

        except:
            all_counties.append("Not found")
            print("Not found")
    return all_counties

In [16]:
all_counties = ['Norrbottens län',
 'Not found',
 'Västerbottens län',
 'Västra Götalands län',
 'Not found',
 'Kalmar län',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Västerbottens län',
 'Not found',
 'Not found',
 'Dalarnas län',
 'Not found',
 'Not found',
 'Västerbottens län',
 'Not found',
 'Not found',
 'Västra Götalands län',
 'Not found',
 'Gävleborgs län',
 'Not found',
 'Dalarnas län',
 'Skåne län',
 'Uppsala län',
 'Not found',
 'Södermanlands län',
 'Not found',
 'Västra Götalands län',
 'Gävleborgs län',
 'Jämtlands län',
 'Dalarnas län',
 'Västra Götalands län',
 'Jönköpings län',
 'Not found',
 'Västernorrlands län',
 'Skåne län',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Skåne län',
 'Västerbottens län',
 'Västra Götalands län',
 'Not found',
 'Östergötlands län',
 'Värmlands län',
 'Dalarnas län',
 'Stockholms län',
 'Västra Götalands län',
 'Skåne län',
 'Örebro län',
 'Gävleborgs län',
 'Not found',
 'Not found',
 'Not found',
 'Jämtlands län',
 'Not found',
 'Not found',
 'Hallands län',
 'Kalmar län',
 'Uppsala län',
 'Blekinge län',
 'Södermanlands län',
 'Not found',
 'Not found',
 'Not found',
 'Skåne län',
 'Not found',
 'Not found',
 'Östergötlands län',
 'Not found',
 'Västernorrlands län',
 'Västra Götalands län',
 'Dalarnas län',
 'Blekinge län',
 'Not found',
 'Västmanlands län',
 'Västra Götalands län',
 'Not found',
 'Not found',
 'Västerbottens län',
 'Västra Götalands län',
 'Dalarnas län',
 'Not found',
 'Not found',
 'Norrbottens län',
 'Östergötlands län',
 'Not found',
 'Not found',
 'Västerbottens län',
 'Not found',
 'Örebro län',
 'Värmlands län',
 'Not found',
 'Västra Götalands län',
 'Västra Götalands län',
 'Not found',
 'Gävleborgs län',
 'Not found',
 'Not found',
 'Not found',
 'Hallands län',
 'Not found',
 'Jämtlands län',
 'Not found',
 'Norrbottens län',
 'Norrbottens län',
 'Not found',
 'Not found',
 'Gävleborgs län',
 'Jämtlands län',
 'Not found',
 'Not found',
 'Gotlands län',
 'Not found',
 'Västra Götalands län',
 'Västra Götalands län',
 'Not found',
 'Not found',
 'Dalarnas län',
 'Jämtlands län',
 'Not found',
 'Västra Götalands län',
 'Örebro län',
 'Not found',
 'Gävleborgs län',
 'Not found',
 'Not found',
 'Not found',
 'Västra Götalands län',
 'Not found',
 'Gävleborgs län',
 'Not found',
 'Not found',
 'Södermanlands län',
 'Not found',
 'Not found',
 'Södermanlands län',
 'Not found',
 'Not found',
 'Västernorrlands län',
 'Västra Götalands län',
 'Not found',
 'Not found',
 'Not found',
 'Värmlands län',
 'Not found',
 'Not found',
 'Not found',
 'Värmlands län',
 'Dalarnas län',
 'Not found',
 'Norrbottens län',
 'Norrbottens län',
 'Not found',
 'Gävleborgs län',
 'Jönköpings län',
 'Västerbottens län',
 'Norrbottens län',
 'Kalmar län',
 'Västerbottens län',
 'Norrbottens län',
 'Norrbottens län',
 'Blekinge län',
 'Örebro län',
 'Not found',
 'Norrbottens län',
 'Not found',
 'Not found',
 'Not found',
 'Gävleborgs län',
 'Not found',
 'Not found',
 'Not found',
 'Norrbottens län',
 'Östergötlands län',
 'Västerbottens län',
 'Skåne län',
 'Norrbottens län',
 'Not found',
 'Hallands län',
 'Norrbottens län',
 'Västmanlands län',
 'Örebro län',
 'Not found',
 'Västernorrlands län',
 'Skåne län',
 'Värmlands län',
 'Not found',
 'Not found',
 'Not found',
 'Västmanlands län',
 'Not found',
 'Not found',
 'Not found',
 'Jämtlands län',
 'Not found',
 'Hallands län',
 'Not found',
 'Norrbottens län',
 'Jönköpings län',
 'Västra Götalands län',
 'Västernorrlands län',
 'Hallands län',
 'Norrbottens län',
 'Skåne län',
 'Not found',
 'Not found',
 'Norrbottens län',
 'Västerbottens län',
 'Dalarnas län',
 'Värmlands län',
 'Kronobergs län',
 'Värmlands län',
 'Kronobergs län',
 'Västra Götalands län',
 'Not found',
 'Not found',
 'Östergötlands län',
 'Östergötlands län',
 'Gotlands län',
 'Kronobergs län',
 'Not found',
 'Jämtlands län',
 'Not found',
 'Gävleborgs län',
 'Not found',
 'Dalarnas län',
 'Not found',
 'Norrbottens län',
 'Skåne län',
 'Not found',
 'Not found',
 'Västra Götalands län',
 'Not found',
 'Not found',
 'Kalmar län',
 'Jämtlands län',
 'Skåne län',
 'Västerbottens län',
 'Not found',
 'Norrbottens län',
 'Jönköpings län',
 'Dalarnas län',
 'Västerbottens län',
 'Not found',
 'Västra Götalands län',
 'Södermanlands län',
 'Västra Götalands län',
 'Kronobergs län',
 'Norrbottens län',
 'Not found',
 'Kronobergs län',
 'Not found',
 'Not found',
 'Norrbottens län',
 'Östergötlands län',
 'Västernorrlands län',
 'Skåne län',
 'Norrbottens län',
 'Västernorrlands län',
 'Jämtlands län',
 'Not found',
 'Not found',
 'Gotlands län',
 'Dalarnas län',
 'Kalmar län',
 'Kalmar län',
 'Jämtlands län',
 'Gävleborgs län',
 'Not found',
 'Not found',
 'Västmanlands län',
 'Not found',
 'Västernorrlands län',
 'Not found',
 'Dalarnas län',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Stockholms län',
 'Dalarnas län',
 'Skåne län',
 'Södermanlands län',
 'Stockholms län',
 'Stockholms län',
 'Södermanlands län',
 'Västernorrlands län',
 'Jönköpings län',
 'Gävleborgs län',
 'Gävleborgs län',
 'Not found',
 'Blekinge län',
 'Not found',
 'Hallands län',
 'Kalmar län',
 'Dalarnas län',
 'Skåne län',
 'Kalmar län',
 'Södermanlands län',
 'Norrbottens län',
 'Norrbottens län',
 'Värmlands län',
 'Norrbottens län',
 'Kronobergs län',
 'Not found',
 'Not found',
 'Not found',
 'Jönköpings län',
 'Not found',
 'Västernorrlands län',
 'Not found',
 'Västmanlands län',
 'Jämtlands län',
 'Not found',
 'Västra Götalands län',
 'Jämtlands län',
 'Västerbottens län',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Norrbottens län',
 'Västmanlands län',
 'Not found',
 'Stockholms län',
 'Not found',
 'Not found',
 'Not found',
 'Gävleborgs län',
 'Skåne län',
 'Västra Götalands län',
 'Västra Götalands län',
 'Dalarnas län',
 'Not found',
 'Jönköpings län',
 'Not found',
 'Södermanlands län',
 'Västra Götalands län',
 'Not found',
 'Västernorrlands län',
 'Västerbottens län',
 'Örebro län',
 'Skåne län',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Örebro län',
 'Not found',
 'Värmlands län',
 'Not found',
 'Not found',
 'Norrbottens län',
 'Norrbottens län',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Östergötlands län',
 'Värmlands län',
 'Dalarnas län',
 'Västra Götalands län',
 'Jönköpings län',
 'Not found',
 'Västra Götalands län',
 'Gävleborgs län',
 'Not found',
 'Dalarnas län',
 'Östergötlands län',
 'Not found',
 'Stockholms län',
 'Not found',
 'Not found',
 'Västra Götalands län',
 'Not found',
 'Not found',
 'Not found',
 'Västerbottens län',
 'Not found',
 'Östergötlands län',
 'Not found',
 'Not found',
 'Skåne län',
 'Not found',
 'Östergötlands län',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Kalmar län',
 'Not found',
 'Norrbottens län',
 'Skåne län',
 'Not found',
 'Värmlands län',
 'Västra Götalands län',
 'Västernorrlands län',
 'Västra Götalands län',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Östergötlands län',
 'Södermanlands län',
 'Jämtlands län',
 'Stockholms län',
 'Jämtlands län',
 'Hallands län',
 'Uppsala län',
 'Uppsala län',
 'Hallands län',
 'Västra Götalands län',
 'Norrbottens län',
 'Norrbottens län',
 'Not found',
 'Södermanlands län',
 'Not found',
 'Gotlands län',
 'Uppsala län',
 'Skåne län',
 'Södermanlands län',
 'Norrbottens län',
 'Not found',
 'Västra Götalands län',
 'Not found',
 'Västerbottens län',
 'Not found',
 'Värmlands län',
 'Stockholms län',
 'Södermanlands län',
 'Not found',
 'Uppsala län',
 'Not found',
 'Dalarnas län',
 'Not found',
 'Västra Götalands län',
 'Skåne län',
 'Jämtlands län',
 'Jämtlands län',
 'Not found',
 'Not found',
 'Örebro län',
 'Västra Götalands län',
 'Kronobergs län',
 'Uppsala län',
 'Östergötlands län',
 'Södermanlands län',
 'Skåne län',
 'Not found',
 'Not found',
 'Not found',
 'Västra Götalands län',
 'Värmlands län',
 'Jämtlands län',
 'Västerbottens län',
 'Not found',
 'Örebro län',
 'Östergötlands län',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Not found',
 'Västernorrlands län',
 'Not found',
 'Gävleborgs län',
 'Uppsala län',
 'Not found',
 'Not found',
 'Not found',
 'Not found']

In [38]:
# Create dictionary of all the locations.
location_dictionary = {}
for location in weather["location"].unique().tolist():
    location_dictionary[location] = "Not found"
    
location_dictionary

{'Abisko': 'Not found',
 'Abraur': 'Not found',
 'Adak': 'Not found',
 'Alingsås D': 'Not found',
 'Almdalen': 'Not found',
 'Ankarsrum D': 'Not found',
 'Ankarvattnet D': 'Not found',
 'Arjeplog-Myrheden D': 'Not found',
 'Asker D': 'Not found',
 'Askim D': 'Not found',
 'Aspa D': 'Not found',
 'Aspeå': 'Not found',
 'Austers D': 'Not found',
 'Avasjö-Borgafjäll D': 'Not found',
 'Avesta': 'Not found',
 'Backe D': 'Not found',
 'Bakarebo D': 'Not found',
 'Balsjö D': 'Not found',
 'Baramossa': 'Not found',
 'Bastansjö D': 'Not found',
 'Bengtsfors': 'Not found',
 'Berg': 'Not found',
 'Bergsjö': 'Not found',
 'Bispgården': 'Not found',
 'Bjursås': 'Not found',
 'Bjärnum D': 'Not found',
 'Björklinge D': 'Not found',
 'Björkudden': 'Not found',
 'Björkvik D': 'Not found',
 'Blaiken D': 'Not found',
 'Bollebygd': 'Not found',
 'Bollnäs D': 'Not found',
 'Borgvattnet D': 'Not found',
 'Borlänge D': 'Not found',
 'Borås': 'Not found',
 'Bottnaryd': 'Not found',
 'Bottnen': 'Not found',
 '

In [31]:
# Not all locations was able to be retrieved by scraping Wikipedia.
# In the manual_location_dictionary the locations that could not be
# found has been added manually.

manual_location_dictionary = {'Abisko': 'Norrbottens län',
 'Abraur': 'Not found',
 'Adak': 'Västerbottens län',
 'Alingsås D': 'Västra Götalands län',
 'Almdalen': 'Not found',
 'Ankarsrum D': 'Kalmar län',
 'Ankarvattnet D': 'Not found',
 'Arjeplog-Myrheden D': 'Not found',
 'Asker D': 'Not found',
 'Askim D': 'Not found',
 'Aspa D': 'Not found',
 'Aspeå': 'Västerbottens län',
 'Austers D': 'Not found',
 'Avasjö-Borgafjäll D': 'Not found',
 'Avesta': 'Dalarnas län',
 'Backe D': 'Not found',
 'Bakarebo D': 'Not found',
 'Balsjö D': 'Västerbottens län',
 'Baramossa': 'Not found',
 'Bastansjö D': 'Not found',
 'Bengtsfors': 'Västra Götalands län',
 'Berg': 'Not found',
 'Bergsjö': 'Gävleborgs län',
 'Bispgården': 'Not found',
 'Bjursås': 'Dalarnas län',
 'Bjärnum D': 'Skåne län',
 'Björklinge D': 'Uppsala län',
 'Björkudden': 'Not found',
 'Björkvik D': 'Södermanlands län',
 'Blaiken D': 'Not found',
 'Bollebygd': 'Västra Götalands län',
 'Bollnäs D': 'Gävleborgs län',
 'Borgvattnet D': 'Jämtlands län',
 'Borlänge D': 'Dalarnas län',
 'Borås': 'Västra Götalands län',
 'Bottnaryd': 'Jönköpings län',
 'Bottnen': 'Not found',
 'Bredbyn D': 'Västernorrlands län',
 'Bromölla': 'Skåne län',
 'Brovallen': 'Not found',
 'Brände': 'Not found',
 'Brännberg D': 'Not found',
 'Brännforssund': 'Not found',
 'Brösarp D': 'Skåne län',
 'Bygdsiljum D': 'Västerbottens län',
 'Bäckefors': 'Västra Götalands län',
 'Bäverträsk': 'Not found',
 'Börrum D': 'Östergötlands län',
 'Charlottenberg': 'Värmlands län',
 'Dala-Järna D': 'Dalarnas län',
 'Dalarö D': 'Stockholms län',
 'Dalstorp': 'Västra Götalands län',
 'Degeberga D': 'Skåne län',
 'Degerfors D': 'Örebro län',
 'Delsbo': 'Gävleborgs län',
 'Digernäset D': 'Not found',
 'Djursätra': 'Not found',
 'Djurö D': 'Not found',
 'Dödre': 'Jämtlands län',
 'Ed D': 'Not found',
 'Edevik': 'Not found',
 'Eftra D': 'Hallands län',
 'Emmaboda D': 'Kalmar län',
 'Enköping': 'Uppsala län',
 'Eringsboda D': 'Blekinge län',
 'Eskilstuna': 'Södermanlands län',
 'Esrange': 'Not found',
 'Fagerhult D': 'Not found',
 'Falköping-Valtorp D': 'Not found',
 'Falsterbo': 'Skåne län',
 'Falun-Lugnet': 'Not found',
 'Finnbacka D': 'Not found',
 'Finspång': 'Östergötlands län',
 'Fjällsjönäs': 'Not found',
 'Forse': 'Västernorrlands län',
 'Fotskäl D': 'Västra Götalands län',
 'Fredriksberg': 'Dalarnas län',
 'Fridlevstad D': 'Blekinge län',
 'Frostviken D': 'Not found',
 'Frändesta': 'Västmanlands län',
 'Fägre D': 'Västra Götalands län',
 'Fågelberget D': 'Not found',
 'Fågelsjö D': 'Not found',
 'Gargnäs D': 'Västerbottens län',
 'Gendalen': 'Västra Götalands län',
 'Gesunda D': 'Dalarnas län',
 'Gillastig': 'Not found',
 'Glindran': 'Not found',
 'Glommersträsk': 'Norrbottens län',
 'Godegård D': 'Östergötlands län',
 'Granhed D': 'Not found',
 'Granhult': 'Not found',
 'Granö D': 'Västerbottens län',
 'Grebbeshult': 'Not found',
 'Grythyttan': 'Örebro län',
 'Gräsås D': 'Värmlands län',
 'Grönliden': 'Not found',
 'Gullspång': 'Västra Götalands län',
 'Gustavsfors': 'Västra Götalands län',
 'Gustorp D': 'Not found',
 'Gästrike-Hammarby D': 'Gävleborgs län',
 'Gävle-Åbyggeby': 'Not found',
 'Gåltjärn': 'Not found',
 'Hallstaberg': 'Not found',
 'Halmstad': 'Hallands län',
 'Hammarö': 'Not found',
 'Hammerdal D': 'Jämtlands län',
 'Handsjön D': 'Not found',
 'Haparanda D': 'Norrbottens län',
 'Harads D': 'Norrbottens län',
 'Hattsjöbäcken D': 'Not found',
 'Heden': 'Not found',
 'Hedesunda': 'Gävleborgs län',
 'Hedeviken': 'Jämtlands län',
 'Hejnum': 'Not found',
 'Hellerö': 'Not found',
 'Hemse': 'Gotlands län',
 'Hennan D': 'Not found',
 'Henån': 'Västra Götalands län',
 'Herrljunga D': 'Västra Götalands län',
 'Hestra D': 'Not found',
 'Hid D': 'Not found',
 'Hillersboda': 'Dalarnas län',
 'Hillsand': 'Jämtlands län',
 'Hinshult': 'Not found',
 'Hjo': 'Västra Götalands län',
 'Hjortkvarn D': 'Örebro län',
 'Hoburg D': 'Not found',
 'Hofors': 'Gävleborgs län',
 'Holmbo D': 'Not found',
 'Holmfors D': 'Not found',
 'Holmön D': 'Not found',
 'Horred': 'Västra Götalands län',
 'Hov': 'Not found',
 'Hudiksvall': 'Gävleborgs län',
 'Hult D': 'Not found',
 'Hyltan': 'Not found',
 'Hyndevad': 'Södermanlands län',
 'Häggberget D': 'Not found',
 'Häggårda': 'Not found',
 'Hälleforsnäs D': 'Södermanlands län',
 'Härjeåsjön': 'Not found',
 'Härnebo': 'Not found',
 'Härnösand': 'Västernorrlands län',
 'Härryda': 'Västra Götalands län',
 'Härsnäs': 'Not found',
 'Hässleby D': 'Not found',
 'Håvelund': 'Not found',
 'Högboda': 'Värmlands län',
 'Högemålen D': 'Not found',
 'Höglekardalen': 'Not found',
 'Högsbo': 'Not found',
 'Höljes': 'Värmlands län',
 'Idre D': 'Dalarnas län',
 'Jarhois': 'Not found',
 'Jukkasjärvi D': 'Norrbottens län',
 'Jäckvik': 'Norrbottens län',
 'Järpströmmen': 'Not found',
 'Järvsö': 'Gävleborgs län',
 'Jönköping': 'Jönköpings län',
 'Jörn D': 'Västerbottens län',
 'Kalix D': 'Norrbottens län',
 'Kalmar D': 'Kalmar län',
 'Kalvträsk D': 'Västerbottens län',
 'Kangos D': 'Norrbottens län',
 'Karesuando': 'Norrbottens län',
 'Karlshamn': 'Blekinge län',
 'Karlskoga': 'Örebro län',
 'Karlstad-Skåre': 'Not found',
 'Karungi': 'Norrbottens län',
 'Katterjåkk': 'Not found',
 'Katterjåkk A': 'Not found',
 'Kaxås-Åflo D': 'Not found',
 'Kilafors D': 'Gävleborgs län',
 'Kilagården': 'Not found',
 'Kindsboda': 'Not found',
 'Kindsjön D': 'Not found',
 'Kiruna': 'Norrbottens län',
 'Kisa D': 'Östergötlands län',
 'Kittelfjäll D': 'Västerbottens län',
 'Klippan': 'Skåne län',
 'Klöverträsk D': 'Norrbottens län',
 'Knopparp D': 'Not found',
 'Knäred D': 'Hallands län',
 'Koler D': 'Norrbottens län',
 'Kolsva D': 'Västmanlands län',
 'Kopparberg D': 'Örebro län',
 'Korsberga': 'Not found',
 'Kramfors': 'Västernorrlands län',
 'Kristianstad': 'Skåne län',
 'Kristinehamn': 'Värmlands län',
 'Krokshult D': 'Not found',
 'Kråkemåla': 'Not found',
 'Kungsberget D': 'Not found',
 'Kungsör': 'Västmanlands län',
 'Kusmark D': 'Not found',
 'Kvikkjokk-Årrenjarka': 'Not found',
 'Kypasjärvi D': 'Not found',
 'Kyrktåsjö D': 'Jämtlands län',
 'Källebäcken': 'Not found',
 'Källsjö': 'Hallands län',
 'Kärna': 'Not found',
 'Kätkesuando': 'Norrbottens län',
 'Kävsjö D': 'Jönköpings län',
 'Kållered D': 'Västra Götalands län',
 'Kölsillre': 'Västernorrlands län',
 'Laholm D': 'Hallands län',
 'Lainio': 'Norrbottens län',
 'Landskrona D': 'Skåne län',
 'Landsort': 'Not found',
 'Lanna': 'Not found',
 'Lannavaara D': 'Norrbottens län',
 'Latikberg D': 'Västerbottens län',
 'Leksand': 'Dalarnas län',
 'Lesjöfors D': 'Värmlands län',
 'Lessebo': 'Kronobergs län',
 'Letafors D': 'Värmlands län',
 'Lidhult D': 'Kronobergs län',
 'Lidköping': 'Västra Götalands län',
 'Lillhamra D': 'Not found',
 'Linhult D': 'Not found',
 'Linköping': 'Östergötlands län',
 'Malmslätt': 'Östergötlands län',
 'Ljugarn D': 'Gotlands län',
 'Ljungby D': 'Kronobergs län',
 'Ljusdals-Valsjön': 'Not found',
 'Ljusnedal': 'Jämtlands län',
 'Lobonäs D': 'Not found',
 'Los D': 'Gävleborgs län',
 'Louisefred': 'Not found',
 'Ludvika': 'Dalarnas län',
 'Luleå-Bergnäset': 'Not found',
 'Luleå Flygplats': 'Norrbottens län',
 'Lund': 'Skåne län',
 'Lundsjön': 'Not found',
 'Lyckeby': 'Not found',
 'Lysekil D': 'Västra Götalands län',
 'Långan D': 'Not found',
 'Löten D': 'Not found',
 'Löttorp D': 'Kalmar län',
 'Lövberga D': 'Jämtlands län',
 'Lövestad': 'Skåne län',
 'Lövånger': 'Västerbottens län',
 'Malkälen D': 'Not found',
 'Malmberget': 'Norrbottens län',
 'Malmbäck D': 'Jönköpings län',
 'Malungsfors': 'Dalarnas län',
 'Malå': 'Västerbottens län',
 'Marby D': 'Not found',
 'Marbäck D': 'Västra Götalands län',
 'Mariefred': 'Södermanlands län',
 'Mariestad': 'Västra Götalands län',
 'Markaryd': 'Kronobergs län',
 'Markusvinsa': 'Norrbottens län',
 'Mjölkbäcken': 'Not found',
 'Moheda D': 'Kronobergs län',
 'Mollsjönäs D': 'Not found',
 'Mosekälla': 'Not found',
 'Moskosel': 'Norrbottens län',
 'Motala': 'Östergötlands län',
 'Multrå D': 'Västernorrlands län',
 'Munka-Ljungby D': 'Skåne län',
 'Murjek D': 'Norrbottens län',
 'Myckelgensjö': 'Västernorrlands län',
 'Myre': 'Jämtlands län',
 'Myskelåsen D': 'Not found',
 'Mälgåsen D': 'Not found',
 'Mästerby': 'Gotlands län',
 'Mångsbodarna': 'Dalarnas län',
 'Mönsterås D': 'Kalmar län',
 'Mörbylånga': 'Kalmar län',
 'Mörsil': 'Jämtlands län',
 'Nianfors': 'Gävleborgs län',
 'Nobynäs D': 'Not found',
 'Nora-Östanö D': 'Not found',
 'Norberg': 'Västmanlands län',
 'Nordanbäck D': 'Not found',
 'Nordanås': 'Västernorrlands län',
 'Norderön': 'Not found',
 'Nornäs D': 'Dalarnas län',
 'Norra Möckleby D': 'Not found',
 'Norra Ströö': 'Not found',
 'Norra Vi D': 'Not found',
 'Norrby S': 'Not found',
 'Norrköping-SMHI': 'Not found',
 'Norrveda': 'Not found',
 'Norsborg 2': 'Stockholms län',
 'Nyhammar': 'Dalarnas län',
 'Nyhamnsläge': 'Skåne län',
 'Nyköping': 'Södermanlands län',
 'Nynäshamn': 'Stockholms län',
 'Nämdö': 'Stockholms län',
 'Näshulta': 'Södermanlands län',
 'Näsåker': 'Västernorrlands län',
 'Nävelsjö': 'Jönköpings län',
 'Ockelbo': 'Gävleborgs län',
 'Ockelbo 1': 'Gävleborgs län',
 'Olastorp': 'Not found',
 'Olofström': 'Blekinge län',
 'Omberg D': 'Not found',
 'Onsala D': 'Hallands län',
 'Orrefors D': 'Kalmar län',
 'Orsa D': 'Dalarnas län',
 'Osby': 'Skåne län',
 'Oskarshamn': 'Kalmar län',
 'Oxelösund': 'Södermanlands län',
 'Parakka': 'Norrbottens län',
 'Parkajoki': 'Norrbottens län',
 'Persberg': 'Värmlands län',
 'Piteå': 'Norrbottens län',
 'Pjätteryd': 'Kronobergs län',
 'Prästkulla': 'Not found',
 'Puottaure': 'Not found',
 'Ramsjöholm': 'Not found',
 'Reftele D': 'Jönköpings län',
 'Remningstorp': 'Not found',
 'Resele': 'Västernorrlands län',
 'Rickleå': 'Not found',
 'Riddarhyttan': 'Västmanlands län',
 'Rissna D': 'Jämtlands län',
 'Ronneby-Bredåkra': 'Not found',
 'Rossö': 'Västra Götalands län',
 'Rossön': 'Jämtlands län',
 'Rusksele D': 'Västerbottens län',
 'Räfsebo D': 'Not found',
 'Rödupp': 'Not found',
 'Rörastrand': 'Not found',
 'Rörvik D': 'Not found',
 'Saarikoski D': 'Not found',
 'Sadiliden': 'Not found',
 'Sadjem D': 'Not found',
 'Saittarova D': 'Norrbottens län',
 'Sala': 'Västmanlands län',
 'Sanda': 'Not found',
 'Sandhamn D': 'Stockholms län',
 'Segerstad': 'Not found',
 'Sidsjö D': 'Not found',
 'Silvergruvan': 'Not found',
 'Simeå': 'Gävleborgs län',
 'Sjöbo D': 'Skåne län',
 'Sjötofta D': 'Västra Götalands län',
 'Skara': 'Västra Götalands län',
 'Skattungbyn D': 'Dalarnas län',
 'Skedemosse D': 'Not found',
 'Skeppshult D': 'Jönköpings län',
 'Skröven D': 'Not found',
 'Sköldinge': 'Södermanlands län',
 'Skövde': 'Västra Götalands län',
 'Slättån': 'Not found',
 'Sollefteå': 'Västernorrlands län',
 'Sorsele': 'Västerbottens län',
 'Spannarboda D': 'Örebro län',
 'Stehag': 'Skåne län',
 'Stiby': 'Not found',
 'Stockholm-Observatoriekullen': 'Not found',
 'Stora Skedvi': 'Not found',
 'Storbron': 'Not found',
 'Stordalen-Midlanda D': 'Not found',
 'Storlien-Storvallen': 'Not found',
 'Stormyra': 'Not found',
 'Strängnäs-Vansö': 'Not found',
 'Strömsund-Edet D': 'Not found',
 'Ställdalen': 'Örebro län',
 'Stångsmåla D': 'Not found',
 'Stöllet D': 'Värmlands län',
 'Sunneränga': 'Not found',
 'Svaneholm D': 'Not found',
 'Svanstein': 'Norrbottens län',
 'Svappavaara': 'Norrbottens län',
 'Svartberget D': 'Not found',
 'Svedjelandet': 'Not found',
 'Sveg-Eggarna': 'Not found',
 'Svenska Högarna': 'Not found',
 'Sya': 'Östergötlands län',
 'Säffle': 'Värmlands län',
 'Särna D': 'Dalarnas län',
 'Sätila': 'Västra Götalands län',
 'Sävsjö': 'Jönköpings län',
 'Sågen D': 'Not found',
 'Såtenäs': 'Västra Götalands län',
 'Söderala D': 'Gävleborgs län',
 'Söderby-Karlsäng D': 'Not found',
 'Söderbärke D': 'Dalarnas län',
 'Söderköping': 'Östergötlands län',
 'Södersel D': 'Not found',
 'Södertälje': 'Stockholms län',
 'Södra Vi D': 'Not found',
 'Sölje D': 'Not found',
 'Söne': 'Västra Götalands län',
 'Sörbytorp': 'Not found',
 'Talliden': 'Not found',
 'Talljärv D': 'Not found',
 'Tavelsjö D': 'Västerbottens län',
 'Tingsryd-Degerhaga': 'Not found',
 'Tjällmo D': 'Östergötlands län',
 'Torsåker D': 'Not found',
 'Traneberg': 'Not found',
 'Trelleborg': 'Skåne län',
 'Trolleboda D': 'Not found',
 'Tryserum D': 'Östergötlands län',
 'Trängslet': 'Not found',
 'Trökörna': 'Not found',
 'Tullus D': 'Not found',
 'Tvingelshed': 'Not found',
 'Tyllinge': 'Kalmar län',
 'Tänger D': 'Not found',
 'Tärendö D': 'Norrbottens län',
 'Tånga': 'Skåne län',
 'Tåsan': 'Not found',
 'Töcksfors': 'Värmlands län',
 'Uddevalla D': 'Västra Götalands län',
 'Ullånger': 'Västernorrlands län',
 'Ulricehamn': 'Västra Götalands län',
 'Ulvsjön D': 'Södermanlands län',
 'Umeå-Röbäcksdalen': 'Västerbottens län',
 'Ungsberg': 'Kalmar län',
 'Uppsala': 'Uppsala län',
 'Uppsala Aut': 'Uppsala län',
 'Vadstena D': 'Östergötlands län',
 'Vagnhärad D': 'Södermanlands län',
 'Vallbo': 'Jämtlands län',
 'Vallentuna': 'Stockholms län',
 'Valsjöbyn': 'Jämtlands län',
 'Varberg': 'Hallands län',
 'Vassunda': 'Uppsala län',
 'Vattholma D': 'Uppsala län',
 'Veddige D': 'Hallands län',
 'Vedum': 'Västra Götalands län',
 'Vidsel': 'Norrbottens län',
 'Vidsel Mo': 'Norrbottens län',
 'Vindeln-Sunnansjönäs': 'Västerbottens län',
 'Vingåker D': 'Södermanlands län',
 'Virserum-Rödmossa': 'Kalmar län',
 'Visby D': 'Gotlands län',
 'Vittinge': 'Uppsala län',
 'Vomb': 'Skåne län',
 'Vrena': 'Södermanlands län',
 'Vuollerim': 'Norrbottens län',
 'Vällnora D': 'Uppsala län',
 'Vänersborg': 'Västra Götalands län',
 'Vänge': 'Uppsala län',
 'Vännäs D': 'Västerbottens län',
 'Värmlandsnäs-Ekenäs D': 'Not found',
 'Väse D': 'Värmlands län',
 'Västerhaninge': 'Stockholms län',
 'Västermo': 'Södermanlands län',
 'Västerås': 'Västmanlands län',
 'Västland': 'Uppsala län',
 'Västvalla': 'Örebro län',
 'Våmhus D': 'Dalarnas län',
 'Vånga D': 'Östergötalands län',
 'Vårgårda D': 'Västra Götalands län',
 'Ystad': 'Skåne län',
 'Ytterberg D': 'Jämtlands län',
 'Ytterhogdal': 'Jämtlands län',
 'Ytterrissjö D': 'Västerbottens län',
 'Ytterselö D': 'Södermanlands län',
 'Zinkgruvan': 'Örebro län',
 'Älgarås D': 'Västra Götalands län',
 'Älghult': 'Kronobergs län',
 'Älvkarleby D': 'Uppsala län',
 'Åby': 'Östergötlands län',
 'Åda': 'Södermanlands län',
 'Åhus': 'Skåne län',
 'Åkroken D': 'Västernorrlands',
 'Åminne D': 'Gotlands län',
 'Ånge-Parteboda D': 'Västernorrlands län',
 'Ånimskog': 'Västra Götalands län',
 'Årjäng': 'Värmlands län',
 'Åsarna D': 'Jämtlands län',
 'Åsele': 'Västerbottens län',
 'Åsnorrbodarna': 'Gävleborgs län',
 'Åtorp': 'Örebro län',
 'Ödeshög D': 'Östergötlands län',
 'Ölands norra udde': 'Kalmar län',
 'Ön': 'Skåne län',
 'Öningaryd': 'Kalmar län',
 'Örebro D': 'Örebro län',
 'Örkelljunga': 'Skåne län',
 'Örnsköldsvik': 'Västernorrlands län',
 'Östanvik': 'Dalarnas län',
 'Österfärnebo': 'Gävleborgs län',
 'Östervåla D': 'Uppsala län',
 'Östmark-Åsarna': 'Värmlands län',
 'Östra Husby D': 'Östergötlands län',
 'Övertorneå': 'Norrbottens län',
 'Övre Soppero': 'Norrbottens län',
'Hallstaberg': "Not found",
 'Katterjåkk A': "Not found",
 'Ockelbo 1': "Not found",
 'Stockholm-Observatoriekullen': "Not found",
 'Uppsala Aut': "Not found"}

In [44]:
# In addition to scraping Wikipedia we also scrape Open Streetmap
# for locations.
def scrape_open_street(manual_location_dictionary):
    for location in manual_location_dictionary:

        if manual_location_dictionary[location] == 'Not found':
            new_location = ort.lower()
            end_char = None
            if ort[-1]=='D':
                new_location = location[:-1].lower().strip(' ')

            opensURL = "https://nominatim.openstreetmap.org/search.php?q="+new_location+"&polygon_geojson=1&countrycodes=se&format=jsonv2"
            
            r = requests.get(url = opensURL, timeout=5)

            if r.status_code == 200:
                json_data = r.text

                data = json.loads(json_data)

                if len(data)==0:
                    continue;

                new_data = []

                if type(data) == list:
                    for loc in data:
                        _ = loc["display_name"].split(',')
                        name = _[0]
                        region = _[2][1:]
                        for n in _:
                            if n.rfind("län") > -1:
                                region = n.strip(' ')

                        new_data.append({"Name": name, "Region":region, "Type": loc["type"], "Points": 0 })

                    for loc in new_data:
                        if loc["Type"] == "isolated_dwelling":
                            loc["Points"] = loc["Points"]+1
                        if loc["Name"].lower() != new_location.lower():
                            loc["Points"] = loc["Points"]-2

                    loc_winner = new_data[0]
                    points = loc_winner["Points"]
                    for loc in new_data:
                        if loc["Points"] > points:
                            loc_winner = loc

                    print(loc_winner)

                    manual_location_dictionary[location]=loc_winner["Region"]

                    print(new_ort+" -  "+loc_winner["Region"])

    return manual_location_dictionary

In [45]:
def dic_to_df(list_of_dic, c):
    key_column = []
    value_column = []
    for key in list_of_dic:
        value = list_of_dic[key]
        key_column.append(key)
        value_column.append(value)
    new_df=pd.DataFrame(list(zip(key_column, value_column)), columns=c)
    return new_df

In [46]:
openstreet_location_dictionary = scrape_open_street(manual_location_dictionary)
openstreet_location_dictionary

Type: <class 'list'>
Size: 1
{'Name': 'Adak', 'Region': 'Västerbottens län', 'Type': 'village', 'Points': 0}
adak -  Västerbottens län
Type: <class 'list'>
Size: 3
{'Name': 'Almdalen', 'Region': 'Jämtlands län', 'Type': 'isolated_dwelling', 'Points': 1}
almdalen -  Jämtlands län
Type: <class 'list'>
Size: 1
{'Name': 'Ankarvattnet', 'Region': 'Jämtlands län', 'Type': 'water', 'Points': 0}
ankarvattnet -  Jämtlands län
Type: <class 'list'>
Size: 1
{'Name': 'Myrheden', 'Region': 'Norrbottens län', 'Type': 'isolated_dwelling', 'Points': -1}
arjeplog-myrheden -  Norrbottens län
Type: <class 'list'>
Size: 2
{'Name': 'Asker', 'Region': 'Stockholms län', 'Type': 'isolated_dwelling', 'Points': 1}
asker -  Stockholms län
Type: <class 'list'>
Size: 10
{'Name': 'Aspa', 'Region': 'Jönköpings län', 'Type': 'isolated_dwelling', 'Points': 1}
aspa -  Jönköpings län
Type: <class 'list'>
Size: 3
{'Name': 'Aspeå', 'Region': 'Västerbottens län', 'Type': 'hamlet', 'Points': 0}
aspeå -  Västerbottens län
Typ

In [48]:
# Clean the dataset and export it to a CSV file.
name_region_dataset = dic_to_df(openstreet_location_dictionary, ["Name", "County"])
name_region_dataset.to_csv("name_region_data.csv")