<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Introduction" data-toc-modified-id="Introduction-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Introduction</a></span></li><li><span><a href="#Import-libraries" data-toc-modified-id="Import-libraries-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Import libraries</a></span></li><li><span><a href="#Import-data" data-toc-modified-id="Import-data-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Import data</a></span></li><li><span><a href="#Pre-processing-/-cleaning" data-toc-modified-id="Pre-processing-/-cleaning-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Pre-processing / cleaning</a></span></li></ul></div>

## Introduction

In this notebook we convert the excel-sheet downloaded from Drive with data on the different fish species into a `.json` file. This will be used on the web page when looking up data per species that are predicted (top 3).

## Import libraries

In [1]:
import pandas as pd

## Import data

In [7]:
df_freshwater_org = pd.read_excel('data/Arter.xlsx', sheet_name=0)
df_saltwater_org = pd.read_excel('data/Arter.xlsx', sheet_name=1)

In [8]:
df_freshwater_org

Unnamed: 0,Familie,Art,Latin,Bilder,Lengde,Vekt,Dyp,Norgesrekord,Link,Link_rekord
0,Ålefamilien,Ål,Anguilla anguilla,,Opptil 150cm,Opptil 12.7kg,,3850g,https://snl.no/%C3%A5l,https://www.klikk.no/produkthjemmesider/villma...
1,Laksefamilien,Laks,Salmo salar,100.0,Opptil 160cm,Opptil 50kg,,32500g,https://no.wikipedia.org/wiki/Laks,https://www.klikk.no/produkthjemmesider/villma...
2,,Pukkellaks,Oncorhynchus gorbuscha,,Opptil 80cm,Opptil 7kg,,3973g,https://snl.no/pukkellaks,https://www.klikk.no/produkthjemmesider/villma...
3,,Ketalaks,Oncorhynchus keta,,Opptil 112cm,Opptil 19kg,,5100g,https://snl.no/ketalaks,https://www.klikk.no/produkthjemmesider/villma...
4,,Ørret,Salmo trutta,102.0,Opptil 140cm,Opptil 20kg,,15300g,https://snl.no/%C3%B8rret,https://www.klikk.no/produkthjemmesider/villma...
5,,Regnbueørret,Oncorhynchus mykiss,100.0,Opptil 90cm,Opptil 12kg,,11495g,https://no.wikipedia.org/wiki/Regnbue%C3%B8rret,https://www.klikk.no/produkthjemmesider/villma...
6,,Røye,Salvelinus alpinus,100.0,,Opptil 12kg,,8285g,https://no.wikipedia.org/wiki/R%C3%B8ye,https://www.klikk.no/produkthjemmesider/villma...
7,,Bekkerøye,Salvelinus fontinalis,100.0,Opptil 86cm,Opptil 4kg,,2268g,https://no.wikipedia.org/wiki/Bekker%C3%B8ye,https://www.klikk.no/produkthjemmesider/villma...
8,,Canadarøye,Salvelinus namaycush,,Opptil 100cm,Opptil 15kg,,10200g,https://snl.no/kanadar%C3%B8ye,https://www.hooked.no/artikler/vilhelm-knuste-...
9,,Sik,Coregonus lavaretus,100.0,Opptil 70cm,Opptil 10kg,,4150g,https://no.wikipedia.org/wiki/Sik,https://www.klikk.no/produkthjemmesider/villma...


In [9]:
df_saltwater_org

Unnamed: 0,Familie,Art,Latin,Bilder,Lengde,Vekt,Dyp,Norgesrekord,Link,Link_rekord
0,Torskefamilien,Torsk,Gadus morhua,101,Opptil 200cm,Opptil 60kg,0-600m,41720g,https://no.wikipedia.org/wiki/Torsk,https://www.klikk.no/produkthjemmesider/villma...
1,,Sei,Pollachius virens,100,Opptil 130cm,Opptil 32kg,0-200m,22700g,https://snl.no/sei,https://www.klikk.no/produkthjemmesider/villma...
2,,Lyr,Pollachius pollachius,100,Opptil 130cm,Opptil 18kg,0-200m,13800g,https://no.wikipedia.org/wiki/Lyr,
3,,Hyse,Melanogrammus aeglefinus,100,Opptil 100cm,Opptil 12kg,10-450m,9250g,https://no.wikipedia.org/wiki/Hyse,https://www.klikk.no/produkthjemmesider/villma...
4,,Skjeggtorsk,Trisopterus luscus,-,Opptil 45cm,Opptil 3kg,10-100m,1435g,https://no.wikipedia.org/wiki/Skjeggtorsk,https://www.klikk.no/produkthjemmesider/villma...
5,,Sølvtorsk,Gadiculus argenteus,-,Opptil 15cm,,100-1000m,55g,https://snl.no/s%C3%B8lvtorsk,https://www.klikk.no/produkthjemmesider/villma...
6,,Polartorsk,Boreogadus saida,-,Opptil 40cm,,15-80m,37g,https://no.wikipedia.org/wiki/Polartorsk,https://www.klikk.no/produkthjemmesider/villma...
7,,Hvitting,Merlangius merlangus,,Opptil 70cm,Opptil 3kg,10-200m,3115g,https://no.wikipedia.org/wiki/Hvitting,https://www.klikk.no/produkthjemmesider/villma...
8,,Kolmule,Micromesistius poutassou,,Opptil 80cm,Opptil 1kg,0-700m,932g,https://no.wikipedia.org/wiki/Kolmule,https://www.klikk.no/produkthjemmesider/villma...
9,,Berlevågfisk,Theragra finnmarchica,-,Opptil 70cm,,,,https://no.wikipedia.org/wiki/Berlev%C3%A5gfisk,


## Pre-processing / cleaning

In [10]:
def clean_length_weight_data(string, scaling_factor=1.0):
    """
    Clean data in length and weight columns and turn numeric.
    
    Examples: 
    - 'Opptil 150cm' -> 150.0
    - 'Opptil 12.7kg' -> 12.7
    - '3850g' -> 3850
    """
    if pd.isnull(string):
        return string
    
    string = string.split()[-1]
    string = string.replace('kg', '').replace('cm', '').replace('g', '')
    
    return float(string) * scaling_factor


def clean_depth_data(string):
    """
    Clean data on depth - turn string into two numeric values
    min_depth and max_depth
    
    Example:
         - '0-100m' -> [0,100]
    """
    if pd.isnull(string):
        return [None, None]
    
    string = string.replace('m', '')
    string_list = string.split('-')
    
    depth_list = [float(x) for x in string_list]
    
    return depth_list
    
    

def clean_data(df_org):
    df = df_org.copy()
    
    # Forward fill family column
    df['Familie'] = df['Familie'].ffill()
    
    # Clean water depth - turn to two columns 'min_depth' and 'max_depth'
    df['Minimum_dyp'] = df['Dyp'].map(lambda x: clean_depth_data(x)[0])
    df['Maximum_dyp'] = df['Dyp'].map(lambda x: clean_depth_data(x)[1])
    
    # Drop columns ['Bilder', 'Dyp']
    df.drop(['Bilder', 'Dyp'], axis=1, inplace=True)
    
    # Clean up some numeric columns - remove abbreviations and turn numeric
    for col in ['Lengde', 'Norgesrekord']:
        df[col] = df[col].map(lambda x: clean_length_weight_data(x))
    df['Vekt'] = df['Vekt'].map(lambda x: clean_length_weight_data(x, 1000.0))    
    
    df.index = df['Art']
    return df

In [12]:
df_cleaned_freshwater = clean_data(df_freshwater_org)
df_cleaned_saltwater = clean_data(df_saltwater_org)
df_cleaned = df_cleaned_freshwater.append(df_cleaned_saltwater, sort=False)
df_cleaned

Unnamed: 0_level_0,Familie,Art,Latin,Lengde,Vekt,Norgesrekord,Link,Link_rekord,Minimum_dyp,Maximum_dyp
Art,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Ål,Ålefamilien,Ål,Anguilla anguilla,150.0,12700.0,3850.00,https://snl.no/%C3%A5l,https://www.klikk.no/produkthjemmesider/villma...,,
Laks,Laksefamilien,Laks,Salmo salar,160.0,50000.0,32500.00,https://no.wikipedia.org/wiki/Laks,https://www.klikk.no/produkthjemmesider/villma...,,
Pukkellaks,Laksefamilien,Pukkellaks,Oncorhynchus gorbuscha,80.0,7000.0,3973.00,https://snl.no/pukkellaks,https://www.klikk.no/produkthjemmesider/villma...,,
Ketalaks,Laksefamilien,Ketalaks,Oncorhynchus keta,112.0,19000.0,5100.00,https://snl.no/ketalaks,https://www.klikk.no/produkthjemmesider/villma...,,
Ørret,Laksefamilien,Ørret,Salmo trutta,140.0,20000.0,15300.00,https://snl.no/%C3%B8rret,https://www.klikk.no/produkthjemmesider/villma...,,
Regnbueørret,Laksefamilien,Regnbueørret,Oncorhynchus mykiss,90.0,12000.0,11495.00,https://no.wikipedia.org/wiki/Regnbue%C3%B8rret,https://www.klikk.no/produkthjemmesider/villma...,,
Røye,Laksefamilien,Røye,Salvelinus alpinus,,12000.0,8285.00,https://no.wikipedia.org/wiki/R%C3%B8ye,https://www.klikk.no/produkthjemmesider/villma...,,
Bekkerøye,Laksefamilien,Bekkerøye,Salvelinus fontinalis,86.0,4000.0,2268.00,https://no.wikipedia.org/wiki/Bekker%C3%B8ye,https://www.klikk.no/produkthjemmesider/villma...,,
Canadarøye,Laksefamilien,Canadarøye,Salvelinus namaycush,100.0,15000.0,10200.00,https://snl.no/kanadar%C3%B8ye,https://www.hooked.no/artikler/vilhelm-knuste-...,,
Sik,Laksefamilien,Sik,Coregonus lavaretus,70.0,10000.0,4150.00,https://no.wikipedia.org/wiki/Sik,https://www.klikk.no/produkthjemmesider/villma...,,


In [13]:
df_cleaned.to_json('data/Arter.json', orient='index')

In [14]:
df_cleaned.loc['Spisshalet kutling']

Familie                                           Kutlingfamilien
Art                                            Spisshalet kutling
Latin                                      Lesueurigobius friesii
Lengde                                                         13
Vekt                                                          NaN
Norgesrekord                                                  7.8
Link            https://no.m.wikipedia.org/wiki/Spisshalet_kut...
Link_rekord                                                   NaN
Minimum_dyp                                                    10
Maximum_dyp                                                   350
Name: Spisshalet kutling, dtype: object