# Eksplorativ DataAnalyse - datasett husdyrregisteret (storfe)

![meatProd](https://medlem.nortura.no/getfile.php/Nortura%20Medlem/medlem.gilde.no/Bildearkiv/DYR/Storfe/beite/stofe-beite-i-fjellet.gif)


**Select the cell** you want to run, and press **SHIFT+ENTER** to run the individual code / demo items

***Note:*** 
In order to be able to run this Notebook, the following python packages are needed:
- *ipywidgets*

To install these packages run 'pip install *package_name*' in Unix shell, e.g. in Anacondas shell.

> **Author:** *David Volent Lindberg*

## 1. Problembeskrivelse
### 1.1. Sammendrag problembeskrivelse
- To ganger årlig må bonden/produsent telle antall dyr (storfe) og mottar produksjonstilskudd basert på antallet dyr. 
- Bonden/produsent ønsker naturlig nok et så høyt antall dyr som mulig ved telledato, som fører til at potensielt slakteklare dyr blir holdt tilbake. I dagene (og potensielt ukene) etter telledato sendes dermed et høyt antall dyr til slakt (unormalt høyt sammenlignet med resten av året) som fører til økt press på slakteriene og på markedet mye på grunn av plassbegrensning i fjøs.
- Spesielt etter telledato på høsten (f.o.m. 2017 er dette 1.oktober) er dette presset stort, og bl.a. i 2017 klarte ikke markedet ta unna denne overproduksjonen. Dette fører til at kjøtt må fryses ned (~1000 tonn i 2017 - **NOTE: Dette må sjekkes med god kilde**). Kostnad for eventuell nedfrysning må bonden/produsent ta selv (legges til omsetningsavgiften) i tillegg til at bonden får dårligere kilospris fra slakteriet. 
- Overproduksjon på høsten skjer til tross for at totaltproduksjon gjennom hele året gir underskudd på storfekjøtt (som fører til mer import), som klart tyder på ujevn fordeling i produksjon. Veldig få bønder/produsenter ønsker å slakte i august og september pga midre støtte, selv om dette kunne ført til mer jevn fordeling. 
- For sluttforbrukeren er dette også ugunstig, ettersom a) hun/han får mindre tilgang på ferskt norskt kjøtt gjennom året, og dermed må ty til importert kjøtt, eller at b) at hun/han må ta til takke med kjøtt som er frosset ned.

<div class="alert alert-block alert-warning"><b><head> Totalt skaper dette skjevfordeling i salg, og tilsvarende i markedet og hos slakteriene, som kunne vært unngått ved en bedre tilskuddsordning. Dette problemet ønsker vi å bidra til å unngå ved hjelp av digitale løsninger. Dette vil kunne gagne alle ledd i verdikjeden; bonden/produsent, slakteriet og sluttforbruker! </head></b></div>

> **Oppsummering:** Fast telling av dyr to ganger årlig, med samsvarende produksjonstilskudd, gir skjevhet i produksjon og markedet. Jevnere fordeling kan oppnås med bedre digitale løsninger, hvor årlig produksjonstilskudd bestemmes mer dynamisk, og ikke basert på kun 2 registreringer. Dataene med antall dyr ligger allerede inne i digitale systemene, så dette bør egentlig være en lavthengende frukt.

### 1.2 Bakgrunn - Registrering av husdyr
#### 1.2.1 Registrering av flytting, fødsel og død
Av reglene fra Mattilsynet angående forflytning, fødsel og død av storfe (se [link](https://www.mattilsynet.no/dyr_og_dyrehold/produksjonsdyr/merking_og_registrering_av_produksjonsdyr/rapportering_til_husdyrregisteret__storfe.4942)) skal dette rapporteres inn i husdyrregisteret:
- Dyreholder, unntatt transportør, skal sørge for at alle forflytninger av dyr til og fra driftsenheten og alle fødsler og dødsfall av dyr på driftsenheten blir rapportert til Mattilsynet. Det er dyreholder selv som er ansvarlig for at opplysningene blir rapporterte inn til Husdyrregisteret innen tidsfristen.
- Rapport om forflytning av dyr til eller fra driftsenheten eller dødsfall av dyr på driftsenheten skal avgis innen 7 dager etter at hendelsen fant sted. Rapport om fødsel av dyr på driftsenheten skal avgis innen 7 dager etter at dyret ble merket. Frist for merking av storfe er 20 dager etter fødsel, men likevel før de flyttes fra driftsenheten de ble født på.
- Rapporten, med de opplysningene som kreves i § 12 til § 15, i Forskrift om sporbarhet og merking av storfe og storfekjøtt mv., skal avgis ved dataoverføring til Mattilsynets tilsynssystemer (Husdyrregisteret) eller på skjema som skal levers til Mattilsynet sitt avdelingskontor. 
- Rapportering kreves ikke dersom kalv dør på driftsenheten før den er merket.
***

#### 1.2.2 Årlige registreringer for produksjonstilskudd og tilhørende satser
Bonden må telle antall individer 2 ganger årlig; 
- Datoer frem til 2016: 31.juli og 31.desember
- Endring i 2017 (overgangsår): Søknadsfrist 15. mai, med telledato 1. mai, og søknadsfrist 15. oktober med telledato 1. oktober.
- Endring f.o.m. 2018: Søknadsfrist 15.mars, med telledato 1.mars, og søknadsfrist 15. oktober med telledato 1. oktober.

Disse datoene er søknadsfrister for husdyrtilskudd, hentet fra [landbruksdirektoratets sider](https://www.landbruksdirektoratet.no/no/produksjon-og-marked/produksjonstilskudd/nytt-system-for-soknad-om-produksjonstilskudd-fra-2017/husdyrproduksjon).


Bonden rapporterer i [storfe.animalia.no](https://storfe.animalia.no/). Dette systemet korresponderer med systemet til Mattilsynet. (Kukontrollen (TINE) - for melkeprodusentene).

***

Produksjonstilskudd, hentet fra kap.7.2 i [jordbruksavtale 2017-2018](https://www.regjeringen.no/contentassets/4e46f99082e64722a0809fb0f69325d2/jordbruksavtale-2017-2018.pdf) (inngått mellom Staten, Norges Bondelag og Norsk Bonde- og Småbrukarlag), årlige satser (sats i kr/dyr/år):
- *Melkeku* (maks tilskudd 340.100): Ku som har kalvet i løpet av de siste 15 måneder (18 måneder for kyr av bevaringsverdig rase - sidet trønder- og nordlandsfe, østlandsk rødkolle, dølafe, vestlandsk raudkolle, vestlandsk fjordfe eller telemarkfe) og som er i melkeproduksjon hos foretak som enten har disponibel kvote eller lokalforedlingskvote. 
<table style="width:50">
  <tr>
    <th>Antall melkekyr</th>    <th>Tilskudd per individ (NOK)</th> 
  </tr>
  <tr> <td>1-16</td>  <td>4168,-</td>  </tr>
  <tr> <td>17-25</td> <td>2022,-</td>  </tr>
  <tr> <td>26-50</td> <td>976,-</td>  </tr>
  <tr> <td>51+</td> <td>780,-</td>  </tr>  
</table><break>

- *Ammeku* (maks tilskudd 340.100): Ku som har kalvet i løpet av de siste 15 måneder (18 måneder for kyr av bevaringsverdig rase - sidet trønder- og nordlandsfe, østlandsk rødkolle, dølafe, vestlandsk raudkolle, vestlandsk fjordfe eller telemarkfe.), men som ikke er melkeku. Dersom foretaket driver kumelkproduksjon må kua i tillegg være av minst 50% av kjøttferasene Hereford, Charolais, Aberdeen Angus, Limousin, Kjøttsimmental, Blonde d´Aquitaine, Highland Cattle, Dexter, Piemontese, Galloway, Salers eller Wagyu.
<table style="width:50">
  <tr>
    <th>Antall ammekyr</th>    <th>Tilskudd per individ (NOK)</th> 
  </tr>
  <tr> <td>1-50</td>  <td>3880,-</td>  </tr>
  <tr> <td>51+</td> <td>780,-</td>  </tr>  
</table><break>

- *Øvrige storfe* (maks tilskudd 648.100): Storfe som foretaket ikke kan få tilskudd for som melkeku eller ammeku.
<table style="width:50">
  <tr>
    <th>Antall øvrige storfe</th>    <th>Tilskudd per individ (NOK)</th> 
  </tr>
  <tr> <td>Alle dyr</td> <td>780,-</td>  </tr>  
</table><break>

Med dagens ordning, med 2 årlige tellinger, mottar bonden/produsent 50% av disse satsene for hver telling.

***

#### 1.2.3 Omsetningsavgift (se [Norturas sider](http://totalmarked.nortura.no/omsetningsavgift/category13593.html))
> *"Omsetningsavgiften belastes de dyreslag/produksjoner der det er markedsregulering og felles opplysningsvirksomhet. Midlene brukes til faglige tiltak, opplysningsvirksomhet, administrasjonskostnader hos markedsregulator, markedsregulerende tiltak og produksjonsregulerende tiltak. Midlene plasseres i fond - og det er tre adskilte fond for hvitt kjøtt, egg og kjøtt fra storfe, sau/lam og gris."*

> *"Det søkes Omsetningsrådet om satser hvert halvår, og endringer i kostnader og markedssituasjon kan gi endringer."*

- For Norturas produksjoner er følgende satser fastsatt for 2017 (avgift i NOK/kg):
    
<table style="width:50">
  <tr>
    <th>Dato:</th>    <th>01.01.2017</th>  <th>06.02.2017</th> <th>20.03.2017</th> 
                      <th>03.07.2017</th> <th>18.09.2017</th> <th>02.10.2017</th> 
  </tr>
  <tr> <td>Avgift (NOK/kg):</td> <td>0.80,-</td> <td></td> <td>0.30,-</td> <td></td> <td></td> <td>0.80,-</td>  </tr>  
</table><break>    

Diskusjon:
- Ulik omsetningsavgift gjennom året finnes for å skape mer balanse i markedet.
- Omsetningsavgiften er størst i oktober til årsskifte pga diskutert overproduksjon i denne perioden som skaper ujevnhet(ubalanse i markedet. Dette skyldes både
    - gjeldende regelverk for produksjonsrilskudd, som er for statisk, men også 
    - naturlige levesyklus for storfe; mesteparten av fødsel skjer vår og slaktes dermed høst (det er også noen fødsler høst).
- Omsetningsavgiften styres avmarkedsregulator, som for kjøtt er Nortura

### TODO - Spørsmål:
- Ingen omsetningsavgift for tre datoer i skjema (se del 1.2.3 over og [Norturas sider](http://totalmarked.nortura.no/omsetningsavgift/category13593.html)) - betyr dette 
    1. at forrige sats gjelder, 
    2. at man ikke får lov til å slakte da eller 
    3. ingen avgift?
- Hvor mye kjøtt ble frosset ned pga overproduksjon høsten (oktober+) 2017? Hvilken kilde går man til for dette - Nortura, Landbruksdepartementet, ...
- Er dette et problem bare bonden er opptatt av eller syns også det regulatoriske at dagens system er ugunstig og ønsker forandring?
- Stemmer det at slakteri også ser på trykket i oktober som et problem og ønsker jevnere produksjon? (Ring og spør slakter - Nortura?)

## 2. Initialize
### 2.1 Import necessary libraries

In [1]:
# -*- coding: UTF_8 -*-
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
sns.set(context='notebook', style='darkgrid', palette='deep')
import sklearn
import sys, os, imp
import aictools
from pandasql import sqldf
pysqldf = lambda q: sqldf(q, globals())

from aictools.jupyter import display_summary_statistics as DataSummary

%matplotlib inline 

import qgrid
qgrid.nbinstall(overwrite=True)

from IPython.core.display import HTML
HTML("<style>.container { width:95% !important; }</style>")

In [2]:
# Import user defined functions package UDFs 
sys.path.insert(0,'C:\\Users\\DAVOL\\Documents\\AIC')
import UDFs
from UDFs import ax_properties #, DataSummary
imp.reload(UDFs) # Let's you run this block when UDF has been updated in stead of having to restart the kernel

<module 'UDFs' from 'C:\\Users\\DAVOL\\Documents\\AIC\\UDFs.py'>

In [10]:
# Noen dummy-funksjoner vi kommer til å bruke
def add_zero(string):
    if len(string)<4:
        string = '0'+string
    return string

### 1.2 Import data
Datasettene er hentet fra [data.norge.no](data.norge.no) og består av:
 - [Husdyrregisteret - data om registrerte storfeindivider](https://data.norge.no/data/mattilsynet/husdyrregisteret-data-om-registrerte-storfeindivider)
 - Leveranser til slakteri i landbruket 
i [2016](https://data.norge.no/data/landbruksdirektoratet/leveranser-til-slakteri-i-landbruket-i-2016), 
i [2015](https://data.norge.no/data/landbruksdirektoratet/leveranser-til-slakteri-i-landbruket-i-2015), 
i [2014](https://data.norge.no/data/landbruksdirektoratet/leveranser-til-slakteri-i-landbruket-i-2014) og 
i [2013](https://data.norge.no/data/landbruksdirektoratet/leveranser-til-slakteri-i-landbruket-i-2013) 
(publisert av: Landbruksdirektoratet)
 - [Kommunenummer](https://data.norge.no/data/statistisk-sentralbyr%C3%A5/kommuneinndeling) (merk at dette ikke er samme nummer som postnummer
 
 - Hent data fra Brønnøysundregisteret - se web eller ta kontakt... (Enhetsregisteret med link mellom foretaksnr og adresse finnes på data.norge.no)

In [3]:
#df = pd.read_csv('husdyrregisteret.csv')
df = pd.read_excel('husdyrregisteret.xlsx')

In [4]:
file_combined_ind = 1
if file_combined_ind!=1:
    df_slakt2013_org = pd.read_excel('LeveranseTilSlakteriLandbruket2013.xlsx') #, encoding = 'utf-8')
    df_slakt2014_org = pd.read_excel('LeveranseTilSlakteriLandbruket2014.xlsx')
    df_slakt2015_org = pd.read_excel('LeveranseTilSlakteriLandbruket2015.xlsx')
    df_slakt2016_org = pd.read_excel('LeveranseTilSlakteriLandbruket2016.xlsx')
else:
    df_slakt = pd.read_excel('LeveranseTilSlakteriLandbruket_Alle_Storfe.xlsx')

In [5]:
df_kommunenummer_org = pd.read_excel('Kommunenummer.xlsx') 

## 2 Data utforskning - eksplorativ analyse
### 2.1 Data fra husdyrregisteret (per individ)
Beskrivelse av kolonner i datasettet 'husdyrregisteret':
- opprinnelsesmerke; landkode (dersom ikke norsk) + unik individ ID samme som individmerke
- opprinnelsesland; land individet er født
- individmerke - unikt merke for hvert individ
    - første 7-8 sifre (utenom de siste 4) sier noe om hvilken gård de er født på - 
        på mange mangler en første 0.
    - siste 4 sifre individnr.
- individstatus; status på om individ er rapportert komplett eller ikke (manglende rapport eller ikke). Mulige klasser:
    - *Dyr overført. Mangler rapport fra kjøper* 
    - *Dyr overført. Mangler rapport fra selger* 
    - *Dyr rapportert overført fra livdyrhandler/slaktet. Mangler rapport fra kjøper og selger*
    - *Dyr slaktet. Mangler rapport fra dyrehold*
    - *Dyr slaktet. Mangler rapport fra slakteri*
    - *Komplett*
- fodselsdato; fødselsdato
- kjonn; kjønn - to klasser a)kvige/ku eller b) okse
- rasekode og rase; kode og navn på rase
- rasebetegnelse - *usikker på betydning???*
- morsmerke - individmerke for mor
- produsentnr:
    - 4 første siffer kommune
    - 4 neste nummer gård
    - 2 siste nummer er bruker
- foretaksnr: organisasjonsnummer på bonden/produsent/samlag (som i Brønnøysundsregisteret)
- kalvingdato: Siste dato for kalving

In [6]:
df.head()

Unnamed: 0,opprinnelsesmerke,opprinnelsesland,individmerke,individstatus,fodselsdato,kjonn,rasekode,rase,rasebetegnelse,morsmerke,produsentnr,foretaksnr,kalvingsdato
0,DE0115254687,Tyskland,152504570006,Komplett,2007-05-19,Okse,LANDDYR$03100202001023,Gallowayfe,,,1525046000.0,992245123.0,NaT
1,DE0115480978,Tyskland,152504570003,Komplett,2007-03-21,Kvige/ku,LANDDYR$03100202001023,Gallowayfe,,,1525046000.0,992245123.0,2017-06-11
2,DE0115984604,Tyskland,152504570002,Komplett,2007-04-11,Kvige/ku,LANDDYR$03100202001023,Gallowayfe,,,1525046000.0,992245123.0,2017-05-05
3,DE0115984606,Tyskland,152504570001,Komplett,2007-06-24,Kvige/ku,LANDDYR$03100202001023,Gallowayfe,,,1525046000.0,992245123.0,2017-06-11
4,DE0350258419,Tyskland,152504570007,Komplett,2006-06-29,Okse,LANDDYR$03100202001023,Gallowayfe,,,1525046000.0,992245123.0,NaT


In [7]:
DataSummary(df)

A Jupyter Widget

A Jupyter Widget

A Jupyter Widget

In [8]:
UDFs.printUniqueValues(df,['individstatus','kjonn'])

A Jupyter Widget

### 2.2 Kommunenummer

In [11]:
df_kommunenummer = df_kommunenummer_org[['code','name']]
df_kommunenummer.columns = ['komnr','komnavn']
df_kommunenummer.komnr = df_kommunenummer.komnr.apply(str)
df_kommunenummer.komnr = df_kommunenummer.komnr.apply(lambda x: add_zero(x))
DataSummary(df_kommunenummer)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self[name] = value


A Jupyter Widget

A Jupyter Widget

A Jupyter Widget

### 2.3 Data fra leveranse til slakteri i landbruket

In [12]:
# Pre-prosseserings steg:
#  - Behold kun data på storfe; ku, kvige, okse, ungokse_kastrat og ungku
#  - Fjerne radene med kun 0'er (der bonde/produsent ikke har slaktet storfe)
#  - Legge til ekstra kolonne med år
#  - Kombinere alla datasettene 
if file_combined_ind!=1:
    df_namelist = [('df_slakt201'+'{}'+'_org').format(n) for n in np.arange(3,7)]
    queries_list = []

    for df_name in df_namelist:
        temp_query = """
        SELECT orgnr, navn, komnr,kalv_kg, ku_kg, kvige_kg, okse_kg, ungokse_kastrat_kg, ungku_kg
        FROM %s
        WHERE NOT ((kalv_kg==0) AND (ku_kg==0) AND (kvige_kg==0) AND (okse_kg==0) AND (ungokse_kastrat_kg==0) AND (ungku_kg==0))
        """%(str(df_name))
        queries_list += [temp_query]

    df_slakt2013 = sqldf(queries_list[0])
    df_slakt2013['år'] = 2013

    df_slakt2014 = sqldf(queries_list[1])
    df_slakt2014['år'] = 2014

    df_slakt2015 = sqldf(queries_list[2])
    df_slakt2015['år'] = 2015

    df_slakt2016 = sqldf(queries_list[3])
    df_slakt2016['år'] = 2016

    # Kombiner data for alle år
    df_slakt = df_slakt2013.append(df_slakt2014, ignore_index=True)[df_slakt2014.columns.tolist()]
    df_slakt = df_slakt.append(df_slakt2015, ignore_index=True)[df_slakt2015.columns.tolist()]
    df_slakt = df_slakt.append(df_slakt2016, ignore_index=True)[df_slakt2016.columns.tolist()]

In [116]:
# Legg til ekstra 0 i kommunenummer dersom det er tresifret (for å kombinere med komunnedatasett senere)
df_slakt.komnr = df_slakt.komnr.apply(str)
df_slakt.komnr = df_slakt.komnr.apply(lambda x: add_zero(x))

# Legg inn kommunenavn i slakt-tabell - Slå sammen på kommunenummer.
df_slakt = df_slakt.merge(df_kommunenummer,how='left',on='komnr')

In [13]:
DataSummary(df_slakt)

A Jupyter Widget

A Jupyter Widget

A Jupyter Widget

In [113]:
# Lagre sammensatt datasett i ny fil
df_slakt.to_excel('LeveranseTilSlakteriLandbruket_Alle_Storfe.xlsx', index=False)

In [14]:
df_slakt.head()

Unnamed: 0,orgnr,navn,komnr,kalv_kg,ku_kg,kvige_kg,okse_kg,ungokse_kastrat_kg,ungku_kg,år,komnavn
0,969519887,ALFHILD STORÅS,1636,230.1,1835.2,180.7,0.0,1342.6,736.0,2013,Meldal
1,969752042,STENUMGÅRD LUDVIG,520,0.0,2193.2,0.0,0.0,7368.1,1849.0,2013,Ringebu
2,977548241,ELIN HOBBERSTAD,1119,0.0,3146.5,0.0,0.0,0.0,2041.1,2013,Hå
3,994914855,SØLVERØD SAMDRIFT DA,811,0.0,846.7,0.0,3832.0,15557.1,0.0,2013,Siljan
4,969163330,TOR ANDERS HAGA,1124,0.0,3292.8,0.0,0.0,7618.8,664.4,2013,Sola


In [17]:
df_slakt_perkommune = df_slakt.drop(['orgnr','år'],axis=1).groupby(['komnavn', 'komnr']).sum()
df_slakt_perkommune_og_år = df_slakt.drop(['orgnr'],axis=1).groupby(['komnavn', 'komnr','år']).sum()

In [18]:
df_slakt_perkommune_og_år

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,kalv_kg,ku_kg,kvige_kg,okse_kg,ungokse_kastrat_kg,ungku_kg
komnavn,komnr,år,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Agdenes,1622,2013,3762.0,61899.0,10725.0,7606.7,87308.3,50099.9
Agdenes,1622,2014,1814.8,50377.2,8945.3,3966.0,86350.2,40696.8
Agdenes,1622,2015,1055.6,55252.2,10042.1,5632.1,80789.5,42047.7
Agdenes,1622,2016,1875.8,60795.9,11382.6,5009.6,88265.2,36943.9
Alstahaug,1820,2013,877.1,82569.5,23331.1,19579.8,269044.1,73852.6
Alstahaug,1820,2014,665.5,80733.2,25684.4,17665.7,249621.1,58748.1
Alstahaug,1820,2015,529.3,74173.4,24143.9,19289.2,222296.4,72727.0
Alstahaug,1820,2016,1404.8,74151.8,26922.4,18083.4,253531.8,72658.5
Alta,2012,2013,3489.7,64586.8,5326.3,7923.6,78352.9,49058.3
Alta,2012,2014,2919.6,65024.3,5375.9,6567.2,77926.4,47319.7
