In [2]:
# Importerer de bilbiotekene som trenges ikke rør
import pdfplumber     # Bruker dette for å åpne prislisten
import pandas as pd   # Brukes til å lage Excel arket
import re             # Vi Bruker RegEx for å gjenkjenne varenummer og priser

In [16]:
# Henter prislisten
pdf_path = "example.pdf" # SØRG FOR AT FILNAVNET MÅ VÆRE EKSAKT
rows = []

# Prisliste starter ikke på side 1, men side 7 i akkurat mitt eksempel 
# Prisliste slutter ikke på siste side
# Derfor definerer jeg antall sider
start_page = 0 # startside er på 7, start_page må være (ekte startisde - 1)
end_page = 7  # sluttside som den er (151 er siste som blir tatt med)

# Løsning for å importere alle sidene
with pdfplumber.open(pdf_path) as pdf:
    # Blar gjennom alle sidene i PDF, fra første til siste side
    for i in range(start_page, end_page):
        try: # Her skal vi teste å se om det er tekst på sidene, hvis det ikke er det hopper vi over siden
            text = pdf.pages[i].extract_text() # Henter ut teksten
            if not text:
                print(f"Tom side {i+1}") # Hvis det ikke er tekst på siden så hopper vi over
                continue

            for line in text.split("\n"): # Sjekker alle linjene på siden i PDFen
                # Prøv å finne mønsteret: varenr først, pris sist
                # Vi vet at alle varene har et varenummer som likner XX-XXXXX (hvor X er tall)
                # Etterfulgt
                match = re.match(r'^([0-9]{2}[-‐][0-9]{5})\s+(.+?)\s+([\d ]+)$', line.strip())
                if match:
                    artnr = match.group(1).replace("‐", "-")  # bytt ut "feil" bindestrek når vi først er i gang 
                    #(Lettere å søke på leverandørens sider med –, prislisten var feil)
                    desc = match.group(2).strip()  # Henter beskrivelsen
                    price = match.group(3).replace(" ", "") # Henter prisen
                    if price.isdigit():
                        rows.append((artnr, desc, int(price))) # Legger til siden
            print(f"✅ Side {i+1} behandlet") # Bekrefter at ingenting var feil, vi er ferdig med siden
        except Exception as e:
            print(f"❌ Feil på side {i+1}: {e}") # Viser feil på side tall X fordi den er tom

# Lag excel fil
df = pd.DataFrame(rows, columns=["Art.nr", "Description", "Net price (SEK)"])
df.to_excel("example_output1.xlsx", index=False)
df.head() # Vi viser de første linjene for å sjekke at vi er all good

✅ Side 1 behandlet
✅ Side 2 behandlet
✅ Side 3 behandlet
✅ Side 4 behandlet
✅ Side 5 behandlet
✅ Side 6 behandlet
✅ Side 7 behandlet


Unnamed: 0,Art.nr,Description,Net price (SEK)
0,01-00075,Produktbeskrivelse,1460
1,01-00077,Produktbeskrivelse,269501
2,01-00085,Produktbeskrivelse,356001
3,01-00087,Produktbeskrivelse,496001
4,01-00095,Produktbeskrivelse,5640


## Leverandørspesefikke Veilpriser Tilburdspriser og forhandlertilbud etc

In [14]:
pdf_path = "example.pdf" # Henter prislisten
rows = []

# Satt til 1 fordi jeg ikke vil røpe våres leverandøres dekningsbirdag, men må egentlig endres
small_goods = 1 
small_goods_offer = 1
large_goods = 1
large_goods_offer = 1


def extract_group(description):
    return description.split()[0] if description else ""

def round_to_5(n): # Vi avrunder prisene våre for å matche leverandørens prissettingsguide
    return int(round(n / 5.0)) * 5

# Vi fikk ikke veilpris lagt ved i denne PDF'en, så jeg estimerer de her ved hjelp av denne funksjonen
def beregn_veilpris(pris):
    return round_to_5(pris * large_goods) if pris < 1650 else round_to_5(pris * small_goods)

# Vi regner ut tilbudspisene for når vi kjører kampanjer
def beregn_tilbudspriser(net_price_mva):
    kostpris = net_price_mva / 1.25
    db = 0.37 if net_price_mva < 1650 else 0.30
    pris_u_mva = kostpris / (1 - db)
    pris_m_mva = pris_u_mva * 1.25
    pris_m_mva_rundet = round_to_5(pris_m_mva)
    pris_u_mva_rundet = int(pris_m_mva_rundet / 1.25)
    return pris_u_mva_rundet, pris_m_mva_rundet

# Samme som over
with pdfplumber.open(pdf_path) as pdf:
    for i in range(6, len(pdf.pages)):
        try:
            text = pdf.pages[i].extract_text()
            if not text:
                continue

            for line in text.split("\n"):
                match = re.match(r'^([0-9]{2}[-‐][0-9]{5})\s+(.+?)\s+([\d ]+)$', line.strip())
                if match:
                    artnr = match.group(1).replace("‐", "-")
                    desc = match.group(2).strip()
                    price = match.group(3).replace(" ", "")
                    if price.isdigit():
                        net_price = int(price)
                        dealer_price = int(net_price * 0.90)
                        veilpris = beregn_veilpris(net_price)
                        tilbud_u_mva, tilbud_m_mva = beregn_tilbudspriser(net_price)
                        group = extract_group(desc)
                        rows.append((
                            artnr, desc, net_price,
                            dealer_price, veilpris,
                            tilbud_u_mva, tilbud_m_mva, group
                        ))

            print(f"✅ Side {i+1} behandlet")
        except Exception as e:
            print(f"❌ Feil på side {i+1}: {e}")

df = pd.DataFrame(rows, columns=[
    "Art.nr", "Description", "Net price (SEK)",
    "Forhandlerpris (SEK)", "VEILPRIS (SEK)",
    "Tilbudspris u/mva (SEK)", "Tilbudspris m/mva (SEK)", "Group"
])

df.sort_values(by=["Group", "Art.nr"], inplace=True)

df.to_excel("example_output2.xlsx", index=False)

df.head()

✅ Side 7 behandlet


Unnamed: 0,Art.nr,Description,Net price (SEK),Forhandlerpris (SEK),VEILPRIS (SEK),Tilbudspris u/mva (SEK),Tilbudspris m/mva (SEK),Group
0,06-96019,Produktbeskrivelse,397100,357390,397100,453828,567285,Produktbeskrivelse
1,06-96101,Produktbeskrivelse,39880,35892,39880,45576,56970,Produktbeskrivelse
2,06-96113,Produktbeskrivelse,39980,35982,39980,45692,57115,Produktbeskrivelse
3,06-96119,Produktbeskrivelse,40080,36072,40080,45804,57255,Produktbeskrivelse
4,06-96201,Produktbeskrivelse,4011049506,3609944555,4011049505,4584056580,5730070725,Produktbeskrivelse


# DEBUGGING

In [15]:
# Bare brukt for å se hvordan den ser ut for å hente ut informasjonen rett
with pdfplumber.open(pdf_path) as pdf:
    page = pdf.pages[6]
    print(page.extract_text())

06-96019 Produktbeskrivelse 397 100
06-96101 Produktbeskrivelse 398 80
06-96113 Produktbeskrivelse 399 80
06-96119 Produktbeskrivelse 400 80
06-96201 Produktbeskrivelse 401 10 49506
06-96601 Produktbeskrivelse 402 4 67506
06-97101 Produktbeskrivelse 403 5 66506
07-06125 Produktbeskrivelse 404 3 69507
07-06162 Produktbeskrivelse 405 2 1 67507
07-06164 Produktbeskrivelse 406 4 1 99007
07-06166 Produktbeskrivelse 407 6 2 41007
07-06168 Produktbeskrivelse 408 8 2 830
07-06169 Produktbeskrivelse 409 9 3 04007
07-07235 Produktbeskrivelse 410 3 79507
07-07262 Produktbeskrivelse 411 2 1 38007
07-07264 Produktbeskrivelse 412 4 1 59007
07-07266 Produktbeskrivelse 413 6 2 07507
07-07268 Produktbeskrivelse 414 8 2 53007
07-07270 Produktbeskrivelse 415 87507
07-09061 Produktbeskrivelse 416 3
07-09062 Produktbeskrivelse 417 3
07-09063 Produktbeskrivelse 418 3
07-09064 Produktbeskrivelse 419 3
07-09065 Produktbeskrivelse 420 3
07-09066 Produktbeskrivelse 421 3
07-09067 Produktbeskrivelse 422 3
07-090