In [1]:
import pandas as pd
from dotenv import load_dotenv
import os
import openai


In [2]:
load_dotenv()

openai.api_key = os.getenv('API_KEY')

In [3]:
column_names = ['Varenummer', 'Kapittel', 'Beskrivelse']  # Example column names, adjust as needed
df = pd.read_csv("Bku.csv", sep=';', header=None, names=column_names).loc[:100]

df.head()

Unnamed: 0,Varenummer,Kapittel,Beskrivelse
0,10059010,Grovfor til storfe,"Hele maisplanter, med maiskolbe, som er finsni..."
1,10062090,Fullkorns basmatiris 500 gram,"Varen er ukokt, avskallet ""brown"" fullkorns ba..."
2,10062090,Ris,"Varen er avlange, avskallede rå riskorn av tha..."
3,10062090,Ris,"Varen ukokt, avskallet, upolert, ""svart jasmin..."
4,10062090,Ris,"Varen langkornet, avskallet, upolert ris, som ..."


In [4]:
print(df.columns)
print(f"Number of columns: {len(df.columns)}")


Index(['Varenummer', 'Kapittel', 'Beskrivelse'], dtype='object')
Number of columns: 3


In [5]:
df.dropna( inplace=True )
df.shape

(101, 3)

In [6]:

df["VareBeskrivelse"] = df["Kapittel"] + df["Beskrivelse"]
df.head(2)


Unnamed: 0,Varenummer,Kapittel,Beskrivelse,VareBeskrivelse
0,10059010,Grovfor til storfe,"Hele maisplanter, med maiskolbe, som er finsni...","Grovfor til storfeHele maisplanter, med maisko..."
1,10062090,Fullkorns basmatiris 500 gram,"Varen er ukokt, avskallet ""brown"" fullkorns ba...","Fullkorns basmatiris 500 gramVaren er ukokt, a..."


In [7]:
for i in range(3):
    print(df["Varenummer"].iloc[i])
    print(df["Kapittel"].iloc[i])
    print(df["Beskrivelse"].iloc[i])
    
    


10059010
Grovfor til storfe
Hele maisplanter, med maiskolbe, som er finsnittet og ensilert/konservert uten tilsetninger i store plansiloer med plast på toppen. Dette blir lastet opp i lastebil og kjørt i bulk til Norge eller blir presset i runde baller med plast på utsiden. Brukes som grovfor til storfe.
10062090
Fullkorns basmatiris 500 gram
Varen er ukokt, avskallet "brown" fullkorns basmatiris uten andre tilsetninger. Koketid ca. 25 minutt. Pakningsstørrelse: 500g.
10062090
Ris
Varen er avlange, avskallede rå riskorn av thailandsk brun ris. Koketid 45 minutter. Pakket i plastpose à 1 kg.


## Henter text embedding der vi bruker openai text-embedding-ada-002 MODEL


In [8]:
import openai

#OpenAI API-nøkkelen
openai.api_key = os.getenv('API_KEY')
#et skrip som vektoriserer dataten og lagrer det. Det blir gjenbrukbart. ! 1 skript: Vektoriser dataen. 2: Lage nytt skriv
#
def get_embedding(text, model="text-embedding-ada-002"):
    text = text.replace("\n", " ")
    response = openai.Embedding.create(input=[text], model=model)
    return response['data'][0]['embedding']


In [9]:
sample_embedding = get_embedding("ribbe")

In [10]:
len(sample_embedding)

1536

In [11]:
df["NavnVareBeskrivelse"] = df["VareBeskrivelse"].apply(lambda x: get_embedding(x, model = 'text-embedding-ada-002'))
df.to_csv("BeskrivelseEmbedded.csv")

## Legge til den nye embedded dataen i Elastic search indeksen


In [15]:
from elasticsearch import Elasticsearch

es = Elasticsearch(
    "https://localhost:9200",
    basic_auth = ("elastic", "X_f*F7lDbVi58VwaxG_b"),
    ca_certs = "/Users/yousra/TollEtatenFinal/elasticsearch-8.12.1/config/certs/http_ca.crt"
)
es.ping()

True

In [16]:
from indexmapping import indexmapping
import numpy as pd

In [51]:
# es.indices.create(index = "vareprodukter", mappings = indexmapping)



In [17]:
import pandas as pd
import numpy as np  # Dette bør også inkluderes siden du ser ut til å bruke np.array senere

embedding_df = pd.read_csv("BeskrivelseEmbedded.csv", index_col = 0)
embedding_df['NavnVareBeskrivelse'] = embedding_df.NavnVareBeskrivelse.apply(eval).apply(np.array)
#Konverter det til en array format


In [18]:
docs = embedding_df.to_dict("records")
docs[:5]

[{'Varenummer': 10059010,
  'Kapittel': 'Grovfor til storfe',
  'Beskrivelse': 'Hele maisplanter, med maiskolbe, som er finsnittet og ensilert/konservert uten tilsetninger i store plansiloer med plast på toppen. Dette blir lastet opp i lastebil og kjørt i bulk til Norge eller blir presset i runde baller med plast på utsiden. Brukes som grovfor til storfe.',
  'VareBeskrivelse': 'Grovfor til storfeHele maisplanter, med maiskolbe, som er finsnittet og ensilert/konservert uten tilsetninger i store plansiloer med plast på toppen. Dette blir lastet opp i lastebil og kjørt i bulk til Norge eller blir presset i runde baller med plast på utsiden. Brukes som grovfor til storfe.',
  'NavnVareBeskrivelse': array([-0.01016815, -0.0189066 , -0.007576  , ..., -0.00318673,
          0.00269402, -0.00641021])},
 {'Varenummer': 10062090,
  'Kapittel': 'Fullkorns basmatiris 500 gram',
  'Beskrivelse': 'Varen er ukokt, avskallet "brown" fullkorns basmatiris uten andre tilsetninger. Koketid ca. 25 minutt.

In [19]:
for doc in docs:
    try:
        es.index(index = "vareprodukter", document = doc, id = doc["Varenummer"])
    except Exception as e:
        print(e)

In [20]:
es.count(index = "vareprodukter")

ObjectApiResponse({'count': 22, '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0}})

## Søk etter data fra indekset


In [21]:
input_keyword = "ukokt ris" 
#Her konverteres søketeksten til inn til vector
vector_of_input_keyword = get_embedding(input_keyword)

In [23]:
#Nå filtrerer vi de semantiske resultatene.

q1 = {
    "knn": {
        "field" : "NavnVareBeskrivelse", #Sender query vector til søkefeltet også til vector
        "query_vector" : vector_of_input_keyword,
        "k" : 10, #Hvor mange resultater vi ønsker
        "num_candidates" : 1000 #hvor mange kandidter som kommer til å blir lagt til i algoritmen.
    },

    "_source": ["Varenummer", "Kapittel", "Beskrivelse"]
} 


#Eventuelle filter

#filter_query = {}


## PRøver å filtrere her fra search query

In [24]:
kapittel_list = embedding_df["Kapittel"].drop_duplicates().to_list()
print(kapittel_list)
varenummer_list = embedding_df["Varenummer"].drop_duplicates().to_list()
print(varenummer_list)
beskrivelse_list = embedding_df["Beskrivelse"].drop_duplicates().to_list()

['Grovfor til storfe', 'Fullkorns basmatiris 500 gram', 'Ris', 'Ukokt ris', 'Basmatiris 500 gram', 'Ris/ Paella sett', 'ris', 'Ris ukokt', 'Ris (Jasmin)', 'Ris / Paella sett', 'Polert ris', 'Middagssett - risrett', 'Indisk middagssett - risrett', 'korn', 'Quinoa - tørket', 'Quinoa', 'mel', 'Melblanding', 'Hvetemel', 'Finmalt spelt/hvetemel', 'Finmalt hvete/speltmel', 'finmalt hvitt hvete/spelt mel', 'Finmalt hvetemel', 'Finmalt mel', 'Mel', 'Hvetemel, finmalt', 'Maismel', 'rismel', 'Rismel', 'Bokhvete mel', 'Hirsemel, finmalt', 'Glutenfritt håndtverksmjøl, teff', 'hirse mel Korakan', 'gryn', 'Semulegryn', 'Maismel, grovt', 'Havremel', 'havregryn', 'Havregryn', 'Quinoaflak', 'Valset mais flak', 'Speltflak', 'Hirseflak', 'Bokhvete', 'Avskallet korn av hvete', 'Potetmos', 'Potetpulver, lufttørket', 'Potetpulver,tørket', 'Potetflak', 'Søtpotetpulver', 'Pulver av solbær', 'Aprikospulver', 'Pulver', 'Sitrus pulver', 'Nypepulver', 'Sitrusfiber', 'Aronia pulver', 'Kokosmel', 'Pulver av Baobab 

In [25]:
input_keyword = "ukokt ris"
vector_of_input_keyword = get_embedding(input_keyword)

## her skal vi gi prompt spørring

In [22]:
prompt = f"""dataen min ligger nå i elastic search med varenummer, kapitler, beskrivelse etc.
Varenummerene vi har er{varenummer_list}. Kapitler vi har er {kapittel_list} Vi har også beskrivelser {beskrivelse_list}. Baser på søkefeltet, fi meg en json output som følger: "
{{
"varenummer": "skal egt skrive noe her. Gi not found etc hvos spørring et eller annet"
"kapittel":"Skal egt skrive noe her"
"Beskrivelse": "her og" 
}}

users query : {input_keyword}
"""

prompt

'dataen min ligger nå i elastic search med varenummer, kapitler, beskrivelse etc.\nVarenummerene vi har er[10059010, 10062090, 10063080, 10064080, 10081090, 10085000, 11010000, 11022090, 11029002, 11029009, 11031100, 11031390, 11031990, 11041200, 11041900, 11042902, 11042909, 11051000, 11052000, 11061090, 11062000, 11063090]. Kapitler vi har er [\'Grovfor til storfe\', \'Fullkorns basmatiris 500 gram\', \'Ris\', \'Ukokt ris\', \'Basmatiris 500 gram\', \'Ris/ Paella sett\', \'ris\', \'Ris ukokt\', \'Ris (Jasmin)\', \'Ris / Paella sett\', \'Polert ris\', \'Middagssett - risrett\', \'Indisk middagssett - risrett\', \'korn\', \'Quinoa - tørket\', \'Quinoa\', \'mel\', \'Melblanding\', \'Hvetemel\', \'Finmalt spelt/hvetemel\', \'Finmalt hvete/speltmel\', \'finmalt hvitt hvete/spelt mel\', \'Finmalt hvetemel\', \'Finmalt mel\', \'Mel\', \'Hvetemel, finmalt\', \'Maismel\', \'rismel\', \'Rismel\', \'Bokhvete mel\', \'Hirsemel, finmalt\', \'Glutenfritt håndtverksmjøl, teff\', \'hirse mel Korakan

In [38]:
context_prompt = """Du er en Tolltariffside i Norge som profesjonelt klassifiserer varer.
Din rolle blir å gi meg riktig varenummer utifra det jeg søker etter. 
Jeg er en importør som skal søke etter varer i din nettside og det er kritisk at jeg får korrekt varenummer ettersom dette skal importeres fra utlandet til Norge.
Du skal først gi meg varens posisjon ("heading" i HS-nomenklaturen") på fire sifre,
så skal du gi underposisjonen("subheading" i HS-nomenklaturen). Du skal gi meg de 6 første sifrene som er internasjonale uten punktum og mellomrom: [15042011].
Deretter gir du meg det 8-sifrede formatet, der de to siste sifrene er det som tilsvarer det norske, altså et tolltariffnummer. Disse ekstra to sifrene reflekterer nasjonale behov for klassifisering av varer.
Du skal legge til de to sifrene ettersom de fleste land legger til ytterligere sifre for å gjøre klassifiseringen mer spesifikk
De to nasjonale sifrene benyttes når det er behov for å skille ut varer med forskjellige tollavgiftsatset,, særavgifter, 
innførsels- og utførselsrestriksjoner, og til statistikk over utenrikshandelen.
Gi meg minst tre eksempler som kan være aktuelle for varebeskrivelsen.

Eksempel:
- av svin 
- - - "Bacon crisp"
Posisjon (4 siffer): 1602
Underposisjon (6 siffer): 160249
Nasjonalt varenummer (8 siffer): 16024910

Denne nettsiden er rettet mot alle individer som skal eksportere varer fra utlandet 
til Norge som ønsker å ha klar oversikt over tollavgiftsatset, særavgifter, innførsels- og utførselsrestriksjoner,
 og til statistikk over utenrikshandelen.

Varebeskrivelse:
"""

In [36]:
"""response = client.chat.completions.create(
    model = "gbt-3.5-turbo-1106",
    response_format = { "type": "json_object"},
    messages = [
        {"role": "system", "content": "En ganske hjelpsom assistent lagetfor å gi output i JSON format"},
        {"role": "user", "content": prompt}
    ]
)

response"""

'response = client.chat.completions.create(\n    model = "gbt-3.5-turbo-1106",\n    response_format = { "type": "json_object"},\n    messages = [\n        {"role": "system", "content": "En ganske hjelpsom assistent lagetfor å gi output i JSON format"},\n        {"role": "user", "content": prompt}\n    ]\n)\n\nresponse'

In [37]:

# Her definerer vi en funksjon for å skape chat-completions
def create_chat_completion(prompt):
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Du er en svært intelligent assistent laget for å gi output i JSON format."},
            {"role": "user", "content": context_prompt + prompt}
        ]
    )
    return response

# Anta at `prompt` er brukerens spørsmål eller kommando
prompt = "Ris man bruker til indisk mat"
response = create_chat_completion(prompt)
print(response)


{
  "id": "chatcmpl-8zS4BRCsTMJtcaLCkrzYv1WYwkhMc",
  "object": "chat.completion",
  "created": 1709656587,
  "model": "gpt-3.5-turbo-0125",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "{\n    \"eksempel_1\": {\n        \"posisjon\": 1006,\n        \"underposisjon\": 100620,\n        \"nasjonalt_varenummer\": 10062010,\n        \"varebeskrivelse\": \"Ris av langkornet basmati-typen\"\n    },\n    \"eksempel_2\": {\n        \"posisjon\": 0713,\n        \"underposisjon\": 071390,\n        \"nasjonalt_varenummer\": 07139085,\n        \"varebeskrivelse\": \"T\u00f8rket chilipepper\"\n    },\n    \"eksempel_3\": {\n        \"posisjon\": 2005,\n        \"underposisjon\": 200510,\n        \"nasjonalt_varenummer\": 20051060,\n        \"varebeskrivelse\": \"Tomatpur\u00e9 eller tomatmos\"\n    }\n}"
      },
      "logprobs": null,
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 554,
    "completion_tokens"

In [34]:
response.choices[0].message.content

'1. Varebeskrivelse: Basmatiris\n   - Posisjon (4 siffer): 1006\n   - Underposisjon (6 siffer): 100630\n   - Nasjonalt varenummer (8 siffer): 10063010\n\n2. Varebeskrivelse: Jasminris\n   - Posisjon (4 siffer): 1006\n   - Underposisjon (6 siffer): 100630\n   - Nasjonalt varenummer (8 siffer): 10063010\n\n3. Varebeskrivelse: Langkornet ris\n   - Posisjon (4 siffer): 1006\n   - Underposisjon (6 siffer): 100610\n   - Nasjonalt varenummer (8 siffer): 10061010'

In [27]:
import json
filter_map = json.loads(response.choices[0].message.content)
filter_map

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

### Generere JSON ouput basert på brukerens søk

In [None]:
"""#`response` er svaret du får fra OpenAI
#konverterer svaret til en JSON-struktur
def convert_to_json(response):
    #trekke ut informasjon fra svaret
    #tilpasse basert på strukturen til svaret man får fra OpenAI
    data = response['choices'][0]['message']['content']
    json_output = {
        "varenummer": "10059010",  # Erstatt dette med faktiske verdier
        "kapittel": "Grovfor til storfe",  # Erstatt dette med faktiske verdier
        "beskrivelse": "Hele maisplanter, med maiskolbe, som er finsnittet og ensilert..."  # Erstatt dette med faktiske verdier
    }
    return json_output

# Bruk denne funksjonen til å konvertere svaret til JSON
json_response = convert_to_json(response)
print(json.dumps(json_response, indent=2, ensure_ascii=False))
 """

In [None]:
"""q1 = {
    "knn": {
        "field" : "NavnVareBeskrivelse", #Sender query vector til søkefeltet også til vector
        "query_vector" : vector_of_input_keyword,
        "k" : 10, #Hvor mange resultater vi ønsker
        "num_candidates" : 1000 #hvor mange kandidter som kommer til å blir lagt til i algoritmen.
    },

    "_source": ["Varenummer", "Kapittel", "Beskrivelse"]
} """

In [10]:
from flask import Flask, request, jsonify
app = Flask(__name__)

@app.route('/get-explanation', methods=['POST'])
def get_explanation():
    data = request.json
    input_text = data['input_text']
# Anta at du har en funksjon som behandler input_text og returnerer en forklaring
    explanation = process_input_and_generate_explanation(input_text)
    return jsonify({"explanation": explanation})

if name == 'main':
    app.run(debug=True)


 * Serving Flask app '__main__'
 * Debug mode: on


 * Running on http://127.0.0.1:5001
[33mPress CTRL+C to quit[0m
 * Restarting with watchdog (fsevents)
Traceback (most recent call last):
  File "/Users/yousra/csvFilTollEtaten/venv/lib/python3.9/site-packages/ipykernel_launcher.py", line 18, in <module>
    app.launch_new_instance()
  File "/Users/yousra/csvFilTollEtaten/venv/lib/python3.9/site-packages/traitlets/config/application.py", line 1074, in launch_instance
    app.initialize(argv)
  File "/Users/yousra/csvFilTollEtaten/venv/lib/python3.9/site-packages/traitlets/config/application.py", line 118, in inner
    return method(app, *args, **kwargs)
  File "/Users/yousra/csvFilTollEtaten/venv/lib/python3.9/site-packages/ipykernel/kernelapp.py", line 692, in initialize
    self.init_sockets()
  File "/Users/yousra/csvFilTollEtaten/venv/lib/python3.9/site-packages/ipykernel/kernelapp.py", line 331, in init_sockets
    self.shell_port = self._bind_socket(self.shell_socket, self.shell_port)
  File "/Users/yousra/csvFilTollEtaten/venv

SystemExit: 1