In [27]:
# -*- coding: utf-8 -*-
# docker: {docker ps --filter "name=qdrant-test" --format "{{.Names}}" | grep -q qdrant-test && echo "‚úÖ Qdrant m√°r fut." || (docker ps -a --filter "name=qdrant-test" --format "{{.Names}}" | grep -q qdrant-test && (echo "‚ñ∂Ô∏è Qdrant ind√≠t√°sa..." && docker start qdrant-test) || (echo "üÜï √öj Qdrant kont√©ner l√©trehoz√°sa..." && docker run -d --name qdrant-test -p 6333:6333 -p 6334:6334 qdrant/qdrant && echo "‚úÖ Qdrant elind√≠tva. Nyisd meg: http://localhost:6333/dashboard"))}

# INVENTORYAI - Embedding teszt minden oszlopra t√∂bb modellel
# Modellek: text-embedding-3-small, text-embedding-3-large, text-embedding-ada-002

import pandas as pd
from qdrant_client import QdrantClient
from qdrant_client.models import VectorParams, PointStruct
from openai import OpenAI
import os
from dotenv import load_dotenv

# -------------------------------
# 1Ô∏è‚É£ .env bet√∂lt√©se √©s kulcs ellen≈ërz√©se
# -------------------------------
load_dotenv()  # .env f√°jl beolvas√°sa
api_key = os.getenv("OPENAI_API_KEY")
if not api_key:
    raise RuntimeError("‚ùå Nincs be√°ll√≠tva az OPENAI_API_KEY k√∂rnyezeti v√°ltoz√≥! Ellen≈ërizd a .env f√°jlt.")

client_openai = OpenAI(api_key=api_key)

# -------------------------------
# 2Ô∏è‚É£ Excel beolvas√°sa √©s sz√∂veg tiszt√≠t√°s
# -------------------------------
df = pd.read_excel("../data/inventoryAI_data/leltar.XLSX")

# Minden string oszlopot kisbet≈±sre √©s whitespace-mentesre alak√≠tunk
for col in df.select_dtypes(include='object').columns:
    df[col] = df[col].str.lower().str.strip()
    df[col] = df[col].str.replace(r'\s+', ' ', regex=True)

print("Adat el≈ëk√©sz√≠t√©s k√©sz. Sorok sz√°ma:", len(df))

# -------------------------------
# 3Ô∏è‚É£ Qdrant kliens inicializ√°l√°s
# -------------------------------
qdrant_client = QdrantClient(url="http://localhost:6333")


Adat el≈ëk√©sz√≠t√©s k√©sz. Sorok sz√°ma: 49


## 1Ô∏è‚É£ Be√°ll√≠t√°sok √©s adatok bet√∂lt√©se

Ez a r√©sz:
- Bet√∂lti a `.env` f√°jlt, hogy az OpenAI API kulcsot haszn√°lni tudjuk.
- Ellen≈ërzi, hogy az `OPENAI_API_KEY` k√∂rnyezeti v√°ltoz√≥ be van-e √°ll√≠tva.
- Inicializ√°lja az OpenAI klienst.
- Beolvassa az Excel lelt√°radatot √©s megtiszt√≠tja a sz√∂veges oszlopokat (kisbet≈±s, felesleges sz√≥k√∂z√∂k elt√°vol√≠t√°sa).
- Inicializ√°lja a Qdrant klienset.


In [28]:
# -------------------------------
# 4Ô∏è‚É£ Modellek list√°ja
# -------------------------------
models = [
    {"name": "text-embedding-3-small", "size": 1536},
    {"name": "text-embedding-3-large", "size": 3072},  # text-embedding-3-large nagyobb vektor
    {"name": "text-embedding-ada-002", "size": 1536}
]

# -------------------------------
# 5Ô∏è‚É£ Embedding gener√°l√°s √©s Qdrant felt√∂lt√©s minden modellre
# -------------------------------
for model_info in models:
    model_name = model_info["name"]
    vector_size = model_info["size"]
    collection_name = f"leltar_{model_name.replace('-', '_')}_all_columns"

    print(f"\n--- Feldolgoz√°s: {model_name} ---")

    # Ha a kollekci√≥ l√©tezik, t√∂r√∂lj√ºk
    if qdrant_client.collection_exists(collection_name=collection_name):
        qdrant_client.delete_collection(collection_name=collection_name)

    # Kollekci√≥ l√©trehoz√°sa
    qdrant_client.create_collection(
        collection_name=collection_name,
        vectors_config=VectorParams(size=vector_size, distance="Cosine")
    )

    points = []
    for idx, row in df.iterrows():
        # Minden oszlopot √∂sszef≈±z√ºnk egy stringbe
        text = " | ".join([str(row[col]) for col in df.columns])

        # Embedding lek√©r√©se az OpenAI-t√≥l
        response = client_openai.embeddings.create(
            model=model_name,
            input=text
        )
        vector = response.data[0].embedding

        # Qdrant PointStruct k√©sz√≠t√©se
        point = PointStruct(
            id=int(row['Eszk√∂z']),
            vector=vector,
            payload={col: row[col] for col in df.columns}
        )
        points.append(point)

    # Felt√∂lt√©s a Qdrantba
    qdrant_client.upsert(
        collection_name=collection_name,
        points=points
    )
    print(f"{len(points)} vektor felt√∂ltve a Qdrant kollekci√≥ba: {collection_name}")

    # -------------------------------


--- Feldolgoz√°s: text-embedding-3-small ---
49 vektor felt√∂ltve a Qdrant kollekci√≥ba: leltar_text_embedding_3_small_all_columns

--- Feldolgoz√°s: text-embedding-3-large ---
49 vektor felt√∂ltve a Qdrant kollekci√≥ba: leltar_text_embedding_3_large_all_columns

--- Feldolgoz√°s: text-embedding-ada-002 ---
49 vektor felt√∂ltve a Qdrant kollekci√≥ba: leltar_text_embedding_ada_002_all_columns


# 2Ô∏è‚É£ Modellek kiv√°laszt√°sa √©s embeddingek Qdrantba t√∂lt√©se

Ez a r√©sz a k√∂vetkez≈ëket v√©gzi:

- Meghat√°rozza a haszn√°lni k√≠v√°nt modelleket:
  - `text-embedding-3-small`
  - `text-embedding-3-large`
  - `text-embedding-ada-002`
- Meghat√°rozza a hozz√°juk tartoz√≥ vektorm√©reteket.

## Folyamat

1. **Iter√°l√°s a modelleken:**
   - Minden modellen v√©gigmegy√ºnk, √©s l√©trehozunk egy k√ºl√∂n Qdrant kollekci√≥t az adott modellhez.
   - Ha a kollekci√≥ m√°r l√©tezik, t√∂rl√©sre ker√ºl, hogy tiszta adatb√°zissal dolgozhassunk.
   - Kollekci√≥ l√©trehoz√°sa a Qdrantban:
     - Megadott vektorm√©ret
     - `Cosine` t√°vols√°g be√°ll√≠t√°s

2. **Adatok feldolgoz√°sa Excelb≈ël:**
   - Minden sorhoz √∂sszef≈±zi az √∂sszes oszlopot egyetlen sz√∂vegg√©.
   - Lek√©ri az embeddinget az OpenAI modellt≈ël.
   - L√©trehoz egy `PointStruct` objektumot, ami tartalmazza:
     - ID
     - Vektor
     - √ñsszes payload mez≈ë


    --
    **Megjegyz√©s**
    - Jelenleg minden sorhoz k√ºl√∂n API-h√≠v√°ssal k√©sz√≠tj√ºk az embeddingeket. Ez kis adatmennyis√©gn√©l (pl. 50 sor) teljesen megfelel≈ë, pontos √©s k√∂nnyen k√∂vethet≈ë.
    - Ha a sorok sz√°ma n√∂vekszik, √©rdemes √°tt√©rni batch feldolgoz√°sra, ahol egyszerre t√∂bb sorhoz gener√°lunk embeddinget. Ez gyorsabb √©s k√∂lts√©ghat√©konyabb, mik√∂zben minden sorhoz k√ºl√∂n embeddinget kapunk, √≠gy a keres√©s pontoss√°ga nem cs√∂kken.

3. **Vektorok felt√∂lt√©se:**
   - Az √∂sszegy≈±jt√∂tt vektorokat felt√∂lti a Qdrant kollekci√≥ba.
   - Ki√≠rja, hogy h√°ny vektor ker√ºlt felt√∂lt√©sre az adott kollekci√≥ba.

## √ñsszegz√©s

Itt t√∂rt√©nik az adatok t√©nyleges vektorokk√° alak√≠t√°sa √©s a Qdrant adatb√°zisba t√∂rt√©n≈ë felt√∂lt√©se minden kiv√°lasztott modell alapj√°n.



In [29]:
# 6Ô∏è‚É£ T√∂bb keres≈ësz√∂veg tesztel√©se
query_texts = [
    "cisco callmanager licenc",
    "xilinx szoftver",
    "pc b√©r+kieg√©sz√≠t≈ë program",
    "matlab 25 felhaszn√°l√≥s"
]

for query_text in query_texts:
    # Ha ki akarjuk emelni egy oszlopot, pl. "Eszk√∂z megnevez√©se", azt itt csin√°lhatjuk
    # weighted_text = f"{row['Eszk√∂z megnevez√©se']} | {row['Alsz√°m']} | ... "

    # Embedding lek√©r√©se OpenAI-t√≥l (egy sor vagy batch is lehet)
    query_embedding = client_openai.embeddings.create(
        model=model_name,
        input=query_text
    ).data[0].embedding

    # Keres√©s Qdrantban a kiv√°lasztott kollekci√≥ban
    search_results = qdrant_client.query_points(
        collection_name=collection_name,
        query=query_embedding,
        limit=3,
        # distance='Cosine'  # ha m√°s metrik√°t szeretn√©l, itt √°ll√≠that√≥ (pl. Dot)
    )

    print(f"\nTop 3 relev√°ns tal√°lat a keres≈ësz√∂vre: '{query_text}'")
    for hit in search_results.points:
        print(f"ID: {hit.id}, Score: {hit.score:.4f}")
        for col, val in hit.payload.items():
            print(f"   {col}: {val}")




Top 3 relev√°ns tal√°lat a keres≈ësz√∂vre: 'cisco callmanager licenc'
ID: 1000222, Score: 0.8600
   Eszk√∂z: 1000222
   Alsz√°m: 0
   Aktiv√°l√°s d√°tuma: 2021-08-01T00:00:00
   Eszk√∂z megnevez√©se: sw-ccme-ul-7940 cisco callmanager licenc
   Besz.√©rt.: 0
   Kum. √âCS: 0
   K.sz.√©rt: 0
   P√©nznem: huf
   Mennyis√©g: 1
   Lelt√°rsz√°m: 70667
   Telephely: nikszf4421
ID: 1000223, Score: 0.8596
   Eszk√∂z: 1000223
   Alsz√°m: 0
   Aktiv√°l√°s d√°tuma: 2021-08-01T00:00:00
   Eszk√∂z megnevez√©se: sw-ccme-ul-7940 cisco callmanager licenc
   Besz.√©rt.: 0
   Kum. √âCS: 0
   K.sz.√©rt: 0
   P√©nznem: huf
   Mennyis√©g: 1
   Lelt√°rsz√°m: 70668
   Telephely: nikszf4421
ID: 1000221, Score: 0.8582
   Eszk√∂z: 1000221
   Alsz√°m: 0
   Aktiv√°l√°s d√°tuma: 2021-08-01T00:00:00
   Eszk√∂z megnevez√©se: sw-ccme-ul-7940 cisco callmanager licenc
   Besz.√©rt.: 0
   Kum. √âCS: 0
   K.sz.√©rt: 0
   P√©nznem: huf
   Mennyis√©g: 1
   Lelt√°rsz√°m: 70666
   Telephely: nikszf4421

Top 3 relev√°ns tal√°l

# Qdrant + OpenAI Embedding Teszt

## Mi t√∂rt√©nik a k√≥dban

1. **Keres≈ësz√∂vegek defini√°l√°sa**
   Egy lista keres≈ësz√∂veget tartalmaz, amire a Qdrant adatb√°zisban relev√°ns tal√°latokat keres√ºnk.

2. **Embedding gener√°l√°s**
   Minden keres≈ësz√∂veget az OpenAI kiv√°lasztott embedding modellje vektorr√° alak√≠t.

3. **Keres√©s a Qdrant kollekci√≥ban**
   A lek√©rdezett embeddinget haszn√°lva a Qdrant top 3 relev√°ns tal√°latot ad vissza.

4. **Eredm√©nyek ki√≠r√°sa**
   A tal√°latok azonos√≠t√≥ja, relevancia pontsz√°ma √©s a kapcsol√≥d√≥ adatok ker√ºlnek megjelen√≠t√©sre.

## Konkl√∫zi√≥

A h√°rom tesztelt modell k√∂z√ºl a **`text-embedding-3-large`** teljes√≠tett a legjobban.
Ennek oka, hogy a nagyobb, 3072 dimenzi√≥s vektorok pontosabban reprezent√°lj√°k a keres≈ësz√∂veg √©s az adatb√°zis tartalm√°t, √≠gy finomabb √©s relev√°nsabb tal√°latokat adnak.
A `text-embedding-3-small` gyors √©s elfogadhat√≥, m√≠g az `ada-002` modell r√©gebbi, √©s pontoss√°gban elmarad a k√©t √∫jabb modellt≈ël.
