# 환경 변수 로딩

## 와인 reviewdata indexing
-vectorDB : pinecone

In [11]:
from dotenv import load_dotenv
import os
load_dotenv(override=True, dotenv_path="../.env")

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
PINECONE_API_KEY = os.getenv("PINECONE_API_KEY")
LLAMA_EMBEDDING_MODEL = os.getenv("LLAMA_EMBEDDING_MODEL")
PINECONE_INDEX_NAME = 'wine-review2'
PINECONE_NAMESPACE = os.getenv("PINECONE_NAMESPACE")

## doc loader

In [4]:
from langchain_community.document_loaders import CSVLoader

loader = CSVLoader('./wine_reviews/winemag-data-130k-v2.csv')
docs = loader.load()
for i, d in enumerate(docs[:3]):
    print(i, d)

0 page_content=': 0
country: Italy
description: Aromas include tropical fruit, broom, brimstone and dried herb. The palate isn't overly expressive, offering unripened apple, citrus and dried sage alongside brisk acidity.
designation: Vulkà Bianco
points: 87
price: 
province: Sicily & Sardinia
region_1: Etna
region_2: 
taster_name: Kerin O’Keefe
taster_twitter_handle: @kerinokeefe
title: Nicosia 2013 Vulkà Bianco  (Etna)
variety: White Blend
winery: Nicosia' metadata={'source': './wine_reviews/winemag-data-130k-v2.csv', 'row': 0}
1 page_content=': 1
country: Portugal
description: This is ripe and fruity, a wine that is smooth while still structured. Firm tannins are filled out with juicy red berry fruits and freshened with acidity. It's  already drinkable, although it will certainly be better from 2016.
designation: Avidagos
points: 87
price: 15.0
province: Douro
region_1: 
region_2: 
taster_name: Roger Voss
taster_twitter_handle: @vossroger
title: Quinta dos Avidagos 2011 Avidagos Red 

In [3]:

len(docs)

129971

In [19]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, StorageContext
from llama_index.vector_stores.pinecone import PineconeVectorStore

NameError: name 'chunks' is not defined

In [23]:
# split하기
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 텍스트 분할기 설정 (예: 1000자씩 분할)
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, 
    chunk_overlap=100,
    # length_function=tiktoken_len,  # 토큰 기반 길이 측정    
    length_function=len,  # 문자수   
    separators=["\n\n", "\n", " ", ""]
    )

# 문서를 분할
chunks = text_splitter.split_documents(docs)

In [8]:
len(chunks)

129982

In [9]:

chunks[2]

Document(metadata={'source': './wine_reviews/winemag-data-130k-v2.csv', 'row': 2}, page_content=': 2\ncountry: US\ndescription: Tart and snappy, the flavors of lime flesh and rind dominate. Some green pineapple pokes through, with crisp acidity underscoring the flavors. The wine was all stainless-steel fermented.\ndesignation: \npoints: 87\nprice: 14.0\nprovince: Oregon\nregion_1: Willamette Valley\nregion_2: Willamette Valley\ntaster_name: Paul Gregutt\ntaster_twitter_handle: @paulgwine\ntitle: Rainstorm 2013 Pinot Gris (Willamette Valley)\nvariety: Pinot Gris\nwinery: Rainstorm')

In [33]:
from pinecone import Pinecone

pc = Pinecone(api_key= PINECONE_API_KEY, environment="us-east1-gcp")

index_name = "llama-text-embed-v2"

index = pc.Index(name=index_name, host="https://wine-review2-znzg6hs.svc.aped-4627-b74a.pinecone.io")

In [20]:
vector_store = PineconeVectorStore(pinecone_index=index)
storage_context = StorageContext.from_defaults(vector_store=vector_store)

In [27]:
from llama_index.core.schema import TextNode
from llama_index.core import VectorStoreIndex

# 1. LangChain Document를 LlamaIndex TextNode로 변환
nodes = []
for doc in chunks:
    node = TextNode(
        text=doc.page_content,    # LangChain의 텍스트 내용
        metadata=doc.metadata     # LangChain의 메타데이터(출처, 페이지 등) 유지
    )
    nodes.append(node)

print(f"총 {len(nodes)}개의 노드로 변환되었습니다.")

총 129982개의 노드로 변환되었습니다.


In [34]:
# 2. 배치 단위로 Pinecone에 Upsert 진행
BATCH_SIZE = 500 

for i in range(0, len(nodes), BATCH_SIZE):
    batch_nodes = nodes[i : i + BATCH_SIZE]
    
    if i == 0:
        # 첫 번째 배치로 인덱스 초기화 (Pinecone 연결 및 임베딩 시작)
        index = VectorStoreIndex(
            nodes=batch_nodes, 
            storage_context=storage_context,
            show_progress=True
        )
        print(f"첫 번째 배치({len(batch_nodes)}개) 완료 및 인덱스 생성됨.")
    else:
        # 이후 배치들은 기존 인덱스에 추가
        index.insert_nodes(batch_nodes)
        print(f"{i}번째부터 {i + len(batch_nodes)}번째 노드까지 추가 완료.")

print("--- 모든 데이터가 Pinecone에 저장되었습니다! ---")

Generating embeddings:   0%|          | 0/500 [00:00<?, ?it/s]

Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

첫 번째 배치(500개) 완료 및 인덱스 생성됨.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

500번째부터 1000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

1000번째부터 1500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

1500번째부터 2000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

2000번째부터 2500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

2500번째부터 3000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

3000번째부터 3500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

3500번째부터 4000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

4000번째부터 4500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

4500번째부터 5000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

5000번째부터 5500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

5500번째부터 6000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

6000번째부터 6500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

6500번째부터 7000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

7000번째부터 7500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

7500번째부터 8000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

8000번째부터 8500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

8500번째부터 9000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

9000번째부터 9500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

9500번째부터 10000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

10000번째부터 10500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

10500번째부터 11000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

11000번째부터 11500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

11500번째부터 12000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

12000번째부터 12500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

12500번째부터 13000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

13000번째부터 13500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

13500번째부터 14000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

14000번째부터 14500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

14500번째부터 15000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

15000번째부터 15500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

15500번째부터 16000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

16000번째부터 16500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

16500번째부터 17000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

17000번째부터 17500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

17500번째부터 18000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

18000번째부터 18500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

18500번째부터 19000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

19000번째부터 19500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

19500번째부터 20000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

20000번째부터 20500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

20500번째부터 21000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

21000번째부터 21500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

21500번째부터 22000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

22000번째부터 22500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

22500번째부터 23000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

23000번째부터 23500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

23500번째부터 24000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

24000번째부터 24500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

24500번째부터 25000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

25000번째부터 25500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

25500번째부터 26000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

26000번째부터 26500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

26500번째부터 27000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

27000번째부터 27500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

27500번째부터 28000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

28000번째부터 28500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

28500번째부터 29000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

29000번째부터 29500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

29500번째부터 30000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

30000번째부터 30500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

30500번째부터 31000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

31000번째부터 31500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

31500번째부터 32000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

32000번째부터 32500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

32500번째부터 33000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

33000번째부터 33500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

33500번째부터 34000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

34000번째부터 34500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

34500번째부터 35000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

35000번째부터 35500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

35500번째부터 36000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

36000번째부터 36500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

36500번째부터 37000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

37000번째부터 37500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

37500번째부터 38000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

38000번째부터 38500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

38500번째부터 39000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

39000번째부터 39500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

39500번째부터 40000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

40000번째부터 40500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

40500번째부터 41000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

41000번째부터 41500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

41500번째부터 42000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

42000번째부터 42500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

42500번째부터 43000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

43000번째부터 43500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

43500번째부터 44000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

44000번째부터 44500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

44500번째부터 45000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

45000번째부터 45500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

45500번째부터 46000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

46000번째부터 46500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

46500번째부터 47000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

47000번째부터 47500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

47500번째부터 48000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

48000번째부터 48500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

48500번째부터 49000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

49000번째부터 49500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

49500번째부터 50000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

50000번째부터 50500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

50500번째부터 51000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

51000번째부터 51500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

51500번째부터 52000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

52000번째부터 52500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

52500번째부터 53000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

53000번째부터 53500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

53500번째부터 54000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

54000번째부터 54500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

54500번째부터 55000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

55000번째부터 55500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

55500번째부터 56000번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

56000번째부터 56500번째 노드까지 추가 완료.


Upserted vectors:   0%|          | 0/500 [00:00<?, ?it/s]

KeyboardInterrupt: 

In [30]:
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings

In [31]:
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-small-en-v1.5"
)

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/743 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/133M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/366 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]