In [4]:
pip install langchain langchain-community langchain-text-splitters langchain-huggingface pandas chromadb

Defaulting to user installation because normal site-packages is not writeable
Collecting langchain
  Downloading langchain-0.3.9-py3-none-any.whl.metadata (7.1 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.9-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-text-splitters
  Downloading langchain_text_splitters-0.3.2-py3-none-any.whl.metadata (2.3 kB)
Collecting langchain-huggingface
  Downloading langchain_huggingface-0.1.2-py3-none-any.whl.metadata (1.3 kB)
Collecting chromadb
  Downloading chromadb-0.5.23-py3-none-any.whl.metadata (6.8 kB)
Collecting SQLAlchemy<3,>=1.4 (from langchain)
  Downloading SQLAlchemy-2.0.36-cp39-cp39-macosx_11_0_arm64.whl.metadata (9.7 kB)
Collecting aiohttp<4.0.0,>=3.8.3 (from langchain)
  Downloading aiohttp-3.11.10-cp39-cp39-macosx_11_0_arm64.whl.metadata (7.7 kB)
Collecting async-timeout<5.0.0,>=4.0.0 (from langchain)
  Downloading async_timeout-4.0.3-py3-none-any.whl.metadata (4.2 kB)
Collecting langchain-core<0.4.0,>=0

In [6]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
# from langchain_openai import OpenAIEmbeddings
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma

from typing import List
from langchain.schema import Document  # Import Document if needed
import pandas as pd


### Document Load

In [19]:
# Document Load
loader = TextLoader('Intro.txt')
data = loader.load()


### Text Split

In [20]:
pip install tiktoken

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [21]:
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=150,
        chunk_overlap=50,
    encoding_name='cl100k_base'
)

texts = text_splitter.split_text(data[0].page_content)

In [22]:
texts

['디지털경영, 융합의 시대를 주도합니다.',
 '디지털경영전공은 다양한 배경을 가진 학생들이 모여 함께 성장하는 곳입니다. 전공과목은 프로그래밍과 데이터 분석에 필요한 기초 개념과 실습을 체계적으로 학습하도록 구성되어 있습니다. 때문에 문과 출신이더라도 열정과 노력으로 데이터 분석과 프로그래밍을 익힐 수 있습니다. 빅데이터와 인공지능의 기초를',
 '열정과 노력으로 데이터 분석과 프로그래밍을 익힐 수 있습니다. 빅데이터와 인공지능의 기초를 익히고 기업 경영에 활용하는 방법을 익힌다면 여러분 앞에는 성공을 위한 무한한 가능성이 열릴 것입니다. 배우고자 하는 의지가 있고, 열정이 넘치는 모든 학생을 환영합니다.',
 '데이터 분석, 이제는 선택이 아니라 필수입니다.',
 '과거에 컴맹이라는 말이 있었다면, 이제는 "데이터맹"이라는 말을 듣는 시대가 올 것입니다. 기업이 책에 나오는 경영학 이론을 통해 의사결정을 하거나, 몇몇 담당자의 경험에 의존해 의사결정을 하는 시대는 끝났습니다. 기업의 모든 활동이 빅데이터로 축적되며 데이터를 효과적으로 수집,',
 '하는 시대는 끝났습니다. 기업의 모든 활동이 빅데이터로 축적되며 데이터를 효과적으로 수집, 분석, 활용하여 중요한 의사결정을 하는 Data driven decision making 시대입니다. 따라서, 경영학을 공부하는 학생들에게 데이터분석 능력은 기본 중의 기본이 되었습니다.',
 '빅데이터 인공지능과 경영학의 만남을 추구합니다.',
 '디지털경영전공은 데이터 분석 능력과 비즈니스 마인드를 겸비한 실무 융합형 인재 양성을 목표로 하고 있습니다. 빅데이터와 인공지능 기술을 마케팅, 금융, 인사조직, 생산운영관리 등 다양한 비즈니스 분야에 적용하여 기업의 성과 향상과 새로운 가치 창출에 기여합니다.',
 '등 다양한 비즈니스 분야에 적용하여 기업의 성과 향상과 새로운 가치 창출에 기여합니다. 학생들은 머신러닝, 딥러닝, 비쥬얼라이제이션, 최적화 등의 최신 기술을 활용하여 데이터를 분석하고 인사이트를 도출하는 실습

### Embedding Model

In [23]:
embeddings_model = HuggingFaceEmbeddings(
        model_name='jhgan/ko-sroberta-nli',
        # huggingfacehub_api_token=os.environ["HUGGINGFACEHUB_API_TOKEN"],
        model_kwargs={'device':'cpu'},
        encode_kwargs={'normalize_embeddings':True}
    )

#### Test Embedding query

In [24]:
print(texts[0])
embeddings_model.embed_query(texts[0])[:3]

디지털경영, 융합의 시대를 주도합니다.


[0.012461068108677864, 0.02521030604839325, 0.04584038257598877]

In [25]:
# Vectorized size
len(embeddings_model.embed_query(texts[0]))

768

### Create Vector DB with test

In [26]:
db = Chroma.from_texts(
    texts, 
    embeddings_model,
    collection_name = 'history',
    persist_directory = './db/chromadb',
    collection_metadata = {'hnsw:space': 'cosine'}, # l2 is the default
)

db

<langchain_community.vectorstores.chroma.Chroma at 0x1752dbb50>

### Search Query

In [27]:
query = '디지털경영전공은 무엇인가요?'
docs = db.similarity_search(query)
print(docs[0].page_content)

디지털경영전공은 데이터 분석 능력과 비즈니스 마인드를 겸비한 실무 융합형 인재 양성을 목표로 하고 있습니다. 빅데이터와 인공지능 기술을 마케팅, 금융, 인사조직, 생산운영관리 등 다양한 비즈니스 분야에 적용하여 기업의 성과 향상과 새로운 가치 창출에 기여합니다.


In [28]:
query = '데이터분석과 빅데이터는 무슨 상관인가요'
docs = db.similarity_search(query)
print(docs[0].page_content)

의미를 찾아 비즈니스에 적용하는 과정이 필요합니다. 바로 이 빅데이터의 특정 패턴이나 의미에서 인사이트(insight)를 얻는 데이터 분석을 DATA ANALYST가 수행하게 됩니다
