# 0. gpt 가 아닌 hugging face 의 모델 중 하나를 선택해 llm 모델 만들기

## 코드 흐름
> HuggingFaceHub 모델을 chain 형식으로 사용 후 정상 출력 확인  
> 데이터 수집  
> 추가 학습을 통한 실제 모델 훈련  
> 테스트 진행  

### 주제: 전세계의 웹 사이트 주요 기능 설명 챗봇.
1. 참고 사이트: semrush
- Similarweb: 웹사이트의 트래픽, 사용자 행동, 인기 페이지 등을 분석하여 제공 / 주요 웹사이트의 기능적 장점과 트렌드를 파악.
- BuiltWithL 특정 웹사이트에서 사용되는 기술 스택을 분석하여 기능적인 차별점을 파악할 수 있음.
- G2: 다양한 소프트웨어와 플랫폼에 대한 리뷰를 제공하며, 웹사이트 기능과 관련된 사용자 평가를 통해 장단점을 분석할 수 있습니다.
- Trustpilot: 사용자 리뷰를 통해 웹 사이트의 가용성 및 기능적 강점에 대해 크롤링 할 수 있는 좋은 소스.

### 크롤링 사용 도구:
1. BeautifulSoup (Python): HTML 및 XML 문서를 구문 분석하고, 웹사이트의 특정 데이터를 추출하는 데 매우 적합한 크롤링 도구입니다.  
   간단한 크롤링 작업에 적합하며, 필요한 정보만 빠르게 수집할 수 있습니다.
3. Scrapy: Scrapy는 대규모 크롤링 작업에 적합한 프레임워크로, 빠르게 데이터를 수집하고 정리할 수 있습니다.
4. Selenium: 웹 페이지의 동적 요소까지 크롤링해야 할 때 유용합니다. 자바스크립트가 많이 사용된 웹사이트에서 효과적입니다.

### 01. chain형식의 모델 사용

In [1]:
from langchain import LLMChain
from langchain.prompts import PromptTemplate
from langchain.llms import HuggingFaceHub

In [3]:
from langchain import LLMChain
from langchain.prompts import PromptTemplate
from langchain.llms import HuggingFaceHub

#HuggingFace Repository ID
repo_id = 'mistralai/Mistral-7B-v0.1'

question = "Who is Son Heung Min?"

template = """ Question: {question}

Answer: """

prompt = PromptTemplate(template=template, input_variables = ["question"])

In [9]:
# HuggingFaceHub 객체 생성
llm = HuggingFaceHub(
    repo_id=repo_id,
    model_kwargs={"temperature":0.2, "max_length":128}
)

In [10]:
# LLM Chain 객체 생성
llm_chain = LLMChain(prompt=prompt, llm=llm)

  llm_chain = LLMChain(prompt=prompt, llm=llm)


In [11]:
# 실행 
print(llm_chain.run(question=question))

  print(llm_chain.run(question=question))


 Question: Who is Son Heung Min?

Answer: 27-year-old South Korean forward who plays for Tottenham Hotspur in the Premier League.

Question: What is Son Heung Min’s best position?

Answer: Left winger.

Question: What is Son Heung Min’s best attribute?

Answer: His pace.

Question: What is Son Heung Min’s best skill?

Answer: His dribbling.

Question: What


In [16]:
# HuggingFace Repository ID
# 불러와서 사용하긴 어려운 모델
# repo_id = 'google/flan-t5-xxl'
# 정확도가 너무 떨어짐
repo_id = 'google/flan-t5-small'

# 질의내용
question = "how to make hambuger?"

# 템플릿
template = """Question: {question}

Answer: """

# 프롬프트 템플릿 생성
prompt = PromptTemplate(template=template, input_variables=["question"])

# HuggingFaceHub 객체 생성
# llm = HuggingFaceHub(
#     repo_id=repo_id, 
#     model_kwargs={"temperature": 0.2, 
#                   "max_length": 512}
# )

# LLM Chain 객체 생성
llm_chain = LLMChain(prompt=prompt, llm=llm)

# 실행
print(llm_chain.run(question=question))

Using a hammer, cut a small hole in the middle of the hammer and place it on a baking sheet.


### 01. 모델을 다운받아서 실제 사용

In [3]:
from langchain import LLMChain
from langchain.prompts import PromptTemplate
from langchain.llms import HuggingFacePipeline

# HuggingFace Model ID
# model_id = 'beomi/llama-2-ko-7b'
	
model_id = 'Alphacode-AI/AlphaMist7B-slr-v4-slow2'

# HuggingFacePipeline 객체 생성
# llm = HuggingFacePipeline.from_model_id(
#     model_id=model_id, 
#     device=-1,               # -1: CPU(default), 0번 부터는 CUDA 디바이스 번호 지정시 GPU 사용하여 추론
#     task="text-generation", # 텍스트 생성
#     model_kwargs={"temperature": 0.1, 
#                   "max_length": 64},
# )

# 템플릿
template = """질문: {question}

답변: """

# 프롬프트 템플릿 생성
prompt = PromptTemplate.from_template(template)

# LLM Chain 객체 생성
# llm_chain = LLMChain(prompt=prompt, llm=llm)

## 트러블슈팅
- 모델 실행 속도가 매우 느린 증상 -> llama-2-ko-7b 모델은 수억에서 수십억게의 매개변수를 가진 데이터 모델
- 맥북에서 gpu를 사용하기 위해 torch 와 transformers 라이브러리가 m1 GPU를 사용할 수 있도록 설정 -> device=0 변경  
    !pip install torch torchvision torchaudio

=> 맥북의 gpu에서는 메모리 부족으로 경고 발생 (메모리 상한선의 제한선을 해제하지 않고 다른 경량화 모델 사용 예정)

    # HuggingFacePipeline 객체 재정의
    from transformers import pipeline
    # llm = HuggingFacePipeline(
    #     pipeline=pipeline(
    #         "text-generation", 
    #         model="/Users/kimkyusan/.cache/huggingface/hub/models--beomi--llama-2-ko-7b/snapshots/4709f8cd6074590ed591e2fdf75499ae76ac4064", # 이미 로컬에 있는 모델 경로 또는 모델 이름
    #         device=0,  # GPU 사용 시 0, CPU 사용 시 -1
    #         model_kwargs={"temperature": 0.1, "max_length": 64}
    #     )
    # )

## 01. 한국어 다른 모델 사용

In [None]:
from langchain import LLMChain
from langchain.prompts import PromptTemplate
from langchain.llms import HuggingFacePipeline

# HuggingFace Model ID
	
model_id = 'Alphacode-AI/AlphaMist7B-slr-v4-slow2'

# HuggingFacePipeline 객체 생성
llm = HuggingFacePipeline.from_model_id(
    model_id=model_id, 
    device=0,               # -1: CPU(default), 0번 부터는 CUDA 디바이스 번호 지정시 GPU 사용하여 추론
    task="text-generation", # 텍스트 생성
    model_kwargs={"temperature": 0.1, 
                  "max_length": 64},
)

# 템플릿
template = """질문: {question}

답변: """

# 프롬프트 템플릿 생성
prompt = PromptTemplate.from_template(template)

# LLM Chain 객체 생성
llm_chain = LLMChain(prompt=prompt, llm=llm)

tokenizer_config.json:   0%|          | 0.00/1.39k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/551 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/653 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/3 [00:00<?, ?it/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.94G [00:00<?, ?B/s]

Error while downloading from https://cdn-lfs-us-1.hf.co/repos/d1/a5/d1a58c26a4c2b9267a3c8bab6839cf15b1272d12838a0583a99d4cf7e163f8b0/b24ff83b0cf1577fe5be7ff0610502529bad188faced16f1c9e0869f1d32cb49?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27model-00001-of-00003.safetensors%3B+filename%3D%22model-00001-of-00003.safetensors%22%3B&Expires=1727946439&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTcyNzk0NjQzOX19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy11cy0xLmhmLmNvL3JlcG9zL2QxL2E1L2QxYTU4YzI2YTRjMmI5MjY3YTNjOGJhYjY4MzljZjE1YjEyNzJkMTI4MzhhMDU4M2E5OWQ0Y2Y3ZTE2M2Y4YjAvYjI0ZmY4M2IwY2YxNTc3ZmU1YmU3ZmYwNjEwNTAyNTI5YmFkMTg4ZmFjZWQxNmYxYzllMDg2OWYxZDMyY2I0OT9yZXNwb25zZS1jb250ZW50LWRpc3Bvc2l0aW9uPSoifV19&Signature=PkdEf5FnPxsGu4agn7dQj9oyZQ8dL%7ELXwO0x3cJdJRswPSNjbebrhqN98srS6RGQFzkS9hfZcHXRFgboMhZ5b70GO39RlaEdMOyuOKGzPtZE8F06BP4PgZ2f1Ffg-XBR-qEnS%7EIccsOASEtcPcSTUwgJ7Y-IMSdNBfrOMdk%7E4lkHrvpB-t1anqmt1U8m%7EDblR403EcdB9k-xlney5ZzYayzbAcfHjO

model-00001-of-00003.safetensors:  92%|#########1| 4.54G/4.94G [00:00<?, ?B/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/4.54G [00:00<?, ?B/s]

In [None]:
# 실행
question = "대한민국의 수도는 어디야?"
print(llm_chain.run(question=question))

## 02. 데이터 추출
02-1. BeautifulSoup을 사용하여 전세계 웹사이트 확인 (semrush)  
02-2. csv 파일로 변경 -> 사이트 제작 나라 feature 추가
02-3. 각 사이트에 대한 주요 기능 feature 추가   
-> 다양한 검색에 대한 내용이 필요하므로 scrapy, selenium 을 사용할 수 있는 지 확인