# RAG를 위한 준비

Google Search를 사용하려면

1. Google Cloud 크레덴셜 콘솔(https://console.cloud.google.com/apis/credentials) 에서 GOOGLE_API_KEY를 생성하고
2. Custom Search 사용 Enable (https://console.cloud.google.com/apis/library/customsearch.googleapis.com)
3. 프로그래머블 검색 엔진(https://programmablesearchengine.google.com/controlpanel/create) 을 사용하여 GOOGLE_CSE_ID를 만듭니다.

각각의 변수를 os.environ에 직접 설정하거나 환경변수에 설정합니다.

### 환경 변수 설정
- linux & mac
```bash
# ~/.zshrc or ~/.bash_profile 
export GOOGLE_CSE_ID={YOUR_GOOGLE_CSE_ID}
export GOOGLE_API_KEY={YOUR_GOOGLE_API_KEY}
```
- windows
  - 환경 변수 설정 

```python
os.environ["GOOGLE_CSE_ID"] = "{YOUR_GOOGLE_CSE_ID}"
os.environ["GOOGLE_API_KEY"] = "{YOUR_GOOGLE_API_KEY}"
```

## LangChain

- https://langchain-langchain.vercel.app/docs/get_started/quickstart
- https://langchain-langchain.vercel.app/docs/expression_language/get_started

In [1]:
!pip install --upgrade --quiet langchain langchain-openai faiss-cpu tiktoken langchain-google-genai

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
google-generativeai 0.8.4 requires google-ai-generativelanguage==0.6.15, but you have google-ai-generativelanguage 0.6.17 which is incompatible.[0m[31m
[0m

In [1]:
from langchain_core.messages import HumanMessage, AIMessage
from langchain_google_genai import ChatGoogleGenerativeAI

In [2]:
model = ChatGoogleGenerativeAI(model="gemini-1.5-pro")

### invoke

In [3]:
resp = model.invoke("안녕하세요를 영어로 번역해줘")
resp

AIMessage(content='"안녕하세요" can be translated to English in several ways depending on the context and level of formality:\n\n* **Hello:** This is the most common and versatile greeting.\n* **Hi:** A more informal version of "hello."\n* **Good morning:** Used from sunrise to noon.\n* **Good afternoon:** Used from noon to sunset.\n* **Good evening:** Used from sunset to bedtime.\n* **Greetings:** A more formal and less common greeting.\n* **How do you do?:** A formal greeting, not typically used in everyday conversation.  It\'s more common in introductions and doesn\'t necessarily require a detailed answer.  A simple "How do you do?" in return is often sufficient.\n\n\nSo, depending on the situation, you could use any of these.  If you\'re unsure, "Hello" or "Hi" are generally safe bets.', additional_kwargs={}, response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'model_name': 'gemini-1.5-pro-002', 'safety_ratings': []}, id='run-4150ee3

In [4]:
resp.content

'"안녕하세요" can be translated to English in several ways depending on the context and level of formality:\n\n* **Hello:** This is the most common and versatile greeting.\n* **Hi:** A more informal version of "hello."\n* **Good morning:** Used from sunrise to noon.\n* **Good afternoon:** Used from noon to sunset.\n* **Good evening:** Used from sunset to bedtime.\n* **Greetings:** A more formal and less common greeting.\n* **How do you do?:** A formal greeting, not typically used in everyday conversation.  It\'s more common in introductions and doesn\'t necessarily require a detailed answer.  A simple "How do you do?" in return is often sufficient.\n\n\nSo, depending on the situation, you could use any of these.  If you\'re unsure, "Hello" or "Hi" are generally safe bets.'

### Messages

In [5]:
messages = [
    HumanMessage(content="안녕하세요를 영어로 번역해줘")
]

In [6]:
resp = model.invoke(messages)
resp.content

'"안녕하세요" can be translated to English in several ways depending on the context and level of formality:\n\n* **Hello:** This is the most common and versatile greeting.\n* **Hi:** This is a more informal version of "hello."\n* **Good morning:** Used from sunrise to noon.\n* **Good afternoon:** Used from noon to sunset.\n* **Good evening:** Used from sunset to bedtime.\n* **Greetings:**  More formal and less common in everyday conversation.\n* **How do you do?:**  A formal greeting, not typically used in casual conversation.  It\'s more common to hear this in older movies or formal settings.  It\'s not a question that requires a detailed answer about how you are doing. A simple "How do you do?" in return is sufficient.\n\n\nSo, depending on the situation, you would choose the most appropriate translation.  For most cases, "Hello" or "Hi" will be perfectly acceptable.'

### Streaming

In [7]:
for chunk in model.stream("AI가 뭔지 설명해줘"):
    print(chunk.content, end="", flush=True)

AI, 즉 인공지능은 인간의 지능을 모방하는 컴퓨터 시스템을 만드는 것을 목표로 하는 컴퓨터 과학 분야입니다.  쉽게 말해, 컴퓨터가 사람처럼 생각하고 배우고 문제를 해결하도록 만드는 것이죠.

좀 더 자세히 설명하면 다음과 같습니다.

* **인간의 지능 모방:** AI는 인간의 학습, 추론, 문제 해결, 지각, 언어 이해 등 다양한 지적 능력을 컴퓨터로 구현하려고 합니다.
* **데이터 기반 학습:** 대부분의 현대 AI 시스템은 "머신러닝"이라는 기술을 사용합니다.  이는 컴퓨터가 대량의 데이터를 분석하고 패턴을 학습하여 스스로 성능을 향상시키는 것을 의미합니다.  예를 들어, 수많은 고양이 사진을 학습한 AI는 새로운 사진에서 고양이를 식별할 수 있게 됩니다.
* **다양한 종류와 응용:** AI는 매우 광범위한 분야이며, 다양한 종류와 응용이 있습니다.  몇 가지 예를 들면 다음과 같습니다:
    * **자연어 처리 (NLP):** 컴퓨터가 인간의 언어를 이해하고 생성하도록 하는 기술 (예: 챗봇, 번역기)
    * **컴퓨터 비전:** 컴퓨터가 이미지와 비디오를 이해하도록 하는 기술 (예: 얼굴 인식, 의료 영상 분석)
    * **음성 인식:** 컴퓨터가 음성을 텍스트로 변환하거나 음성 명령을 이해하도록 하는 기술 (예: 음성 비서, 음성 검색)
    * **전문가 시스템:** 특정 분야의 전문가 지식을 모방하여 의사 결정을 지원하는 시스템 (예: 의료 진단, 금융 분석)
    * **로보틱스:** 로봇의 지능을 향상시켜 복잡한 작업을 수행하도록 하는 기술 (예: 자율 주행 자동차, 산업용 로봇)

* **강 AI와 약 AI:** AI는 크게 강 AI와 약 AI로 나눌 수 있습니다.  강 AI는 인간과 동등하거나 뛰어난 일반적인 지능을 가진 AI를 의미하며, 아직 현실적으로 존재하지 않습니다.  현재 우리가 접하는 AI는 대부분 약 AI로, 특정 작업에 특화된 지능을 가지고 있습니다.


AI는 빠르게 발전하고 있으며, 우리 삶의 많은 부

### Batch

In [8]:
model.batch(["13+11=?", "10+20=?"])

[AIMessage(content='13 + 11 = 24', additional_kwargs={}, response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'model_name': 'gemini-1.5-pro-002', 'safety_ratings': []}, id='run-1d76f9ec-3f1b-46d7-8aac-d253fc4b940d-0', usage_metadata={'input_tokens': 6, 'output_tokens': 11, 'total_tokens': 17, 'input_token_details': {'cache_read': 0}}),
 AIMessage(content='10 + 20 = 30', additional_kwargs={}, response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'model_name': 'gemini-1.5-pro-002', 'safety_ratings': []}, id='run-65626fd7-7ffd-4c5a-8c25-96d0eda3fb60-0', usage_metadata={'input_tokens': 6, 'output_tokens': 11, 'total_tokens': 17, 'input_token_details': {'cache_read': 0}})]

## Google Search

In [None]:
from langchain_community.utilities import GoogleSearchAPIWrapper

In [None]:
search = GoogleSearchAPIWrapper()
search_result = search.run("미국 대선 날짜")

In [19]:
search_result

'2024년 미국 대통령 선거(영어: 2024 United States presidential election)는 2024년 11월 5일 화요일에 치러진 60번째 미국의 대통령 선거이다. 선거 결과 공화당의\xa0... 5 days ago ... 2024년 11월 5일에 시행된 미국 대통령 선거. 미국의 60번째 대통령 선거이고 제47대 대통령과 제50대 부통령을 선출하는 선거다. Oct 1, 2024 ... 이번 미국 대통령 선거는 언제? ... 올해 대선은 2024년 11월 5일 화요일로 예정돼 있다. 당선된 후보는 2025년 1월부터 4년간 대통령직을 수행하게 된다. “조건에 따라” 15일 유권자 등록 마감일 후 카운티 선거 사무소에 등록하고 투표할 수 있습니다. 권장 일자. 2026년 5월 26일. 개인적으로 전달된 투표 용지: 2026년 6월 2\xa0... Nov 6, 2024 ... 각주의 주지사나 행정 책임자는 12월 11일까지 유권자 투표를 통해 대통령 후보자가 획득한 선거인단 명부를 확정합니다. 미국 대부분의\xa0... Dec 18, 2024 ... 올해 미국 대선에서 공화당의 도널드 트럼프 당선인과 경쟁했던 카멀라 해리스 부통령 겸 민주당 대선 후보가 17일 패배 승복 후 첫 공개 연설을 갖고 “\xa0... 2024년 미국에서는 대통령과 연방 상하원 의원 일부 주지사를 선출하는 선거가 열립니다. 11월 5일 선거일까지 민주, 공화 각 당의 후보를 정하기 위한 경선과 전당\xa0... Nov 13, 2024 ... 2024년 미국 대통령 선거는 트럼프 등장 이후의 미국 정치 완결판과도 같은 의미를 가진다. 2015년 공화당 후보 경선에 뛰어든 시점부터 이번 대통령\xa0... 2016년 미국 대선 일정 · 2월 1일 : 아이오와 코커스(당원대회) · 2월 9일 : 뉴햄프셔 프라이머리(예비선거) · 3월 1일 : 슈퍼 화요일(13개 주에서 후보경선 양당 후보 윤곽)\xa0... Dec 20, 2023 ... 2024년 미국 대통령 선거 제도

## Private Search

In [20]:
from operator import itemgetter

from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnableLambda, RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_google_genai import GoogleGenerativeAIEmbeddings

In [21]:
vectorstore = FAISS.from_texts(
    ["피터는 구글에서 일합니다", "핸리는 켄쇼에서 일합니다", "로버트는 메타에서 일합니다."],
    embedding=OpenAIEmbeddings()
    # embedding=GoogleGenerativeAIEmbeddings(model="models/embedding-001")
)
retriever = vectorstore.as_retriever()

In [22]:
retriever.invoke("로버트는 어디서 일해?")

[Document(id='8c2583cc-79ff-4ba2-bf51-8d4c7f88feff', metadata={}, page_content='로버트는 메타에서 일합니다.'),
 Document(id='3851fc71-8a56-4ad4-9c29-8a5d9b5cc9b8', metadata={}, page_content='피터는 구글에서 일합니다'),
 Document(id='2ec6b449-1ceb-43fd-a61b-ac128c838f13', metadata={}, page_content='핸리는 켄쇼에서 일합니다')]

In [23]:
template = """다음 문맥에만 근거하여 문제에 답하세요:
{context}

질문: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

model = ChatGoogleGenerativeAI(model="gemini-pro")

In [24]:
chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | model
    | StrOutputParser()
)

In [25]:
chain.invoke("로버트는 어디서 일해?")

Retrying langchain_google_genai.chat_models._chat_with_retry.<locals>._chat_with_retry in 2.0 seconds as it raised NotFound: 404 models/gemini-pro is not found for API version v1beta, or is not supported for generateContent. Call ListModels to see the list of available models and their supported methods..


NotFound: 404 models/gemini-pro is not found for API version v1beta, or is not supported for generateContent. Call ListModels to see the list of available models and their supported methods.

In [43]:
template = """다음 문맥에만 근거하여 문제에 답하세요:
{context}

질문: {question}

답은 다음의 언어로 대답하세요.: {language}
"""
prompt = ChatPromptTemplate.from_template(template)

chain = (
    {
        "context": itemgetter("question") | retriever,
        "question": itemgetter("question"),
        "language": itemgetter("language"),
    }
    | prompt
    | model
    | StrOutputParser()
)

In [44]:
chain.invoke({"question": "피터는 어디서 일해?", "language": "english"})

'Peter works at Google.'