# 目标：2025年进入AI风口赛道

## 强化能力

- Presentation：relying on more readings, more stories.
- Coding Skill：relying on more practiced, memorizing knowledge, leveraging AI assistant.

## Actions

- 课前: 预习上期视频，解决生疏概念，提出项目应用的相关问题
- 听课: 带着问题听
- 课后: 强化练习操作，将知识做实现

## 课程安排：录播自学内容
1. [Python基础](https://cuizhanming.com/python%E8%AF%AD%E6%B3%95%E5%85%A5%E9%97%A8%E6%95%99%E7%A8%8B/)
2. AI/ML基础
3. OpenAI应用

## 课程安排：直播课程内容

## Week1: Workstation Setup, RAG, Embedding, Vector.

### RAG (Retrieval Augmented Generation) System

1. **Retrieval**：检索什么？检索Pre-trained大模型没有的信息
What, When, Where, Who, How?
企业内部数据，在确定使用的大模型之后，向量数据库，AI Engineers，文档切割-大模型嵌入向量化-存储到向量数据库

2. **Augmented**：增强什么？增强用户原始的输入
What, When, Where, Who, How?
相关向量数据，用户调用大模型，向量数据库，AI System，用户输入向量化+检索向量数据+匹配度优先级

3. **Generation**：生成什么？生成用没有训练过的数据增强后的模型输出
What, When, Where, Who, How?
增强后的用户输入Prompt，AI System调用大模型接口，得到输出

### LLM (Large Language Models)
- Chat Models
- Chunking Documents Models
    - [Howto chunk documents strategy?](https://www.mongodb.com/developer/products/atlas/choosing-chunking-strategy-rag/)
    - [LangChain Splitters](https://python.langchain.com/v0.1/docs/modules/data_connection/document_transformers/#types-of-text-splitters)
    - [LlamaIndex Parsers](https://docs.llamaindex.ai/en/stable/api_reference/node_parsers/)
- Transform Documents Models
- Embedding Models
    - [Howto choose the right model?](https://www.mongodb.com/developer/products/atlas/choose-embedding-model-rag/)
    - OpenAI Embedding Models:
        - text-embedding-3-large
        - text-embedding-3-small
- ReRanking Models & API
    - Hugging Face Rerank (BAAI/bge-reranker-large, cross-encoder/ms-marco-MiniLM-L-6-v2)
    - [Cohere Rerank](https://cohere.com/rerank)：支持多语言
    - [Jina Rerank](https://jina.ai/reranker/)：目前只支持英文
    - 混合检索重排序 (Hybrid Retrieval ReRanking)

### Vector Database
- [Chroma](https://www.trychroma.com/)
- [Milvus](https://milvus.io/)
- [Qdrant](https://qdrant.com/)

### Frameworks
- [RAGFlow](https://github.com/infiniflow/ragflow): 一款基于深度文档理解构建的开源 RAG 引擎，支持多种文档格式
- RAG项目优先框架：LlamaIndex，LangChain，Ragflow
- [GraphRAG](https://github.com/microsoft/graphrag)
    - 知识图谱：医疗、金融、国家级能源机构，海量数据

### LangChain

- [LangChain](https://langchain.com/)
    - LCEL (LangChain Expression Language)
- [LangGraph](https://langgraph.com/)
- [LangSmith](https://langsmith.com/)
- [LangServe](https://python.langchain.com/docs/langserve/)

>[!WARNING] We recommend using `LangGraph Platform` rather than `LangServe` for new projects.
LangServe is designed to primarily deploy simple Runnables and work with well-known primitives in langchain-core.
If you need a deployment option for LangGraph, you should instead be looking at LangGraph Cloud (beta) which will be better suited for deploying LangGraph applications.

LangServe helps developers deploy LangChain runnables and chains as a REST API.
This library is integrated with `FastAPI` and uses `pydantic` for data validation.
In addition, it provides a client that can be used to call into runnables deployed on a server.

## Week2: HuggingFace BERT models

## Week3: HuggingFace GPT Models

## Week4: GPU + Llama3 + OLlama

## Week5: LoRA

一名打算獨自出國旅行的上班族，考慮到安排行程都需要花很多時間搜集資料，打算參考日本在地的旅遊網站內容(https://osaka.letsgojp.com/archives/548388/)，來安排京都熱門的旅遊景點。使用python開發，並透過BeautifulSoup套件來擷取，該網頁內容景點相關的內容。 每次都會隨機提供三個熱門景點與相關參考資訊，"如果不在推薦景點內，系統會另外提供其他熱門景點。只有顯示網頁回應200時才會開始推薦。每次執行都重新讀取網頁資訊，不需要存檔。

1.一名計劃獨自出國旅行的上班族，考慮到安排行程需要花費大量時間搜集資料，決定參考日本在地的旅遊網站內容。
2.使用Python開發，並透過BeautifulSoup套件來擷取該網頁中與景點相關的內容。
3.每次都會隨機提供三個熱門景點與相關參考資訊。如果不在推薦景點內，系統會另外提供其他熱門景點。
4.只有在網頁回應狀態碼為200時才會開始推薦。
5.每次執行時都會重新讀取網頁資訊，不需要存檔。

In [1]:
import requests
from bs4 import BeautifulSoup
import random

# 參考網址
url = 'https://osaka.letsgojp.com/archives/548388/'

# 發送 GET 請求
response = requests.get(url)
response.encoding = 'utf-8'

# 確認請求成功
if response.status_code == 200:
    # 解析 HTML
    soup = BeautifulSoup(response.text, 'html.parser')

    # 擷取文章主體
    article = soup.find('div', class_='entry-content clearfix')

    # 初始化資料列表
    playinfo=[]
    data=[]
    planinfo=[]
    # 提取標題
    title = soup.find('h1', class_='h3 my-3').text.strip()


    # 提取景點資訊
    location_data = article.find_all('p', {'align': 'justify'})

    for locations in location_data:
        # 取得景點名稱
        span_tag = locations.find('span')
        names = span_tag.text.strip() if span_tag else None

        # 取得景點資訊
        info = locations.get_text(strip=True)
        if names:
            info = info.replace(names, "")  # 移除名稱
        info = info.replace('"', '').replace("\r\n", "").replace("\r", "").replace("\n", "").replace("・", " ❊ ")

        # 取得官方網站連結
        a_tag = locations.find('a')
        web_url = a_tag['href'] if a_tag else None
        if web_url:
            info = info.replace("官方網站", f"官方網站：{web_url}")

        # 存入 `playinfo`
        if names:
            playinfo.append([names, info])

        #隨機推薦三個景點
        if len(playinfo) >= 3:
            visit_places = random.sample(playinfo, 3)
        else:
            visit_places = playinfo  # 如果不足 3 個，就顯示所有

    # 顯示隨機推薦的 3 個景點
    print(f"根據'{title}'網站介紹，隨機推薦的 3 個景點：\n")
    for place in visit_places:
        data.append(place[0])
        planinfo=f"景點：{place[0]}\n參考資訊:{place[1]}\n"
        planinfo=planinfo.replace(" ❊ ", " \n ❊ ")
        print(f'{planinfo}')


    # 提取 playinfo 裡的景點名稱
    planinfo = {item[0] for item in playinfo}

    # 找出不在推薦景點中的名稱
    extra_places = [name for name in planinfo if name not in data]
    print("\n下次旅行可參考的地點:\n", "、".join(extra_places))

else:
    print(f'無法取得網頁內容，狀態碼：{response.status_code}')

根據'京都景點地圖2025：19個京都必去景點、美食購物、一日遊行程示範'網站介紹，隨機推薦的 3 個景點：

景點：イクスカフェ祇園八坂店
參考資訊: 
 ❊ 地址：京都府京都市東山区円山町467 
 ❊ 營業時間：10:00～18:00（L.O 17:30） 
 ❊ 平均價錢：HOKAHOKA團子套餐1,650日圓 
 ❊ 官方網站：https://www.instagram.com/excafe_yasaka/

景點：清水寺
參考資訊: 
 ❊ 地址：京都市東山区清水1丁目294 
 ❊ 開放時間：6:00～18:30（詳細時間請參考官方網站：https://www.kiyomizudera.or.jp/） 
 ❊ 參拜費用：高中生以上 400日圓；中小學生 200日圓 
 ❊ 官方網站：https://www.kiyomizudera.or.jp/

景點：銀閣寺
參考資訊: 
 ❊ 地址：京都府京都市左京區町2 
 ❊ 營業時間：【3月1日～11月30日】8:30～17:00、【12月1日～2月底】9:00～16:30 
 ❊ 門票：大人（高中以上）500日圓／中小學生以下300日圓 
 ❊ 官方網站：https://www.shokoku-ji.jp/ginkakuji/


下次旅行可參考的地點:
 哲學之道、高台寺 十牛庵、元祖熟成細麵 香來 壬生本店、京都市京瓷美術館、嵐山嵯峨野竹林小徑、花見小路、西本願寺、無碍山房 京都髙島屋店、JR京都伊勢丹、錦市場、瑠璃光院、伏見稻荷大社、京都車站、燒肉名門 天壇 祇園本店、貴船神社、京都御苑、金閣寺、平等院、鴨川、平安神宮、美山茅草屋之鄉、永旺夢樂城京都、伊根、京都塔、八坂神社、地主神社、錦天滿宮、河原町、京都高島屋
