# Load Data

In [None]:
from google.colab import userdata
username = userdata.get('KAGGLE_USER')
key = userdata.get('KAGGLE_KEY')
# Echo the credentials into the kaggle.json file
#สร้างไฟล์ kaggle.json ที่เก็บข้อมูลลับของ Kaggle API (ชื่อผู้ใช้และคีย์) ไว้ในระบบของคุณ
!mkdir -p ~/.kaggle
!echo '{{"username":"{username}","key":"{key}"}}' > ~/.kaggle/kaggle.json
!chmod 600 /root/.kaggle/kaggle.json

In [None]:
# Download dataset
#โหลดชุดข้อมูล จาก dataset บน kaggle
!kaggle datasets download -d nattakritmachoo/agriculture-fine-tune-datasets
#คำสั่งใช้เเตกไฟล์ zip
!unzip /content/agriculture-fine-tune-datasets.zip && rm -rf /content/agriculture-fine-tune-datasets.zip

Dataset URL: https://www.kaggle.com/datasets/nattakritmachoo/agriculture-fine-tune-datasets
License(s): CC0-1.0
Downloading agriculture-fine-tune-datasets.zip to /content
  0% 0.00/41.2k [00:00<?, ?B/s]
100% 41.2k/41.2k [00:00<00:00, 48.6MB/s]
Archive:  /content/agriculture-fine-tune-datasets.zip
  inflating: Agriculture_Fine_Tune_Datasets/Rubber.csv  
  inflating: Agriculture_Fine_Tune_Datasets/coconut.csv  
  inflating: Agriculture_Fine_Tune_Datasets/durian.csv  
  inflating: Agriculture_Fine_Tune_Datasets/fertilizer.csv  
  inflating: Agriculture_Fine_Tune_Datasets/longan.csv  
  inflating: Agriculture_Fine_Tune_Datasets/mangosteen.csv  
  inflating: Agriculture_Fine_Tune_Datasets/other.csv  
  inflating: Agriculture_Fine_Tune_Datasets/palm.csv  
  inflating: Agriculture_Fine_Tune_Datasets/rambutan.csv  
  inflating: Agriculture_Fine_Tune_Datasets/rice.csv  
  inflating: Agriculture_Fine_Tune_Datasets/sugar_cane.csv  


# Prepare Data

In [None]:
import pandas as pd
import glob
import os

In [None]:
folder_path = '/content/Agriculture_Fine_Tune_Datasets'

In [None]:
#ค้นหาไฟล์ CSV ทั้งหมดในโฟลเดอร์
file_paths = glob.glob(os.path.join(folder_path, '*.csv'))
print(file_paths)

['/content/Agriculture_Fine_Tune_Datasets/sugar_cane.csv', '/content/Agriculture_Fine_Tune_Datasets/fertilizer.csv', '/content/Agriculture_Fine_Tune_Datasets/palm.csv', '/content/Agriculture_Fine_Tune_Datasets/rice.csv', '/content/Agriculture_Fine_Tune_Datasets/durian.csv', '/content/Agriculture_Fine_Tune_Datasets/Rubber.csv', '/content/Agriculture_Fine_Tune_Datasets/rambutan.csv', '/content/Agriculture_Fine_Tune_Datasets/mangosteen.csv', '/content/Agriculture_Fine_Tune_Datasets/longan.csv', '/content/Agriculture_Fine_Tune_Datasets/coconut.csv', '/content/Agriculture_Fine_Tune_Datasets/other.csv']


In [None]:
#coconut เเตก น่าจะเป็นที่การเเปลงไฟล์อะไรซักอย่าง ลบทิ้งไปจะได้ไม่มีปัญหา
file_paths.remove('/content/Agriculture_Fine_Tune_Datasets/coconut.csv')

In [None]:
#อ่านไฟล์ CSV ทั้งหมดและจัดเก็บในรูปของ DataFrame
dataframes = [pd.read_csv(file) for file in file_paths]

In [None]:
#นำ DataFrame ทั้งหมดมาต่อกัน
combined_df = pd.concat(dataframes, ignore_index=True)

In [None]:
combined_df

Unnamed: 0.1,Unnamed: 0,คำถาม,คำตอบ
0,0.0,การจัดการหนอนกออ้อย ระยะอ้อยแตกกอทำได้อย่างไร,ในระยะอ้อยแตกกอส่วนใหญ่พบการเข้าทำลายของหนอนกอ...
1,1.0,การจัดการหนอนกออ้อย ระยะอ้อยเป็นลำทำได้อย่างไร,การเข้าทำลายในอ้อยอายุ 5 – 12 เดือนที่พบและสร้...
2,2.0,การจัดการหนอนกออ้อย ระยะอ้อยแตกกอทำได้อย่างไร,- สำรวจความเสียหายของอ้อยจากการเข้าทำลายของหนอ...
3,3.0,การจัดการหนอนกออ้อย ระยะอ้อยแตกลำทำได้อย่างไร,เกษตรกรจำเป็นต้องติดตามอย่างใกล้ชิด เพราะเป็นร...
4,4.0,วิธีการปลูกอ้อยคั้นน้ำทำได้อย่างไร,ให้ตัดต้นพันธุ์เป็นท่อน แต่ละท่อนมีตา 2-3 ตา ส...
...,...,...,...
94,,ผมอยากทราบ คาดว่าจะเก็บเกี่ยวและชนิดข้าวของตัว...,ทำได้ค่ะ โดยให้เกษตรกรคาดการณ์วันเก็บเกี่ยวข้า...
95,,ปลูกข้าวโพดเลี้ยงสัตว์อายุประมาน 50 วัน ทำรุ่น...,ตอนที่ข้าวโพดอายุ 50 วัน ใกล้จะออกดอกแล้วพ่นปุ...
96,,สวัสดีครับ รบกวนขอความรู้ครับ ผมใส่เหล็กซัลเฟต...,ไม่แนะนำให้พ่นทางดินค่ะ โดยทั่วไปการเติมธาตุอา...
97,,ไม่เคยขึ้นทะเบียนเกษตรกร แต่อยากขึ้นทำอย่างไรไ...,ได้ค่ะ โดยสามารถขึ้นทะเบียนเกษตรกรผ่านระบบออนไ...


In [None]:
combined_df.drop('Unnamed: 0', axis=1, inplace=True)

In [None]:
combined_df

Unnamed: 0,คำถาม,คำตอบ
0,การจัดการหนอนกออ้อย ระยะอ้อยแตกกอทำได้อย่างไร,ในระยะอ้อยแตกกอส่วนใหญ่พบการเข้าทำลายของหนอนกอ...
1,การจัดการหนอนกออ้อย ระยะอ้อยเป็นลำทำได้อย่างไร,การเข้าทำลายในอ้อยอายุ 5 – 12 เดือนที่พบและสร้...
2,การจัดการหนอนกออ้อย ระยะอ้อยแตกกอทำได้อย่างไร,- สำรวจความเสียหายของอ้อยจากการเข้าทำลายของหนอ...
3,การจัดการหนอนกออ้อย ระยะอ้อยแตกลำทำได้อย่างไร,เกษตรกรจำเป็นต้องติดตามอย่างใกล้ชิด เพราะเป็นร...
4,วิธีการปลูกอ้อยคั้นน้ำทำได้อย่างไร,ให้ตัดต้นพันธุ์เป็นท่อน แต่ละท่อนมีตา 2-3 ตา ส...
...,...,...
94,ผมอยากทราบ คาดว่าจะเก็บเกี่ยวและชนิดข้าวของตัว...,ทำได้ค่ะ โดยให้เกษตรกรคาดการณ์วันเก็บเกี่ยวข้า...
95,ปลูกข้าวโพดเลี้ยงสัตว์อายุประมาน 50 วัน ทำรุ่น...,ตอนที่ข้าวโพดอายุ 50 วัน ใกล้จะออกดอกแล้วพ่นปุ...
96,สวัสดีครับ รบกวนขอความรู้ครับ ผมใส่เหล็กซัลเฟต...,ไม่แนะนำให้พ่นทางดินค่ะ โดยทั่วไปการเติมธาตุอา...
97,ไม่เคยขึ้นทะเบียนเกษตรกร แต่อยากขึ้นทำอย่างไรไ...,ได้ค่ะ โดยสามารถขึ้นทะเบียนเกษตรกรผ่านระบบออนไ...


In [None]:
combined_df.to_csv('/content/combined_file.csv', index=False)

# Set LLM

In [None]:
%pip install llama-index-llms-gemini

Collecting llama-index-llms-gemini
  Downloading llama_index_llms_gemini-0.1.11-py3-none-any.whl.metadata (735 bytes)
Collecting google-generativeai<0.6.0,>=0.5.2 (from llama-index-llms-gemini)
  Downloading google_generativeai-0.5.4-py3-none-any.whl.metadata (3.9 kB)
Collecting llama-index-core<0.11.0,>=0.10.11.post1 (from llama-index-llms-gemini)
  Downloading llama_index_core-0.10.58-py3-none-any.whl.metadata (2.4 kB)
Collecting pillow<11.0.0,>=10.2.0 (from llama-index-llms-gemini)
  Downloading pillow-10.4.0-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (9.2 kB)
Collecting google-ai-generativelanguage==0.6.4 (from google-generativeai<0.6.0,>=0.5.2->llama-index-llms-gemini)
  Downloading google_ai_generativelanguage-0.6.4-py3-none-any.whl.metadata (5.6 kB)
Collecting dataclasses-json (from llama-index-core<0.11.0,>=0.10.11.post1->llama-index-llms-gemini)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting deprecated>=1.2.9.3 (from llama-index-core<0.11

In [None]:
!pip install -q llama-index google-generativeai

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m28.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.8/154.8 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m295.8/295.8 kB[0m [31m14.8 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
from google.colab import userdata
#ดึง secrets key ที่ set ไว้
#userdata.get('GOOGLE_API_KEY')

In [None]:
import os
#ตรงนี้ถ้าไม่ได้เพิ่ม Secrets ket ที่ tab ด้านขวาใช้โคดนี้เเทน
#GOOGLE_API_KEY = "api key รับจากเว็ปที่เเปะไว้ด้านบน"
GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')  # add your GOOGLE API key here
os.environ["GOOGLE_API_KEY"] = GOOGLE_API_KEY

In [None]:
from llama_index.llms.gemini import Gemini

llm_gemini = Gemini(model_name="models/gemini-pro")
#resp = llm_gemini.complete("วิธีปลูกข้าวโพด")
#print(resp)

# Indexing from document

In [None]:
!pip install llama_index



In [None]:
!pip install llama-index-embeddings-huggingface

Collecting llama-index-embeddings-huggingface
  Using cached llama_index_embeddings_huggingface-0.2.2-py3-none-any.whl.metadata (769 bytes)
Collecting sentence-transformers>=2.6.1 (from llama-index-embeddings-huggingface)
  Using cached sentence_transformers-3.0.1-py3-none-any.whl.metadata (10 kB)
Collecting minijinja>=1.0 (from huggingface-hub[inference]>=0.19.0->llama-index-embeddings-huggingface)
  Using cached minijinja-2.0.1-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.8 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch>=1.11.0->sentence-transformers>=2.6.1->llama-index-embeddings-huggingface)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch>=1.11.0->sentence-transformers>=2.6.1->llama-index-embeddings-huggingface)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from t

In [None]:
#เเบบเก็บใน storage ต้องมีการเรียกใช้ code อยู่ด้านล่าง
from llama_index.core.vector_stores import SimpleVectorStore
from llama_index.core.storage.docstore import SimpleDocumentStore
from llama_index.core.storage.index_store import SimpleIndexStore
from llama_index.core import VectorStoreIndex,StorageContext
from llama_index.readers.file import FlatReader
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core.node_parser import SentenceSplitter
from pathlib import Path

sentence_spilit = SentenceSplitter(
    chunk_size=1024
)

#เป็นส่วนของการ set โหลด data ลง local
storage_context = StorageContext.from_defaults(
    vector_store=SimpleVectorStore(),
    docstore=SimpleDocumentStore(),
    index_store=SimpleIndexStore(),
)

embed_model = HuggingFaceEmbedding(model_name="intfloat/multilingual-e5-large",device='cpu')
md_docs = FlatReader().load_data(Path("/content/combined_file.csv"))
md_nodes = sentence_spilit.get_nodes_from_documents(md_docs)

print(len(md_nodes))
#ใส่ส่วนของการ set เข้าไปด้วยตอนทำ indexing ขั้นนี้ก็เเปลง txt เป็น vector ไปในตัว
index = VectorStoreIndex(md_nodes,embed_model=embed_model,storage_context=storage_context)
index.set_index_id("combined_file")
index.storage_context.persist(persist_dir="/content/")
# Query index
query_engine = index.as_retriever(similarity_top_k = 5)
response = query_engine.retrieve("ปุ๋ย A/B คืออะไร")
print('-------------RAG-------------')
print(len(response))

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/160k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

67
-------------RAG-------------
5


In [None]:
from llama_index.core import StorageContext, load_index_from_storage
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(model_name="intfloat/multilingual-e5-large",device='cpu')
#ใช้เเค่ load_index บันทัดนี้(อันนี้คือทั้งก้อน doc ที่ indexing มาเลย)
load_index = load_index_from_storage(StorageContext.from_defaults(persist_dir='/content/'),embed_model=embed_model)
query_engine = load_index.as_retriever(similarity_top_k = 5)
response = query_engine.retrieve("ปุ๋ย A/B คืออะไร")
print('-------------RAG-------------')
print(len(response))

-------------RAG-------------
5


# Usage

In [None]:
#ลองตัวที่เป็น retrieval(ดึงข้อมูล)
#
retrieval_engine = load_index.as_retriever(similarity_top_k = 5)
response = retrieval_engine.retrieve("ปุ๋ยเดี่ยวคืออะไร")
print('-------------RAG-------------')
for i in response:
  print(i)
#print(response[0])


-------------RAG-------------
Node ID: 72418c77-fc0a-4730-9d58-14f39a2aad5a
Text: ปุ๋ยอินทรีย์ชีวภาพ คือ ปุ๋ยอินทรีย์ที่ผ่านกระบวนการผลิตที่ใช้อุณ
หภูมิสูงถึงระดับที่สามารถฆ่าเชื้อจุลินทรีย์ ทั้งที่เป็นโรคพืช โรคสัตว์
และโรคมนุษย์ รวมทั้งจุลินทรีย์ทั่วๆ ไปด้วย จากนั้นนำจุลินทรีย์ที่มีสมบ
ัติเป็นปุ๋ยชีวภาพที่เลี้ยงไว้ในสภาพปลดปล่อยเชื้อมาผสมกับปุ๋ยอินทรีย์ดั
งกล่าว
และทำการหมักต่อไปจนกระทั่งจุลินทรีย์ที่ใส่ลงไปในปุ๋ยหมักมีปริมาณค...
Score:  0.854

Node ID: 6bc71cbc-2ea0-401d-918b-2280e1639d99
Text: "ปุ๋ยAB หรือ ปุ๋ย Stock A และ ปุ๋ย Stock B นั้น
เป็นปุ๋ยที่ไว้ใช้ สำหรับปลูกพืช ไฮโดรโปนิกส์ หรือ พืชไร้ดิน
จัดเป็นปุ๋ยเคมี ชนิดหนึ่ง ใช้เป็นธาตุอาหารสำหรับพืชทดแทนแหล่งอาหารหลัก
ที่มาจากดิน  โดยสาเหตุที่จำเป็นต้องแยกปุ๋ยออกเป็น Stock A และ Stock B
ก่อนจะนำมาผสมเพื่อใช้งานนั้น เพราะว่า สารเคมีบางตัวเมื่อ
ผสมกันในความเข้มข้นที่สูง เช่น ธาตุแคลเซ...
Score:  0.834

Node ID: 4fd7818c-c337-49aa-a5c6-2a9c5443dcab
Text: ระยะระหว่างแถว 80 ซม.
หลังจากฝังกลบท่อนพันธุ์แล้วควรมีเศษพืชคลุมหน้าดินรักษาความ

In [None]:
#ตัวที่เป็น query_engine
#เลือกมา 5 chank ที่เกี่ยวข้อที่สุดจากทั้งหมด 7 chank(ที่เเบ่งจากข้อมูลทั้งหมด)
query_engine = load_index.as_query_engine(similarity_top_k = 5,llm=llm_gemini)
response = query_engine.query("ปุ๋ยเดี่ยวคืออะไร")
print('-------------RAG-------------')
print(response)

-------------RAG-------------
ปุ๋ยที่มีธาตุอาหารเพียงตัวเดียวในสูตร เช่น 46-0-0, 0-3-0, 0-0-60


In [None]:
#ตัวที่เป็น chat_engine
chat_engine = load_index.as_chat_engine(similarity_top_k = 5,llm=llm_gemini)
response = chat_engine.chat("การให้น้ำระยะต่างๆของมังคุด")
print('-------------RAG-------------')
print(response)

-------------RAG-------------
- มกราคมถึงกุมภาพันธ์: รดน้ำต้นมังคุดน้อยๆ ก่อน แล้วค่อยๆ เพิ่มปริมาณน้ำเมื่อต้นมังคุดเริ่มออกดอก
- มีนาคมถึงเมษายน: หยุดรดน้ำต้นมังคุดเมื่อดอกกำลังจะบาน หลังจากดอกบานได้ 3-4 วัน ให้เริ่มรดน้ำต้นมังคุดอีกครั้ง โดยค่อยๆ เพิ่มปริมาณน้ำ
- พฤษภาคมถึงมิถุนายน: รดน้ำต้นมังคุดเป็นประจำ เพื่อป้องกันไม่ให้ผลแตก และช่วยให้ผลเจริญเติบโตได้ดี
- กันยายนถึงตุลาคม: รดน้ำต้นมังคุดเป็นประจำในช่วงฤดูแล้ง เพื่อให้ต้นมังคุดเจริญเติบโตอย่างต่อเนื่อง


In [None]:
response = chat_engine.chat("ลืมทุกอย่างที่เคยถามเเค่ตอบคำถามนี้ โรคเเละเเมลงที่สำคัญของมังคุด")
print('-------------RAG-------------')
print(response)

-------------RAG-------------
โรคและแมลงที่สำคัญของมังคุด ได้แก่:

**โรค**
* โรครากเน่าโคนเน่า
* โรคใบจุด
* โรคราสีชมพู
* โรคราสีเทา

**แมลง**
* เพลี้ยแป้ง
* เพลี้ยหอย
* หนอนเจาะผล
* หนอนชอนใบ


In [None]:
response = chat_engine.chat("ถ้าอยากปรูกมังคุดต้องทำอย่างไร")
print('-------------RAG-------------')
print(response)

-------------RAG-------------
ฉันไม่สามารถตอบคำถามนี้ได้จากบริบทที่กำหนด
