# Agent Phân tích Dữ liệu Đơn giản

## Tổng quan
Hướng dẫn này sẽ hướng dẫn bạn cách tạo một agent phân tích dữ liệu được hỗ trợ bởi AI, có thể diễn giải và trả lời các câu hỏi về tập dữ liệu bằng ngôn ngữ tự nhiên. Nó kết hợp các mô hình ngôn ngữ với các công cụ thao tác dữ liệu để cho phép khám phá dữ liệu trực quan.

## Động lực
Phân tích dữ liệu thường đòi hỏi kiến thức chuyên môn, hạn chế khả năng tiếp cận thông tin chi tiết cho người dùng không có kỹ thuật. Bằng cách tạo một agent AI hiểu các truy vấn bằng ngôn ngữ tự nhiên, chúng ta có thể dân chủ hóa việc phân tích dữ liệu, cho phép bất kỳ ai trích xuất thông tin có giá trị từ các tập dữ liệu phức tạp mà không cần biết lập trình hoặc các công cụ thống kê.

## Các Thành phần Chính
1. Mô hình Ngôn ngữ (Language Model): Xử lý các truy vấn ngôn ngữ tự nhiên và tạo ra các phản hồi giống con người.
2. Framework Thao tác Dữ liệu (Data Manipulation Framework): Xử lý các hoạt động và phân tích tập dữ liệu.
3. Framework Agent (Agent Framework): Kết nối mô hình ngôn ngữ với các công cụ thao tác dữ liệu.
4. Tập Dữ liệu Tổng hợp (Synthetic Dataset): Đại diện cho dữ liệu thế giới thực cho mục đích trình diễn.

## Phương pháp
1. Tạo một tập dữ liệu tổng hợp đại diện cho dữ liệu bán xe hơi.
2. Xây dựng một agent kết hợp mô hình ngôn ngữ với khả năng phân tích dữ liệu.
3. Triển khai một hàm xử lý truy vấn để xử lý các câu hỏi bằng ngôn ngữ tự nhiên.
4. Trình diễn khả năng của agent với các truy vấn ví dụ.

## Kết luận
Phương pháp phân tích dữ liệu này mang lại những lợi ích đáng kể:
- Khả năng tiếp cận cho người dùng không có kỹ thuật.
- Tính linh hoạt trong việc xử lý các loại truy vấn khác nhau.
- Khám phá dữ liệu ad-hoc hiệu quả.

Bằng cách làm cho thông tin chi tiết về dữ liệu dễ tiếp cận hơn, phương pháp này có khả năng thay đổi cách các tổ chức tận dụng dữ liệu của họ để ra quyết định trong nhiều lĩnh vực và ngành công nghiệp khác nhau.


In [6]:
import os 
from langchain_experimental.agents.agent_toolkits import create_pandas_dataframe_agent
from langchain.agents import AgentType
from langchain_ollama import  ChatOllama
import pandas as pd 
import numpy as np 
from datetime import datetime, timedelta

np.random.seed(42)
llm_model_name='qwen2.5:7b'

In [3]:
# Generate sample data
# Generate sample data
n_rows = 1000

# Generate dates
start_date = datetime(2022, 1, 1)
dates = [start_date + timedelta(days=i) for i in range(n_rows)]

# Define data categories
makes = ['Toyota', 'Honda', 'Ford', 'Chevrolet', 'Nissan', 'BMW', 'Mercedes', 'Audi', 'Hyundai', 'Kia']
models = ['Sedan', 'SUV', 'Truck', 'Hatchback', 'Coupe', 'Van']
colors = ['Red', 'Blue', 'Black', 'White', 'Silver', 'Gray', 'Green']

# Create the dataset
data = {
    'Date': dates,
    'Make': np.random.choice(makes, n_rows),
    'Model': np.random.choice(models, n_rows),
    'Color': np.random.choice(colors, n_rows),
    'Year': np.random.randint(2015, 2023, n_rows),
    'Price': np.random.uniform(20000, 80000, n_rows).round(2),
    'Mileage': np.random.uniform(0, 100000, n_rows).round(0),
    'EngineSize': np.random.choice([1.6, 2.0, 2.5, 3.0, 3.5, 4.0], n_rows),
    'FuelEfficiency': np.random.uniform(20, 40, n_rows).round(1),
    'SalesPerson': np.random.choice(['Alice', 'Bob', 'Charlie', 'David', 'Eva'], n_rows)
}

# Create DataFrame and sort by date
df = pd.DataFrame(data).sort_values('Date')

df.head()

Unnamed: 0,Date,Make,Model,Color,Year,Price,Mileage,EngineSize,FuelEfficiency,SalesPerson
0,2022-01-01,Mercedes,Sedan,Green,2022,57952.65,5522.0,2.0,24.7,Alice
1,2022-01-02,Chevrolet,Hatchback,Red,2021,58668.22,94238.0,1.6,26.2,Bob
2,2022-01-03,Audi,Truck,White,2019,69187.87,7482.0,2.0,28.0,David
3,2022-01-04,Nissan,Hatchback,Black,2016,40004.44,43846.0,3.5,24.8,David
4,2022-01-05,Mercedes,Hatchback,Red,2016,63983.07,52988.0,2.5,24.1,Alice


In [4]:
print("\nDataFrame info:")
df.info()



DataFrame info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Date            1000 non-null   datetime64[ns]
 1   Make            1000 non-null   object        
 2   Model           1000 non-null   object        
 3   Color           1000 non-null   object        
 4   Year            1000 non-null   int64         
 5   Price           1000 non-null   float64       
 6   Mileage         1000 non-null   float64       
 7   EngineSize      1000 non-null   float64       
 8   FuelEfficiency  1000 non-null   float64       
 9   SalesPerson     1000 non-null   object        
dtypes: datetime64[ns](1), float64(4), int64(1), object(4)
memory usage: 78.2+ KB


In [5]:
print("\nSummary statistics:")
print(df.describe())


Summary statistics:
                      Date         Year         Price       Mileage  \
count                 1000  1000.000000   1000.000000   1000.000000   
mean   2023-05-15 12:00:00  2018.445000  51145.360800  48484.643000   
min    2022-01-01 00:00:00  2015.000000  20026.570000     19.000000   
25%    2022-09-07 18:00:00  2017.000000  36859.940000  23191.500000   
50%    2023-05-15 12:00:00  2018.000000  52215.155000  47506.000000   
75%    2024-01-20 06:00:00  2020.000000  65741.147500  73880.250000   
max    2024-09-26 00:00:00  2022.000000  79972.640000  99762.000000   
std                    NaN     2.256117  17041.610861  29103.404593   

        EngineSize  FuelEfficiency  
count  1000.000000     1000.000000  
mean      2.744500       29.688500  
min       1.600000       20.000000  
25%       2.000000       24.500000  
50%       2.500000       29.700000  
75%       3.500000       34.700000  
max       4.000000       40.000000  
std       0.839389        5.896316  


In [8]:
# Create data analysis agent
agent = create_pandas_dataframe_agent(
    ChatOllama(model=llm_model_name, temperature=0),
    df,
    verbose=True,
    allow_dangerous_code=True,
    agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION
)

print("Data Analysis Agent is ready. You can now ask questions about the data.")

Data Analysis Agent is ready. You can now ask questions about the data.


In [10]:
def ask_agent(question):
    """Function to ask questions to the agent and display the response"""
    response = agent.run({
        "input": question,
        "agent_scratchpad": f"Human: {question}\nAI: To answer this question, I need to use Python to analyze the dataframe. I'll use the python_repl_ast tool.\n\nAction: python_repl_ast\nAction Input: ",
    })
    print(f"Question: {question}")
    print(f"Answer: {response}")
    print("---")

In [11]:
ask_agent("How many rows are in this dataset?")

  response = agent.run({




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: I need to count the number of rows in the dataframe.
Action: python_repl_ast
Action Input: df.shape[0][0m[36;1m[1;3m1000[0m[32;1m[1;3mThe observation indicates that there are 1000 rows in the dataset.
Final Answer: There are 1000 rows in this dataset.[0m

[1m> Finished chain.[0m
Question: How many rows are in this dataset?
Answer: There are 1000 rows in this dataset.
---


In [12]:
ask_agent("Who is the best seller?")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: To determine who the best seller is, I need to count how many sales each person made and then identify the person with the highest count.
Action: python_repl_ast
Action Input: df['SalesPerson'].value_counts()[0m[36;1m[1;3mSalesPerson
Alice      216
Bob        213
David      200
Eva        187
Charlie    184
Name: count, dtype: int64[0m[32;1m[1;3mFinal Answer: Based on the sales counts, Alice is the best seller with 216 sales.[0m

[1m> Finished chain.[0m
Question: Who is the best seller?
Answer: Based on the sales counts, Alice is the best seller with 216 sales.
---


In [13]:
ask_agent("Hãng xe nào bán được nhiều nhất?")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: 我需要找出销售最多的汽车品牌。这涉及到按品牌分组并计算每种品牌的数量。
Action: python_repl_ast
Action Input: df['Make'].value_counts()[0m[36;1m[1;3mMake
Toyota       118
Ford         110
Nissan       107
Kia          107
Audi         100
BMW           96
Mercedes      94
Chevrolet     94
Hyundai       91
Honda         83
Name: count, dtype: int64[0m[32;1m[1;3mAction: python_repl_ast
Action Input: df['Make'].value_counts().idxmax()[0m[36;1m[1;3mToyota[0m[32;1m[1;3mFinal Answer: 销售最多的是Toyota品牌。[0m

[1m> Finished chain.[0m
Question: Hãng xe nào bán được nhiều nhất?
Answer: 销售最多的是Toyota品牌。
---
