Import libraries :

In [1]:
import requests
import json
import pandas as pd

# URL API không chính thức của Tiki
API_URL = "https://tiki.vn/api/v2/products"

# Hàm crawl dữ liệu từ Tiki
def crawl_tiki_data(keyword, total_products=500, products_per_page=50):
    try:
        all_products = []
        page = 1  # Bắt đầu từ trang đầu tiên

        while len(all_products) < total_products:
            # Tạo URL tìm kiếm với từ khóa và số lượng sản phẩm mỗi trang
            search_url = f"https://tiki.vn/api/v2/products?limit={products_per_page}&q={keyword}&page={page}"
            response = requests.get(search_url, headers={"User-Agent": "Mozilla/5.0"})

            if response.status_code == 200:
                data = response.json()
                items = data.get("data", [])

                if not items:  # Dừng nếu không có dữ liệu trả về
                    print(f"Không có dữ liệu ở trang {page}. Dừng crawl.")
                    break

                # Thu thập dữ liệu từ từng sản phẩm
                for item in items:
                    all_products.append({
                        "name": item.get("name"),
                        "price": item.get("price", 0),
                        "original_price": item.get("original_price", 0),
                        "discount": item.get("discount_rate", 0),
                        "rating": item.get("rating_average", 0),
                        "review_count": item.get("review_count", 0),
                        "sales_count": item.get("quantity_sold", {}).get("value", 0),
                        "inventory_status": item.get("inventory_status", "N/A"),
                        "brand_name": item.get("brand", {}).get("name", "N/A"),
                        "seller_name": item.get("seller_name", "N/A"),
                        "categories": ", ".join([cat.get("name", "N/A") for cat in item.get("categories", [])]),
                        "short_description": item.get("short_description", "N/A"),
                        "link": f"https://tiki.vn/{item.get('url_path', '')}"
                    })

                # print(f"Đã lấy dữ liệu từ trang {page}.")
                page += 1
            else:
                print(f"Không thể lấy dữ liệu từ Tiki tại trang {page}. Mã lỗi: {response.status_code}")
                break

            # Kiểm tra nếu đã đạt đủ số lượng sản phẩm yêu cầu
            if len(all_products) >= total_products:
                print("Đã đạt đủ số lượng sản phẩm yêu cầu.")
                break

        # Lưu dữ liệu vào file CSV
        df = pd.DataFrame(all_products[:total_products])
        output_file = f"Data_tiki_{keyword}.csv"
        df.to_csv(output_file, index=False)

        # print(f"Đã lấy được {len(all_products)} sản phẩm. Dữ liệu đã được lưu vào {output_file}")

    except Exception as e:
        print(f"Đã xảy ra lỗi: {e}")

In [3]:
if __name__ == "__main__":
    keyword = "chảo chống dính"  # Từ khóa tìm kiếm
    crawl_tiki_data(keyword, total_products=500, products_per_page=50)


Đã đạt đủ số lượng sản phẩm yêu cầu.


In [4]:
if __name__ == "__main__":
    keyword = "ấm siêu tốc"  # Từ khóa tìm kiếm
    crawl_tiki_data(keyword, total_products=500, products_per_page=50)


Đã đạt đủ số lượng sản phẩm yêu cầu.


In [5]:
if __name__ == "__main__":
    keyword = "bếp từ"  # Từ khóa tìm kiếm
    crawl_tiki_data(keyword, total_products=500, products_per_page=50)


Đã đạt đủ số lượng sản phẩm yêu cầu.


In [6]:
if __name__ == "__main__":
    keyword = "nồi cơm điện"  # Từ khóa tìm kiếm
    crawl_tiki_data(keyword, total_products=500, products_per_page=50)


Đã đạt đủ số lượng sản phẩm yêu cầu.


In [7]:
if __name__ == "__main__":
    keyword = "quạt điện"  # Từ khóa tìm kiếm
    crawl_tiki_data(keyword, total_products=500, products_per_page=50)


Đã đạt đủ số lượng sản phẩm yêu cầu.


In [8]:
if __name__ == "__main__":
    keyword = "nồi inox"  # Từ khóa tìm kiếm
    crawl_tiki_data(keyword, total_products=500, products_per_page=50)


Đã đạt đủ số lượng sản phẩm yêu cầu.
