Document ChatX (Dev)
Document Developer ChatX
Document Developer ChatX
  • I. THIẾT LẬP CƠ BẢN
    • Tạo ứng dụng ChatX
      • Bắt đầu nhanh
      • Tổng quan
      • Tạo AI Bot
        • Agent Assistant
        • Chatbot
        • Máy tạo văn bản
      • Câu hỏi thường gặp
      • Trường hợp sử dụng
        • Trợ lý Notion AI dựa trên ghi chú của riêng bạn
        • ChatBot AI với dữ liệu doanh nghiệp
        • Bot Yêu Cầu Giữa Hành Trình
    • Phát hành ứng dụng ChatX
      • Bắt đầu nhanh
      • Phát triển với API
        • Câu hỏi thường gặp
    • Sử dụng ứng dụng ChatX
      • Máy tạo văn bản
      • Chatbot
      • Cài đặt ứng dụng trò chuyện khác
  • II, TÍNH NĂNG CƠ BẢN
    • Chế độ chuyên gia nhắc nhở
      • Mẫu nhắc nhở
    • Quy trình làm việc
      • Giới thiệu
      • Khái niệm chính
      • Nodes
        • Start
        • End
        • Answer
        • LLM
        • Truy Vấn Cơ Sở Kiến Thức
        • Question Classifier(Phân Loại Câu Hỏi)
        • IF/ELSE
        • Code (Mã)
        • Template
        • Variable Assigner
        • HTTP Reques
        • Tools
      • Preview&Run
        • Preview&Run
        • Step Test (Bước Kiểm Tra)
        • Log (Nhật ký)
        • Checklist (Danh mục)
        • History (Lịch sử)
      • Publish (Xuất bản)
      • Export/Import
    • RAG (Tạo tăng cường truy xuất)
      • Hybrid Search (Tìm kiếm kết hợp)
      • Rerank (Sắp xếp lại)
      • Retrieval (Truy xuất)
    • Knowledge Import ( Nhập kiến thức)
      • Đồng bộ từ Notion
      • Duy trì kiến ​​thức qua Api
    • Công cụ dữ liệu ngoài
    • Annotation Reply (Phản hồi chú thích)
    • Nhật ký & Thông báo
    • Plugins
      • Dựa Trên Mẫu WebApp
    • Tích hợp nhiều hơn
    • Extension (Tiện ích)
      • Mở rộng Dựa trên API
        • External_data_tool
        • Tiện ích mở rộng kiểm duyệt
      • Tiện ích mở rộng dựa trên mã
    • Kiểm duyệt
  • III, WORKSPACE
    • Khám phá
    • Thanh toán
  • IV, HƯỚNG DẪN TÍCH HỢP NÂNG CAO
    • Tích hợp công cụ nhanh
    • Tích hợp công cụ nâng cao
    • Hiển thị tiện ích mở rộng API trên Internet công cộng bằng cách sử dụng Cloudflare Workers
    • Kết nối với các mô hình khác nhau
      • Hugging Face
      • Replicate
      • Xinference
      • OpenLLM
      • LocalAI
      • Ollama
    • Công cụ Di chuyển Vector Database
    • Kết nối với các công cụ khác nhau
      • Stable Diffusion
      • SearXNG
  • CỘNG ĐỒNG
    • Hướng dẫn đóng góp
    • Hỗ trợ
  • Thỏa Thuận Người Dùng
    • Giấy phép mã nguồn mở
    • Bảo Mật Dữ Liệu
Powered by GitBook
On this page
  • Tại sao tìm kiếm kết hợp lại cần thiết?
  • Vector Search
  • Tìm kiếm Toàn văn bản
  • Hybrid Search
  • Cài đặt Chế độ Tìm kiếm Khi Tạo Kiến thức:
  • Thay đổi Chế độ Tìm kiếm trong Kỹ thuật Kích thích:
  1. II, TÍNH NĂNG CƠ BẢN
  2. RAG (Tạo tăng cường truy xuất)

Hybrid Search (Tìm kiếm kết hợp)

Tại sao tìm kiếm kết hợp lại cần thiết?

Phương pháp chính trong giai đoạn truy xuất của RAG là Vector Search, dựa trên đối sánh liên quan ngữ nghĩa. Nguyên lý kỹ thuật bao gồm việc chia các tài liệu từ các cơ sở tri thức bên ngoài thành các đoạn văn hoặc câu hoàn chỉnh về ngữ nghĩa, sau đó chuyển đổi chúng qua một quá trình gọi là nhúng vào một loạt các biểu thức số (vector đa chiều) mà máy tính có thể hiểu được. Truy vấn của người dùng cũng trải qua một quá trình chuyển đổi tương tự.

Máy tính có thể phát hiện ra các mối quan hệ ngữ nghĩa tinh tế giữa các truy vấn của người dùng và các câu. Ví dụ, sự liên quan ngữ nghĩa giữa "một con mèo đuổi bắt một con chuột" và "một con mèo con săn một con chuột" cao hơn so với giữa "một con mèo đuổi bắt một con chuột" và "tôi thích ăn giăm bông." Sau khi xác định được văn bản có độ liên quan cao nhất, hệ thống RAG cung cấp nó như là ngữ cảnh cùng với truy vấn của người dùng cho mô hình lớn, giúp trả lời câu hỏi.

Ngoài các tìm kiếm văn bản ngữ nghĩa phức tạp, Vector Search còn có những ưu điểm khác:

  • Hiểu các ngữ nghĩa tương tự (ví dụ: mouse/mousetrap/cheese, Google/Bing/search engine)

  • Hiểu đa ngôn ngữ (ví dụ: đối sánh đầu vào tiếng Trung với nội dung tiếng Anh)

  • Hiểu đa phương thức (hỗ trợ đối sánh văn bản, hình ảnh, âm thanh và video)

  • Chịu lỗi (xử lý các lỗi chính tả, mô tả mơ hồ)

Tuy nhiên, Vector Search có thể kém hiệu quả trong một số tình huống nhất định, như:

  • Tìm kiếm tên người hoặc vật (ví dụ: Elon Musk, iPhone 15)

  • Tìm kiếm từ viết tắt hoặc cụm từ ngắn (ví dụ: RAG, RLHF)

  • Tìm kiếm ID (ví dụ: gpt-3.5-turbo, titan-xlarge-v1.01)

Những hạn chế này là nơi mà tìm kiếm từ khóa truyền thống phát huy ưu thế, với khả năng:

  • Đối sánh chính xác (ví dụ: tên sản phẩm, tên người, số sản phẩm)

  • Đối sánh số lượng ký tự nhỏ (vector search hoạt động kém với ít ký tự, nhưng người dùng thường nhập chỉ vài từ khóa)

  • Đối sánh từ vựng tần suất thấp (thường mang ý nghĩa quan trọng hơn, như trong câu "Bạn có muốn đi uống cà phê với tôi không?", các từ như "uống" và "cà phê" mang trọng số lớn hơn "bạn", "muốn", "tôi")

Trong hầu hết các tình huống tìm kiếm văn bản, điều quan trọng là đảm bảo rằng các kết quả liên quan nhất xuất hiện trong danh sách ứng viên. Tìm kiếm Vector và Tìm kiếm từ khóa mỗi phương pháp đều có những điểm mạnh trong lĩnh vực tìm kiếm. Hybrid Search kết hợp các ưu điểm của cả hai kỹ thuật trong khi bù đắp cho những thiếu sót tương ứng của chúng.

Trong Hybrid Search, các chỉ mục vector và từ khóa được thiết lập trước trong cơ sở dữ liệu. Khi người dùng nhập truy vấn, hệ thống sẽ tìm kiếm văn bản liên quan nhất trong các tài liệu bằng cả hai phương pháp tìm kiếm.

"Hybrid Search" không có một định nghĩa xác định; bài viết này mô tả nó như là sự kết hợp giữa Vector Search và Keyword Search. Tuy nhiên, thuật ngữ này cũng có thể áp dụng cho các kết hợp khác của các thuật toán tìm kiếm. Ví dụ, chúng ta có thể kết hợp công nghệ đồ thị tri thức, được sử dụng để lấy các mối quan hệ thực thể, với Vector Search.

Các hệ thống tìm kiếm khác nhau mỗi hệ thống đều xuất sắc trong việc khám phá các mối quan hệ tinh tế khác nhau trong văn bản (đoạn văn, câu, từ), bao gồm các mối quan hệ chính xác, mối quan hệ ngữ nghĩa, mối quan hệ chủ đề, mối quan hệ cấu trúc, mối quan hệ thực thể, mối quan hệ thời gian, và mối quan hệ sự kiện. Có thể nói rằng không có một chế độ tìm kiếm đơn lẻ phù hợp cho tất cả các tình huống. Hybrid Search, bằng cách tích hợp nhiều hệ thống tìm kiếm, đạt được sự bổ sung lẫn nhau giữa các công nghệ tìm kiếm khác nhau.

Vector Search

Định nghĩa: Vector Search liên quan đến việc tạo ra các nhúng truy vấn và sau đó tìm kiếm các đoạn văn chứa các nhúng này nhất có thể trong thuật ngữ biểu diễn vector.

TopK: Cài đặt này được sử dụng để lọc các đoạn văn có độ tương đồng cao nhất với truy vấn của người dùng. Hệ thống cũng tự động điều chỉnh số lượng đoạn dựa trên kích thước cửa sổ ngữ cảnh của mô hình được chọn. Giá trị mặc định cho cài đặt này là 3.

Ngưỡng điểm: Cài đặt này được sử dụng để thiết lập ngưỡng tương đồng cho việc chọn các đoạn văn. Điều này có nghĩa là chỉ có các đoạn văn vượt qua điểm số được thiết lập mới được trả về. Theo mặc định, cài đặt này được tắt, nghĩa là hệ thống không lọc các giá trị tương đồng của các đoạn văn đã được trả về. Khi kích hoạt, giá trị mặc định được thiết lập là 0.5.

Rerank Model: Sau khi cấu hình khóa API của mô hình sắp xếp lại trên trang "Nhà cung cấp Mô hình", bạn có thể kích hoạt "Mô hình sắp xếp lại" trong cài đặt tìm kiếm. Hệ thống sau đó thực hiện sắp xếp lại ngữ nghĩa của các kết quả tài liệu đã được truy xuất sau tìm kiếm ngữ nghĩa, tối ưu hóa thứ tự của các kết quả này. Một khi mô hình sắp xếp lại được thiết lập, các cài đặt TopK và ngưỡng điểm số chỉ có hiệu lực trong bước sắp xếp lại.

Tìm kiếm Toàn văn bản

Định nghĩa: Tìm kiếm Toàn văn bản liên quan đến việc tạo chỉ mục cho tất cả các từ trong một tài liệu, cho phép người dùng truy vấn bất kỳ thuật ngữ nào và lấy các đoạn văn chứa các thuật ngữ đó.

TopK: Cài đặt này được sử dụng để lựa chọn các đoạn văn có độ tương đồng cao nhất với truy vấn của người dùng. Hệ thống cũng tự động điều chỉnh số lượng đoạn văn dựa trên kích thước cửa sổ ngữ cảnh của mô hình được chọn. Giá trị mặc định cho TopK được thiết lập là 3.

Rerank Model: Sau khi cấu hình khóa API cho mô hình Rerank trên trang "Nhà cung cấp Mô hình", bạn có thể kích hoạt "Rerank Model" trong cài đặt tìm kiếm. Hệ thống sau đó thực hiện sắp xếp lại ngữ nghĩa của kết quả tài liệu được truy xuất thông qua tìm kiếm toàn văn bản, tối ưu hóa thứ tự của các kết quả này. Một khi mô hình Rerank được cấu hình, các cài đặt TopK và bất kỳ cài đặt ngưỡng điểm số nào chỉ có hiệu lực trong bước Rerank.

Hybrid Search

Hybrid Search hoạt động bằng cách thực hiện đồng thời Tìm kiếm Toàn văn bản và Tìm kiếm Vector. Sau đó, nó áp dụng một bước sắp xếp lại để chọn ra các kết quả tốt nhất phù hợp với truy vấn của người dùng từ cả hai loại kết quả tìm kiếm. Để sử dụng tính năng này một cách hiệu quả, cần thiết phải cấu hình API của Mô hình Rerank.

  • TopK: Cài đặt này được sử dụng để lọc các đoạn văn có độ tương đồng cao nhất với truy vấn của người dùng. Hệ thống sẽ tự động điều chỉnh số lượng đoạn văn dựa trên kích thước cửa sổ ngữ cảnh của mô hình đang sử dụng. Giá trị mặc định cho TopK được thiết lập là 3.

  • Rerank Model: Sau khi cấu hình khóa API của mô hình Rerank trên trang "Nhà cung cấp Mô hình", bạn có thể kích hoạt "Rerank Model" trong cài đặt tìm kiếm. Hệ thống sẽ thực hiện sắp xếp lại ngữ nghĩa của kết quả tài liệu được truy xuất thông qua tìm kiếm hỗn hợp, tối ưu hóa thứ tự của các kết quả này. Một khi mô hình Rerank được cấu hình, các cài đặt TopK và bất kỳ cài đặt ngưỡng điểm số nào cũng chỉ có hiệu lực trong bước Rerank.

Cài đặt Chế độ Tìm kiếm Khi Tạo Kiến thức:

Để thiết lập chế độ tìm kiếm khi tạo cơ sở kiến thức, điều hướng đến trang "Kiến thức -> Tạo Kiến thức". Tại đó, bạn có thể cấu hình các chế độ tìm kiếm khác nhau trong phần cài đặt truy xuất.

Thay đổi Chế độ Tìm kiếm trong Kỹ thuật Kích thích:

Bạn có thể thay đổi chế độ tìm kiếm trong quá trình tạo ứng dụng bằng cách điều hướng đến trang "Kỹ thuật Kích thích -> Ngữ cảnh -> Chọn Kiến thức -> Cài đặt". Điều này cho phép điều chỉnh các chế độ tìm kiếm khác nhau trong giai đoạn sắp xếp kích thích.

PreviousRAG (Tạo tăng cường truy xuất)NextRerank (Sắp xếp lại)

Last updated 1 year ago

Hybrid Search
Cài đặt cho Vector Search
Cài đặt cho tìm kiếm toàn văn bản
Cài đặt cho Hybrid Search
Đặt chế độ tìm kiếm khi tạo cơ sở kiến ​​thức
Sửa đổi Chế độ tìm kiếm trong Kỹ thuật nhắc nhở