Knowledge Import ( Nhập kiến thức)
Hầu hết các mô hình ngôn ngữ sử dụng dữ liệu huấn luyện lỗi thời và có giới hạn độ dài cho ngữ cảnh của mỗi yêu cầu. Ví dụ, GPT-3.5 được huấn luyện trên các tập dữ liệu từ năm 2021 và có giới hạn khoảng 4k token cho mỗi yêu cầu. Điều này có nghĩa là các nhà phát triển muốn ứng dụng AI của họ dựa trên các cuộc trò chuyện ngữ cảnh mới nhất và riêng tư phải sử dụng các kỹ thuật như embedding.
Tính năng kiến thức của ChatX cho phép các nhà phát triển (và thậm chí cả người dùng không kỹ thuật) dễ dàng quản lý kiến thức và tự động tích hợp chúng vào các ứng dụng AI. Tất cả những gì bạn cần làm là chuẩn bị nội dung văn bản, chẳng hạn như:
Nội dung văn bản dài (tệp TXT, Markdown, DOCX, HTML, JSONL, hoặc thậm chí PDF)
Dữ liệu có cấu trúc (CSV, Excel, v.v.)
Ngoài ra, chúng tôi đang dần hỗ trợ đồng bộ dữ liệu từ các nguồn dữ liệu khác nhau vào kiến thức, bao gồm:
GitHub
Cơ sở dữ liệu
Trang web
...
Kiến thức và Tài liệu
Trong ChatX, các cơ sở kiến thức là tập hợp các tài liệu. Một cơ sở kiến thức có thể được tích hợp toàn bộ vào một ứng dụng để sử dụng làm ngữ cảnh. Các tài liệu có thể được tải lên bởi các nhà phát triển hoặc nhân viên vận hành, hoặc được đồng bộ từ các nguồn dữ liệu khác (thường tương ứng với một đơn vị tệp trong nguồn dữ liệu).
Các bước để tải lên một tài liệu:
Tải lên tệp của bạn, thường là tệp văn bản dài hoặc bảng tính
Phân đoạn, làm sạch và xem trước
ChatX gửi nó đến nhà cung cấp LLM để embedding thành dữ liệu vector và lưu trữ
Đặt metadata cho tài liệu
Sẵn sàng sử dụng trong ứng dụng!
Cách viết một mô tả kiến thức tốt
Khi nhiều cơ sở kiến thức được tham chiếu trong một ứng dụng, AI sử dụng mô tả của kiến thức và câu hỏi của người dùng để xác định cơ sở kiến thức nào sẽ sử dụng để trả lời câu hỏi của người dùng. Do đó, một mô tả kiến thức được viết tốt có thể cải thiện độ chính xác của AI trong việc chọn kiến thức.
Chìa khóa để viết một mô tả kiến thức tốt là mô tả rõ ràng nội dung và đặc điểm của kiến thức. Đề xuất rằng mô tả kiến thức bắt đầu với điều này: Chỉ hữu ích khi câu hỏi bạn muốn trả lời là về: mô tả cụ thể
. Dưới đây là một ví dụ về mô tả kiến thức bất động sản:
Chỉ hữu ích khi câu hỏi bạn muốn trả lời là về dữ liệu thị trường bất động sản toàn cầu từ năm 2010 đến năm 2020. Dữ liệu này bao gồm các thông tin như giá nhà trung bình, khối lượng bán bất động sản, và các loại hình nhà ở cho mỗi thành phố. Ngoài ra, cơ sở kiến thức này còn bao gồm một số chỉ số kinh tế như GDP và tỷ lệ thất nghiệp, cũng như một số chỉ số xã hội như dân số và trình độ giáo dục. Những chỉ số này có thể giúp phân tích các xu hướng và yếu tố ảnh hưởng đến thị trường bất động sản. Với dữ liệu này, chúng ta có thể hiểu được các xu hướng phát triển của thị trường bất động sản toàn cầu, phân tích sự thay đổi của giá nhà ở các thành phố khác nhau, và hiểu được tác động của các yếu tố kinh tế và xã hội lên thị trường bất động sản.
Tạo một kiến thức
Click vào "Kiến thức" trong thanh điều hướng chính của ChatX. Trên trang này, bạn có thể thấy các cơ sở kiến thức hiện có. Click vào "Tạo Kiến thức" để vào trình hướng dẫn tạo.
Nếu bạn đã chuẩn bị sẵn các tệp của mình, bạn có thể bắt đầu bằng cách tải các tệp lên.
Nếu bạn chưa chuẩn bị sẵn tài liệu, bạn có thể tạo một cơ sở kiến thức trống trước.
Tải lên Tài liệu bằng cách tải lên tệp
Chọn tệp bạn muốn tải lên. Chúng tôi hỗ trợ tải lên hàng loạt.
Xem trước toàn văn bản.
Thực hiện phân đoạn và làm sạch.
Đợi ChatX xử lý dữ liệu cho bạn; bước này thường tiêu thụ token của nhà cung cấp LLM.
Tiền xử lý và Làm sạch Văn bản
Tiền xử lý và làm sạch văn bản đề cập đến việc ChatX tự động phân đoạn và vector hóa tài liệu dữ liệu của bạn để câu hỏi của người dùng (đầu vào) có thể khớp với các đoạn văn liên quan (Q đến P) và tạo ra kết quả.
Khi tải lên một cơ sở kiến thức, bạn cần chọn một chế độ lập chỉ mục để chỉ định cách dữ liệu được khớp. Điều này ảnh hưởng đến độ chính xác của câu trả lời AI.
Ở chế độ Chất lượng cao, API embedding của OpenAI được sử dụng để tăng độ chính xác trong các truy vấn của người dùng.
Ở chế độ Kinh tế, các động cơ vector ngoại tuyến, lập chỉ mục từ khóa, v.v. được sử dụng để giảm chi phí với sự giảm độ chính xác.
Ở chế độ Phân đoạn theo định dạng Hỏi & Đáp, thay vì khớp "Q đến P" (câu hỏi khớp với đoạn văn), nó sử dụng "Q đến Q" (câu hỏi khớp với câu hỏi). Sau khi phân đoạn, các cặp Hỏi & Đáp được tạo ra cho mỗi đoạn văn. Khi người dùng đặt câu hỏi, hệ thống tìm câu hỏi tương tự nhất và trả lại đoạn văn tương ứng như là câu trả lời. Điều này chính xác hơn vì nó trực tiếp khớp với câu hỏi của người dùng và truy xuất thông tin họ cần.
Câu hỏi có cú pháp đầy đủ trong khi từ khóa thiếu ngữ nghĩa và ngữ cảnh. Vì vậy, Q to Q cải thiện sự rõ ràng và xử lý các câu hỏi có tần suất cao tương tự tốt hơn.
Chỉnh sửa Tài liệu
Vì lý do kỹ thuật, nếu nhà phát triển thực hiện các thay đổi sau đối với tài liệu, ChatX sẽ tạo ra một tài liệu mới cho bạn, và tài liệu cũ sẽ được lưu trữ và ngừng hoạt động:
Điều chỉnh các thiết lập phân đoạn và làm sạch.
Tải lại tệp.
ChatX hỗ trợ tùy chỉnh văn bản đã phân đoạn và làm sạch bằng cách thêm, xóa và chỉnh sửa các đoạn văn. Bạn có thể điều chỉnh phân đoạn của mình để làm cho kiến thức của bạn chính xác hơn. Click vào "Document" -> "paragraph" -> "Edit" trong kiến thức để chỉnh sửa nội dung đoạn văn và từ khóa tùy chỉnh. Click vào "Document" -> "paragraph" -> "Add segment" -> "Add a segment" để thêm đoạn văn mới thủ công. Hoặc click vào "Document" -> "paragraph" -> "Add segment" -> "Batch add" để thêm nhiều đoạn văn mới hàng loạt.
Tắt và Lưu trữ Tài liệu
Tắt, hủy tắt: Kiến thức hỗ trợ tắt các tài liệu hoặc đoạn văn mà bạn tạm thời không muốn lập chỉ mục. Trong danh sách tài liệu của kiến thức, click vào nút "Disable" và tài liệu sẽ bị tắt. Bạn cũng có thể click vào nút "Disable" trong chi tiết tài liệu để tắt toàn bộ tài liệu hoặc một đoạn. Các tài liệu bị tắt sẽ không được lập chỉ mục. Để hủy tắt, click vào "Enable" trên một tài liệu bị tắt.
Lưu trữ, hủy lưu trữ: Một số dữ liệu tài liệu cũ không sử dụng có thể được lưu trữ nếu bạn không muốn xóa chúng. Sau khi lưu trữ, dữ liệu chỉ có thể được xem hoặc xóa, không thể chỉnh sửa. Trong danh sách tài liệu của kiến thức, click vào nút "Archive" để lưu trữ tài liệu. Tài liệu cũng có thể được lưu trữ trong trang chi tiết tài liệu. Các tài liệu đã lưu trữ sẽ không được lập chỉ mục. Tài liệu đã lưu trữ cũng có thể được hủy lưu trữ bằng cách click vào nút "Unarchive".
Duy trì Kiến thức qua API
Cài đặt Kiến thức
Click vào "Settings" trong điều hướng bên trái của kiến thức. Bạn có thể thay đổi các cài đặt sau cho kiến thức:
Tên kiến thức để nhận diện cơ sở kiến thức.
Mô tả kiến thức để cho phép AI sử dụng kiến thức một cách hợp lý hơn. Nếu mô tả trống, chiến lược lập chỉ mục tự động của ChatX sẽ được sử dụng.
Quyền truy cập có thể được đặt thành "Only Me" hoặc "All Team Members". Những người không có quyền không thể xem và chỉnh sửa kiến thức.
Chế độ lập chỉ mục: Ở chế độ Chất lượng cao, giao diện embedding của OpenAI sẽ được gọi để xử lý và cung cấp độ chính xác cao hơn khi người dùng truy vấn. Ở chế độ Kinh tế, các động cơ vector ngoại tuyến, lập chỉ mục từ khóa, v.v. sẽ được sử dụng để giảm độ chính xác mà không tiêu thụ token.
Note: Upgrading the indexing mode from Economic to High Quality will incur additional token consumption. Downgrading from High Quality to Economic will not consume tokens.
Tích hợp vào Ứng dụng
Khi cơ sở kiến thức đã sẵn sàng, nó cần được tích hợp vào ứng dụng. Khi ứng dụng AI xử lý, nó sẽ tự động sử dụng nội dung kiến thức liên quan làm ngữ cảnh tham chiếu.
Đi tới trang "Prompt Arrangement" của ứng dụng.
Trong tùy chọn ngữ cảnh, chọn kiến thức bạn muốn tích hợp.
Lưu cài đặt để hoàn tất tích hợp.
Hỏi & Đáp
Q: Tôi nên làm gì nếu tải lên PDF bị lỗi?
A: Nếu việc phân tích PDF của bạn bị lỗi dưới một số nội dung định dạng nhất định, bạn có thể xem xét chuyển đổi PDF sang định dạng Markdown, hiện cung cấp độ chính xác cao hơn, hoặc bạn có thể giảm việc sử dụng hình ảnh, bảng và các nội dung định dạng khác trong PDF. Chúng tôi đang nghiên cứu các cách để tối ưu hóa trải nghiệm sử dụng PDF.
Q: Cơ chế tiêu thụ ngữ cảnh hoạt động như thế nào? A: Với một cơ sở kiến thức được thêm vào, mỗi truy vấn sẽ tiêu thụ nội dung phân đoạn (hiện tại là embedding hai đoạn) + câu hỏi + prompt + lịch sử trò chuyện kết hợp. Tuy nhiên, nó sẽ không vượt quá giới hạn mô hình, chẳng hạn như 4096.
Q: Kiến thức được nhúng xuất hiện ở đâu khi đặt câu hỏi? A: Nó sẽ được nhúng làm ngữ cảnh trước câu hỏi.
Q: Có bất kỳ sự ưu tiên nào giữa kiến thức được thêm và câu trả lời của OpenAI không? A: Kiến thức đóng vai trò như ngữ cảnh và được sử dụng cùng với câu hỏi để LLM hiểu và trả lời; không có mối quan hệ ưu tiên.
Q: Tại sao tôi có thể truy cập trong thử nghiệm nhưng không phải trong ứng dụng? A: Bạn có thể khắc phục sự cố bằng cách làm theo các bước sau:
Đảm bảo bạn đã thêm văn bản trên trang prompt và nhấn vào nút lưu ở góc trên bên phải.
Kiểm tra xem nó có phản hồi bình thường trong giao diện gỡ lỗi prompt không.
Thử lại trong cửa sổ phiên WebApp mới.
Q: Các API liên quan đến thử nghiệm truy cập sẽ được mở ra để ChatX có thể truy cập các cơ sở kiến thức và thực hiện tạo hội thoại bằng cách sử dụng các mô hình tùy chỉnh không? A: Chúng tôi dự định mở Webhooks sau này; tuy nhiên, hiện tại chưa có kế hoạch cho tính năng này. Bạn có thể đạt được yêu cầu của mình bằng cách kết nối với bất kỳ cơ sở dữ liệu vector nào.
Q: Làm thế nào để tôi thêm nhiều cơ sở kiến thức? A: Do cân nhắc hiệu suất ngắn hạn, hiện tại chúng tôi chỉ hỗ trợ một cơ sở kiến thức. Nếu bạn có nhiều bộ dữ liệu, bạn có thể tải chúng lên trong cùng một cơ sở kiến thức để sử dụng.