Xinference

Xorbits inference là một thư viện mạnh mẽ và linh hoạt được thiết kế để phục vụ các mô hình ngôn ngữ, nhận dạng giọng nói và đa phương tiện, và thậm chí có thể được sử dụng trên laptop. Nó hỗ trợ nhiều mô hình tương thích với GGML, như chatglm, baichuan, whisper, vicuna, orca, vv. Và ChatX hỗ trợ kết nối với khả năng suy luận và nhúng mô hình ngôn ngữ lớn đã được triển khai của Xinference một cách cục bộ.

Triển khai Xinference

Vui lòng lưu ý rằng thường bạn không cần phải tìm địa chỉ IP của container Docker một cách thủ công để truy cập dịch vụ, vì Docker cung cấp tính năng ánh xạ cổng. Điều này cho phép bạn ánh xạ các cổng container vào các cổng máy cục bộ, cho phép truy cập thông qua địa chỉ cục bộ của bạn. Ví dụ, nếu bạn sử dụng tham số -p 80:80 khi chạy container, bạn có thể truy cập dịch vụ bên trong container bằng cách truy cập vào http://localhost:80 hoặc http://127.0.0.1:80.

Nếu bạn thực sự cần sử dụng địa chỉ IP của container trực tiếp, các bước trên sẽ giúp bạn có thông tin này.

Bắt đầu Xinference

Có hai cách triển khai Xinference, đó là triển khai cục bộ và triển khai phân tán, ở đây chúng tôi lấy ví dụ về triển khai cục bộ.

Trước tiên, cài đặt Xinference qua PyPI:
```
$ pip install "xinference[all]"
```
Bắt đầu Xinference cục bộ:
```
$ xinference-local
2023-08-20 19:21:05,265 xinference   10148 INFO     Xinference successfully started. Endpoint: http://127.0.0.1:9997
2023-08-20 19:21:05,266 xinference.core.supervisor 10148 INFO     Worker 127.0.0.1:37822 has been added successfully
2023-08-20 19:21:05,267 xinference.deploy.worker 10148 INFO     Xinference worker successfully started.
```
Xinference sẽ mặc định bắt đầu một worker cục bộ, với điểm cuối: http://127.0.0.1:9997, và cổng mặc định là 9997. Theo mặc định, truy cập được giới hạn chỉ đối với máy cục bộ, nhưng có thể được cấu hình với -H 0.0.0.0 để cho phép truy cập từ bất kỳ client không phải là máy cục bộ. Để sửa đổi máy chủ hoặc cổng, bạn có thể tham khảo thông tin trợ giúp của xinference: xinference-local --help.
Nếu bạn sử dụng phương pháp triển khai Docker của ChatX, bạn cần chú ý đến cấu hình mạng để đảm bảo rằng container ChatX có thể truy cập vào điểm cuối của Xinference. Container ChatX không thể truy cập localhost bên trong, và bạn cần sử dụng địa chỉ IP máy chủ.
Tạo và triển khai mô hình
Truy cập http://127.0.0.1:9997, chọn mô hình và thông số bạn cần triển khai, như được hiển thị dưới đây:

Do các mô hình khác nhau có sự tương thích khác nhau trên các nền tảng phần cứng khác nhau, vui lòng tham khảo các mô hình tích hợp sẵn của Xinference để đảm bảo mô hình tạo ra hỗ trợ nền tảng phần cứng hiện tại.

Nhận UID của mô hình

Sao chép ID mô hình từ trang Running Models , ví dụ: 2c886330-8849-11ee-9518-43b0b8f40bea

Sau khi mô hình được triển khai, kết nối mô hình đã triển khai trong ChatX.

Trong Cài đặt > Nhà cung cấp Mô hình > Xinference của ChatX, nhập:

Tên Mô hình: vicuna-v1.3
URL Máy chủ: http://<Machine_IP>:9997 Thay thế bằng địa chỉ IP máy của bạn
UID Mô hình: 2c886330-8849-11ee-9518-43b0b8f40bea

Nhấp vào "Lưu" để sử dụng mô hình trong ứng dụng của ChatX.

ChatX cũng hỗ trợ việc sử dụng các mô hình tích hợp sẵn của Xinference như là các mô hình Nhúng, chỉ cần chọn loại Nhúng trong hộp cấu hình.

Để biết thêm thông tin về Xinference, vui lòng tham khảo: Xorbits Inference

PreviousReplicate NextOpenLLM

Last updated 1 year ago