模型部署

使用Xorbits Inference部署模型

Derrick
2025年 7月 4日

1. 启动xinference服务

xinference-local --host 0.0.0.0 --port 9997

2. 浏览器访问

浏览器访问上述服务地址(如：http://10.0.14.55:9997)，即可使用页面:

3. 启动模型

3.1 启动嵌入模型

# --endpoint换为实际的xinferrence服务地址(第一步的服务地址)
xinference launch --model_path /home/module/xinference/models/bge-m3 --endpoint http://10.0.14.55:9997 --model-name bge-m3 --model-type embedding --device cpu

3.2 启动重排序模型

# --endpoint换为实际的xinferrence服务地址(第一步的服务地址)
xinference launch --model_path /home/qll/models/bge-reranker-v2-m3 --endpoint http://10.0.14.55:9997 --model-name bge-reranker-v2-m3 --model-type rerank

3.3 相关参数含义如下：

model_path: 模型权重路径
endpoint: xinferrence服务地址
model-name: 启动的模型的名称
model-type: 模型类型，支持LLM、embedding、rerank、image
device: cpu、cuda等

4. 使用方式

可以使用openai API调用，只需如下设置即可：

openai.api_base = "http://10.0.14.55:9997/v1"
openai.api_key = ""

使用页面进行测试:

发表回复取消回复

要发表评论，您必须先登录。