使用Xorbits Inference部署模型

1. 启动xinference服务

xinference-local --host 0.0.0.0 --port 9997

2. 浏览器访问

浏览器访问上述服务地址(如:http://10.0.14.55:9997),即可使用页面:

3. 启动模型

3.1 启动嵌入模型

# --endpoint换为实际的xinferrence服务地址(第一步的服务地址)
xinference launch --model_path /home/module/xinference/models/bge-m3 --endpoint http://10.0.14.55:9997 --model-name bge-m3 --model-type embedding --device cpu

3.2 启动重排序模型

# --endpoint换为实际的xinferrence服务地址(第一步的服务地址)
xinference launch --model_path /home/qll/models/bge-reranker-v2-m3 --endpoint http://10.0.14.55:9997 --model-name bge-reranker-v2-m3 --model-type rerank

3.3 相关参数含义如下:

  • model_path: 模型权重路径
  • endpoint: xinferrence服务地址
  • model-name: 启动的模型的名称
  • model-type: 模型类型,支持LLMembeddingrerankimage
  • device: cpu、cuda等

4. 使用方式

  • 可以使用openai API调用,只需如下设置即可:

    openai.api_base = "http://10.0.14.55:9997/v1"
    openai.api_key = ""
  • 使用页面进行测试:

发表回复