跳到主要内容

示例

· 阅读需 2 分钟

这里放一个 MatrixHub 的真实使用示例。

常用场景

内网 vLLM 集群的大规模分发

  • 场景描述:内网生产环境部署了一个由 100 台 GPU 服务器组成的 vLLM 推理集群。由于模型文件很大,例如 70B 模型可能超过 130GB,如果每台机器都去公网 Hugging Face 拉取,不仅耗时很长,还可能触发公网带宽限流。
  • 流程概览
    1. 统一接入点:将所有 vLLM 节点的 HF_ENDPOINT 环境变量统一指向内网 MatrixHub 地址。
    2. 拉取即缓存:首台机器请求模型时,MatrixHub 自动从公网拉取并持久化到本地;后续节点请求将直接命中内网缓存。

作为用户,我希望把 hf download 的 Endpoint 指向 MatrixHub,这样当同一内网里的其他节点再次拉取同一模型时,可以直接享受缓存带来的速度提升。

操作步骤

  1. 访问 MatrixHub 地址 http://x.x.x.x:3001,进入登录页面。

  1. 使用 admin 用户登录平台,进入模型仓库列表。

  1. 点击右上角用户菜单,进入平台设置和仓库管理。

  1. 创建目标仓库:选择 Hugging Face 作为提供者,填写仓库名称 hf,输入目标 URL https://hf-mirror.com,勾选验证远程证书,然后点击“确定”。

  1. 进入项目管理,打开项目列表页面。

  1. 点击“创建项目”:输入项目名称 qwen,设为公开,开启代理,选择仓库,填写代理组织 Qwen,然后点击“确定”。

  1. 拉取模型。

    • 第一个节点:约 3m37.318s

  • 第二个节点:约 0m8.500s

  1. 在 MatrixHub 中查看模型信息。