跳到主要内容

示例

2026年4月27日 · 阅读需 2 分钟

这里放一个 MatrixHub 的真实使用示例。

常用场景

内网 vLLM 集群的大规模分发

场景描述：内网生产环境部署了一个由 100 台 GPU 服务器组成的 vLLM 推理集群。由于模型文件很大，例如 70B 模型可能超过 130GB，如果每台机器都去公网 Hugging Face 拉取，不仅耗时很长，还可能触发公网带宽限流。
流程概览：
1. 统一接入点：将所有 vLLM 节点的 HF_ENDPOINT 环境变量统一指向内网 MatrixHub 地址。
2. 拉取即缓存：首台机器请求模型时，MatrixHub 自动从公网拉取并持久化到本地；后续节点请求将直接命中内网缓存。

作为用户，我希望把 hf download 的 Endpoint 指向 MatrixHub，这样当同一内网里的其他节点再次拉取同一模型时，可以直接享受缓存带来的速度提升。

操作步骤

访问 MatrixHub 地址 http://x.x.x.x:3001，进入登录页面。

使用 admin 用户登录平台，进入模型仓库列表。

点击右上角用户菜单，进入平台设置和仓库管理。

创建目标仓库：选择 Hugging Face 作为提供者，填写仓库名称 hf，输入目标 URL https://hf-mirror.com，勾选验证远程证书，然后点击“确定”。

进入项目管理，打开项目列表页面。

点击“创建项目”：输入项目名称 qwen，设为公开，开启代理，选择仓库，填写代理组织 Qwen，然后点击“确定”。

拉取模型。
- 第一个节点：约 3m37.318s

第二个节点：约 0m8.500s

在 MatrixHub 中查看模型信息。

常用场景
- 内网 vLLM 集群的大规模分发