Skip to content

模型推理

页面用途

记录模型推理与部署相关的技术文档,涵盖模型导出、推理加速、服务化部署等内容。

负责人

TODO:填写负责人。

当前状态

TODO:待补充。

内容大纲

  • TODO:模型导出(ONNX、TorchScript)
  • TODO:推理框架(TensorRT、ONNX Runtime、vLLM)
  • TODO:推理服务化(FastAPI、Triton Inference Server)
  • TODO:批处理与异步推理
  • TODO:推理精度验证与对比
  • TODO:推理常见问题与解决方案

参考资料

TODO:补充相关链接、文件、代码仓库或论文。