唯品会 AI 平台支持算法模型从开发、训练到上线等一整套流程和体系,核心工作包括大规模分布式模型训练和模型推理优化等,业务上支持公司推荐、搜索、广告、图像和 NLP 等各种机器学习和深度学习场景,达到算法提升公司业绩的整体目标。
本次分享介绍唯品会 AI 平台在基于 K8s 的 TensorFlow 模型训练过程中,依赖 Volcano 解决调度的问题:包括 Gang Scheduling、资源队列管理等的一下实践,整体上达成了很好的资源使用率的提升的目标。此外也会分享唯品会在 K8S 上使用 VPA(Vertical Pod
Autoscaler)动态控制容器资源使用的实践,即在 CPU 资源超卖的情况下,保障物理机的可用率和实现整体资源使用水平提升。