AI 革命如火如荼,为企业带来新的机遇,企业的产品、服务、客户互动等方方面面都将融入 AI 并借助 AI 实现改进。多年来,GPU 已经证明能够非常有效地解决某些极为复杂的深度学习问题。早在 2016 年 NVIDIA 就推出了支持高性能深度学习推理加速引擎 —— TensorRT,NVIDIA 深度学习平台也逐渐成为业界标准的训练解决方案。
NVIDIA&中电港联合举办的《深度学习推理优化与部署实践》线上技术分享会,邀请NVIDIA 、京东科技、vivo技术大咖,围绕“如何给深度学习加速?”为大家带来一系列主题分享。
分享主题详解
一、NVIDIA TensorRT Now and Beyond
讲师简介:
刘一鸣 NVIDIA 解决方案架构师
毕业于加州大学尔湾分校,自2020年起在NVIDIA担任解决方案架构师,协助企业级GPU用户进行线上模型部署管线的优化,专注于深度学习模型的GPU推理加速与服务部署。
演讲摘要:
1、 NVIDIA TensorRT概述;2、NVIDIA TensorRT8.x的新features;3、NVIDIA TensorRT生态的构建以及可期待的未来features。
您将了解:1、 如何使用NVIDIA TensorRT进行优化?2、NVIDIA TensorRT 8.x以来的新特性及未来规划。3、NVIDIA TensorRT 8.x的新features,以及如何运用features来更好的加速深度学习推理。4、如何enable explicit quantization模式来部署QAT 模型?5、什么是NVIDIA TRT8.x引入的built-in Transformer结构优化?如何理解与旧版本的性能和使用方式上的差异?6、如何通过tactic sources 来减少NVIDIA TensorRT的memory消耗?7、如何使用NVIDIA Torch-TensorRT 来快速加速Pytorch模型?
二、如何使用 NVIDIA Triton 推理服务器快速、可扩展的部署AI 模型
讲师简介:
卢翔龙 NVIDIA 解决方案架构师
本科毕业于华中科技大学,硕士毕业于美国亚利桑那州立大学。加入NVIDIA之前,就职于美国长安汽车美国研发部和日本瑞萨电子,主要负责自动驾驶汽车感知算法的开发。现供职于NVIDIA ,主要负责支持中国头部消费互联网公司的AI项目的加速落地。
演讲摘要:
1、NVIDIA Triton的功能性介绍,包括框架的设计思路、框架架构和使用方法。
2、最新NVIDIA Triton features的系统性更新。
您将了解:1、了解如何在GPU集群上快速部署Triton推理服务器;
2、了解NVIDIA Triton设计思路和提高serving吞吐、提高GPU使用率的机制;3、了解到NVIDIA Triton最新的roadmap更新;4、如何在CPU/GPU集群上快速部署NVIDIA Triton推理服务器;5、NVIDIA Triton架构的设计思路和提高serving吞吐、提高GPU使用率的机理;6、NVIDIA Triton + k8s 实现多节点serving的动态扩容和负载均衡。
三、vivo使用CUDA MPS实践分享
讲师简介:
陈名华 vivo AI研究院 AI架构工程师
毕业于吉林大学,曾任职于阿里巴巴,曾自主创业,目前任职于vivo AI研究院从事架构工作。
演讲摘要:1、vivo推理平台上线CUDA MPS的背景和原因;
2、CUDA MPS结合BareMetal和Kubernetes在vivo的落地实践。
您将了解:1、了解MPS在真实业务场景中的实践经验;
2、了解MPS在推理场景中的加速和吞吐收益;3、CUDA MPS落地实践;4、如何结合rust语言快速实现?
四、JD使用Triton实践分享
讲师简介:郭祎斌 京东科技 AI软件架构师
前安全工程师,目前任职于京东科技应用算法与研发部。
演讲摘要:1、JD上线Triton的技术背景和业务诉求;
2、Triton在JD部署的现状和规划;3、Rust结合Triton的部署。
您将了解:1、Triton在业务场景的部署实践以及JD对Triton的架构思考;
2、让Rust作为Triton的前端,合理利用Triton的batch优势;
3、优化Triton编排。