新葡萄8883论坛-欢迎您

解决方案
运用科技进行整合性创新
背景概述

随着人工智能与边缘计算的发展,各种数据科学的应用落地,在在线教育行业中部署相关的服务去支持业务开展已成为大势所趋——深度学习下的图像识别、NLP等技术给行业带来新发展空间。

数据规模在不断增长,使用公有云部署业务是一种便捷的模式。但越来越多企业用户发现,大规模使用公有云基础及其深度学习API服务,已成为每年开支中的大头。混合云部署的模式业务的模式可能成为更合理的选择,把部分重要业务部署在企业私有云中,不仅可获得对业务与数据安全的全面控制,据第三方测评,对中小型规模集群、私有部署甚至可能降低高达70%的运维服务费用。把部分业务私有部署,已成为在线教育行业中稳健的选择。

在混合云部署中,云原生计算成为先行崛起的理念。云原生计算依靠资源云化(虚拟化),应用云化(标准化、自动化、可拓展、高可用),云原生(互联网规模、敏捷,弹性)的优势,逐渐成为人工智能深度学习、数据科学等应用及服务的载体。

容器是云原生计算的基石,CNCF对云原生的定位为:容器化、微服务、容器可以动态调度。容器化、持续交付、DevOps、微服务组成了云原生计算的理念。一套适合的云原生计算平台,可以支持多租户兼顾应用服务、科研、教学等场地,利用自动化运维工具减少运维人员工作负担,为最终用户提供各层次的应用。

解决方案
从满足应用需求的角度出发,建立一个高可扩展、易管理的AI云原生计算平台环境。该平台由提供算力的硬件平台部分,以及提供资源调度与监控管理、用户管理的容器云平台组成。
AI云原生计算硬件平台规划图
容器云设计图
DGX系统
DGX-1具有通过NVLink(NVIDIA的一种高性能GPU互联技术)在混合数据立方体网格网络中连接8台Tesla V100 GPU加速器的能力,搭配双插槽Intel Xeon CPU和4个100 Gb InfiniBand网络接口卡,DGX-1为深度学习训练带来了前所未有的非凡性能。此外,DGX-1系统软件和功能强大管理库可以适时调整,以用于扩展Tesla V100 GPU网络中的深度学习,为有关生产和研究的深度学习应用提供灵活且可扩展的平台。
NVIDIA DGX 系统支持内容包括:
01
NVIDIA 云管理:容器库、容器管理、作业调度、系统性能监控,以及新软件更新;
02
获得超级新的软件更新程序和升级程序;
03
与 NVIDIA 技术专家直接沟通;
04
包含指导文章、应用程序说明和产品文件的可搜索知识库;
05
通过支持门户和全天候电话访问权限实现快速响应并实时解决问题;
06
NVIDIA DGX 系统深度学习软件的生命周期支持;
07
硬件支持、固件升级、诊断,以及远程和现场解决硬件问题;
08
次日配送替换零件。
T4服务器
用户已经建立、训练、调整和调整了模型后需要一个推理解决方案,可以部署到数据中心或云。方案中应该优化使用可用的GPU,以获得最大可能的性能。可能还存在其他需求,例如需要A/B测试功能或支持具有多个同构或异构GPU的服务器的能力。
T4服务器搭载8张NVIDIA Tesla T4。Tesla T4可以加速语音、视频、搜索引擎、图像神经网络的 Tesla T4 。Tesla T4 拥有 320 个图灵张量(TURring Tensor)内核 + 2560 个 CUDA 内核。
GPU 支持混合精度,例如 FP32、FP16、已 INT8 。此外 Tesla T4 还支持 INT4 和实验性的 INT1 精度模式,较其前身有显著的进步。
Tesla T4 的功耗相当低调,服务器 PCIe 插槽的标准供电(75W)已经足够,无需外接 6-pin 。散热方面,它也无需加装主动式的风扇(服务器典型的内风道设计已经足够)。
Tesla T4 为人工智能视频应用提供极具突破性的性能,其专用的硬件转码引擎将解码性能提升至上一代 GPU 的两倍。T4 可以解码多达 38 个全高清视频流,从而可以轻松地将可扩展的深度学习集成到视频管线中,以提供创新的智能视频服务。
TensorRT推理服务是Nvidia TensorRT推理平台的一部分,它提供了一种新的软件解决方案,扩展了模型和框架的实用性,非常有效结合使用TensorRT及深度学习框架和训练好的模型,充分提高了GPU和CPU的利用率。它基于Nvidia Docker,可以从Nvidia GPU Cloud上获得。
NVIDIA NGX软件开发套件中包含的AI增强功能提供了支持,如去噪、分辨率缩放和视频调速。
QQ
返回顶部
Baidu
sogou