AI的微服务NIM让不可能成为可能:解码用于加速生成式
触手可及的 AI:工作站和 PC 上的 NVIDIA NIM
微服务架构可将应用分解为一系列可独立部署的松散耦合服务。每个服务都负责一项特定的功能,并通过明确定义的应用编程接口 (API) 与其他服务通信。这种模块化方法与传统的一体化架构形成了鲜明的对比。在传统的一体化架构中,所有功能都会捆绑至单个紧密集成的应用中。
混合式 RAG 可结合本地和基于云的资源来优化 AI 应用的性能和灵活性。借助 NVIDIA AI Workbench,开发者可以开始使用混合式 RAG Workbench 项目,这是一个示例应用,可提供灵活的资源分配方法,既能用于在本地运行向量数据库和嵌入模型,又能用于在云端或数据中心使用 NIM 执行推理。
完美搭配:微服务与生成式 AI
最近宣布可作为 NIM 的 Meta Llama 3 8B 模型正式版可以在 RTX 系统上本地运行,为个人开发者提供先进的语言模型功能,使其无需云资源的支持即可进行本地测试和实验。借助本地运行的 NIM,开发者可以直接在其工作站上创建复杂的检索增强生成 (RAG) 项目。
- 加入 NVIDIA 开发者计划,以便免费访问 NIM,并将其用于 AI 赋能应用的测试和原型设计。
生成式 AI 正改变游戏、视频会议和各种交互体验。订阅《解码 AI》时事通讯,了解最新动态,掌握后续进展。
借助在 RTX PC 和工作站上运行的生成式 AI,NVIDIA ACE NIM 推理微服务可创建栩栩如生的数字人、AI 非玩家角色 (NPC) 和用于客户服务的交互式虚拟形象。
NIM 可简化集成过程,且兼具生产就绪性和灵活性,为希望引入 AI 功能的应用开发者提供了一种具有变革性的开发方法。开发者可以专注于构建应用,而无需担心数据准备、模型训练或自定义会过于复杂,这是因为 NIM 推理微服务针对性能进行了优化,自带运行时优化,还支持行业标准 API。
现代 AI 应用的基础模组
通过在本地运行整个 RAG 工作流,开发者可以始终保持对其数据的完全掌控,以确保隐私和安全。如果开发者正在构建的应用需要做到实时响应,同时还需兼具高准确性 (例如客户支持聊天机器人、个性化内容生成工具和交互式虚拟助手),那么对于开发者来说,上述方法特别有用。
构建企业级生成式 AI 应用面临着诸多挑战。虽然云托管模型 API 可以帮助开发者着手进行开发,但与数据隐私、安全性、模型响应延迟、准确性、API 成本和扩展相关的问题往往会阻碍应用投入生产环境。
深入探究 NIM
微服务已成为一种强大的架构,从根本上改变了人们设计、构建和部署软件的方式。
NVIDIA Nemotron 小型语言模型是一种智能 NIM,其中包含用于尽可能减少内存使用量的 INT4 量化功能。此外,它还支持角色扮演和 RAG 用例。
NVIDIA NIM 推理微服务可将模型作为经优化的容器提供,以便在云端、数据中心、工作站、台式电脑和笔记本电脑中部署这些模型。每个 NIM 容器都包含经过预训练的 AI 模型和所有必要的运行时组件,可让用户轻松地将 AI 功能集成到应用中。
编者注:本文属于《解码 AI》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 NVIDIA RTX PC 和工作站用户展示全新硬件、软件、工具和加速特性。
而 ACE NIM 外观推理微服务则包括 Audio2Face 和 Omniverse RTX,可用于创建栩栩如生的超逼真动画视觉效果。这有助于提供更具吸引力的游戏角色,为玩家带来更加优秀的沉浸式体验;还能在用户与虚拟客服人员互动时,提供更加令人满意的体验。
开发者可借助这种混合式设置平衡本地和云资源之间的计算负载,以便优化性能和降低成本。例如,向量数据库和嵌入模型可以托管在本地工作站,以确保实现快速的数据检索和处理,而计算强度更大的推理任务则可以分流至基于云的强大 NIM 推理微服务。这种灵活性让开发者能够流畅地扩展应用,以适应不同水平的工作负载,同时确保性能始终都能保持在同一水平。
- 前往 ai.nvidia.com 体验 NVIDIA NIM 微服务并与之交互。
通过消除与云托管 API 相关的延迟、成本和合规性问题并降低模型部署的复杂性,开发者可以专注于应用开发,进而加速生产就绪型生成式 AI 应用的交付,并在数据中心和云端实现流畅的自动扩展及性能优化。
在快速发展的人工智能领域中,生成式 AI 正在激发人们的想象力并变革各行各业。使这一切成为可能的是一位默默无闻的幕后英雄:微服务架构。
在 NVIDIA RTX AI 工作站和 NVIDIA GeForce RTX 系统上本地运行生成式 AI 的 NVIDIA NIM 微服务。
开发者可以在配备一个或多个 NVIDIA RTX 专业旗舰级 GPU 的工作站或 NVIDIA RTX 系统上使用 Llama 3 8B NIM,完全立足于本地硬件构建端到端 RAG 系统。这种设置让开发者能够充分利用 Llama 3 8B 的强大功能,以确保获得高性能和低延迟。
NVIDIA NIM:简化生成式 AI 部署
微服务架构具有可扩展性、增强的模块化属性和灵活性,因而特别适用于开发生成式 AI 应用。
- 购买 NVIDIA AI Enterprise 许可证(带有为期 90 天的免费生产部署评估期),并使用 NVIDIA NIM 在云端或数据中心部署自托管 AI 模型。
随着 AI 的不断发展,快速部署并扩展 AI 功能的能力将变得越来越重要。
AI 模型(尤其是大语言模型)需要用到大量的计算资源。微服务能够让这些资源密集型组件实现高效扩展,同时避免对整个系统产生影响。
NVIDIA NIM 微服务可助力实现突破性创新,为 AI 应用开发的新时代奠定了基础。无论是构建新一代 AI 赋能游戏、开发先进的自然语言处理应用,还是创建智能自动化系统,用户都可以使用这些触手可及的强大开发工具。
解除各个服务之间的耦合后,团队可以同时处理不同的组件,进而加速开发流程。同时,团队还能针对各个服务单独推出更新,避免对整个应用造成影响。开发者可以专注于构建和改进特定服务,进而提高代码质量并加快解决问题的速度。这种专业化开发让开发者能够成为其特定领域的专家。
ACE NIM 语音推理微服务 (包括 Riva 自动语音识别、文本转语音和神经网络机器翻译) 可提供准确的转录、翻译和逼真的声音。
随着人们对 AI 赋能应用的需求不断增长,开发者在有效部署和管理 AI 模型方面面临着挑战。
服务可以根据需求独立扩展,从而优化资源利用率并提高系统的整体性能。此外,不同的服务可以使用不同的技术,这让开发者能够为各个特定任务选择最合适的工具。
在支持 NIM 的工作站上,开发者可以安全访问各种模型和经过性能优化的推理微服务。
如何开始使用:
本地 RAG 是指完全在本地硬件上部署的 RAG 系统,这种 RAG 不依赖基于云的服务或外部 API。
生成式 AI 应用通常涉及多个步骤,例如数据预处理、模型推理和后处理。借助微服务,每个步骤都可以独立开发、优化和扩展。此外,随着 AI 模型和技术的快速发展,微服务架构可使集成新模型及替换现有模型的过程变得更加轻松,同时不会中断整个应用的运行。
更多精彩电竞资讯,请持续关注红瀚达电竞网 (https://www.honghanda.com/)- 2025-09-09 瓦手来了!无畏契约手游6月12日开启限号测试
- 2025-09-09 《F125》等多款新游戏支持DLSS4
- 2025-09-09 天命人速来!海信x《黑神话:悟空》联名周边首曝光
- 2025-09-09 高通CEO安蒙详解AI将如何成为新的UI
- 2025-09-09 高通CEO安蒙:AI成为新的UI,智能体构成新的操作系统
- 2025-09-09 DOTA2春华正茂更新,新春英雄宝藏上线,内含全新身心与不朽
- 2025-09-09 无畏契约手游开发者日志公布,手机上也能爽玩纯正瓦端竞技
- 2025-09-09 宏碁Computex展示完整AIPC生态体系和最新创新科技成果
- 2025-09-09 5.0性能狂潮掀起PCIeTiPro9000固态硬盘《黑神话:悟空》联名版开启预售
- 2025-09-09 Origo系列游戏本正式发布:国补7199起七彩虹高端产品力新开端!iGame
- 首个四连冠!成都AG超玩会夺得2025KPL春季赛冠军刷新统治力纪录
- 第四代骁龙8s:高性能高能效,游戏表现出色
- 在线翻倍创新高!无畏契约国服同时在线突破200万
- 370万+用户见证KZ战队夺冠,2025快手CFM冠军杯点燃江城
- 2025英雄亚冠ACL总决赛16日揭幕,九大赛事决战电竞之巅
- 2025总奖金增至100万美元!10月14日中国上海重燃战火CAC
- LPL再次溃败LCK,TES一边倒不敌HLE引发热议
- OLED电竞显示器有备无患!《GTA6》未发先火,入手超高性能ROG
- AMD新品上市开启装机热潮,华硕DIY装备强势助力
- 索尼INZONE硬核助力《暗区突围:无限》上线!开启视听突围新境界
- 五月沪上电竞烽烟起,三大巅峰赛事决战英雄亚冠ACL荣耀之巅
- 街霸6加入英雄亚冠联赛ACL:重燃格斗之魂,冠亚军直通EWC!
- |暗区突围端游今日正式上线与世界冠军一起刺激枪战!
- 2-1淘汰DRG挺进四强康康经典冥驹前压锁定胜局,EDG
- 开场即ACE!Rarga引爆全场,XLG击败WOL晋级决赛