深入的可观察性洞察应用依赖关系并提高性能
案例分享:全球服务公司确保迁移过程中的云集成和人工智能服务
应用程序就像形成星座的星星一样,彼此需要、相互依存。现代化的应用程序是复杂的,通常由多个相互连接的组件组成,每个组件都有自己的依赖项和需求集。在IT服务的迁移过程中,这种依赖性有时可能是服务的最大优点和缺点。随着基于人工智能(AI)的应用程序的兴起,以及它们对复杂基础设施和数据处理能力的需求,这种复杂性正在成为一个相当大的挑战。不映射和监控应用程序的依赖关系会在迁移期间和之后显著降低服务性能。这包括常见类型的依赖,如数据库依赖(应用程序通常依赖于数据库或API等共享数据源,从而在应用程序之间创建依赖关系。这种相互依赖关系可以跨IT环境扩展,包括本地部署和云部署。) ;服务依赖关系,如Web服务器、身份验证和域名系统(DNS)依赖关系;以及新兴的人工智能依赖。
根据Flexera的2024年云状态报告,了解应用程序依赖关系(54%)和评估实施迁移计划的技术可行性(45%)是云计算决策者和执行领导者在迁移过程中最关心的问题。
图:在将工作负载迁移到公有云时,您面临哪些挑战?
一家全球性的服务公司借助NETSCOUT的企业性能管理解决方案所提供的深入的可观察性确保上千种应用程序和人工智能服务顺利迁移到云上,以下是该案例分享。
案例概述
该公司IT团队面临的挑战:
CloudOps、ITOps和AIOps在公有云迁移期间面临着如何保持对于流量和超过1000个应用程序的可见性的挑战。
许多应用程序,包括一些具有人工智能功能的应用程序,都没有分类,这使得它们很难被理解依赖关系和管理,导致无法确保其使用性能
nGeniusONE企业性能管理平台
vSTREAM虚拟探针
数千个应用程序(包括基于云的人工智能应用程序)被分类和标记,服务器被成功迁移
通过理解依赖关系并实现有效管理依赖关系的策略,确保顺利成功地迁移到云
提高了贯穿云环境的流量以及物理和虚拟服务器的可观察性
该客户是一家全球性服务公司,并且是NETSCOUT的长期客户。该公司为数百万商业和住宅用户提供数千种最先进的安全解决方案和智能系统,并在40多个国家设有办事处,对于先进技术喜欢进行尝试,并注入其产品线,以增强其产品竞争力是这家全球服务公司不断成长的动力,他们也是人工智能(AI)等先进技术的早期采用者。经过多年的实践,这家全球性服务公司也确信收入增长源于其产品先进能力的不断增强,并确保可靠的正常运行时间。事实上,公司的IT高管经常向IT团队强调,关键应用的失败或性能下降会严重影响他们的服务,并使公司面临监管和媒体的审查,从而导致损失掉多年来积累的市场信誉。
挑战
该公司在向公有云的迁移过程中,ITOps、AIOps和CloudOps团队逐渐意识到,他们并没有足够的可观察性来监测不断增长的流量,无法深入了解大量云端服务器、数千个应用程序、虚拟桌面等向云的迁移后的效能。有些一些应用程序是定制的,并且在向云迁移之前已经在VMware中本地运行;其它一些程序原先是一体化的,向云迁移过程种,会被转换为微服务或在容器化环境中运行。许多新服务都使用了先进的机器学习(ML)和人工智能流程。这些服务要么正在开发中,要么在严格管理的开发环境中得到进一步增强。由于新连接的设备和智能系统在云中的流量显著增加,公司IT团队严重低估了持续监控应用程序性能问题所需的可观察性的要求,他们意识到他们缺乏足够的工具,并且无法通过可靠的取证数据实时了解新出现的服务中断和服务性能下降,从而排除服务故障,这也正是该公司最担心的问题类型。
人工智能应用程序和算法可以创建独特的依赖关系,通常依赖于特定的数据集、库或框架。例如,机器学习模型可能需要特定的数据集进行训练,或者需要特定的库进行推理。管理这些依赖关系对于确保AI应用程序及其用于建模的工具顺利迁移到云端至关重要。
管理AI依赖关系的一个重要考虑因素是数据集成。人工智能应用通常需要访问大型且不断发展的数据集,这些数据集被集成到环境中,以确保人工智能系统的性能和准确性。组织应确保存在数据管道,以便使用专用网络连接或VPN将数据从本地系统传输到云或其他本地域,并确保必要的数据处理和存储资源可用,并且人工智能工作负载可以有效扩展。
“意识到这些可观察性问题是在我们不知情、不知道如何快速解决的情况下发生的,这真的是一场系统管理噩梦!” ——ITOps领导人
他们需要迅速找出方法应对挑战:
有效监控进出服务器的流量,以确定与预期行为(流量基线)的偏差,并解决延迟、服务器性能、利用率和其它可能影响用户体验的关键指标等问题
识别和监控1000多个从内部部署环境迁移到云环境的应用程序的性能,按规模对应用程序进行分类,并评估它们的相互依赖性
获得对虚拟环境的可观察性,包括使用虚拟私有云(VPN)的Kubernetes集群,用于开发中的人工智能和AIOps项目
提高对南北和东西向的网络流量的路径和互连(包括对等连接)的洞察力,以确保运营数据信息有效地指派到适当的IT人员进行故障排除。总之,IT团队希望复制并增强其在云中的可观察性,就像他们在数据中心中做的一样。
解决方案
该公司的IT团队在其本地数据中心环境中一直依赖nGeniusONE,这是NETSCOUT的nGenius企业性能管理解决方案的核心组件。他们虽然知道这个解决方案可以做什么,但他们没有预料到云迁移的速度,也没有理解如何有效地利用可视化数据源,以快速确定对性能和服务正常运行时间的影响。幸运的是,他们及时得到了NETSCOUT技术专家的帮助。除此以外,NETSCOUT技术专家也询问云流量内容,以确定性能和未分类的应用程序。借助NETSCOUT的方案提供的可见性,IT团队实现了:
彻底盘点和映射应用程序,以确定关键任务并评估其依赖关系
实现分阶段的迁移方法,从不太关键的应用程序开始,然后再转移到更复杂的应用程序
利用监控和可见性,来识别迁移过程中出现的性能问题,覆盖盲点,并帮助提高IT团队对消费模式、应用程序利用率和整体用户体验的理解,从而快速排除故障(例如停机时间、缓慢响应或功能降级)。
结果
在NETSCOUT技术专家支持下,IT团队恢复并显著增强了对于云迁移中应用的可观察性,帮助IT团队在充满挑战的云迁移过程中重新获得信心和控制权。
NETSCOUT的nGeniusONE和vSTREAM通过监控1000多个应用程序的依赖关系、性能异常、延迟、服务器性能和利用率问题,展示了它们的价值,并确保了云迁移过程中和云运营的连续性。了解网络流量模式对于ITOps、AIOps和CloudOps团队从规划资源需求到改进网络管理和基于人工智能的服务(如带宽升级或额外的网络基础设施)至关重要。这些信息通过基于网络的行为和历史数据做出明智的决策,进一步加强了人工智能行动计划,这会在未来带来更高效、更积极的网络管理和更多基于人工智能的服务。负责服务优化的跨职能迁移团队通过nGeniusONE的实时监控和分析,确保了其人工智能计划的无缝集成和性能保障。
邮箱 y.k@whpermanent.com
电话 027-87569272
地址 湖北省武汉市洪山区文化大道555号融创智谷A10-5
关注恒景
获取最新案例及解决方案
Copyright 2021 武汉恒景 All Rights Reserved. 鄂ICP备09021583号-1