现代企业为了增强核心业务的竞争力,投入大量资金开发自己的核心应用系统。随着核心应用系统的深入使用,IT投入将转换成持续的商业价值,与此同时企业的IT运营管理人员的地位也得到不断的提升。
作为IT系统的使用者——企业的知识型员工、供应商、分销商、逐级代理商和最终用户的IT应用水平普遍较低。面对系统运行中断或者异常,抱怨、投诉将接踵而来。而由于IT技术的日新月异,网络环境异构,应用系统日益复杂,维护管理人员人手紧张等问题直接造成IT运营管理人员工作负荷和工作压力提高。每一次系统异常中断将带来灾难性的影响。
| 行业 |
停机一小时损失 |
Telephone Ticket Sales |
$69,900 |
Airline Reservation Centres |
$89,500 |
Retail Catalog Sales Centres |
$90,000 |
Infomercial 800-Number |
$199,500 |
Credit Card Sales Authorization |
$2.6 M |
Retail Brokerage Firm |
$6.5 M |
NYSE |
$3.2 M/Minute |
Datasource Gartner Group, Inc
Gartner Group指出,IT系统杰出运行的定义是一年内99.5%的时间应用服务可用或者是一年43小时内的非计划应用中断和50小时内计划应用中断。如何才能在当前日益复杂的IT环境下保证核心应用系统达到杰出运行目标是每个IT运营管理人员思考的问题。
为了减少停机时间,在发生问题后能够迅速定位和解决问题,在此向广大IT运营管理人员介绍一种“KPI-to-Flow-to-Packet”(简称KFP)分析方法——即把网络的全部可见度融入到可实时操作并且是智能生成的上层KPI(关键性能指标)视图中,并且提供能够向下关联到数据包层的早期预警,从而使得IT部门能够降低平均恢复时间。
KFP简单来说就是从KPI关键性能指标(比如应用响应时间或者错误),到应用数据流(比如利用率、会话、使用者排名),再到数据包解码细节(如果需要),逐步向下追踪分析。传统的网管平台监控一些单纯的技术指标,CPU利用率,内存利用率,带宽利用率等等。逻辑上割裂并且不够精确的数据往往让IT运营管理人员一头雾水。对于KFP来说,我们首先定义的是最直观的关键性能指标。
在企业网络环境中,KPI可以定义为类似如下指标:
- “每个应用运行的速度有多快?”
- “响应时间是可以接受的吗?”
- “应用或者网络区域是否存在任何错误?”
- “响应成功率是多少?”
- “语音质量是否可以接受?”
几乎典型企业的任何应用,使用专用设备都能将响应时间分析提取KPI得到微秒级的应用响应速度值。为了帮助分析应用是否令人满意,KPI提供可根据实际用户满意度更改的配置,分别用红色、绿色、黄色色块表示应用的可用性和用户可接受的响应时间。
当KPI数据发生异动时,我们需要进一步观察问题出现在哪一个环节。在企业网络环境中,Flow可以定义为类似如下指标:
- “哪种资源正在被利用?”
- “每种应用消耗的网络带宽有多少?”
- “谁正在使用这种应用?”
- “网络中各种应用之间是如何相互影响的?”
一个企业中可能会使用多种网络链路类型,我们需要为此建立一个一致的flow监视模型,例如:
- 楼宇局域网,例如10Gigabit以太网,千兆以太网;
- 远程办公室广域网链路,例如T3/E3 ATM,OC-3或者OC-12 POS;
- 包括PPP、MPLS以及帧中继在内的不同网络拓扑;
- 虚链路,包括VLAN、DLCIs、Sites或者QoS分类;
当KPI值发生异动后,通过统一的FLOW模型观察到某条特定的线路,我们需要进一步分析来展示远程办公室、数据中心、服务器群的各种网络接口到底是如何被某种应用占用的,以及占用了多少。这就需要对网络中传输的每一个数据包进行分析。这为IT部门提供了他们需要的信息,可以用来区分类似SAP、HTTP、Citrix、LDAP以及CRM应用各消耗了多少带宽,链路带宽是否足够用。举个例子来说,为公司的财务和生产部门开发的一个昂贵的新Oracle财务报告应用系统,需要追踪并且在关键网络区域进行数据流细节分析,从而检验这个系统在性能、流量大小以及响应性这几方面的效果。更进一步,数据流细节可以显示出每个应用的利用率,同时也显示出他们的行为以及可能相互影响的流量。例如,基于flow的分析可以帮助IT人员判断VoIP流量是否正在影响新的Oracle应用,或者相反。
通过KFP模型,IT运营管理人员在日常管理中首先面对的是最高级的关键指标,只有在异常出现时才需要去关心一些进一步信息。这就与传统的依靠监控单纯技术指标的,从SNMP中获取信息的管理方法产生了本质区别。此外自顶向下精确到每一个数据包的分析方法,也有助于在最短时间内定位分析和解决问题。
下一期文章我们将介绍在财富500强客户中使用KFP的最佳实践,如何帮助IT运营管理人员日常监控、快速定位和解决问题。
|