当前位置: 首页 > 新闻动态 > 分会动态

优秀应用案例之某大型保险企业数据中心智能运维服务-神州数码信息服务股份有限公司

作者:ITSS秘书处

发布时间:2022-07-05 12:49:00


一、案例背景

1.1 实施背景

某大型保险企业是—家专业、稳健、创新以健康保障为专长的公司,为企业和个人提供涵盖保险保障、健康管理、财富规划等产品及服务

该企业坚持稳健经营,专业专注,以客户为中心,在每—个业务领域都追求卓越,业绩显著 同时,基于对客户需求的深入了解及 整合优质医疗资源的强大基因,提供全面的健康管理与保障服务,在业内优势显著;而通过科技创新,让客户可以感受到以科技为驱动的人性化服

为提升该大型保险企业数据中心智能运维能力,神州信息与该企业 起探索适合的数据中心智能运维合作模式,为该企业提供优质数据中心运维服务,助力企业数字化转型

1.2 实施目标

本项目以“安全、稳定、高效、智能”为目标,神忭信息通过提供专业综合的运维服务保证某大型保险企业数据中心智能运维服务项目中各项工作正常、有序的进行通过科学规范的项目管理,合理使用资金,合理利用人力资源、专业技术、成熟经验、成熟产品等完成各项运行维护工作,优化某大型保险企业数据中心运维模式,提高运维管理整体水平,降低运维风险和成本,进—步提升某大型保险企业数据中心运维服务项目运维工作成对该企业数据中心的服务器、存储设备、网络设备,平台架构(基础设施、宿主机、存储及虚拟化平台)、操作系统(托管服务器、虚拟服务器)和数据库、中间件提供高质量的运维、技术支持服务,确保业务系统的稳定运行,满足业务发展要求,以提升服务整体质量及满意度为目标进行数据中心 运维服务及管建立完善的IT运维服务体系 ,保证某大型保险企业数据中心SLA的达成,助力企业数字化转型

二、应用过程

本项目实现了神州信息云泰智能运维化服务方案的落地,应用过程和实施过程中,主要参考ITSS标准应用,包括《信息技术服务 运行维护 第1部分:通用要求》(GB/T28827.1- 2012)、《信息技术服务 运行维护 第部分:交付规范》( GB/T 28827.2- 2012 )、《信息技术服务 运行维护 第部分:应急响应规范 》(GB/T 28827.3-2012)、《信息技术服务 运行维护服务能力成熟度模型 (ITSS.12015)、《信息技术服务  运行维 4部分:数据中心服务要求》(GB/T28827.4- 2019)、《信息技术服务 运行维护 第6部分:应用系统服务要求》(GB/T28827.6- 2019 ), 以及《信技术服务 数据中心服务能力成熟度模型(GB/T331362016)

2.1 实施方案

神州信息云泰智能运维服务方案总体框架如下,包括以下内容:


图 1 :神州信息云泰智能运维服务框架

2.1.2 运维全生命周期服务

包括运维规划咨询服务、运维工具部署实施服务、数据中心运维运营服务、IS020000标准认证咨询服务、ITSS 运行维护服务能力成熟度符合性评估咨询服务 、信息安全管理IS027001标准认证咨询服务、业务连续性认证咨询服务、ITSS 数据中心服务能力成熟度模型评估服务 

2.1.2 智能运维服务9大功能

神州云泰智能运维服务包括9大服务功能,包 括全链路监控(含APM NPM、云原生监控、IT基础监控、动环监控、智能告警IT 服务管理(ITSM, 含服务请求管理、事件管理、间题管理、变更管理、服务级别管理等CMDB 配置管理数据库、管理驾驶舱、运维门户、移动运维、自动化运维、数字化运营等

2.1.3 运维服务内容

神州信息负责客户异地灾备数据中心的运维服务,包括深圳主数据中心及上海灾备数据中心,涵盖数据中心基础设施、服务器、小型机、虚拟化、网络、存储、数据库 、中间件、容灾、安全等技术领域

· 网络层:网络链路、网络流量检测、链路负载、网络二层打通 (OTV大二层等

· 应用层:应用软件HA支持、负载均衡支持 ( GTMLTM )

· 数据层:并行数据库方式

· 存储资源层:NAS双活、存储双活、SAN级联

· 灾备演练 :灾备方案、灾备演练、一键切换、模拟演练等

 

2: 某大型保险企业异地灾备数据中心架构

2.1 实施过程

2.2.1 实现7*24全链路监控和智能告警

参考《信息技术服务 运行维护 第1部分:通用要求》(GB/T 28827.1-2012),神州 信息提供 7*24小时监控通知服务方案,根据设计的流程及时处理、上报监控发现的预警和故障告警,确保监控告警通知无遗漏包括制定监控服务相关流程、规范、操作手册;监控系统日常配置;7*24小时监控值守;针对监控发出报警的判断及升级;针对监控报警做预处理;为其他相关流程提供监控数据;定期发布监控报告;根据客户业务变化提供监控指标、报警策略、报告内容等调整建议

全链路监控包括以下:能够监控服务器、存储、网络等基础架构硬件设备;操作系统、数据库中间件、应用系统等软件产品;并实现对云 资源的监控、网络性能的监控 ,逐步开展应用性能监控 并能设定预警阀值,通过邮件、短信、电话等方式进行预警

2.2.2 建立现场和 DOC 数字运营中心结合的运维服务模式

神州信息参考《信息技术服务 运行维护 第1部分:通用要求》(GB/ T 28827.1-2012)、《信息技术服务 运行维护第2部分:交付规范》(GB/ T28827.2-2012),为某大 型保险企业提供 7*24现场值守服务同时采用神州信息DOC数字运营中心的运维服务模式,建立现场+远程的一线二线、三线运维支持体系

神州信息DCO数字运营中心部署在北京上海、西安三个地点神州信息二线技术支持服务,负责技术问题的最终解决提供二线技术支持和咨询服务,分析运维事件发生原因,提供技术解决方案,并协助现场服务人员及时解决二线和三线专家具有 10 年以上相关工作经验,具有系统设计及较强的分析和解决问题的能力,具有丰富故障排查和解决经验, 通主流数据库、虚拟化、存储、网络、备份、服务器 、安全等各类 IT 硬件设备的部署和维护并全部具有 HCIEH3CTECCIEMCSERHCEVCAPOCM 等相关证书

2.2.3 日常运维服务保障

神州信息参考《信息技术服务 运行维护 第1部分:通用要求》(GB/ T28827.1-2012)、《信息技术服务 运行维护第 2 部分:交付规范》(GB/ T 28827.2- 2012), 建立如下的日常运维服务保障机制 :

·巡检

神州信息团队为某大型保险企业深圳数据中心和上海数据中心设备 进行日常巡检,每天巡检 4 次,并提交巡检记录 每季度进行—次深度巡检,并提供巡检报告

·日常操作

日常操作的常 规作业包括设备/系统日常维护作业;设备健康检查、运行状态分析、性能分析;系统数据备份,网络配置文件备份;数据恢复测试;事件、故障、变更处理,日常服务请求处理、定期重启、系统功能双机切换等测试等活动,以保证IT系统的稳定运行

2.2.4 建立 ITSM IT 服务管理体系,部署 CM DB 配置管理数据库

采用神州信息自研 ServiceJet ITSM, 参考《信息技术服务 运行维护 第1部分:通用要求》(GB/T28827.1- 2012 ),在某大型保险企业数据中心运维中实 现 IT 服务流 程的管理,包括服务台、服务请求管理、间题管理、变更管理、发布管理、SLA  管理、知识管理等多个模块并采 Sm@rtCMDB工具,实现配置自发现,可进行多维 度的用户管理发、测试、运维支持项目管理,可匹配关联项目和业务支持应用管理,可对指定人员 授权访问对应的代码地址、目录、集群等支持主机管理,包含云主机、物理机、虚拟机等支持可视化的主机状态查询 ,包括但不限千软件、资源和其他设备的关联情况等 支持网络设备和 IP 管理 CMDB 为某大型保险企业提供一个统—、一致的流程来管理IT生产环境中的所有组成部份,以确保所有配置项(配置项)能够被识别和记录,配置项当前和历史状态得到汇报,维护配置项记录的完整性,提高IT环境的稳定性,确保IT资产的有效控制和管理


3 : 神州信息 IT 服务管理参考框架

2.2.5 自研新技术新工具实现自动化运维

在数据中心实际运维中,神州信息参考《信息技术服务运行维护第1部分:通用要求》(GB/T 28827.1-2012) ,部署自动化运维工具 、脚本、开源代码,通过自动化运维提供日常运维效率,降低人工操作误差率,并提升运维效能 自动化运维服务内容包括:

· 日常运维:日常报批年终结算、例行操作任务、长假开关机、IT资源操作变更、文件分发传输、配置备份、故障处理、配置自动发现

·业务操作:文件完备性检查、清算数据准备、业务清算操作、清算后检查、数据报送、清算数据备份转储、清算过程通知

·自动巡检:基础设施巡检、后台应用巡检、端到端可用性检查、应用日志巡检、监管合规性检查、自定义巡检

·资源提供:虚拟机创建/回收、虚拟机启停管理、虚拟机资源配置变更、中间件环境安装变更、数据库环境安装变更

·应用部署:介质管理、应用部署、补丁安装、部署组件库、数据库操作、发布检查、版本基线管理

·应急切换:灾备/应急切换、切换过程跟踪、环境—致性检查、预案流程管理、演练汇报展现

2.2.6 建立应急管理体系

神州信息参考《信息技术服务 运行维护 第3部分:应急响应规范》(GB/T28827.3-2012),与某 大型保险企业—起建立应急管理体系,通过应急管理机制,确保在故障、突发灾难事件发生时快速恢复业务运行,IT系统运营保障针对重要基础设施 制定应急方案每季度进行一次演习神州信息会开展服务连续性管理工作,确保满足某大型保险企业相关应用系统业务连续性目标要求制定服务中断的应急预案,定期(每季度)开展应急演练

·管理方面

规定计划作业时间窗口建立有效的服务资源 调度机制及与业务相关方的协同机制特殊时间段(如法定节假日或重大事件等),提升响应级充分利用神州信息已有的知识库 ,减少故障梳理以及恢复时间,同时降低业务对某个人的依赖程度

·技术方面

提前做好风险评估和应急方案配置必要的备品备件以及必要的MA服务以提供及时的服务保障

 

2.2.7 完善信息安全管理机制

神州信息参考《信息技术服务 运行维护 第1部分:通用要求》(GB/T28827.1-2012) , 遵循某大型保险的信息 安全管理规定和规范,确保不发生安全事件保证系统及设备配置符合某大型保险企业安全基线要求

 遵循某大型保险企业系统账号密码管理 制度和规范对设备、系统的安全管理,确保不发生安全事 件制定安全基线


4: 神州信息信息安全管理框架

神州信息实现IT系统的安全运行从管理和技术两个方面入手:

·管理方面

建立适当的信息安全管理机制,以规范数据中心运行维护服务人员的信息安全行为

对数据中心运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查 、签订安全保密协议等

对数据中心运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保服务人员了解并遵守数据中心安全、保密相关

建立有效的安全通报机制,以及时通报安全事件相关情况和相应防范处理措施等

·技术方面

采用工具定期对网络、服务器、数据库等的安全扫描以及加固对相关设备、应用的密码进行规范 以及定期更改,等等

2.2.8 服务持续优化与改进

深圳IDC及上海IDC基础架构环境,神州信息团队参考《信息技术服务 运行维护 第1部分:通用要求》(GB/T 28827.1-2012),从IDC机房建设至运营,过程中参考 POCA   服务管理理念,—直致力于持续性的问题分析与改进,累计完成包括接入层、汇聚层的各领域技术架构整改,包括:老旧设备替换、单节点冗余改造、网络出口冗余改造、备份网络优化改造、全网流量监测、流量走向优化等数十项基础架构运维优化,为某大型保险企业的基础架构提供更稳定的运维环境

三、应用效果

神州信息是推动金融数字化转型的排头兵,也是ITSS的重要参与者和推广者,由其主导 推进的信息技术服务(ITSS) 标准中运维部分的多项国家标准,解决了我国IT服务行业“无标可依"的发展窘境同时,实现清晰的服务定价、可衡量的服务质量和考核标准

作为中国电子工业标准化技术协会信息技术服务分会(ITSS分会副会长单位和国家信息技术标准化技术委员会信息技术服务(ITSS)分技术委员会(TC28/SC40)的副秘书长单位,神州信息是国内首批通过国家运维能力符合性评估的企业,拥有运维成熟度—级符合性证书,不断通过自身服务模式的创新实践,协助ITSS分会建设完善标准体系,积极推广ITSS标准落地示范神州信息已连续三年(2018- 2020)获评ITSS分会的年度优秀会员单位

 截至20218月,神州信息主导参与的IT服务领域已 发布国家标15项,行业标准3项,团体标准1项;主导参与在研国家标准3项,团体标准1项,白皮书1

神州信息在某大型保险企业的应用效果总结如下:

· 全年所有运维的生产系统可用率为 100%服务SLA达成率100%连续多年续签成功 ,与客户共同成长,并成为客户优选的战略合作伙伴

· 完整地建立了 7*24 —线 、二线 、三线 IT 服务管理 模式和现场  远程 DOC 数字运营中心的服务交付模型

· 智能监控工具、自动语音告警、ITSM 服务流 程等智能运维平台 全面提升用户的服务体验,持续保障业务稳定

· 自动化运维提升某大型保险企业IT 运维效率,降低曰常运维时长, 提高运维准确率和效能

·全链路监控以及运维数据中台的建设,实现全域监控、快速告警、 日志统—管理,为下—步Al大数据智能分析、根因分析、智能告警和故障预测奠定了数据、技术和管理基础

·数字化运营提升数据中心运维的数字化水平,助力某大型保险企业数字化转型

 

四、挑战及建议

4.1 服务组织与人员方面

·为某大型保险企业培养输出多层次不同级别人员,形成有效的一线资源轮转模式,降低了人员更替带来的影响

·继续丰富和完善二线、三线专家技术体系通过线+D OC线、三线前后端搭配的形式,提供更强大的技术支撑体系

4.1 服务流程和服务管理体系方面

· 持续对服务流程规范进行质量审 视和优化对于形成的规范进行持续的优化、改进,对于缺失的规范进行补充和完善,形成标准化的项目管理体系和服务管理规范

· 加大持续性流程管理培训针对某大型保险企业的技术、信息安全及各类流程规范要求进行持续性培训及灌输,各类流程体系严格按神州信息 ITSM 系统流程定义执行,做好各流程环节管 控,减少问题、批漏发

· 参照《信息技术服务 运行维护服务能力成熟度模型 (ITSS.1-2015)以及《信息技术服务数据中心服务能力成熟度模型》( GB/T33136- 2016),对某大型保险企业数据中心 运维成熟度进行评估,对比行业标准和标杆 ,找到差距和改进方向

4.2 服务工具方面

·成立自动化运维后端维护小组,专人专岗对某大型保险企业自动 化运维需求进行维护满足平台出现需求 1 天内解决的要求针对自动化运维要求进行深度的合作,开展二期自动化运维需求落地,提高自动化运维程度

· 神州信息监控系统完善NOCBSM功能,启用大屏展示功能不断的进行持续性优化,确保监控系统各项功能稳定运

· 神州信息ITSM系统和 NOC 监控系统对接,实现可视化运维与流程管理系统衔接,实现内外部流程打通,各工作事件的处理状态、时间、过程清晰可见

4.1 运维新技术研究和实践方面

· 扩大实践AIOps 智能运维、大数据智能分析的范围和技术深度 ,在现有数据、应用场景、算力、算法的基础上,探索根因分析、智能告警、故障预测、动态阑值等,进—步提 升数据中心运维智能化水平和深

· 扩大实践自动化运维和 RPA流程机器人自动化的应用场景, 步提升自动化水平,逐渐把数据中心运维重复发生的日常运维操作全部用机器和软件替代人工操作

· 尝试部署数据中心巡检机器人,实现自动化巡检主动巡检、自动告警、机器人资产管理等,提升数据中心基础环境运维的自动化和机器人水平

未来五年,依托公司战略布局,重点关注如下四个领域的标准化工作:IT 服务、信创、金融科技、大数据神州信息将派出领域专家和业务骨干,参与到标准研制、应用与推广工作,与更多权威机构和优秀企业进行分享交流,为推进我国标准化事业跃马扬鞭,贡献—份力量