交通银行周彦倜:从高效运维到智慧运“赢”——探索交通银行数据中心跨时代奋进之路

来源 | 中国金融电脑
作者 | 交通银行数据中心总经理 周彦倜

勠力同心,砥砺奋进,转型发展,有你有我。交通银行IT运维在“两化一行”战略指引下,加快建设智慧化转型工程,以“科技赋能”为交通银行业务发展和深化改革添油加力。

为适应全行信息化发展需要,进一步发挥信息技术在经营管理中的作用,构建和完善全行统一的信息技术体系,2001-2006年,交通银行集中建设数据大集中工程,全面实现科技管理从分散粗放向集约化、专业化转型。作为大集中工程的重要组成和支撑,交通银行数据中心于2005年下半年启动筹备,2006年7月正式挂牌成立,承担全行生产系统的运行管理任务。至此,交通银行形成了由信息技术管理部、软件开发中心和数据中心组成的“一部两中心”IT治理架构。

数据中心成立十余年来,伴随着交通银行IT板块的发展始终保持高速发展,同时不断完善优化组织架构,助力金融科技转型发展。2020年上半年交通银行金科板块职能优化为“两部三中心一研究院”。当前数据中心组织架构为总经理下设8个二级部门,分别为系统部、网络部、设备部、运行部、应用维护部、生产调度部、安全部、综合管理部;人员规模从2006年初创时的40人逐步扩充至近300人,平均年龄为33岁,党员和硕士以上学历占比约为45%和40%。

当前,数据中心是全行信息系统运营维护和生产管理的主体责任部门,根据集团业务发展和金融科技发展规划,承担全行信息系统的基础环境建设、生产管理和日常运行维护工作,保障系统安全稳定运行。数据中心主要职责包括基础设施与机房环境构建、全行信息系统运行、全行生产管理、新技术研究和人才队伍建设等九个方面。

交通银行数据中心面向交银集团,提供7×24小时365天不间断“日不落”生产运行服务,是国内首家实现境内外一体化运营管理的数据中心,业务范围覆盖境内外所有分行及网点,及集团内卡中心、交银国信、交银国际、交银租赁、大邑村镇银行等子公司。近年来,交通银行制定了“两化一行”发展战略,即“走综合化、国际化道路,建最佳财富管理银行”。随着“两化一行”战略的持续推进,交通银行国际化业务得到了大力发展,截至2019年底,我行已经有海外分支机构20余家,跨越20个时区以上,对数据中心的全球运维服务能力提出了更高的要求和挑战。

两地三中心灾备体系建设方面,2006年建成张江生产主中心,并提供本地的高可用性;2007年建设漕河泾中心,作为同城副中心和双活中心,兼顾生产和灾备的功能;2008年建设武汉异地灾备中心,兼顾分布式云计算服务和影像存储等功能,2019年异地运维团队正式启用。未来随着上海浦江新同城中心、合肥金融服务中心机房投入使用,逐步形成“三地多中心”一体化运维体系。

应急管理体系建设方面,2013年以来围绕ITILv3最新服务生命周期管理理念和中心自身生产运维需求,建立并完善全周期闭环管理的应急管理体系,覆盖事前(监控、容量、持续性)、事中(事件、应急)和事后(问题、变更)各流程。秉持“黄金十分钟”快速响应处置理念,中心梳理绘制应急处置思维导图,设计开发可视化应急场景,细化制定应急处置评价体系,有效提升事件应急处置各阶段过程控制能力,建设完善配套大数据智能监控、可视化运维、自动化操作、即时通讯平台,强化应急演练,不断提升应急处置效率。

通过两地三中心灾备体系建设和数据中心应急管理体系建设,交通银行生产运行水平持续提升,保持较高水平。2011-2017年我行的银联卡交易系统成功率连续7年稳居前三(2018年后银联取消排名)。2006-2019年,数据中心生产系统可用率连续14年高于当年行内生产运行目标值,近年保持在99.99%以上。

围绕国内一流数据中心的建设目标,通过15年的管理实践和循环改进,数据中心将自身核心职责归纳简化为通过持续推动IT运维“六化”管理(如图1所示),保障生产稳定运行,提升交通银行IT服务和信息安全管理水平。“六化”即“管理流程化、体系化和一体化,技术标准化、自动化和智能化”。通过持续推进IT运维“六化”管理,进一步保障生产安全稳定运行,提升我行IT服务和信息安全管理水平。推进“六化”管理,核心理念是建设具备自我管理和提升能力的新型数据中心,以相对较低的投入产出比,完成保障生产稳定运行的目标。IT运行不出少出问题、不发生重大信息安全事件,是对全行业务发展最基础和最重要的贡献。

交通银行周彦倜:从高效运维到智慧运“赢”——探索交通银行数据中心跨时代奋进之路

数据中心成立以来,始终秉承“科技领先,以人为本,稳健运行,服务集团”的宗旨,坚持管理和技术创新引领中心发展。2006年至今,在IT服务管理体系建设、灾备体系建设、信息安全技防体系建设方面取得一系列成果,在国内同业中保持领先。IT服务管理方面,2007年11月中心以零缺陷的优秀成绩通过ISO 20000 IT服务管理标准认证,成为国内同业中首家获得认证的数据中心。2008年11月成功通过ISO27001信息安全认证,成为同业首家获得双证的单位。灾备体系建设方面,2008年7月,在国内大型商业银行中首次实现同城灾备切换运行和回切。2009年8月,通过10个月的自主技术攻关,在国际上首次实现70公里距离的大型机系统同城双活运行。2011年11月,基于同城双活架构的分钟级灾备切换运行。信息安全技防体系方面,根据ISO 27001标准构建了覆盖全生命周期(事前主动防护、事中实时监控、事后合规审计、分析)、多层次(物理、网络、系统、应用、数据、人员)的立体防护体系,有效应对各种安全威胁,防范信息安全风险。2018年以来重点完成安全运营中心(SOC)项目建设,全力打造领先的信息安全平台,达到安全可知、可感、可控,筑牢集团智慧转型保护屏障。

数据中心的管理和技术实践,在交通银行一系列重大工程、重大建设中发挥了稳健的技术支撑作用,有力保障了数据大集中工程、531新一代信息系统建设工程、新531智慧转型工程投产上线,圆满完成奥运会、世博会、进博会的保障工作。同时,先后获得人民银行“银行科技发展奖”近20次(一等奖4次)、银保监会科技风险管理研究成果6次(一类成果1次),申请“远距离大机系统同城双活运行”等国内外专利十余项。2017年数据中心获上海市五四青年奖章集体。

心有所信,方能行远。回顾中心发展历程,基层党组织建设和人才队伍建设始终是贯穿其中的两条主线。数据中心坚持以党建为引领,以习近平新时代中国特色社会主义思想武装全体党员和青年员工。针对金融科技部门员工平均年龄低,思路活跃新颖,兴趣面广,创新能力强,偏技术化,执行力强,关注细节等特质,因势利导、因材施教,持续引导中心员工学理论、学技术,敢于思考、勇于创新,以党建引领科技创新,以科技创新服务全行。

在近年实践探索中,交通银行数据中心逐步走出一条人才培养的新路,即以党员业务骨干为核心,以优秀青年员工为主体,建立跨二级部的课题攻坚组和重点项目组,专注于前沿技术探索实践和解决制约交通银行IT发展的热难点问题。以分布式云计算(IaaS)项目为例,从2017年起,数据中心开创性地在以二级部为边界的技术条线和管理条线之外,引入了跨二级部的、以党员业务骨干为核心组成的课题组和项目组条线。一期项目从各二级部抽调了一批青年骨干员工,党员比例超过80%。事实证明,这批党员业务骨干“聚似一团火,散是漫天星”。在项目组里,能齐心协力,顾全大局,全力推动项目建设;回到各自二级部门,能妥善做好知识普及和问题协调工作,真正地将“党员发挥先锋模范作用”落到了实处,顺利推动分布式云计算(IaaS)平台于2019年全面投入生产。分布式云计算(IaaS)项目的成功完成,极大提振了交通银行全面上云、数字化智能化转型的信心。

2018年以来,数据中心在安全运营平台、运维大数据、安可信创等重点项目建设时,包括今年疫情防控保障期间,都采用了同样的方式,建立了以党员骨干和优秀青年员工为核心的小组或者先锋队,与部门同事紧密配合,充分发挥支部战斗堡垒作用和党员先锋模范作用,发扬干事创业精神,不断强化担当作为,克服时间紧任务重的困难,高质量地完成预定的工作目标。在这样的平台之上,青年骨干员工攻坚克难、经受锻炼、担当作为,得到了切实的锻炼和提高。

雄州雾列,俊采星驰。青年人才的培养,关键在土壤、在舞台。中心充分关注年轻员工群体的核心诉求,尽全力创造一切条件,引导中心青年爱党、爱国、爱岗、敬业,在工作实践中不断丰富提升自己。

风雨兼程中,交通银行数据中心已经走过15个年头,而今又面临崭新的时代机遇。随着大数据、云计算、区块链、人工智能等金融科技的兴起,在为金融服务带来重大机遇的同时也为IT系统运维带来巨大挑战:一是随着银行业务的快速发展和分布式架构的广泛应用,数据中心的IT系统规模日趋庞大而复杂;二是银行业务从线下向线上转型,业务快速投产和各种线上营销活动对系统的稳定运行带来了严峻挑战;三是互联网自媒体的普及和监管要求的不断提高,对IT应急处理能力提出更高的要求。

在上述挑战面前,我们传统的运维体系显得“力不从心”。2016年以来,交通银行数据中心抓住大数据处理、机器学习、云计算等技术快速发展的时代浪潮,集中推进智能运维(AIOPS)项目集群建设,采用新的技术手段,对监控信息、日志等运维大数据进行深度分析和有效处理,初步建立了更为强大的智能运维体系,使生产运维从自动化、标准化走向智能化、可视化,从高效运维走向智慧运营。

智能运维建设方面,一是建立基于Hadoop/Spark架构的海量运维大数据平台,覆盖各类监控信息和日志信息,每日处理数据量达5~10TB,数据处理时间达到秒级以下;二是建立智能预警分析系统(如图2所示),采用概率神经网络、方差分析、时间系列分析等机器学习算法,实现生产异常事件的智能预警、智能定位和根因分析;三是探索推进生产问题智能处理,建立生产运行知识图谱,在安全可控前提下实现故障自动恢复等。

交通银行周彦倜:从高效运维到智慧运“赢”——探索交通银行数据中心跨时代奋进之路

智能运维使数据中心运维工作从被动运维变为主动运维,从规范化走向智能化,从高效运维迈向智慧运“赢”。一方面极大提高了生产系统稳定性和IT应急处置能力,进一步提升我行IT运维管理水平;另一方面在提升运维数据治理能力和降低人力成本方面仍有广阔前景和提升空间。

踏平坎坷成大道,斗罢艰险又出发。2018年经行党委审议通过,交通银行新一代同城数据中心建设正式启动。园区选址闵行区浦江镇,拟建设总面积9.8万平方米。以建设绿色、智慧的数据中心为总体目标,按照模块化、可灵活扩展、分期投入使用的原则,一是要立足交通银行智慧转型工程,满足20~30年使用需求;二是要全面拥抱绿色节能、分布式架构、人工智能、大数据、生物识别、物联网等前瞻性技术,面向未来;三是要充分总结自身经验和借鉴同业经验,解决现有中心运行使用中存在的痛点,积极与同业交流吸取数据中心建设的经验教训。新一代数据中心规划建设如图3所示。

交通银行周彦倜:从高效运维到智慧运“赢”——探索交通银行数据中心跨时代奋进之路

勠力同心,砥砺奋进,转型发展,有你有我。交通银行IT运维在“两化一行”战略指引下,加快建设智慧化转型工程,以“科技赋能”为交通银行业务发展和深化改革添油加力。

版权声明及安全提醒:本文转自网络平台,文章仅代表作者观点,不代表「金融文库」立场。相关版权归原作者所有,「金融文库」仅提供免费交流与学习,相关内容与材料请勿用于商业。我们感谢每一位原创作者的辛苦付出与创作,如本转载内容涉及版权及侵权问题,请及时联系我们客服处理(微信号:JRwenku8),谢谢!

(2)
上一篇 2020年11月10日 下午10:34
下一篇 2020年11月10日 下午10:42

相关推荐