IT運維 | IT運維下一個趨勢AIOps
2020-06-22 16:47 作者:艾銻無限 瀏覽量:
“工欲善其事,必先利其器”,運維工具是我們實現各種運維操作的有效幫手,它解放了
IT運維人員,讓他們可以更多更好地維護各種IT系統。
IT運維體系的發展當然也離不開運維工具的發展。
手工運維
二十多年前,企業IT信息化剛剛起步,
IT運維基本還處于刀耕火種的時代,沒有所謂運維工具也沒有意識其存在必要性。幾個小姑娘定時在終端上敲些命令,并在紙質的表格上一絲不茍地記錄著讀數,這還是當時比較規范運維做法。原因是當年那個年代需要維護IT系統的量很少,單靠人也看得過來。在IOE架構統治的時代,運維團隊的人工維護還是占絕大部分。當然其中也不乏一些人,開始總結他們的運維操作,將一些常用的操作寫成大量的腳本以便于從事一些機械、重復的事情時候可以“偷個懶”。但是,在這個階段手工運維還是占了絕大部分的工作量。
ITOM
在IOE架構時代的后期以及互聯網架構開始普及,也同時伴隨著企業IT信息化的不斷深入,企業中IT設備量呈現爆發性的增長,單靠人力開始逐漸管不過來。以我們服務過的某運營商客戶為例,最初的業務支撐部門負責維護其核心系統,當時只有區區20來臺主機,幾個數據庫。然而其后數年,維護系統規模上升了十數倍,
IT運維團隊規模只增加了不到一倍。維護規模和運維團隊能力只會形成了事實上的越來越明顯的剪刀差,這成為運維管理中最核心的矛盾。而后到了企業開始嘗試引入互聯網架構,系統的復雜度更是陡然上升、維護目標更是迅速增長,按照傳統的手工或者半自動維護來做,就更是走不通。因此,企業為解決這種問題,嘗試引入各種運維工具通過自動化的手段解決運維人手和能力不足的問題,IT運營管理也就應運而生。IT運營管理(ITOM)是指對IT基礎設施以及軟件應用等對象的運營進行實時監控管理并提供反饋的服務,為監測對象保持最佳運行狀態提供保障。ITOM領域的工具分為三大類別,分別是:
·
監控類:各種提供應用性能監控、基礎軟件服務監控、主機存儲設備、網絡設備等自動化監控和告警的軟件服務,例如,商用軟件中的Tivoli、開源軟件中的Zabbix等為代表。
·
管理類:各種提供
IT運維支撐服務以及配置管理等方式的軟件服務,例如,各種ITSM系統和CMDB軟件系統,例如,HP的OpenView之類。
·
自動化類:各種提供自動化運維手段的工具和軟件,例如,開源的Ansible、Puppet之類。
IT 運維管理(ITOM)將從原有的人工加被動響應,轉變為更高效、更為自動化的運維體系。
AIOps
通過大數據和人工智能技術分析日志和運維數據,發掘更多運維人員尚未覺察的潛在的系統安全和運維問題。
Gartner在2016年發布的報告中首先提出了基于大數據及算法(Algorithmic IT Operations)的
IT運維概念。隨著人工智能的快速興起,Gartner將AIOps的概念從原本的基于數據分析,擴充為基于人工智能,期望通過大數據、現代機器學習及更多高級分析技術,提供具備主動性、人性化及動態可視化的能力,直接或間接地提升目前傳統IT運維(監控、自動化、服務臺)的能力。AIOps真正應用和落地時間還很短,從目前的應用而言主要是在運維數據集中化的基礎上,應用機器學習算法進行各種數據分析和挖掘的工作。主要的應用場景包括:
·
異常告警:根據歷史監控指標數據,運用基于時序的相關算法對監控指標異常分析,并對出現異常的監控指標發出精準告警。
·
告警收斂:根據歷史事件和告警數據,發現這些事件和告警之間的關系,整合頻繁一起出現的事件和告警,并將其認看作同一類故障的告警,從而把多個告警和指標合并,推送給運維人員,做到精細化告警,避免傳統監控工具因一故障而導致的告警風暴,生產告警噪音。
·
故障分析:通過運維數據及事件、告警,結合以前發現問題的經驗知識庫和模型,建立故障樹分析,結合決策樹等相關算法,通過推導路徑使運維人員對于問題的定位更加快速、直觀,使得問題的解決更加容易。
·
趨勢預測:進行歷史數據擬合等算法,進行資源趨勢/容量預測。例如,主機CPU,交換頁不足、內存不足、存儲不足會逐漸導致系統故障或應用故障,該系統建立關聯模型,提醒用戶可能后繼可能發生系統故障或應用故障。在故障產生真正業務影響前,告知運維人員事先解決問題。
·
故障畫像:通過采集多維度運維數據,構建多元結構化底層運維數據模型,配合各類運維場景,并在場景里對故障進行畫像,通過各種故障畫像標準形式來輔助企業進行IT運維 決策和處理過程。
當然,AIOps的應用場景遠不止于此,正是由于這個概念出現的時間比較短,也就有更多的發揮空間容我們去細細發掘。總體而言,從手工運維、ITOM、ITOA、AIOps的發展路徑體現了運維自動化、數據化到智能化這一主要發展趨勢。
以上內容由北京艾銻無限科技發展有限公司整理