嘉賓?| 魏博鍇
出品 | CSDN云原生
2022年7月28日,中國信通院、騰訊云、FinOps產業標準工作組聯合發起的《原動力x云原生正發聲 降本增效大講堂》系列直播活動第4講如期舉行,中國信通院云大所云計算部云原生研究員魏博鍇解讀了云原生混部標準。本文整理自魏博鍇的分享。
(資料圖)
云資源利用率持續偏低,成本問題迫在眉睫
國內公有云服務商統計數據顯示,公有云環境里虛擬機平均資源利用率僅為12%,部分私有云環境里這個數字甚至不足10%。Flexera《2021云狀態報告》數據顯示,企業上云后的平均資源浪費率在30%左右。
降本增效,在離線混部成為有效路徑
傳統的在線交易類任務與離線數據分析類任務,都部署在獨立基礎設施之上。如果資源利用率持續低迷,我們自然而然會嘗試將資源共享。
將在線業務和離線任務混合部署到相同物理資源上,通過資源隔離、資源調度等方式 , 在充分使用資源的同時保證服務穩定運行,我們稱這樣的技術為“混部”。
在離線混部的目的在于降本增效,降本是指提升資源利用率,增效指的是保障服務運行質量。
從資源占用的角度,在離線混部可以有效提升資源利用率,實現降本增效。
在離線混部模型,理想很豐滿,現實很骨感
混部的實現需要以底層基礎設施與上層業務應用之間的打通為前提,這個過程會帶來大量復雜的問題:
業務部門、技術部門差異化的需求和供給導致資源冗余;
各種不同類型、不同特點的系統差異化,導致系統復雜性;
行業監管要求高,在離線系統運行合規難;
配套制度不完善,團隊協作和溝通難度大;
資源配置不精準、資源擴容滯后性、資源分配不合理;
業務應用與虛擬機、物理機的“強綁定”關系,導致資源利用率受到系統活躍度的影響大幅降低。
云原生技術逐步成熟,助力混部發展
面對在離線混部部署的“現實骨感”,我們嘗試用云原生的方法來解決混部帶來的問題。
CNCF云原生定義:有利于各組織在公有云、私有云和混合云等新型動態環境中,構建和運行可彈性擴展的應用,代表技術包括容器、服務網格、微服務、不可變基礎設施、聲明式API等。
資源靈活配置助力混部發展
從架構角度看,基于虛擬機、物理機的傳統技術架構下,業務應用與基礎環境“強綁定”,資源借用只能通過騰挪機器的方式實現,很難做到混部場景下的資源彈性共享,同時IT成本并未顯著降低。
隨著云原生技術的實現,云原生混部可以幫助企業實現更加靈活的彈性資源供給、智能的自動化流量調控。企業可以針對具有業務優先級、資源優先級、明顯峰谷特性的業務,進行混部。
資源占用剖析和利用率提升
在對云原生混部標準的能力要求進行抽象之前,我們嘗試對資源占用情況以及利用率提升的手段進行剖析。
業務——已申請但未使用的量。當業務部門作為需求部門時,為了保證應用能夠正常穩定地運行,往往會在提需求階段要求技術部門冗余一定的資源。在降本的過程中,可以對該部分的使用量進行縮減。在云原生領域,可以基于容器實現精細化資源管理。
系統——已分配但未使用的量。傳統的基于虛擬機所分配的資源只能給系統使用,不夠靈活的情況下,無法對該部分資源進行共享。而使用基于容器的Request和Limit可以對資源用量進行有效判斷與管控。
應用——峰谷效應的空閑量。應用在資源使用的波谷階段會產生大量資源空閑量,此時可以對該部分資源進行填充,通過橫向、縱向擴縮容,實現資源彈性供給及服務編排調度。
混部關鍵技術
從三種資源占用的角度出發,我們對云原生混部在不同方面所需具備的相關技術方案進行了歸納總結:
基礎設施:優先搶占、負載感知、干擾識別以及QoS保障等;
平臺混部:精細化資源編排、智能化資源超賣、服務化任務感知以及定制化沖突處理等;
業務應用:Spark、Flink、Hadoop、AI Jobs等。
在對混部的整體架構以及開源、商業的不同解決方案進行研究和歸納后,《云原生混部技術能力要求》標準能力框架被梳理形成,如下圖所示。
中國信通院自2016年開始云原生領域的技術研究工作,目前已形成覆蓋容器、微服務、Serverless的完整云原生評估體系,完成20+行標的立項、編寫工作。依托標準可為用戶提供圍繞云原生的預評估、能力建設規劃、建設監理、價值挖掘和聯合研究等全鏈條咨詢服務。
接下來,我們會圍繞產業側的實踐及行業側的經驗對云原生混部技術的標準進行更新迭代,計劃于8月啟動首批評測。在研究方面,我們會啟動云原生混部技術行業應用實踐,對云原生混部的已有成效進行指南編寫。
【原動力×云原生正發聲降本增效大講堂】第一期聚焦在優秀實踐方法論、資源與彈性、架構設計;第二期聚焦全場景在離線混部、K8s GPU資源效率提升、K8s資源拓撲感知調度主題,點擊『此處』進入活動專題,帶你體驗云原生降本增效實踐案例、了解如何解決企業用云痛點、掌握降本增效關鍵技能……
關鍵詞: