设为首页收藏本站

Panabit Support Board!

 找回密码
 注册

QQ登录

只需一步,快速开始

    Panabit-SMB专版, 中小企业上网行为管理网关,正式发布!了解详情请点击这里。
搜索
热搜: 活动 交友 discuz
查看: 2270|回复: 1

看见,世界──数据中心出口带宽分析与可视化

[复制链接]
发表于 2016-12-22 15:57:17 | 显示全部楼层 |阅读模式
本帖最后由 Panabit-lage 于 2016-12-22 15:57 编辑

数据中心和云已经是大众耳熟能详的东西,但是下面这几件事,却未必有多少人知晓:
你家的宽带有可能来自数据中心而非运营商;
网络攻击最令人胆寒的大杀器是数据中心养鸡场;
数据中心虚拟机的安全等级可能还不如你家里上网的PC。
有人的地方就有江湖,数据中心也概莫能外,这些问题的背后,是各种利益的博弈。今天,我们就来扒一扒隐藏在数据中心靓丽外表下的暗流。
揭秘这事,要靠数据说话,本文所有数据皆来自于北京派网软件有限公司(Panabit)设备在多个数据中心的实际监测结果,如欲了解更多隐藏在互联网流量中的秘密,请关注微信公众号:Panabit。

云中乱象
与混乱不堪的驻地网环境相比,数据中心网络通常被认为是一片净土。这多半要归功于数据中心的建设和运营通常由同一个组织完成并形成单独的管理域,用户对计算、存储、带宽资源的使用行为要比自购设备接入驻地网的个人或企业用户更有规律性,并时刻受到数据中心的监控,因而网络边界相对清晰,与外部网络的关系也相对可控,不必受累于驻地网鱼龙混杂、山头林立、多方博弈的复杂性。但是作为在深度包检测(DPI)这个行当摸爬滚打十余年的老兵,我们多年来对数据中心出口流量监测的经验却无法支撑这么乐观的结论。DPI的拿手好戏是透过现象(IP)看本质(应用),同样大小的数据流,即使IP头信息完全一致,在我们看来,也会因为应用层协议的差异而截然不同。互联网首先是应用和服务驱动的网络,IP层流量的变化只是林林总总的用户、应用、服务之间互动的一种表现形式,当然,各种恶意、非法的用户和行为,也会掺杂其中,兴风作浪。有些看似波涛汹涌的流量,其实可能无伤大雅;有些看似不起眼的涓涓细流却会暗藏玄机,甚至汇聚成规模巨大的DDoS攻击流。所谓于无声处听惊雷!尽管整个数据中心用户的资源使用情况是严格受控的,但是他们用这些资源干了什么,却未必那么受关注。
作为一项仍然处在上升期的朝阳产业,扩张才是王道,因而数据中心领域最受关注的技术点集中于与数据中心建设和运维密切相关的虚拟化技术、软件定义网络技术、系统可靠性甚至节能等领域,而针对数据中心网络流量成分以及应用层行为的深度分析却鲜有人问津,对于那些不守规矩的用户或刻意逃避监管的非法攻击者来说,数据中心无疑为他们提供了一片难得的“庇护所”和“温床”。近年来,数据中心网络因为莫名其妙的吞吐抖动、业务中断、虚拟机频繁被黑甚至因主动发起攻击而受到主管部门警告的异常情况不断发生,而数据中心的运维和管理部门却常常无从下手进行定位排查。随着各类业务和服务“云化”步伐的不断加快,数据中心也将由功能单一的资源池演化为与网络同等重要的基础设施,整个互联网生态链将在数据中心环境中进行重构,其中当然也包括无处不在的“暗黑”力量。
看见世界01.jpg

恐惧源于无知,无知因为漠视
一切恐惧的根源在于无知,网络安全巨头RSA正在倡导一个新口号"See everything, fear nothing",这在今天的数据中心有着最完美的诠释。相较于密如蛛网盘根错节的互联网AS级拓扑而言,数据中心与互联网骨干之间的接口关系要简单的多,这些网络出口上流淌的数据流就如同人体的脉象一般,隐藏着数据中心与外部世界之间错综复杂的关联关系。对这些出口流量进行深度分析和挖掘,将有助于我们尽快了解这个看似熟悉实则陌生的生态系统,加强监管和防护,免于恐惧之苦。
然而在现实当中,监管和防护都严重缺位。通过使用Panabit设备对多个数据中心出口流量进行DPI分析,我们发现数据中心流量的复杂性和无序性已经几乎可以与驻地网相提并论,但是却鲜有人对此进行深入全面的剖析,更不用说提出针对性的解决方案了。这其中的根本原因,一方面是数据中心潜藏的问题尚未进入大规模爆发期,大部分数据中心运营者将其视为无关大局的零星偶发异常事件,远未认识到问题的复杂性和严峻性,另一方面是由于运营商缺乏足够的动力去投资和加强数据中心流量的分析和监管。漠视与无知交相辉映、恶性循环。下面,我们就用真实的数据解开数据中心出口流量的面纱,让大家看一看,恐惧其实已经站在我们身边。

虚拟化是把双刃剑
虚拟化技术对数据中心的重要性不言而喻,然而,也正是虚拟化为各种恶意和非法的网络行为打开了方便之门。虚拟化带来的好处,当然是使应用部署变得简单,用户能够获得极大的自由度,通过各种手段上传各类应用到云端。但另外一方面,由于数据中心内部缺乏完善的管控手段,这些部署行为往往不受安全设备监管,虚拟机的种类也千奇百怪。各种网络应用的服务端、客户端甚至攻击源都散布其中,可谓玲琅满目。相比之下,一直被视为盗匪猖獗之地的驻地网,却由于奇虎360为代表的互联网厂商所倡导的的桌面安全免费运动实现了安全防护技术的高覆盖,使近年来驻地网发生的规模性的攻击和被攻击事件数量呈现出逐步下降趋势。而与此形成鲜明反差的,是数据中心内虚拟机的安全性普遍被用户忽视,甚至为了追求便利性而有意牺牲安全性。云端部署较为普遍的Unix/Linux操作系统缺乏完善的安全技术支持,病毒检出率低、病毒库和IDP攻击签名更新不及时,在病毒查杀、入侵防护等方面与Windows等驻地网常见操作系统有较大差距,使合法用户难以获得高级别安全保证,而恶意和非法用户却更容易规避检查和监控。可以说现在云端虚拟机的行为已经完全驻地网化,再也不是那个纯洁简单的“乖乖女”了。
看见世界02.jpg
上图是由Panabit设备监控到的某个大型数据中心的连接趋势图,这种看似怪异的形态在数据中心的出口十分常见,可以用“流量复杂,攻击显著”来描述。图中各类流量曲线均衡、平滑的部分通常代表正常的网络行为。其中httpgroup代表数据中心常用服务,例如,网页浏览、视频、音乐和页面游戏等,这些服务所对应的流量本该是数据中心出口流量的主成分,但在上面这张图中,左右流量变化的却是general和other类型,点开这些类别的流量结构表,不难发现它们包含了DNS和SYN类型的网络攻击。换句话说,大量本不应该出现在数据中心出口的流量不仅出现了,而且成为决定数据中心出口流量形态的决定性因素。经过我们最近对大量数据中心出口流量的分析和总结发现,GRE、DNS攻击、SYN攻击、单边流量和大量莫名其妙的驻地网才应该有的软件应用(比如:QQ、游戏、微信、视频客户端等)构成了数据中心最核心的异常流量。难道虚拟机们也修炼成精,开始QQ聊天、刷微信朋友圈了?这些妖魔邪祟是从哪里冒出来的?

既是标靶,也是巨炮
数据中心部署应用所产生和保存的数据往往具有很高的敏感性以及商业价值,因而数据中心一直以来都是网络攻击的重灾区,各种部署其中的云端应用已经成为黑客最为青睐的攻击目标,攻击方式囊括了大家耳熟能详的DDoS攻击、远程溢出、拖库、撞库等手段。但是另一方面,愈来愈多的攻击流也来自于数据中心,甚至出现了数据中心一边被大规模攻击同时又向外输出巨量攻击流的奇观。其中的原因来自两个方面:
第一,数据中心薄弱的监管和防护导致虚拟机很容易被虏获为“木马”和“肉鸡”;
第二,数据中心有着驻地网无可比拟的计算资源和带宽资源,可谓鸡强马壮,以前需要通过各种辛苦制毒、传播、渗透和遴选才能掌控和调度的肉鸡资源,现在只要点点鼠标,付出有限的资金成本购买一些虚拟机并上传加密的攻击程序,就可以轻易获取大量带宽和计算资源优良的肉鸡。对有商业目的的黑客来说,何乐而不为?
看见世界03.jpg
上面这张图是Panabit设备检测到的一个DNS攻击肉鸡与数据中心外部地址的连接信息(这种肉鸡很常见,把某些数据中心称为养鸡场毫不为过),显然这台主机正在响应远端控制节点通过WWW发来的调度指令,对一个DNS服务器发起超过十几万条并发session的攻击。像这种攻击强度,基本上可以瘫痪大部分的企业级DNS服务器,让一个企业网络失去服务响应能力。这种烈度的攻击如果和其他蠕虫并发,只需要纠结数十个攻击源,就可轻松瘫痪一个中型运营商网络。单纯观察这台主机从数据中心输出的流量,只有区区不到2M,如果不细致分析这个虚拟机的网络行为,完全没有机会觉察到它的存在。这种不起眼的资源消耗型节点只要有几十个,就足以令数据中心出口的防火墙、IDP等安全设备全部因为session耗尽而失去响应能力,而输出的流量却仍是涓涓细流而已。
看见世界04.jpg
相较于对驻地网的严格监管,运营商对于数据中心往往采取宽松的政策,很少做到严格的源地址校验以及攻击流量过滤,这样做无非是担心安全措施影响到数据中心内部各类云应用的顺畅运行。安全和便利从来不可兼得,在数据中心之间商业竞争日趋激烈的今天,舍安全而取便利几乎是云服务商的不二选择。由于云服务商往往采用睁一只眼闭一只眼的松散管理模式,再加上虚拟机部署的便利性,各类攻击工具的安装就可以轻松绕过安全检查。而攻击者为了获得更加隐蔽的攻击效果,逃避安全设备对攻击数据的检查,也会不断改进云端的蠕虫程序以及工作模式,从简单粗暴的动辄上万条攻击session演变为和正常节点数量相当的session数目,泯然众人,变得更加不易觉察。正是这些内外因素的共同作用,使数据中心奇怪地将“最强大的破坏者”与“最悲情的受害者”这两种互相矛盾的角色集于一身。

利益驱使下的带宽滥用
数据中心网络出口的驻地网化,虚拟化只是推手之一,由利益引发的数据中心带宽滥用是另外一个重要因素。众所周知,中国的带宽市场长期存在两个截然不同却又并行不悖的价格体系:驻地网带宽价格体系和数据中心带宽价格体系,两者之间的差价可达两倍以上。价格双轨制的存在创造出一个巨大的套利空间,最常见的获利手段就是将数据中心流量转接到驻地网出售以谋取暴利。流量倒卖产生的直接影响就是将普通用户流量引入到了本该清净的数据中心,埋下各种隐患。其实,只要关注一下数据中心流量中高得不正常的虚拟身份登录频次以及输入流量就可以轻松定位此类异常行为。
看见世界05.jpg
上图是Panabit设备对一台虚拟机应用层流量的分析,如此多样的流量成分,以前仅见于实体机构成的驻地网,如此众多的用户虚拟身份,并且带有移动终端才会产生的流量,谁还能相信它是一台数据中心的虚拟机?流量成分异常的背后必然是带宽转售行为,而购买者往往是驻地网宽带运营商或者一些大型行业客户。
看见世界06.jpg
由于数据中心部署的多为服务器端,因此正常的流量模型应该是输出流量远远大于输入流量,而驻地网络中以用户端设备为主,流量模型恰好相反(如下图所示)。但是在上面这张某数据中心虚拟机输入输出流量监测表中,居然有只有2台虚拟机的输出流量大于输入流量!而且相当接近!儿戏否?就凭这一点,就应该对涉及到的IP逐个进行重点检查,其中必有蹊跷。
看见世界07.jpg
驻地网运营商一个常见的问题是上行受到大型基础运营商的限制,ADSL和xPon类型的线路较为典型。然而,随着互联网应用的发展,网盘类应用和一些云端同步类应用对上行带宽的需求不断提高,对大型企业和驻地网运营商造成了巨大的压力。但是电信、联通等基础运营商对驻地网上行带宽的限制非常严格,通过正常商业途径解决的代价异常高昂。为了突破基础运营商限制,将流量NAT后转到数据中心上行是常见的应对手段之一。具体操作的方法,是由网关将内网产生的数据进行地址转换之后,不走正常的路由上行,而是用一条其他的链路转发给数据中心,通过数据中心的出口把上行流量发送出去,而下行响应则仍然使用原有链路。由于数据中心流量以输出为主,所以运营商一般不会对上行进行限制,因而留下可乘之机。这种在驻地网和数据中心之间存在的大量单向流量,只要长期观察数据中心的session,也非常容易定位。
对数据中心流量滥用的另一种形态,是利用两个安装了VPN程序的虚拟机,搭建两个数据中心的GRE链路来充当长途传输,或者是非对称上行数据的入口。这种滥用主要体现在大量的非正常VPN流量上。对于实时性要求不高的长途传输而言,这种虚拟链路的成本要远低于租用中信、揽信等公司动辄每月数万元的骨干传输光纤,又能避开市内传输复杂的协调工作,还顺便拥有了数据中心级别的可靠性,因而成为很多低价场合的最爱。
看见世界08.jpg
上面这张图中的第一行就是一个利用GRE链路进行大规模数据传输的案例,借助于Panabit强大的分析能力,要识别这些带宽转售所引起的异常流量在技术上几乎没有什么难度,问题还是出在监管缺位以及利益驱动上。但是,由于太多利益纠缠其中,这些问题只能点到为止,这个,你懂的。

工欲善其事,必先利其器
普通的网络安全设备对于解决上述问题无能为力,云端流量深度分析以及可视化才是定位和破解各类难题的不二法门。一个云端流量分析与可视化系统的能力和有效性,可以从三个维度来衡量:
● 广度:在已知流量模型下,有多少百分比的流量是可以被辨识、分类和控制,95%以上的识别率是基础能力指标。今天的互联网是一个最多变的世界,实时跟踪互联网应用的变化并非在实验室靠人力堆砌可以达成,需要厂商有广泛的互联网视角和数据收集能力。投标吹牛易,实施兑现难。
● 深度:互联网流量被映射到日志的详细程度,是DPI设备观察互联网深度的最好体现。分析的粒度只有细致到每个IP每时每刻的每个session才是实现流量分析和可视化的基本前提,如果连这个都做不到,最好还是洗洗睡吧。
● 速度:数据中心出口流量巨大,经常达到Tbit级别,实现全面的流量分析和可视化对于DPI设备的处理能力、日志存取能力以及大数据分析能力无疑都是一个巨大的挑战。
仅以一条10Gbps的物理链路为例,一天就会产生多达300GByte的全量行为、事件和用户日志,如何在广度、深度和速度三个维度上取得平衡,达到可视化的最佳配比,是摆在所有研究者面前的挑战。
那么,问题来了,DPI技术哪家强?
这个问题,还是留给用户去评说吧。

结语
Amit Yoran在今年RSA大会的黑灯演讲可谓精彩,他为我们描述了未知的恐惧,昭示了全面可视化的重要性。除去大家广泛认知的企业网和驻地网可视化,我们希望在数据中心领域也能抛砖引玉,引起大家对数据中心出口流量可视化的重视。
看见世界09.jpg
人们身处黑暗之中都会产生恐惧,因为当看不清周围的环境,却能听到声响或人影晃动时,人们将无法判断其中是否潜在着一些危险,这就像今天信息安全产业所面临的一个状态。我们需要一张新的“地图”。这张“地图”一方面不依赖于预先保护机制;一方面强调普遍的可视性;一方面可以很好地进行身份认证和识别,掌握来自外部的威胁情报;一方面又能基于业务的重要级别,进行安全资源的优化部署。                                                     ——   AmitYoran


来吧,和我们一起“看见,世界”!





发表于 2017-3-13 11:35:50 | 显示全部楼层
你这些的有问题吧? 数据中心的流量应该是input》output啊
您需要登录后才可以回帖 登录 | 注册

本版积分规则


QQ|小黑屋|手机版|Archiver|北京派网软件有限公司 ( ICP备案序号:京ICP备14008283号  

GMT+8, 2017-11-18 07:04 , Processed in 0.290998 second(s), 24 queries .

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表