前不久,国际数据公司 IDC 发布了《中国公有云服务市场(2023 上半年)跟踪》报告。该报告显示,2023 年上半年中国公有云服务整体市场规模(IaaS/PaaS/SaaS)为 190.1 亿美元。其中,IaaS(基础设施即服务)市场规模为 112.9 亿美元,同比增速 13.2%;PaaS(平台即服务)市场规模为 32.9 亿美元,同比增速为 26.3%。
伴随着 AIGC 技术的崛起,云计算市场增长迅速。但另一方面我们也不得不注意到,最近半年来互联网基础设施宕机事件频发,服务器这个曾经被我们视为坚不可摧的巨人,如今却倒在了自己的重量之下。它的宕机,像一座大山瞬间崩塌,带来的震动与影响远远超出了人们的想象。
当宕机事件发生,我们就犹如被困在了一座孤岛上,只能眼睁睁地看着外面的世界在不断运转,这些曾经熟悉的工具都变得遥不可及,也给客户带来了无尽的失望和不满。
最后,我们开始反思这一切的根源。是什么导致了这场技术灾难?是技术不够先进,还是管理存在问题?是对风险的评估有误,还是对备份方案的准备不足?
本文总结了近半年来的云宕机事故,以期能沉淀出更加清醒的认知,降低类似事件发生的频率。
宕机事件频发,云基础设施靠不住了?
腾讯视频 App“崩了”,回应称出现短暂技术问题
12 月 3 日晚,腾讯视频出现网络故障,有网友反馈出现首页无法加载内容、VIP 用户看不了会员视频等情况。稍晚些时候,@腾讯视频就“App 崩了”发布致歉声明:
尊敬的用户:目前腾讯视频出现了短暂技术问题,我们正在加紧修复,各项功能在逐步恢复中。感谢您的耐心等待,由此给您带来的不便我们深感歉意。
除了腾讯视频,近期遭遇宕机事件的还有滴滴、语雀、Boss、钉钉、淘宝、闲鱼盘等多个 App。
阿里云一个月内崩完了再崩
11 月 27 日,阿里云服务器遭遇了近两小时的中断,影响到中国和美国的客户,这是该业务一个月内第二次宕机。
随后,11 月 28 日,阿里云在网站上发布的声明中表示,北京时间 2023 年 11 月 27 日 09 时 16 分起,阿里云监控检测到资料库产品的控制台和 OpenAPI 访问异常,称问题已于当天 10 点 58 分解决。
受到此次事件影响的主要是北京、上海、杭州、深圳、青岛、香港以及美东、美西等多个地区的数据库产品,包括 PostgreSQL、Redis 和 MySQL 等。
而类似的事故,在双十一刚过的第二天,也就是 11 月 12 日刚刚发生过。
11 月 12 日,阿里云发生了宕机,旗下的钉钉、淘宝、闲鱼等产品皆受到了不同程度的影响,此次事故还影响到了使用阿里云的一些企业级客户,受影响地区从东亚和东南亚,覆盖到了中东和北美。经过数小时的修复后,服务恢复正常。
有人猜测,阿里云 11 月 27 日的宕机甚至可能造成了滴滴出行 App 崩了一夜,但业内人士认为这种情况概率比较低。
滴滴崩了一夜
11 月 27 日深夜,上海、北京、广州等多地滴滴用户反馈,滴滴出行 App 无法使用,显示网络异常,地图无法加载,用户无法使用定位功能且无法打车。
“滴滴崩了”的话题也登上微博热搜。热搜话题下不少用户发帖表达自己在使用滴滴 App 过程中遇到的“离谱”问题。
有用户反馈虽然打到了车,但同时来了好几辆车,有的用户遇到来了三辆、有用户遇到来了四辆车,无法取消,无法联系客服。
从各平台上的反馈来看,此次滴滴平台在接单、定位、计费等环节上都出现了问题。
有网约车司机表示,昨晚 App 崩溃时刚好在接单,“从晚上 10 点 20 分开始什么都做不了,客服电话也进不了线。目前恢复了少部分功能,但不能正常使用,很多错单乱单,还出现了多位司机接同一单的现象。”
27 日深夜,滴滴出行对滴滴 App 服务出现异常进行了回复,滴滴出行称:非常抱歉,由于系统故障,今天晚间滴滴 App 服务出现异常,技术目前正陆续恢复中。由此给广大用户和司机师傅们造成不便,再次向大家致歉。
经过一夜维修,滴滴在 28 日早上 7:31 分做出回应称“滴滴网约车等服务已恢复”。
语雀突发 P0 级事故,宕机 8 小时
10 月 23 日 14 时左右,在程序员节的前一天,蚂蚁集团旗下的在线文档编辑与协同工具语雀发生服务器故障,在线文档和官网目前均无法打开。当日 15 时,语雀发布官方声明称,“目前因网络故障,出现无法访问的情况。此故障不会影响用户在语雀存储的数据,不会引起数据丢失,我们正在紧急恢复中,再次抱歉给你带来的损失。”
随后,“语雀崩了”登上话题热搜,有网友表示自己的公司项目文档都在语雀上,文档打不开严重影响工作进度;有网友将自己整理的面试题放在了语雀上,宕机时正好赶上电话面试,想查答案都无从下手;也有网友对语雀的运维提出质疑,认为“长时间的故障明显是存储出现了问题,用户数据可能丢失了,在紧急恢复”。
从故障发生到完全恢复正常,语雀整个宕机时间将近 8 小时,如此长时间的宕机已经达到了 P0 级事故,并在网络上引发巨大讨论。
肯德基 App 崩了,13 元买五人餐
11 月 14 日,“肯德基 App 崩了”冲上微博热搜第一。有网友爆料称,肯德基 App 崩溃期间,还出现了大 Bug,14.9 元 +139 元的套餐同时加入购物车,领取“-10 的优惠券”,再把那个双人餐退掉,就可以 13 元买五人餐。
当日晚些时候,肯德基官方客服表示,刚才系统确实崩溃了,但目前已经修复完成,用户可以重新登录使用。
9 月 15 日,据媒体报道,在线招聘 App BOSS 直聘崩了。当天 11 时前后,许多用户涌入“BOSS 直聘”官微的最新博文中留言,抱怨无法刷新页面,发信息也发不出去,给客服反馈也没有任何回应。
有网友透露,这已经是 BOSS 直聘今年第三次出现网络崩溃。随后网络上流传一张截图显示:9 月 15 日 10 点 15 分 26 秒,在线统计超过 4700 万人在刷 BOSS 直聘,导致服务器超荷载,正努力维护中。随后 BOSS 直聘官博辟谣,称服务器崩了是真的,网传数据是假的,BOSS 直聘月活为 4360 万人。
不仅是国内,国外的互联网大厂内也频频出现宕机事件,ChatGPT 多次出现了服务器崩溃。
源自:北京InfoQ官方账号 2023-12-06
编辑|冬梅、邓邓、Tina
版权声明:图文仅供公益学习交流用,版权归原著所有