风云资讯

当前位置: 首页 >> 资讯 >> 金三角经济特区

健康云崩溃(腾讯云披露4月8日服务故障原因)

2024年07月04日 风云资讯

腾讯云披露4月8日服务故障原因:云API异常持续近87分钟

4 月 14 日消息,腾讯云官方微信官方账号今天发布,披露 4 月 8 大规模日常服务故障的原因和细节。

官方表示,经过故障定位,发现客户无法登录控制台是云 API 由异常引起。云 API 是云上统一的开放接口集合,客户可以通过 API 云控制台通过组合云资源,通过编程方式对云资源进行管理和控制 API 提供交互式网页功能。

故障发生后,依赖云 API 因此,一些提供产品能力的公共云服务不能使用,包括云函数、文本识别、微服务平台、音频内容安全、验证码等。故障已经持续了近一段时间 87 分钟,期间共有 1957 个人客户报障。

腾讯云表示,如果将云服务与“酒店”进行比较,控制台相当于“前台”,是一个统一的服务入口。“酒店前台的故障将导致不可用的管理能力,如入住和更新,但入住的客房不受影响。”客户在此故障中配置了服务器等 IaaS 资源,包括已部署运营的业务,不受云影响 API 异常影响。

官方披露了故障的根本原因和改进措施如下:

综合库存故障最根本的原因是在版本变更过程中,沙箱验证和计划演练没有得到有效的实施,暴露了变更管理的不足。下一步,我们将从以下几个方面快速改进和改进,以减少故障的影响范围和时间。

一是提高系统韧性

1、定期执行预定的变更策略模拟演练,确保在真实故障发生时,能够快速切换到恢复模式,最小化服务中断时间。

2、通过分层架构、代码审查和监控,优化服务部署架构, 避免 API 潜在的服务循环依赖问题。

3、提供 API 服务逃生通道,当故障发生时,调用方可以快速切换。

二是加强变更管理和保护措施

1、完善自动化试验用例库,在系统变更前通过沙箱环境严格验证变更内容。

2、实施灰度发布策略,逐步推进新功能或配置变更,按集群、可用区、区域逐步生效,发现问题时快速回滚。

3、引入异常自动熔断机制,当检测到系统异常时,可立即中断变化过程。

三是提高故障响应和沟通能力

1、全面升级故障处理过程,确保故障处理进度和预期恢复时间点的实时更新,提高故障报告的发布效率。

2、在对外发布的故障通知中,明确了受影响的业务范围、故障原因和预期修复时间,以保持透明度。

3、优化腾讯云健康状态(StatusPage)信息显示逻辑,解除云 API 通过引入缓存和容灾机制,依赖云服务,确保即使云服务出现故障,故障信息也能准确及时地传递。

4 月 8 每日报道,腾讯云当天下午出现服务故障,界面响应错误,内部服务错误,网页显示 504 错误。腾讯云官方微博下也有网友反馈服务故障,IP 来自全国许多地方。

美国看病服务公司排行榜

去美国看病的中介排名大揭秘

安德森医院中介电话

  • 友情链接