語雀公布10月23日故障原因 同時(shí)為所有個(gè)人用戶贈(zèng)送半年會(huì)員 – 藍(lán)點(diǎn)網(wǎng)
前天語雀發(fā)生重大故障導(dǎo)致長(zhǎng)達(dá) 7 個(gè)小時(shí)無法正常訪問,語雀月日原因有個(gè)員藍(lán)對(duì)于一款擁有千萬級(jí)用戶的公布故障產(chǎn)品,發(fā)生如此長(zhǎng)的人用合肥瑤海外圍收費(fèi)如何vx《365-2895》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)故障時(shí)間,著實(shí)讓人有些震驚。戶贈(zèng)
昨天晚上語雀在其公眾號(hào)解釋了故障原因,送半沒想到竟然是點(diǎn)網(wǎng)新的運(yùn)維工具 bug 導(dǎo)致華東地區(qū)的生產(chǎn)服務(wù)器被誤下線;又因?yàn)榇鎯?chǔ)系統(tǒng)使用的機(jī)器類別較老無法直接操作上線,沒辦法語雀只能從備份系統(tǒng)里恢復(fù)存儲(chǔ)數(shù)據(jù),語雀月日原因有個(gè)員藍(lán)這需要大量時(shí)間,公布故障恢復(fù)備份數(shù)據(jù)后又需要進(jìn)行校驗(yàn),人用合肥瑤海外圍收費(fèi)如何vx《365-2895》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)直到晚上 9 點(diǎn)鐘才恢復(fù)正常。戶贈(zèng)
這次故障也讓大家知道了語雀使用的送半容災(zāi)架構(gòu)是同 Region 多副本容災(zāi)而不是異地容災(zāi)方案,語雀稱后續(xù)將升級(jí)為兩地三中心的點(diǎn)網(wǎng)高可用能力,設(shè)計(jì)足夠的語雀月日原因有個(gè)員藍(lán)數(shù)據(jù)和系統(tǒng)冗余實(shí)現(xiàn)快速恢復(fù)并進(jìn)行定期的容災(zāi)應(yīng)急演練。

補(bǔ)償問題:
對(duì)于語雀?jìng)€(gè)人版用戶全部贈(zèng)送半年會(huì)員,公布故障操作流程:進(jìn)入工作臺(tái)賬戶設(shè)置、人用點(diǎn)擊會(huì)員信息、在會(huì)員信息里點(diǎn)擊立即領(lǐng)取即可獲得贈(zèng)送服務(wù)。
針對(duì)語雀空間用戶由于情況比較復(fù)雜,語雀會(huì)單獨(dú)制定賠償方案,請(qǐng)空間管理員留意語雀站內(nèi)信。
當(dāng)然語雀的這次問題也再次為個(gè)人和企業(yè)用戶敲響警鐘,那就是要保證數(shù)據(jù)離線可用,不知道這次過后有多少用戶會(huì)離開語雀。
下面是語雀公布的故障說明:
10 月 23 日下午,服務(wù)語雀的數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)在進(jìn)行升級(jí)操作時(shí),由于新的運(yùn)維升級(jí)工具 bug,導(dǎo)致華東地區(qū)生產(chǎn)環(huán)境存儲(chǔ)服務(wù)器被誤下線。受其影響,語雀數(shù)據(jù)服務(wù)發(fā)生嚴(yán)重故障,造成大面積的服務(wù)中斷。為了盡快恢復(fù)服務(wù),我們和數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)全力進(jìn)行數(shù)據(jù)恢復(fù)工作,但受限于恢復(fù)方案、數(shù)據(jù)量級(jí)等因素,整體用時(shí)較長(zhǎng)。具體過程如下:
14:07 數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)收到監(jiān)控系統(tǒng)報(bào)警,定位到原因是存儲(chǔ)在升級(jí)中因新的運(yùn)維工具 bug 導(dǎo)致節(jié)點(diǎn)機(jī)器下線;14:15 聯(lián)系硬件團(tuán)隊(duì)嘗試將下線機(jī)器重新上線;15:00 確認(rèn)因存儲(chǔ)系統(tǒng)使用的機(jī)器類別較老,無法直接操作上線,立即調(diào)整恢復(fù)方案為從備份系統(tǒng)中恢復(fù)存儲(chǔ)數(shù)據(jù)。15:10 開始新建存儲(chǔ)系統(tǒng),從備份中開始恢復(fù)數(shù)據(jù),由于語雀數(shù)據(jù)量龐大,此過程歷時(shí)較長(zhǎng),19 點(diǎn)完成數(shù)據(jù)恢復(fù);同時(shí)為保障數(shù)據(jù)完整性,在完成恢復(fù)后,用時(shí) 2 個(gè)小時(shí)進(jìn)行數(shù)據(jù)校驗(yàn);21 點(diǎn)存儲(chǔ)系統(tǒng)通過完整性校驗(yàn),開始和語雀團(tuán)隊(duì)聯(lián)調(diào),最終在 22 點(diǎn)恢復(fù)語雀全部服務(wù)。用戶所有數(shù)據(jù)均未丟失。
改進(jìn)措施:
通過這次故障我們深刻認(rèn)識(shí)到,語雀作為一款服務(wù)千萬級(jí)客戶的文檔產(chǎn)品,應(yīng)該做到更完善的技術(shù)風(fēng)險(xiǎn)保障和高可用架構(gòu)設(shè)計(jì),尤其是面向技術(shù)變更操作的 “可監(jiān)控,可灰度,可回滾” 的系統(tǒng)化建設(shè)和流程審計(jì),從同 Region 多副本容災(zāi)升級(jí)為兩地三中心的高可用能力,設(shè)計(jì)足夠的數(shù)據(jù)和系統(tǒng)冗余實(shí)現(xiàn)快速恢復(fù),并進(jìn)行定期的容災(zāi)應(yīng)急演練。只有這樣,才能提升嚴(yán)重基礎(chǔ)設(shè)施故障時(shí)的恢復(fù)速度,并從根本上避免這類故障再次出現(xiàn)。為此我們制定了如下改進(jìn)措施:
1、升級(jí)硬件版本和機(jī)型,實(shí)現(xiàn)離線后的快速上線。該措施在本次故障修復(fù)中已完成;
2、運(yùn)維團(tuán)隊(duì)加強(qiáng)運(yùn)維工具的質(zhì)量保障與測(cè)試,杜絕此類運(yùn)維 bug 再次發(fā)生;
3、縮小運(yùn)維動(dòng)作灰度范圍,增加灰度時(shí)間,提前發(fā)現(xiàn) bug;
4、從架構(gòu)和高可用層面改進(jìn)服務(wù),為語雀增加存儲(chǔ)系統(tǒng)的異地災(zāi)備。
桑間濮上網(wǎng)



