2411月
惊魂一小时
11点出头,收到报警,服务器宕机了。
宕机的是我们的一台OpenVZ的服务器,在过去的6个月里,连重启都没有过,再稳定不过了。这次宕机让我措手不及,众所周知我们的OpenVZ是严格控制的,绝对没有超售,负载常年1左右徘徊,内存使用也不到50%,这样好的一个环境,宕机真是不应该。
火速SSH,超时,重启,等了5分钟,竟然还是连不上。感觉有点悲剧了~
此时客户的提问已经开始,VPS客户对Uptime的敏感度相当高,宕机10分钟后就已经有4-5位用户和我们联系,我一边配合客服安抚客户情绪,一遍把应急流程在心里过了一遍。
能试的方法都试了,果断决定打电话给机房。
5分钟后,机房把服务器下架检测。我纠结的一小时开始了。
怕什么?怕硬盘坏。那么多数据,要是丢了,可是大麻烦。好在我们有异地备份,只意味着我今天一整天都要趴着远程恢复数据,不过总比丢失了要好。
真难熬,到12点出头,机房终于通知了,硬盘没坏,是服务器整体挂了,火速换上备用机,接上旧硬盘,启动一切正常,VPS排队开机,一切正常……
考虑到挂服务器才宕机1个小时,希望大家理解,很高兴我们的客户情绪都很稳定,我也很稳定…
12点44分,我去吃午饭,你们继续玩VPS…
明天两周年,真是好事多磨啊~
感谢H2的快速响应,这次宕机作为客户的我根本就没有发现。。。。
再次感谢
没事就好,平安是福
数据没丢失就好,比较关心周年活动啊,什么时候开始呢?
admin 回复:
11月 24th, 2010 at 19:38
本周四~
支持!!!
顶一下,支持