最新消息:

标签:故障

记录:bearychat接口故障
SSL

记录:bearychat接口故障

admin 5年前 (2019-03-06) 2540浏览 0评论

故障 公司内部使用 bearychat 沟通, 使用 机器人 直接推送内部一些 通知,告警或者消息之类的.  在 bearychat系统恢复后, 无法收到推送的消息了, 服务器维护预告: 因服务升级需要,倍洽将于 2019-03-05(下周二)01:...

crontab为何自动中断
crontab

crontab为何自动中断

admin 6年前 (2018-09-17) 3512浏览 0评论

在最近开发的一个系统中,有一个定时任务,每天需要将一份数据(大约200w条),发送至一个线上key-value存储系统中。 说到定时任务,最常见的,就是使用crontab。原来这一套系统已经开发完成,部署在深圳IDC,工作良好。最近,需要在天津IDC...

一个双网卡导致的网络故障
route

一个双网卡导致的网络故障

admin 6年前 (2018-03-28) 3240浏览 0评论

内网有个机器有2个网卡,并且是不同的网段和网关。 其中的B服务器有2个网卡。这个时候我们就只有默认网关为10.1.1.1 那查看路由表就是如下 [root@localhost ~]# ip route show table all 10.1.1.0/...

MYSQL数据库中的表损坏的原因分析和修复方法
mysql

MYSQL数据库中的表损坏的原因分析和修复方法

admin 8年前 (2016-08-27) 4284浏览 0评论

一. 表损坏的原因分析 以下原因是导致mysql 表毁坏的常见原因: 服务器突然断电导致数据文件损坏 强制关机,没有先关闭mysql 服务 mysqld 进程在写表时被杀掉 使用myisamchk 的同时,mysqld 也在操作表 磁盘故障 服务器死...

linode的网卡丢失问题解决了
linode

linode的网卡丢失问题解决了

admin 9年前 (2014-12-30) 3236浏览 0评论

这次的惊魂让我提高很多,先说提高,再说故事经过。文章可能有点乱,大家包涵。 1)linode还有一种可以ssh上去的方式 第一步 ssh pennyliang@lish-tokyo.linode.com   然后在提示中输入密码(其中pennylia...

利用kernel dump分析内核故障
debug

利用kernel dump分析内核故障

admin 10年前 (2014-11-14) 7035浏览 0评论

故障描述: 报告某服务器出现故障,测试发现ssh和ping均不通,尝试ILO连接也失败(网页打不开)。 在准备使用ipmitool命令重启服务器时,服务器恢复正常,能够ssh登录。发现服务器前几分钟自动重启了。 为了尽快恢复故障,首先将应用服务启动起...

常用PC服务器阵列卡、硬盘健康监控
lsiutil

常用PC服务器阵列卡、硬盘健康监控

admin 10年前 (2014-11-14) 3720浏览 0评论

通常,我们使用的DELL/HP/IBM三家的机架式PC级服务器阵列卡是从LSI的卡OEM出来的,DELL和IBM两家的阵列卡原生程度较高,没有做太多封装,可以用原厂提供的阵列卡管理工具进行监控;而HP的阵列卡一般都做过封装了,因此需要使用自身特有的管...

Keepalived的健康检查机制
keepalived

Keepalived的健康检查机制

admin 10年前 (2014-09-13) 3137浏览 0评论

如何“估算”RS被踢除的时间? 需要先明确几个概念。 “盲眼时间”,在这一段时间里,RS的健康状况是未知的。 这个时间的大小与健康检查的“间隔”有关。 在一个间隔内的时间点上,RS的健康状态是未知的。 “间隔”,多长时间发生一次健康检查。 “time...

CentOS5安装VNC,vnc viewer 黑屏
centos

CentOS5安装VNC,vnc viewer 黑屏

admin 10年前 (2014-08-10) 5110浏览 0评论

Linux 要使用远程桌面需要安装VNC,好在CentOS5 已经自带了VNC,默认也已经安装了,只要配置一下就可以了(如果没有安装,可以:yum install vnc vncserver安装)。但是Windows客户端还是要安装的。 VNCSer...

云环境下的容灾
OpenStack

云环境下的容灾

admin 10年前 (2014-07-15) 2980浏览 0评论

云环境下的容灾 什么是容灾? 简单的说是对灾难的而应对策略。比如火灾,盗窃,人为损坏,火山,地震,洪水,战争,飓风等自然灾害或者人为灾害。 RTO/RPO RPO(Recovery Point Objective): 指灾难后可能恢复到的时间点。涉及...

使用Monit监控进程与系统状态
Linux

使用Monit监控进程与系统状态

admin 10年前 (2014-04-15) 3361浏览 0评论

背景介绍: 随着线上服务器数量的增加,各种开源软件和工具的广泛使用,一些服务自动停止或无响应的情况时有发生。 而其中有很大一部分都是由于软件自身的稳定性或者机器硬件资源的限制而造成的,按道理来讲,这些情况都应该设法找到本质原因,然后避免再次出现。 但...

UNEXPECTED INCONSISTENCY:run fsck manually
命令

UNEXPECTED INCONSISTENCY:run fsck manually

admin 10年前 (2014-02-07) 3867浏览 0评论

  在开机启动时,提示“unexpected inconsistency;RUN fsck MANUALLY”进不了系统 解决方法: fsck不仅可以对文件系统进行扫描,还能修正文件系统的一些问题,值得注意的是fsck扫描文件系统时一定要在...

Heartbeat+DRBD+MySQL Replication故障处理
mysql

Heartbeat+DRBD+MySQL Replication故障处理

admin 10年前 (2014-01-23) 3696浏览 0评论

不久前的一次机房网络故障,再一次对我们在Heartbeat+DRBD+MySQL数据库架构运维水平的一个考验,之前不止一次的测试与线上部署,还有之后大言不惭的关于该架构组件的所谓深入理解,在这一次不经意的意外面前又是“很囧”的收场,慌张呀!这次断网导...

丢包网络故障
丢包

丢包网络故障

admin 11年前 (2013-09-29) 3265浏览 0评论

某台「Nginx / PHP」服务器时不时出现HTTP请求响应卡住的现象。   开始我怀疑PHP有问题,但是通过查询Nginx的access日志,发现里面记录的PHP响应时间「$upstream_response_time」非常小,此外还通...

Keepalived的健康检查机制
keepalived

Keepalived的健康检查机制

admin 11年前 (2013-08-08) 3560浏览 0评论

如何“估算”RS被踢除的时间? 需要先明确几个概念。 “盲眼时间”,在这一段时间里,RS的健康状况是未知的。 这个时间的大小与健康检查的“间隔”有关。 在一个间隔内的时间点上,RS的健康状态是未知的。 “间隔”,多长时间发生一次健康检查。 “time...