故障及现场描述
服务器OOM,强制重启,可以短暂解决问题,ps -ef
查看有上千个进程,大部分都是crond、sendmail、postdrop
。故障原因为大量上述进程导致系统OOM
故障原因
crond
在执行脚本时会将脚本输出信息以邮件的形式发送给系统用户,所以必然要调用sendmail
,而sendmail
又会调用postdrop
发送邮件,但是如果系统的postfix
服务没有正常运行,那么邮件就会发送不成功,造成sendmail、postdrop、crond
进程就无法正常退出,形成大量的僵尸进程。
解决办法
先把僵尸进程都干掉,让内存降下来。
1 | # ps -ef | egrep "sendmail|postdrop" | grep -v grep |xargs kill |
其实我一开始将postfix服务重启了一下,问题就解决了,观察了一段时间,僵尸进程并没有再次出现。
永久解决方案
为防以后postfix
挂了再出现类似问题,可以进行如下配置,将crond
的邮件通知关闭:
将/etc/crontab
和/etc/cron.d/0hourly
里的MAILTO=root
修改为MAILTO=""
crontab -e
第一行增加一段MAILTO=""