New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Centos6.6下RegionServer因长时间GC退出 #25
Comments
怀疑挂掉是futex_wait bug 引起的。通过 jstack -F pid,问题仍存在。 在其他机器上发现GC时间较长,CDH上一般伴随着Compaction Queue Size过大,Average time spent in garbage collection was 52.6 second(s) (87.60%) per minute over the previous 5 minute(s)。在hbase log中,日志如下:
根据源码看,这些log均是正常的。 对于cms造成的gc,仍需注意。 |
关于futex_wait bug的问题,受影响的系统如下:
|
当前Hadoop等各服务均正常,只有HBase出现GC duration和The web server of this role is responding with metrics的警告。 而大约一天时间后,出现GC duration的RegionServer会Down掉。 目前yum源中有2个内核版本:2.6.32-504.el6 和 2.6.32-573.26.1.el6。 2.6.32-504.el6应该是centos6.6默认内核版本。当前计划是先升级kernel到2.6.32-573.26.1.el6。 |
Update:centos6.6发现另外一个内核bug(or DELL ACPI的BUG),系统一直重启,报错如下:
疑似2.6.32-504.el6和 2.6.32-573.26.1.el6都会受影响,见ERST: Error Record Serialization Table (ERST) support is initialized。解决方案为升级内核(升级后版本为2.6.32-573.26.1.el6.x86_64),或者在grub.conf中添加 |
UPDATE: 对于重启的机器,即使加了 由于时间紧迫,集群还未在处于测试阶段,目前做法是先将操作系统降级为6.4 。 注:此时正确的做法应该还是更改内核,而不是更换操作系统,更换的内核可通过 |
对于RegionSever挂掉的机器,目前操作系统已降级为6.4,重装系统后,CDH需要重新安装,但数据还在,hdfs数据正常,但hbase数据存在不一致的情况,且数据变少,并有报错,见 #28 。运行一天服务正常。 不过此事给的教训很足:任何线上业务在正式使用前,请务必通过充分测试! |
UPDATE: Operating System Known Issues |
UPDATE:
|
update,重启机器系硬件原因,更换硬件后没再重启。 |
报错如下:
说明:
当前系统为 centos6.6,kernel 版本为2.6.32-504.el6.x86_64,jvm版本为1.7.0_65。
The text was updated successfully, but these errors were encountered: