¡Te damos la bienvenida al nuevo sysarmy --help! Para recuperar tu usuario pedí un password reset.

Problema en esquema Linux HA con DRBD/Heartbeat

Bunas a todos, hace unos días que estoy viendo estos mensajes en el syslog de ambos equipos que como dice la pregunta, están en un esquema de Linux HA con DRBD/Heartbeat.

Jul 31 13:25:44 optimus heartbeat: [2274]: info: megatron wants to go standby [foreign]
Jul 31 13:25:44 optimus heartbeat: [2274]: info: standby: acquire [foreign] resources from megatron
Jul 31 13:25:44 optimus heartbeat: [28256]: info: acquire local HA resources (standby).
Jul 31 13:25:44 optimus ResourceManager[28270]: [28281]: info: Acquiring resource group: optimus 10.10.254.100/24/bond0
Jul 31 13:25:44 optimus IPaddr[28293]: [28325]: INFO:  Resource is stopped
Jul 31 13:25:44 optimus ResourceManager[28270]: [28342]: info: Running /etc/ha.d/resource.d/IPaddr 10.10.254.100/24/bond0 start
Jul 31 13:25:44 optimus IPaddr[28367]: [28395]: INFO: Using calculated netmask for 10.10.254.100: 255.255.255.0
Jul 31 13:25:44 optimus IPaddr[28343]: [28416]: ERROR:  Generic error
Jul 31 13:25:44 optimus ResourceManager[28270]: [28418]: ERROR: Return code 1 from /etc/ha.d/resource.d/IPaddr
Jul 31 13:25:44 optimus ResourceManager[28270]: [28420]: CRIT: Giving up resources due to failure of 10.10.254.100/24/bond0
Jul 31 13:25:44 optimus ResourceManager[28270]: [28422]: info: Releasing resource group: optimus 10.10.254.100/24/bond0
Jul 31 13:25:44 optimus ResourceManager[28270]: [28440]: info: Running /etc/ha.d/resource.d/IPaddr 10.10.254.100/24/bond0 stop
Jul 31 13:25:44 optimus IPaddr[28441]: [28473]: INFO:  Success
Jul 31 13:25:44 optimus heartbeat: [28256]: info: local HA resource acquisition completed (standby).
Jul 31 13:25:44 optimus heartbeat: [2274]: info: Standby resource acquisition done [foreign].
Jul 31 13:25:45 optimus heartbeat: [2274]: info: remote resource transition completed.

Entiendo lo que está pasando pero se me está poniendo complicado entender por qué, ambos equipos están conectados al mismo ToR Switch con patch cords certificados, estos mensajes están sucediendo con minutos de diferencia, pero no hay pérdidas de paquetes que al menos se visualicen desde el Switch ni de ICMP, nada, se podría decir que está trabajando normal, el bonding es un típico 802.3ad.

¿Alguien tiene una idea de dónde empezar a mirar?, ¿puede ser que esté fallando un puerto del bonding?.

Desde ya, muchas gracias.

Accede o Regístrate para comentar.