¡Te damos la bienvenida al nuevo sysarmy --help! Para recuperar tu usuario pedí un password reset.

Alertas por ping alto

editado May 2020 en Legacy
De golpe Nagios empezó a generar alertas por ping alto. La estructura sería la siguiente:

Un switch core con dos switches conectados. Estos dos switches tienen varios servidores KVM. Aleatoreamente las VM empiezan a generar esas alertas. Digo aleatoreamente porque surgen desde distintos hosts conectados a cualquiera de los dos switches.

El nagios corre dentro de una de esas VM y todo en la misma vlan por lo que el recorrido que hace no sale de estos switches.

Al no tener algo que monitoree mejor y me guarde un histórico metí un Zabbix. En los momentos en que Nagios genera los alertas no hay uso intensivo ni en switches ni en vm/host de CPU, Memoria, temperatura, tráfico de red.



La consulta sería qué recomiendan ustedes hacer para atacar este inconveniente. Tengo pensado meter un wireshark a ver si encuentro algo raro.

Por el momento es solo ese alerta y no está afectando a otros servicios pero me llama la atención que de un día para otro comenzó a pasar. Otra cosa: pasa incluso de madrugada cuando hay muy poca actividad de red.

Tal vez hay algo muy obvio que estoy pasando por alto.

Gracias



UPDATE: a este problema se empezó a sumar pérdidas de paquetes. El problema estuvo en la cantidad de conexiones soportadas por el firewall, estábamos muy por encima. Solucionado esto el ping alto seguí estando. Migré la VM de Nagios a otro host y por el momento ya no hay alertas.
Etiquetado:

Respuestas

  • Backups que generen IO en los servers? Desde el nagios si le tiras ping a otra vm que este en ese mismo hypervisor tambien tenes latencia? Por qué en ese caso descartás el switch si es que el trafico fluye entre vms a través del bridge del hypervisor.
  • Si te está pasando entre VMs que corren en el mismo hypervisor, o entre VMs y el hypervisor (asumiendo que el nagios está en el hypervisor), entonces no sería un tema del switch, sino un tema de la red del mismo equipo físico, o de ahí para adentro. Fijate si podés monitorear la cantidad de tráfico que pasa por las placas físicas del hypervisor en esos momentos (asumiendo que ya revisaste la CPU/mem/I/O del hypervisor físico y no encontraste correlación).
Este hilo ha sido cerrado.