• .
  • 1

Blog sobre la Gestión de TI

En este blog encontrarás información relevante acerca de temas relacionados con las soluciones de ManageEngine y TI. Es un medio importante para estar actualizado y encontrar respuestas a preguntas frecuentes.
Tamaño de fuente: +

Arriba y Operando – ¿el admin o su red?

Arriba y Operando – ¿el admin o su red?

En la mayoría de las empresas son los chicos de TI quienes están arriba y operando 24x7, y no la red. El ingreso constante de nuevos dispositivos, nuevas tecnologías, nuevos parches, nuevas sucursales, etc., obligan a los administradores a realizar cambios frecuentes en la red. Esto muy frecuentemente los vuelve locos por los cambios que afectan el desempeño, y trabajan todo el día para arreglarlos.

Las principales causas son:

  • Constante crecimiento de las oficinas del negocio
  • El negocio depende ahora completamente de la red y las tecnologías de información, y requiere de SLA, SLM, BSM y más
  • Encontrar el punto de equilibrio exacto entre el desempeño del negocio, y las preferencias de los usuarios finales sin llegar a bloquear accesos (Facebook, YouTube, etc.)

La única solución viable para evitar esto es un monitoreo de la red 24x7, y una gestión inteligente de fallos para identificar la causa raíz del problema y poder solucionarlo antes de que se perciba el impacto en el negocio.

Un buen plan de gestión de fallos debe tener varios mecanismos para detectar los eventos, aislarlos, y notificar a los administradores de sólo aquellos que requieren acciones concretas para resolverlos.

Detección de eventos:

Los dos tipos de monitoreo – activo y pasivo – son igualmente importantes para lograr un mecanismo de detección de eventos que realmente funcione. El monitoreo activo ayuda proactivamente a detectar un evento estableciendo umbrales en los monitores. Mientras que, en el monitoreo pasivo, el NMS escucha por un evento en los logs.

ManageEngine OpManager ofrece ambos, monitoreo activo y pasivo. Monitorea dispositivos usando ICMP ping, puertos TCP y UDP, y contadores de desempeño. Así también monitorea Syslogs, traps SNMP, event logs, etc.

Aislando la falla:

El aislamiento de fallos ayuda a identificar los eventos que han afectado el desempeño de la red. Técnicas de gestión de fallos como la de-duplicación, correlación y automatización, ayudan en la identificación de la causa raíz.

OpManager crea, para cada evento único, una nueva fila con su correspondiente código de color según la severidad. Si el mismo evento vuelve a ocurrir, es agregado al historial de la misma alarma, eliminando de este modo los duplicados.

Del mismo modo, la correlación de eventos también ayuda a mostrar solamente fallas en la red que requieren alguna acción. La opción de "dependencia de dispositivos" en OpManager ayuda a evitar este tipo de alertas múltiples. Si el dispositivo principal está abajo, envía la alerta sólo para el dispositivo principal, y no para todos los que dependen o están conectados a él.

Por último, el aislamiento de fallos automatizado, tiene que ver con dejar de lado los eventos injustificados. Algunos ejemplos de eventos injustificados son picos incidentales insignificantes, revertir alarmas a un estado normal, eventos para los dispositivos en modo de mantenimiento, etc. OpManager ayuda a ignorar tales eventos.

Informar a los administradores:

La función principal de este proceso es para hacerle saber a los administradores sobre un problema real. Esto puede ser a través de la representación visual de las alarmas en el NOC, levantando un ticket a los técnicos de helpdesk y alertando de manera remota a los administradores a través de correo electrónico o SMS.

Resolver:

Para una rápida solución de fallos, el NMS debe tener conocimientos propios para el manejo de fallas. En caso de cualquier problema, el NMS debe correr automáticamente un comando o programa de manera remota para arreglarlo. Si esto no es posible, debido a alguna complicación o error, debe escalar la situación al administrador correspondiente con el registro del log específico para que éste pueda tomar acción enseguida.

 

En conclusión, ManageEngine OpManager, un software de gestión de redes y servidores, ofrece una inteligente gestión de fallas y desempeño, que apunta hacia la causa raíz del problema. Posteriormente, notifica en segundos al administrador adecuado con toda la información necesaria. Sus herramientas eficientes y fáciles de usar ayudan, tanto a arreglar automáticamente el problema, como a proveer un rápido diagnóstico del mismo.

 

Referencias:

http://www.manageengine.com.mx/monitoreo-redes/opmanager-visiongeneral.html

¿Cómo reducir la carga de trabajo de nuestros admi...
High Availability en el Mundo Cloud

Artículos relacionados

Suscríbete al Blog