Publicado el 22 Mayo, 2026

El cliente que quería alta disponibilidad y lo que realmente necesitaba

La caída había durado cuatro horas. El equipo del cliente estaba decidido a que no volviera a ocurrir. La solución que tenían en mente era un clúster Proxmox con alta disponibilidad. Cuando llegaron a la conversación con Aleph Server, ya habían investigado, ya tenían una idea de los costos, y estaban listos para avanzar.

Nuestra respuesta fue frenar y hacer primero las preguntas que todavía no se habían hecho.

El análisis del incidente real

La caída había afectado un servidor que alojaba dos sistemas: un sistema de reportes interno usado principalmente los lunes por el equipo de gerencia, y un servidor de archivos compartido con acceso ocasional durante la semana.

El incidente ocurrió un martes al mediodía. Las cuatro horas de inactividad fueron incómodas. No interrumpieron ningún proceso de producción crítico, no afectaron a clientes externos, y no generaron un costo operacional medible más allá del tiempo del equipo técnico dedicado a la recuperación.

Eso no minimiza el incidente: cuatro horas es un tiempo de recuperación mejorable. Pero cambia completamente la respuesta técnica correcta.

Por qué HA no era la respuesta en ese contexto

Primera razón: el hardware disponible eran dos servidores. Un clúster Proxmox con alta disponibilidad funcional requiere un mínimo de tres nodos para que el sistema de quorum pueda resolver de forma autónoma la caída de un nodo. Con dos nodos, si uno cae, el sistema no puede determinar de forma autónoma si el problema es el nodo caído o la pérdida de conectividad entre los dos. El resultado es que el clúster se suspende para evitar el riesgo de split-brain. Proxmox permite configurar un QDevice externo basado en Corosync qdevice para resolver esto con dos nodos, pero requiere un tercer host árbitro, lo que en la práctica equivale a tener tres dispositivos físicos con una complejidad adicional de gestión.

Segunda razón: el equipo técnico del cliente tenía un administrador con experiencia en virtualización básica y gestión de VMs individuales, sin experiencia en gestión de clústeres, Corosync, o procedimientos de reintegración de nodos. Implementar HA en ese contexto habría creado un entorno cuya operación en situación de incidente real nadie en el equipo dominaba. La alta disponibilidad habría generado una falsa sensación de seguridad, no seguridad real.

Tercera razón: el costo de agregar un tercer servidor para tener HA funcional, más el tiempo de implementación y la curva de aprendizaje del equipo, no estaba justificado para sistemas cuya inactividad no tiene costo operacional crítico. El análisis de retorno no cerraba.

Lo que sí tenía sentido implementar

El objetivo real del cliente era reducir el tiempo de recuperación ante un fallo similar. Eso se podía lograr con tres medidas de complejidad significativamente menor:

Backup diario verificado con Proxmox Backup Server, con prueba de restauración mensual documentada. No un backup que se asume que funciona: uno que se prueba regularmente y cuyo resultado queda registrado. La diferencia entre ambos es la diferencia entre creer que se puede recuperar y saber que se puede recuperar.

Procedimiento de recuperación documentado paso a paso, escrito para que cualquier técnico con acceso al documento pudiera ejecutarlo sin depender del administrador principal. Ese documento es el seguro real contra la dependencia de personas clave en situaciones de incidente.

Sistema de monitoreo con alerta que notificara al equipo dentro de los primeros diez minutos de una caída. El incidente que duró cuatro horas empezó siendo detectado tarde. Con detección temprana, la ventana de recuperación se reduce de forma inmediata.

El resultado

Con esas tres medidas, el tiempo de recuperación estimado ante un fallo similar bajaba a menos de cuarenta y cinco minutos. Sin agregar un tercer servidor, sin implementar Corosync, sin capacitar al equipo en gestión de clústeres.

El cliente implementó el esquema recomendado. Meses después tuvo un incidente menor —un disco con errores que requirió restauración desde backup. El procedimiento documentado funcionó. El tiempo de recuperación fue de treinta y cinco minutos. El equipo lo resolvió de forma autónoma.

La distinción que importa

El cliente quería alta disponibilidad porque quería seguridad. Lo que realmente necesitaba era reducir el tiempo de recuperación a un nivel aceptable para su operación. Esas son dos cosas distintas, y confundirlas tiene consecuencias concretas: implementaciones que agregan complejidad sin el beneficio esperado, y equipos que operan entornos que no comprenden completamente.

Un clúster con HA bien implementado, probado y operado por un equipo capacitado es la respuesta correcta cuando el contexto lo justifica. Cuando no lo justifica, es una forma cara de tener una falsa sensación de seguridad.

La postura de Aleph Server

Parte del trabajo de un partner TI es hacer el análisis que lleva a recomendar la solución correcta para el contexto real, no la solución más sofisticada ni la que genera más ingresos en el corto plazo. Eso implica, a veces, decirle a un cliente que lo que quiere implementar no es lo que necesita todavía.

No siempre es la conversación más cómoda. Siempre es la más honesta.

Artículos relacionados

Cumplimiento y Legislación

Cómo la arquitectura de virtualización define tu exposición legal bajo la Ley 21.719

El 1 de diciembre de 2026 entra en vigor la Ley 21.719. La forma en que hoy se segrega datos entre máquinas virtuales y contenedores LXC en Proxmox puede ser, o no, evidencia demostrable de las medidas técnicas que la ley exige. Explicamos por qué la arquitectura de virtualización es la primera línea de cumplimiento.

6 de Julio de 2026

Infraestructura TI

Respaldos vs. Recuperación: El sesgo de seguridad que expone a las empresas medianas

En la mayoría de las empresas medianas con las que conversamos, la respuesta a la pregunta «¿Tienen respaldos de sus sistemas críticos?» es un rotundo sí. Generalmente, el encargado de TI abre una consola y nos muestra un panel limpio, lleno de “checks” verdes que indican que la copia de seguridad de la noche anterior se completó con éxito.

3 de Julio de 2026

Infraestructura TI

Open source en infraestructura TI: el criterio que hace que funcione (y el que hace que falle)

Open source no es una categoría de herramientas: es un modelo de desarrollo. Usarlo bien requiere el mismo rigor de evaluación que cualquier otra decisión de infraestructura. Elegirlo solo porque es gratuito puede generar más problemas que la solución que reemplaza. Este artículo describe el criterio que Aleph Server aplica antes de recomendar cualquier herramienta open source, y por qué esa distinción importa para una empresa mediana.

1 de Julio de 2026