La redundancia en el diseño del centro de datos es indispensable para garantizar la seguridad y disponibilidad de los datos en tiempo real.
Si bien, hay muchos componentes del centro de datos que pueden ayudar a garantizar que los datos estén seguros, protegidos y disponibles en tiempo real, es importante tener un diseño de redundancia bien planificado e implementado en el entorno del Centro de procesamiento de datos.
Durante los últimos años, la presión por responder a la creciente demanda de los consumidores ha llevado a los negocios a buscar nuevas formas de asegurar la disponibilidad de sus productos, servicios e información, así como la continuidad de sus operaciones.
Cualquier tipo de falla en el sistema, por más pequeña que sea, puede generar una interrupción en las operaciones y a su vez, tener un impacto grave y directo en los resultados de una organización, en las operaciones comerciales y la experiencia del cliente.
El tiempo de inactividad es más costoso que antes.
Según la 12.ª encuesta anual sobre el costo por hora del tiempo de inactividad de ITIC en 2021, mostró que 44% de las empresas que participaron, dijeron que, una hora de inactividad les cuesta entre $1 millón y $5 millones de dólares, sin contemplar honorarios, legales, multas o sanciones.
¿Qué es la disponibilidad de un centro de datos?
Cuando hablamos de disponibilidad nos referimos a la capacidad que tiene el centro de datos para garantizar que la información se encuentre disponible siempre que se requiera.
La “disponibilidad” incluye dos períodos de tiempo:
- Cuánto nos puede tomar, como usuarios, acceder a un servicio o sistema.
- Cuánto tiempo necesita ese sistema para responder a nuestras solicitudes como usuarios.
Para asegurar un buen nivel de disponibilidad, la infraestructura necesita estar configurada para manejar diferentes cargas y fallas con un tiempo de inactividad mínimo o nulo. Este tiempo de actividad representa el cálculo de la frecuencia con la que un recurso específico se encuentra disponible durante un tiempo determinado o cuando se requiera su uso.
La disponibilidad está relacionada con otro concepto: la “alta disponibilidad”, el cual hace referencia al protocolo de diseño del sistema que al implementarse, garantiza operar continuamente sin fallos o interrupciones.
Si bien puede resistir interrupciones no planificadas como cortes en el suministro de energía, también es posible resistir las interrupciones planificadas como cuando se requiere hacer alguna actualización en el sistema o dar mantenimiento a algún componente.
Por eso, estos sistemas ofrecen un alto nivel de rendimiento operativo, minimizan el impacto negativo de estos eventos y permiten que el centro de datos se recupere automáticamente ante fallas en los componentes o caídas del sistema.
¿Cómo se mide la disponibilidad de un data center?
La clasificación Tier creada por el Uptime Institute, fue diseñada para medir la fiabilidad de los centros de datos, incluido el nivel de disponibilidad como uno de los rubros principales.
La clasificación va de Tier 1 a Tier 4, siendo esta última la más completa y actual. A continuación te explicamos en qué consiste cada una de ellas:
- TIER I: disponibilidad del 99.671%
Centros de datos con nivel de capacidad básico e infraestructura necesaria para respaldar la tecnología de la información en un entorno de oficina y similares.
- TIER II: disponibilidad del 99,741%
Centros de datos con componentes redundantes para la alimentación y refrigeración. Ofrecen mejores oportunidades de seguridad frente a interrupciones.
- TIER III: disponibilidad del 99,982%
Centros de datos con componentes redundantes así como rutas de distribución redundantes y especializadas para atender el entorno crítico. No se necesita de un cierre de sitio para dar mantenimiento o reemplazar los equipos y componentes.
- TIER IV: disponibilidad del 99,995%
Centros de datos con varios sistemas independientes y físicamente aislados, compuesto por componentes así como rutas de distribución redundantes. El entorno no es afectado por interrupciones inesperadas o eventos imprevistos, a menos que los componentes o rutas de distribución necesiten estar cerradas por mantenimiento, en ese caso el riesgo de interrupción aumenta.
Por otro lado, ICREA también cuenta con una clasificación según el nivel de disponibilidad, y en su norma “ICREA-Std-131-2021” propone su propia clasificación con las siguientes características:
- NIVEL I – disponibilidad del 95%
Sala de cómputo en ambiente Certificado QADC (Quality Assurance Data Center)
- NIVEL II – disponibilidad del 99%
Sala de cómputo en ambiente Certificado de clase mundial WCQA (World Class Quality Assurance)
- NIVEL III – disponibilidad del 99.9%
Sala de cómputo confiable con Ambiente Certificado de clase mundial S-WCQA (Safety World Class Quality Assurance).
- NIVEL IV – disponibilidad del 99.99%
Sala de cómputo de alta seguridad con certificación HSWCQA (High Security World Class Quality Assurance).
- NIVEL V – disponibilidad del 99.999%
Sala de cómputo de alta seguridad y alta disponibilidad con certificación de clase mundial HSHA-WCQA (High Security High Available World Class Quality Assurance).
- NIVEL VI: disponibilidad del 99.9999%
Red de centros de datos de alta seguridad y alta disponibilidad redundante con certificación de clase mundial RHA-WCQA (Redundant High Available World Class Quality Assurance Data Center Net).
¿Qué es la redundancia en un centro de datos?
El principio de la redundancia en el centro de datos implica contemplar en su diseño componentes clave que puedan “duplicarse” para que, en caso de falla de otro componente, el equipo de TI no se vea afectado.
La redundancia, explicada de la manera más simple es un respaldo. Y puede ser activa o pasiva. La redundancia activa se refiere a que dos enlaces están activos al mismo tiempo y la redundancia pasiva a cuando un enlace está activo y el otro está en espera.
El objetivo principal de la redundancia es garantizar un tiempo de inactividad cero, incluso en los peores escenarios, es decir garantizar la disponibilidad del data center. Por ejemplo, poder ofrecer energía redundante en caso de que haya un corte de energía.
Los componentes o partes redundantes pueden existir en cualquier sistema de centro de datos, como servidores, sistemas de alimentación ininterrumpida y sistemas de enfriamiento.
La redundancia suele funcionar así: dónde “N” es la carga base o el número de componentes necesarios para funcionar, N+1 significa tener un componente o parte extra al que en realidad se necesita para funcionar.
2N significa tener el doble de la cantidad de partes o componentes y 2N+1 tendría el doble más uno. Por ejemplo:
Si tenemos 3 computadoras para 3 personas que necesitan trabajar, es decir N=3 (número de componentes necesarios para trabajar igual a 3). Si un componente llegara a fallar se necesitaría N+1 para poder resolver ese problema a la brevedad posible. En otras palabras, siempre contarás con un equipo extra si uno presenta fallas.
La nueva era digital definitivamente ha tenido un gran impacto en la forma en la que se le da valor a la redundancia. Pues, si logramos detectar y enviar alertas en tiempo real sobre alguna falla y conmutar de manera estratégica para hacer un respaldo de los sistemas, la redundancia N+1 podría ser la mejor solución, ya que la reparación es mucho más rápida.
Tipos de redundancia
Existen varios tipos de redundancia, entre ellos:
- Red: Tiene como base el proveedor de servicios de internet a través del cual se puede mantener una conexión activa. Se recomienda contar con más de un proveedor, para garantizar la disponibilidad de la red de forma constante y continua.
- Hardware: Se relaciona directamente con las piezas físicas del hardware, los cuales pueden ser susceptibles a fallos por diferentes motivos, como desastres naturales, accidentes, cortes en el suministro de electricidad entre otros.
- Poder: Se refiere a los respaldos de alimentación eléctrica y medidas de contingencia que pone en acción una organización en caso de algún fallo en el suministro de energía eléctrica. Por ejemplo, baterías o generadores eléctricos externos.
- Geográfica: Tiene que ver con la infraestructura completa del centro de datos, por lo que en caso de cualquier falla, la información será desviada a otros servidores que se ubiquen en un punto físico diferente con una distancia considerable. De esta manera, se garantiza que, en caso de algún evento inesperado que pueda afectar el alojamiento principal de la información, se contará con otro disponible preparado para operar.
Diferencias entre redundancia y disponibilidad
La redundancia por sí sola, no puede garantizar la disponibilidad. Se requiere también de mecanismos y sistemas para la detección de fallas.
Podría decirse que la redundancia es una función operativa “planificada” y que la disponibilidad se basa más bien en el tiempo de inactividad “no planificado”. Está más relacionado con la cantidad de minutos u horas que puede tolerar el data center durante una interrupción.
La redundancia se basa en características basadas en el hardware y la disponibilidad por lo general, involucra un tema de software.
Otra diferencia importante, es que la redundancia se basa en un número proyectado y la medición de la disponibilidad tiene más que ver con un número histórico. Es decir, en el caso de los centros de datos con diseño de infraestructura redundante, se trata de una proyección para asegurar el correcto funcionamiento de los equipos. Sin embargo, para medir o conocer el nivel de disponibilidad se requiere de analizar el funcionamiento como tal del Centro de datos para a partir de la experiencia operativa pasada obtener dicha información.
¿Por qué son importantes la redundancia y la disponibilidad del centro de datos?
La alta disponibilidad necesita estar presente en un diseño de centro de datos para ser considerado confiable y de alta calidad. Parte de eso sucede gracias a la redundancia que puede ofrecer el centro de datos.
Por eso, queremos compartirte 5 razones por las que debes cuidar y mantener la redundancia y la disponibilidad en tu centro de datos.
#1 Tolerancia del mercado
El período máximo tolerable de interrupción (MTPD) continúa disminuyendo para la mayoría de las empresas porque hay menos tolerancia a que sus operaciones experimenten algún tipo de tiempo de inactividad. Es decir, el mercado se vuelve cada vez más impaciente, exigente y solicitan una recuperación (re-conexión) más veloz.
Dependiendo del sistema y/o aplicación, la alta disponibilidad requerida será diferente. Por ejemplo, con aplicaciones de misión crítica, como sistemas de comercio electrónico, la disponibilidad de cuatro “9” (99,99 %) se considera un estándar de la industria.
Esto quiere decir que, cada vez es más esencial que los centros de datos logren un tiempo de actividad sin precedentes para poder alinearse con los requisitos comerciales actuales.
#2 Costos elevados por inactividad
Vivimos en un mundo totalmente conectado, por lo que descuidar la continuidad de las operaciones afecta e impacta diferentes aspectos de las organizaciones, las finanzas siendo uno de los más importantes.
La función principal del centro de datos es brindar un tiempo de actividad constante para las aplicaciones y sistemas de misión crítica que alberga. Si bien, ahora es más común que las organizaciones presten mucha más atención en ellos, no siempre se contemplan los costos que una vulnerabilidad en la infraestructura o una falla total en el sistema podría ocasionar.
Según el último informe del Instituto Uptime, 62% de las interrupciones clasificadas como relevantes, graves o muy graves costaron más de $100,00 dólares a las organizaciones. Esto es un 56% más que en 2020.
91% de los entrevistados para la Encuesta Global de Confiabilidad de sistemas operativos y hardware de servidores 2021 de ITIC (Information Technology Intelligence Consulting) estiman que una hora de inactividad le cuesta a la empresa poco más de $301,000.
#3 Productividad empresarial
Los negocios de diferentes rubros como: hospitales,bancos e instituciones, comercio electrónico, comunicaciones, profesionales de servicios entre otros, necesitan asegurarse de que sus operaciones informáticas están operando continuamente.
Una sola interrupción podría representar un desperdicio de esfuerzos y recursos valiosos para el negocio. Además de afectar directamente la disponibilidad de las aplicaciones y sistemas conectados al centro de datos.
Por otro lado, el tiempo de inactividad del personal por no poder acceder a la información, aplicaciones o sistemas, puede representar pérdidas económicas considerables.
#4 Diferencias competitivas
A medida que las empresas continúan desarrollando nuevas aplicaciones y tecnología para seguir siendo competitivas, se vuelve cada vez más crítico que siempre estén operativas.
Un fenómeno similar ocurrió cuando las empresas de telecomunicaciones y telefonía móvil comenzaron a tener una oferta más amplia, innovadora y competitiva, poniendo al líder del mercado en serias complicaciones. Añadido a esto la reputación de la organización se podría ver gravemente afectada por una interrupción en las operaciones.
Como el caso de Bancomer cuando en septiembre del 2021, 24 millones de clientes no pudieron acceder a su dinero por casi 20 horas.
Garantizar las operaciones de cualquier empresa, no solo es un requisito fundamental en tiempos como los actuales, sino también un diferenciador clave para destacar incluso entre las ofertas más atractivas y las empresas con mejor reputación del mercado.
#5 Seguridad de la información
¿Sabías que más del 93% de las organizaciones relacionadas con la salud experimentaron una violación de datos en los útlimos años?
Esto según el Informe de Ciberseguridad Sanitaria del grupo Herjavec, líderes de operaciones de ciberseguridad más innovadoras del mundo.
Desafortunadamente es una de las industrias más vulnerables frente a este tipo de ataques debido que por lo general usan software heredado, debido a restricciones presupuestarias.
El alto riesgo que esto implica en el funcionamiento como tal de las empresas de atención médica es alarmante. Por lo que la convierte en una industria muy crítica para asegurar y proteger.
Sin mencionar, la sensibilidad de datos qué estos manejan y que podrían caer en las manos equivocadas si no se trabaja en mantener la disponibilidad del centro de datos con apoyo de componentes que faciliten la redundancia.
¿Tu centro de datos está preparado para ofrecer alta disponibilidad incluso en las situaciones más críticas?
Las soluciones de centro de datos seguirán desempeñando un papel central a medida que las actividades empresariales y organizativas evolucionen en la era digital.
Es importante que las empresas e instituciones sigan insistiendo en aumentar la disponibilidad y confiabilidad de los servicios del centro de datos para poder atender las necesidades más actuales e ir de la mano con el aumento de la demanda.
Para eso, se requiere conocer el nivel de rendimiento y disponibilidad del centro de datos, así como su nivel de compatibilidad con tu modelo de negocio.
Solicita una asesoría sin costo AQUÍ