Etiquetas

,

La cuestión del archivo de datos está generando un auténtico problema en muchas empresas hoy en día. El sistema de almacenamiento principal funciona a pleno rendimiento, mientras que los datos antiguos (estáticos) que albergan las cintas de respaldo se almacenan y conservan en estanterías de forma indefinida, por si en algún momento fuera necesario recuperar algún dato. Paradójicamente, es en estos dos depósitos de datos —el sistema de almacenamiento principal y el de los backups, donde se almacena actualmente la mayor parte de los archivos de datos.

Sin embargo, se está produciendo una transformación en los sistemas de archivo de datos corporativos. Algunos factores externos, tales como el cumplimiento normativo vigente, las disposiciones de corporativas y la obligación de preservar documentos para posibles litigios, imponen la conservación de los datos durante años, si no décadas. Esta coyuntura está propiciando el surgimiento de nuevas perspectivas respecto a los sistemas de archivo.

En este nuevo planteamiento, los archivos de información dejan de constituir meras áreas donde almacenar datos antiguos. Los depósitos del sistema de almacenamiento principal y de backup pasan a albergar únicamente los datos operativos del día a día que una empresa necesita manejar. Los datos estáticos se almacenan en un sistema de archivo de más fácil acceso, a un costo mucho menor . . . y con los mismos niveles de seguridad y protección, pero con la ventaja añadida de una disponibilidad continua.

El sistema de archivo del futuro permitirá aligerar enormemente la carga del sistema de almacenamiento principal, y logrará retrasar al máximo, o, incluso eliminar, la necesidad de adquirir actualizaciones. Por otra parte, acelerará los procesos de backup, al reducir la cantidad de datos estáticos de los que se realizan copias de forma continua.

Almacenamiento en el disco principal como sistema de archivo

Muchas empresas aún utilizan los discos principales para almacenar los archivos estáticos o permanentes. Por esta razón, la demanda de discos principales crece cada año entre un 75% y 100%, y entre un 60% y un 80% de la información que en ellos se almacena es de carácter estático. Aunque pocos profesionales de Tecnología de la Información reconocerían que utilizan el sistema de almacenamiento principal como archivo de información, en la mayor parte de los casos los datos se almacenan en el dispositivo de almacenamiento más caro del centro de datos.

El disco principal resulta caro para un sistema de archivo, pero se utiliza a tal fin porque representa la opción más sencilla a efectos de su gestión. Con sólo aumentar la capacidad del disco, ampliando los volúmenes, se puede crear un archivo de seguridad.

Por supuesto, lleva aparejadas más cosas. La adquisición del disco, su instalación en el sistema de almacenamiento, y los procesos de asignación y de suministro de volúmenes llevan mucho tiempo. Por otra parte, mantener datos en el sistema de almacenamiento principal que debieran guaDRarse en archivos de seguridad añade una carga excesiva al proceso de backup. Así, la realización de un backup completo se vuelve una tarea cada vez más difícil, lenta y costosa. Para solucionar este problema, se hace necesario realizar continuas inversiones en la arquitectura de backup (un disco más rápido, unidades de cinta más rápidas, redes más rápidas, y nuevas aplicaciones de backup), lo que genera un círculo vicioso de actualizaciones sin fin. Por último, en muchos casos, el sistema del disco principal carece de la posibilidad de ampliación a capacidades de petabytes y de la opción de protección de los datos mediante cifrado y a través de la tecnología de escritura única-lectura múltiple (WORM).

Almacenamiento en backups como sistema de archivo

A las empresas que emplean el proceso de backup como sistema de archivo también se les presentan algunos problemas, relacionados con la fiabilidad de las cintas a largo plazo y con la eficacia del acceso a los datos. Cada vez más centros de datos están recurriendo a la combinación cinta-disco para ejecutar backups o realizar restauraciones de forma más rápida, pero, sobre todo, para alcanzar mayores niveles de fiabilidad. El sistema de backups en cinta conlleva numerosos inconvenientes. Entre ellos, los fallos físicos del soporte constituyen un problema constante en el proceso de realización del backup.  Utilizar las cintas para albergar los archivos de seguridad es aún, si cabe, más arriesgado. El sistema de conservación en cintas no ofrece mayor fiabilidad para albergar los datos de los archivos de seguridad que la que presenta en el almacenamiento de los datos de los backups. Por añadidura, la importancia de los datos archivados puede ser mayor, por lo que puede llegar a ser necesario almacenarlos durante muchos años antes de que haya que realizar una restauración.

La mayor parte de los profesionales de TI (Tecnología de la Información) preferirían pasarse a los soportes físicos de los backups (en su mayoría, cintas) para alojar sus archivos de seguridad, pero, como desconfían de la calidad de estos soportes para albergar tales datos, continúan utilizando el sistema de almacenamiento principal. Por esta razón, se está recurriendo al sistema de discos, como parte del proceso de backup, como área de almacenamiento intermedia a efectos de la recuperación de datos. Las tecnologías convencionales de disco a disco sólo pueden almacenar las copias de seguridad durante unos cuantos días o algunas semanas. El proceso de deduplicación de datos ha ampliado a algunos meses la capacidad de conservación de los sistemas de backup basados en discos. Antes de la aparición del sistema de deduplicación de datos, el disco constituía una simple memoria caché para albergar copias de seguridad de los datos como paso previo a su transferencia a la cinta, pero ahora puede utilizarse como un área de almacenamiento más de pleno derecho, que no proporciona, sin embargo, ninguna funcionalidad especial para mejorar la seguridad, la integridad y la accesibilidad de los datos. Incluso, puede decirse que la mayor parte de los sistemas de backup de disco a disco no resultan adecuados para el alojamiento de los archivos de seguridad. Estas soluciones no ofrecen, tampoco, ni escalabilidad ni alta disponibilidad.

El planteamiento más extendido consiste en deshacerse de los datos antiguos (estáticos), proteger los datos de especial relevancia para la empresa y conservar la información que ésta pueda necesitar para cumplir con las disposiciones de la normativa vigente. En definitiva, realizar archivos de seguridad. A la mayoría de los usuarios les gustaría almacenar estos datos fuera del sistema de almacenamiento principal, pero las áreas de destino convencionales (cintas y discos ópticos) resultan difíciles de manejar y poco fiables y eficaces, por no hablar de su intrincada manipulación cuando se necesita ejecutar rápidamente una restauración.

Podemos crear un sistema rentable de archivo basado en discos integrando la tecnología de unidades SATA y la deduplicación de datos. Los sistemas de archivo en disco permiten un acceso sencillo y a menudo constituyen puntos de conexión de la red. La generación del archivo de seguridad es tan sencilla como copiar o transferir los datos de un recurso compartido de red a otro.

Los problemas que plantea el sistema de archivo en disco son la escalabilidad, la seguridad y la redundancia. El objetivo de un sistema de archivo debería ser aligerar la carga del sistema de almacenamiento principal y acelerar el proceso de backup a la par que transfiere archivos antiguos o almacena copias de seguridad de archivos importantes. El sistema de archivo se convertirá, a menudo, en el punto de hospedaje final y en la última copia conocida de datos que son importantes para la empresa. Al igual que la cinta no resulta adecuada para ejecutar la función doble de copias de seguridad y de archivado, tampoco las soluciones de backup de disco a disco se recomiendan a tal efecto.

El sistema de archivo del futuro debe ser capaz de conservar copia final y definitiva de estos datos durante décadas, así como garantizar con un 100% de fiabilidad al usuario que los datos podrán recuperarse con toda exactitud en el momento en que se necesiten. Estos requisitos se traducen en un sistema de archivo corporativo que incluya las prestaciones del archivo en disco (de fácil acceso y costo muy inferior al del sistema de almacenamiento principal), además de funciones de vital importancia como son la escalabilidad, la seguridad y la disponibilidad de los datos.

Condiciones que debe reunir el sistema de archivo:

En la actualidad, se habla de requisitos de conservación de datos que impone el almacenamiento del archivos durante un mínimo de cinco años y un máximo de cien, por lo que los sistemas de archivo corporativos deben disponer de una capacidad de ampliación a varios petabytes en la actualidad, y a varios cientos de petabytes en los próximos años. Tales condiciones de escalabilidad requerirán una arquitectura de almacenamiento en grid, dotada de componentes discretos responsables de su capacidad de almacenamiento y de su rendimiento, denominados nodos. A medida que aumentan las necesidades de almacenamiento, se van añadiendo nodos con capacidad de almacenamiento a la grid. En teoría, puede añadirse un número infinito de nodos de este tipo.

También es importante que la capacidad de escalabilidad sea selectiva (granular). La caída imparable del precio de las unidades de disco permitirá que cada vez se ofrezca más capacidad por menos dinero. La escalabilidad selectiva permite añadir únicamente el volumen de almacenamiento necesario en un determinado momento, con lo que puede retrasarse la siguiente adquisición, a fin de mejorar la relación capacidad-costo. Esta escalabilidad selectiva requerirá, asimismo, que la arquitectura sea capaz de incorporar nodos mixtos. La escalabilidad a través de nodos mixtos ofrece la posibilidad de utilizar las unidades de mayor capacidad disponibles en el mercado en el momento de realizar la ampliación del volumen de almacenamiento.

Cuanto más se prolongue el tiempo de acceso a los datos, más importante resulta su protección. Los sistemas de archivo corporativos deberían incluir técnicas de cifrado de datos para limitar el acceso y asignar áreas del almacenamiento a la tecnología de escritura única-lectura múltiple (WORM), con vistas a garantizar la cadena de custodia. Esto también exigiría flexibilidad de adaptación a las posibles modificaciones que pudieran producirse en las normativas o recomendaciones que regulen el sector.

Por otra parte, los datos que necesitan conservarse durante décadas deben poder recuperarse. El estado de estos datos debe verificarse continuamente para garantizar que no hayan sufrido daños o que estén almacenados en una unidad defectuosa. Si una unidad está generando errores, los datos deben reubicarse automáticamente a efectos de su recuperabilidad, y antes de que la unidad quede inutilizable de forma definitiva.

El volumen físico del paquete de datos del archivo de seguridad (petabytes en la actualidad, que pronto se convertirán en cientos de petabytes) exige una protección de datos por encima de RAID 5 o RAID 6 y de los meros procedimientos de backup. Los paquetes de datos de este tamaño alojados en discos duros de 1 TB o más resultarían prácticamente irrecuperables en caso de que se produjera un fallo en la unidad. La tecnología debe explotar todo el potencial de los nodos con capacidad de almacenamiento para reconstruir los volúmenes afectados por el fallo rápidamente. La combinación de esta multiplicidad de unidades y nodos en la reconstrucción no sólo acelera el proceso, sino que también reduce el número de recursos individuales necesarios para llevarlo a cabo, lo que convierte la reconstrucción de una unidad en una tarea unificada y prácticamente imperceptible para los usuarios finales.

La actualización del sistema de almacenamiento principal a una plataforma completamente nueva suele producirse cada tres-cinco años. El planteamiento que resume la fórmula “migración por descarte y sustitución”, y que preside las actualizaciones de los sistemas de almacenamiento principales, no resultará viable en el caso de los sistemas de archivo. Debido al tamaño del paquete de datos (100 PB), su migración de una plataforma a otra podría llevar meses, y la probabilidad de que se produjeran fallos en las unidades durante la transferencia sería elevada.

El sistema de archivo debe recurrir a una arquitectura de actualización progresiva a través de nodos mixtos, que permita combinar nodos nuevos con los antiguos, y, llegado el momento, deshabilitar estos últimos. Esta arquitectura de actualización progresiva no configura nunca un punto único de actualización, sino que ésta se desarrolla de manera gradual y unificada, a medida que se van añadiendo nuevos nodos al archivo de seguridad.

El objetivo de dotar a las empresas de un sistema de archivo de datos como el descrito va a requerir el surgimiento de una nueva solución que lidere, al fin, el mercado. Es poco probable que los proveedores de las tecnologías tradicionales, basadas en discos y en cintas, muevan ficha para reducir el costo de la capacidad de almacenamiento de forma significativa o rápida. Busquen proveedores que proporcionen plataformas de almacenamiento en grids sin descuidar la excelencia en el servicio y la asistencia técnica.

Sobre el autor: George Crump cuenta con 20 años de experiencia en el desarrollo de soluciones de almacenamiento para los grandes responsables de tecnología de la información en EE. UU. Ha ocupado cargos directivos en Palindrome, Legato Systems Inc. y SANZ. En la actualidad, dirige su propia consultora, Storage Switzerland, que proporciona asesoramiento objetivo y servicios estratégicos para ayudar a los profesionales de las tecnologías de almacenamiento a afrontar los retos de gestión de almacenamiento que se les plantean.