Índice
¿Qué es la deduplicación de datos?
La deduplicación de datos es una técnica de compresión de datos que consiste en eliminar copias redundantes de datos de un sistema.
Se administra tanto en esquemas de copia de seguridad de datos como en esquemas de datos de red, y permite el almacenamiento de un modelo único de datos dentro de una base de datos o un sistema de información más amplio. La deduplicación de datos también se conoce como compresión inteligente, almacenamiento en una sola instancia, factorización de elementos comunes o reducción de datos.
La deduplicación de datos consiste en examinar y comparar los datos entrantes con los ya almacenados. Si algún dato en concreto ya está presente, los algoritmos de deduplicación eliminan los datos nuevos y los sustituyen por una referencia a los datos que ya hay.
Por ejemplo, cuando se hace una copia de seguridad de un archivo antiguo con algunos cambios, el archivo anterior y los cambios aplicados se añaden al segmento de datos total. Sin embargo, si no hay diferencia, se descarta el archivo de datos más nuevo y se crea una referencia.
La deduplicación de datos es una tecnología en la que confían los proveedores de almacenamiento para optimizar el uso del espacio de almacenamiento; la otra es la compresión. Estas funciones de almacenamiento suelen agruparse en una categoría más amplia, denominada reducción de datos. Todos estos sistemas ayudan a alcanzar el mismo objetivo: aumentar la eficiencia del almacenamiento. Con las técnicas de deduplicación adecuadas, las empresas pueden almacenar más datos de lo que su capacidad de almacenamiento total podría hacer suponer. Por ejemplo, una empresa con 15 TB de almacenamiento, combinada con técnicas adecuadas de deduplicación y compresión, puede obtener una reducción de 4:1, lo que significa que sería posible almacenar 60 TB en una matriz de datos de 15 TB.
Caso práctico de deduplicación de datos
Veamos esta situación como ejemplo práctico de las ventajas de la deduplicación: una organización ejecuta un entorno de escritorio virtual con cientos de estaciones de trabajo idénticas, todas ellas almacenadas en una costosa matriz de almacenamiento adquirida expresamente para ofrecer soporte. La organización está ejecutando cientos de copias de Windows 8, Office 2013, software ERP y cualquier otra herramienta que los usuarios puedan necesitar. Cada imagen individual de la estación de trabajo consume, digamos, 25 GB de espacio en disco. Con solo 200 de estas estaciones de trabajo, estas imágenes consumirían por sí solas 5 TB de capacidad.
Con la deduplicación, solo se puede almacenar una copia de estas máquinas virtuales individuales. Cada vez que el motor descubre un dato que está almacenado en otro lugar del entorno de almacenamiento, el sistema de almacenamiento guarda un pequeño puntero en el lugar de la copia de datos, con lo que se liberan los bloques que normalmente estarían ocupados.
Tipos de deduplicación de datos
Como cabría esperar, los distintos proveedores gestionan la deduplicación de diferentes maneras. De hecho, hay dos técnicas principales de deduplicación que merecen nuestro análisis:
La deduplicación en línea se produce en el momento en que los datos se escriben en el almacenamiento. Mientras los datos están en movimiento, el motor de deduplicación etiqueta los datos de manera secuencial. Este proceso, si bien es efectivo, crea una sobrecarga informática. El sistema tiene que etiquetar repetidamente los datos entrantes y luego identificar rápidamente si esa nueva huella digital coincide o no con algo en el sistema. Si es así, se escribe un indicador que apunta a la etiqueta existente. Si no es así, el bloque se guarda sin cambios. La deduplicación en línea es una característica importante para muchos dispositivos de almacenamiento y, aunque introduce una sobrecarga, no es demasiado problemática y proporciona muchos más ventajas que costes.
La deduplicación posterior al proceso, también conocida como deduplicación asíncrona, se produce cuando todos los datos se escriben por completo, hasta que, a intervalos regulares, el sistema de deduplicación revisa y etiqueta todos los datos nuevos, elimina varias copias y las sustituye por indicadores que apuntan a la copia de datos original.
La deduplicación posterior al proceso permite a las empresas utilizar su servicio de reducción de datos sin estresarse por la sobrecarga de procesamiento repetida causada por la deduplicación en línea. Este proceso permite a las empresas programar la deduplicación para que pueda realizarse fuera del horario laboral.
El mayor inconveniente de la deduplicación posterior al proceso es que todos los datos se almacenan en su forma completa (a menudo denominada completamente hidratada). Por eso, los datos requieren todo el espacio que necesitan los datos no deduplicados. Solo después del proceso de deduplicación programada se produce una disminución de tamaño. Para las empresas que utilizan la desduplicación posterior al proceso, es necesario disponer de una mayor capacidad de almacenamiento en todo momento.
La deduplicación de datos del lado del cliente es una técnica de deduplicación de datos que se emplea, por ejemplo, en un cliente de copia de seguridad y archivo para eliminar datos redundantes durante el proceso de copia de seguridad y archivado antes de transferir los datos al servidor. El uso de la desduplicación de datos del lado del cliente puede reducir la cantidad de datos que se envían a través de una red de área local.
Deduplicación por hardware frente a deduplicación por software
Los dispositivos de deduplicación funcionales reducen la carga de procesamiento asociada a los productos basados en software. Estos sistemas de deduplicación basados en hardware también pueden incorporar la deduplicación en hardware de protección de datos, como dispositivos de copia de seguridad, VTL o almacenamiento NAS.
Aunque la deduplicación por software puede eliminar eficazmente la redundancia en su origen, los métodos basados en hardware priorizan la reducción de datos en el nivel de almacenamiento. Por eso, aunque la deduplicación por hardware no supone el ahorro de ancho de banda que se obtiene al deduplicar en el origen, se compensa con el aumento de la velocidad de compresión.
La deduplicación de datos por hardware ofrece un alto rendimiento, escalabilidad y una implementación relativamente sencilla. Es más adecuada para implementaciones de tipo empresarial que para aplicaciones de pymes u oficinas remotas.
La deduplicación por software es, en su mayor parte, menos costosa y no requiere cambios significativos en la infraestructura física de red de las empresas. Sin embargo, a veces resulta más difícil instalar y mantener. Es necesario instalar agentes para permitir la comunicación entre el sitio local y el servidor de copia de seguridad que ejecuta el mismo software.
Por qué es importante la deduplicación de datos
Más información sobre la deduplicación de datos
Términos relacionados
Lecturas complementarias
Cómo puede ayudar Barracuda
La deduplicación de Barracuda Backup simplifica la protección de datos y reduce los costes generales, multimedia y de red. Con una deduplicación de tres etapas y longitud variable, permite un almacenamiento eficiente a largo plazo de los servidores protegidos mientras reduce el tiempo de copia de seguridad.