Glossar

Daten-Deduplizierung

Was ist Daten-Deduplizierung?

Die Daten-Deduplizierung ist eine Datenkomprimierungstechnik, bei der redundante Kopien von Daten aus einem System entfernt werden. Sie wird sowohl in Backup- als auch in Netzwerkdatenschemata verwaltet und ermöglicht die Speicherung eines eindeutigen Datenmodells in einer Datenbank oder einem breiteren Informationssystem. Andere Bezeichnungen für die Daten-Deduplizierung sind intelligente Komprimierung, Einzelinstanzspeicherung, Commonality Factoring oder Datenreduzierung.

Bei der Daten-Deduplizierung werden eingehende Datenelemente untersucht und anschließend mit bereits gespeicherten Daten verglichen. Falls bestimmte Daten bereits vorhanden sind, entfernen Deduplizierungsalgorithmen die neuen Daten und ersetzen sie durch einen Verweis auf die bereits vorhandenen Daten.

Wird etwa eine alte Datei mit einigen Änderungen gesichert, werden die vorherige Datei und die angewendeten Änderungen zum gesamten Datensegment hinzugefügt. Unterscheiden sich die alte und neue Datei allerdings nicht, wird die neuere Datendatei verworfen und ein Verweis erstellt.

Neben der Komprimierung ist die Daten-Deduplizierung eine Technologie, auf die Anbieter von Speicherlösungen setzen, um Speicherplatz besser zu nutzen. Diese beiden Features werden in der Regel in der größeren Kategorie der Datenreduzierung zusammengefasst. Alle Systeme arbeiten letztlich aber auf das gleiche Ziel hin, nämlich die Speichereffizienz zu steigern. Mit den passenden Deduplizierungsmethoden können Unternehmen effektiv mehr Daten speichern, als ihre gesamte Speicherkapazität vermuten lässt. Bei einem Speicher von 15 TB kann ein Unternehmen mit den richtigen Methoden für Deduplizierung und Komprimierung beispielsweise einen Vorteil im Verhältnis von 4:1 erzielen. Es könnte also auf einem 15 TB-Datenarray 60 TB speichern.

Fallstudie Daten-Deduplizierung

Das folgende Szenario ist ein praktisches Beispiel für die Vorzüge der Deduplizierung: Ein Unternehmen hat eine virtuelle Desktop-Umgebung mit Hunderten identischer Workstations. Diese sind alle in einem teuren Speicherarray gelagert, das speziell zur Unterstützung angeschafft wurde. In dem Unternehmen werden hundertfach Windows 8, Office 2013, ERP-Software und andere Tools ausgeführt, die Benutzer eventuell brauchen. Jedes einzelne Workstation-Image belegt ca. 25 GB Festplattenspeicher. Schon bei gerade einmal 200 solcher Workstations würden diese Images allein 5 TB einnehmen.

Bei der Deduplizierung muss nur eine dieser einzelnen virtuellen Maschinen gespeichert werden. Jedes Mal, wenn die Engine ein Datenelement entdeckt, das woanders in der Speicherumgebung gespeichert ist, speichert das Speichersystem statt der Datenkopie einen kleinen Zeiger, wodurch die normalerweise belegten Blöcke freigegeben werden.

Arten von Daten-Deduplizierung

Wie zu erwarten behandeln verschiedene Anbieter die Deduplizierung unterschiedlich. Zwei Deduplizierungsmethoden verdienen aber eine genauere Betrachtung:

Die Inline-Deduplizierung erfolgt in dem Moment, in dem Daten in den Speicher geschrieben werden. Dabei markiert die Deduplizierungs-Engine die Daten nacheinander, während sie aktiv sind. Dieser Prozess ist zwar effektiv, verursacht allerdings Rechenaufwand. Das System muss eingehende Daten immer wieder markieren und dann schnell erkennen, ob dieser neue Fingerabdruck mit etwas im System übereinstimmt oder nicht. Falls ja, wird ein Flag geschrieben, das auf das vorhandene Tag verweist. Falls nicht, wird der Block ohne Änderungen gespeichert. Die Inline-Deduplizierung ist bei vielen Speichergeräten eine wichtige Funktion, und auch wenn hier Mehraufwand auftritt, wiegen die Kostenvorteile diesen mehr als auf.

Bei der Post-Process-Deduplizierung, auch als asynchrone Deduplizierung bezeichnet, werden erst alle Daten vollständig geschrieben. Dann geht die Deduplizierungs-Engine in regelmäßigen Abständen alle neuen Daten durch und markiert diese, entfernt mehrere Kopien und ersetzt sie durch Flags, die auf die Originaldatenkopie verweisen.

Mit der Post-Process-Deduplizierung können Unternehmen einen Dienst für die Datenreduzierung einsetzen, ohne sich über immer wieder anfallenden Mehraufwand bei der Verarbeitung Gedanken machen zu müssen, wie dies bei der Inline-Deduplizierung der Fall ist. Hiermit wird die Deduplizierung für Unternehmen planbar und kann außerhalb der Geschäftszeiten erfolgen.

Der größte Nachteil bei der Post-Process-Deduplizierung besteht darin, dass alle Daten vollständig gespeichert werden (häufig als „fully hydrated“ bezeichnet). Deshalb benötigen die Daten den gesamten Speicherplatz, den nicht deduplizierte Daten benötigen. Die Größe verringert sich also erst nach der geplanten Deduplizierung. Unternehmen, die Post-Process-Deduplizierung einsetzen, müssen demnach jederzeit einen größeren Puffer an Speicherkapazität haben.

Die Clientseitige Daten-Deduplizierung wird zum Beispiel auf einem Backup-Archiv-Client eingesetzt, um während Backup- und Archivierungsvorgängen redundante Daten zu entfernen, bevor die Daten an den Server übertragen werden. Mithilfe clientseitiger Daten-Deduplizierung lässt sich die Datenmenge reduzieren, die über ein lokales Netzwerk gesendet wird.

Hardwarebasierte Deduplizierung vs. softwarebasierte Deduplizierung

Funktional aufgebaute Deduplizierungs-Appliances sorgen gegenüber softwarebasierten Produkten für weniger Kummer hinsichtlich der Rechenleistung. Außerdem können diese hardwarebasierten Deduplizierungssysteme auch Datensicherungshardware wie Backup-Appliances, VTLs oder NAS-Speicher mit Deduplizierungsfunktionen ausstatten.

Obgleich die softwarebasierte Deduplizierung Redundanz an der Quelle effektiv beseitigen kann, reduzieren hardwarebasierte Methoden Daten bevorzugt auf Speicherebene. Deshalb bringen sie keine Bandbreiteneinsparungen, die durch das Deduplizieren an der Quelle erzielt werden. Höhere Komprimierungsgeschwindigkeiten gleichen das allerdings wieder aus.

Die hardwarebasierte Daten-Deduplizierung ist äußerst leistungsfähig, skalierbar und relativ unterbrechungsfrei in der Bereitstellung. Sie eignet sich am besten große Unternehmen, weniger für KMU oder Remote-Office-Anwendungen.

Die softwarebasierte Deduplizierung ist meist kostengünstiger im Unterhalt und erfordert keine wesentlichen Änderungen an der physischen Netzwerkinfrastruktur eines Unternehmens. Allerdings ist die Installation und Wartung hier oft komplizierter. Es müssen Agents installiert werden, damit die Kommunikation zwischen lokalem Standort und Backup-Server möglich ist, auf dem dieselbe Software ausgeführt wird.

Warum Daten-Deduplizierung für Sie wichtig ist

Die Speicherkapazitäten von Datenträgern nehmen zwar ständig zu. Dennoch suchen Anbieter von Datenspeicherlösungen immer wieder nach Methoden, mit denen Kunden die immer größer werdenden Datenberge kompakt in Speicher packen können. Auch bei größeren Datenträgern ist es schließlich sinnvoll, Möglichkeiten auszuloten, mit denen ihre potenzielle Kapazität bestmöglich ausgeschöpft werden kann. Die Deduplizierung hat immer einen äußerst positiven Effekt auf die gesamte Speichernutzung und senkt somit die Kosten. Allerdings muss man wissen, welche Methode man braucht, damit an den richtigen Schrauben für die Effizienz gedreht wird. Einige Methoden setzen auf weniger Bandbreitenanforderungen, andere reduzieren lokalisierte Speicherabhängigkeiten und wieder andere lassen sich direkt in Cloud-Computing-Dienste einbinden.

Daten-Deduplizierung – weiterführende Ressourcen

Zugehörige Begriffe

Weiterführende Ressourcen

Wie Barracuda Sie unterstützen kann

Die Deduplizierungslösung von Barracuda Backup vereinfacht die Datensicherung und verringert die Kosten für Puffer, Datenträger und Netzwerke. Dank dreistufiger Deduplizierung mit variabler Länge ist eine effiziente Langzeitspeicherung geschützter Server möglich. Gleichzeitig verkürzt sich die Backup-Zeit.