10.10.2022 | Blog Mit Fileshare-Analyse verborgene Datenschätze finden
Ob Handbücher, Datenblätter oder Präsentationen – in vielen Unternehmen sammeln sich auf den Servern immer mehr Daten an. Nicht immer ist die Qualität der Metadaten dieser Dokumente optimal und oft gibt es auch Brüche bei den Zugriffsrechten auf die Daten. Die Realität in vielen Unternehmen, besonders bei der Nutzung von Fileshares, ist die, dass oftmals Dubletten oder veraltete Dokumente den Fileshare „zumüllen“. In der Regel müssen Mitarbeiter noch immer genau wissen, wo ein bestimmtes Dokument gespeichert ist und wie es heißt. Wird die Datei jedoch an einem anderen Ort gespeichert oder nicht korrekt bezeichnet oder mit entsprechenden Metadaten versehen, findet man das Dokument unter Umständen gar nicht. Dadurch geht wertvolles Wissen verloren oder das Rad wird zu oft zweimal erfunden, weil dem Mitarbeiter zum Beispiel nicht bewusst ist, dass es eine Information zu einem bestimmten Thema bereits gibt.
Eine zusätzliche Herausforderung ergibt sich dann, wenn die Daten auf eine andere IT-Architektur migriert werden müssen. Oftmals steht der IT-Administrator vor der Herausforderung, nur die Daten zu migrieren, die auch wirklich benötigt werden oder gemäß Datenschutzrichtlinien migriert werden dürfen. Dies ist insbesondere dann eminent wichtig, wenn die Migration der Daten aus den Unternehmensnetzwerken hin in einen Cloud-basierten Data Lake geschieht. Dubletten sollten hierbei entfernt werden, so dass Dateien nicht unnötig doppelt umgezogen werden. Das bestehende Rechte- und Rollenkonzept muss dabei jedoch genau betrachtet und auf der Zielplattform eingehalten werden. Personenbezogene oder andere schützenswerte Inhalte müssen identifiziert werden.
Fileshare-Analyse betreiben heißt Datenqualität verbessern
Um herauszufinden, welche Daten migriert werden sollen und welche gelöscht werden können, muss die IT-Abteilung jedoch erst einmal wissen, welche Daten es gibt und wo sich diese befinden. Durch eine tiefgehende Analyse der Fileshares können alle Daten erfasst werden. Dadurch werden vor allem drei wichtige Erkenntnisse gewonnen:
- Das Erkennen von Brüchen im Rechtekonzept: Durch Ausschneiden und Einfügen von Ordnern mit vielen angehängten Dateien – ein durchaus gängiges Mittel bei der Migration von Abteilungsdaten – kommt es oft zu Rechtebrüchen im Fileshare. Das Problem, das sich daraus ergibt, ist, dass Ordner, auf denen Berechtigungen fehlen, im Fileexplorer nicht angezeigt werden. Dokumente, die aber unterhalb der Ordner liegen, besitzen oftmals wieder die Rechte des Benutzers. Ein Problem bei Migrationsprojekten oder auch bei einem Enterprise Search-Projekt ist, dass nun die Suchmaschine diese Dokumente richtig anhand der bestehenden Dateirechten in der Trefferliste anzeigt, obwohl der Ordner gegebenenfalls nicht im Fileexplorer zu sehen ist.
- Die Sicht auf Metadaten. Hier lässt sich unter anderem erkennen, wie oft auf die Daten zugegriffen wird und welche Dateiformate wie häufig in welchen Bereichen vorkommen. Auch das Alter der Inhalte kann analysiert werden.
- Die inhaltliche Analyse. Hier geht es darum, mit Content Analytics-Verfahren die wesentlichsten Inhalte zu extrahieren. In der Analyse werden auch die Verzeichnispfade auf Top-Themen und wichtige Metadaten hin analysiert, innerhalb der Dokumente werden wichtige Schlagworte erkannt sowie Informationen über Produkte, Mitarbeiter bzw. Personennamen, Orte oder Firmennamen gesammelt und in der Analyse-Plattform angezeigt.
Der Nutzen für Unternehmen
Durch die beschriebene Detail-Analyse der Filesharedaten kann ein Security Manager Vertrauen schaffen, indem die Daten sauber migriert werden und die Sicherheitsanforderungen, wie integrierte Rechtekonzepte, eingehalten werden.
Ebenso wichtig ist zudem der Aspekt der inhaltlichen Analyse. Welche Dokumente müssten gemäß gesetzlicher oder unternehmensspezifischer Löschfristen und Compliance-Richtlinien aus den Speichersystemen entfernt werden? Welche Dokumente gilt es gesondert zu betrachten, weil es hierfür bereits definierte Workflows oder Zielsysteme im Unternehmen gibt?
Das Unternehmen profitiert von der Fileshare-Analyse außerdem in folgenden Punkten:
- Mehr Sicherheit: Durch das Erkennen von fehlenden Rechtekonzepten können diese nachträglich ergänzt werden.
- Bessere Qualität der Daten: Durch das Aufdecken von Dubletten können diese bereinigt werden. Daten, die lange nicht mehr verwendet wurden oder veraltet sind, können bequem in einem gesonderten Prozess gelöscht werden.
- Mehr Wissen: Dokumente werden mit Metadaten versehen, sodass der Nutzer weiß, welche Inhalte sich in den Daten befinden. Verborgenes Wissen kann so aufgedeckt und einem großen, berechtigten Nutzerkreis zur Verfügung gestellt werden.
- Weniger Kosten: Durch die Datenbereinigung lassen sich nicht zuletzt Speicherplatz und damit Kosten für weitere Server sparen. Bei einer Migration verringert sich gegebenenfalls das zu migrierende Datenvolumen aufgrund der gewonnenen Erkenntnisse drastisch.
Fileshare-Analyse mit iFinder und Kibana
Sind alle zu analysierenden Datenquellen erfasst, werden sie im nächsten Schritt mit dem iFinder indexiert und recherchierbar gemacht. Der iFinder ist eine Enterprise Search-Lösung für die unternehmensweite Suche in strukturierten und unstrukturierten Daten. Kibana ist eine Visualisierungsplattform von Elastic, die die Suchoberfläche des iFinder um flexible Reportingfunktionen ergänzt. Darüber hinaus verfügt der iFinder über zahlreiche Content Analytics-Funktionen. Bereits beim Indexieren extrahiert der iFinder aus den Dokumenten die Metadaten wie zum Beispiel Autor, Datum oder Titel und stellt diese später in der Trefferliste zur Ansicht bereit. Tauchen im Dokument Schlagworte, Produkte, Personen, Organisationen oder Orte auf, erkennt die Software diese ebenfalls automatisch. Diese Angaben werden dann als zusätzliche Metadaten im Index gespeichert und sind so für den Analysten recherchierbar.
Suchanfragen können einfach und schnell gefiltert werden. So lässt sich zum Beispiel bei einer Suche nach dem Begriff „confidential“ über die angebotenen Suchfilter Dateityp „PowerPoint“ und Autor „IntraFind“ sowie aus der Zeitleiste der „letzte Monat“ aus einem großen Datenbestand, eine überschaubare Menge an Inhalten filtern. Mit drei Klicks werden dadurch alle PowerPoint Präsentationen, in denen der Begriff „confidential“ vorkommt, des vergangenen Monats von IntraFind gefunden.
In einer weiteren Ansicht der Analyseplattform lassen sich schnell die gewonnenen Metadaten anhand moderner, auf Kibana basierenden Dashboards selbständig in Reports zusammenfassen. Reports sind einfach und schnell neu definiert und wiederum für eine Gruppe von Analysten wiederverwertbar.
So unterstützt der iFinder die Fileshare-Analyse:
- Autovervollständigung: mit Tippfehlerkorrektur und „Meinten-Sie“-Vorschläge
- Preview: Vorschaufunktion für mehr als 600 Dateiformate und Hervorhebung der Trefferstelle in der Großpreview der iFinder-Benutzeroberfläche.
- Metadatenerzeugung: Über das automatische Verschlagworten als Standardfunktionalität des iFinder können fehlende Metadaten automatisch oder in einem qualitätsgesicherten Prozess aus den unstrukturierten Volltexten erzeugt und die Inhalte damit angereichert werden. Das System erzeugt folgende Metadaten: Top-Schlagworte, allgemeine Eigennamen von Personen, Unternehmen oder auch firmenspezifische Entitäten wie Produktnamen oder Abteilungsbezeichnungen sowie Themenzugehörigkeiten. Es können dann darauf aufbauend auch Relationen zwischen den Entitäten erkannt und angereichert werden.
- Rechtebrüche aufzeigen: Bei der Indexierung werden die Dokumente, die andere Rechte haben als der Ordner, in denen sie sich befinden, mit entsprechenden Metadata Flags versehen. In der Trefferliste sind diese dann entsprechend farblich gekennzeichnet und auch filterbar. So erhält jeder Benutzer auch eine Sensibilisierung für das Thema möglicher Rechtebrüche.
- Dublettenprüfung: Filterung nach Dokumenten mit gleichem Inhalt beziehungsweise nach identischen Dokumenten
- Ähnliche Dokumente finden: Auf Basis der Schlagworte und Top-Terme eines gefundenen Dokuments werden im Bestand inhaltlich ähnliche Dokumente gefunden.
- Speicherung von kompletten Suchanfragen, Unterstützung von Kollaborations-Funktionalitäten
- Rollenkonzepte: Der iFinder nutzt Rechte- und Rollenkonzepte, mit denen sich unterschiedliche Ansichten auf die Inhalte der Dokumente steuern lassen. Ein Mitarbeiter aus der Rechtsabteilung könnte so beispielsweise auch unabhängig der Dokumentenrechte Inhalte der Dokumente sehen. Fachadministratoren könnte man nur Zugriff auf ihre „eigenen Daten“ gewähren und für IT-Administratoren wäre es durchaus denkbar, dass sie die Metadaten aller Dokumente sehen, die das System erfasst.
- Der iFinder basiert auf der Technologie Elasticsearch und kennt keinerlei Limitierung bezüglich der zu erfassenden Datenmengen. Mehrere Milliarden Datensätze stellen für den iFinder keinerlei Hürde dar.
Selbstverständlich ist eine inhaltliche Analyse der Daten auch in jedem anderem Quellsystem sinnvoll. Auch über Datenquellen hinweg ist die Analyse in vielen Anwendungsszenarien ein wichtiges Werkzeug dafür, um Sicherheit über die Dateninhalte und Datenstruktur zu gewinnen.
Erfahren Sie hier mehr über KI-basierte Dokumentenanalyse.
Fragen Sie uns nach erfolgreichen Projektbeispielen bei unseren Kunden!