Fachartikel zur Übersicht
Ein Erfahrungsbericht über den Einsatz einer Suchmaschine
Nach einer Studie des Instituts der deutschen Wirtschaft (iwd 2003) verbringt jeder Mitarbeiter durchschnittlich 2,44 Std. / Woche mit der Suche nach Dokumenten. Für die Verwaltung (Sichtung und Weiterleitung) von Emails werden sogar 3,45 Std. / Woche benötigt. Das verursacht für ein Unternehmen mit 1000 Mitarbeiter Kosten in Höhe von ca. 3,7 Mio Euro bzw. 5,3 Mio Euro pro Jahr. Wie kann man diese ungeheure Verschwendung eindämmen? Wir berichten im folgenden Artikel über den Einsatz einer Suchmaschine, um die Zeitverschwendung durch Dokumentensuche zu minimieren.
Vorüberlegungen zur Suche von Dokumenten
Jeder Mitarbeiter eines Unternehmens in Deutschland verbringt durchschnittlich 2,44 Stunden pro Woche mit der Suche nach Dokumenten [1]. Das kostet einem Unternehmen mit 1000 Mitarbeitern mehr als 3,5 Millionen Euro pro Jahr [1]. Für ein mittelständisches Unternehmen der Größe der Sybit GmbH mit ca. 100 Mitarbeitern würde nach dieser Studie auch eine stolze Summe durch diese manuelle Dokumentensuche verschwendet.
Es stellt sich die Frage, welche Maßnahmen man ergreifen kann, damit so eine Verschwendung abgestellt oder wenigstens minimiert wird. Bei unseren Überlegungen in diesem Artikel gehen wir davon aus, dass der Großteil der Dokumente in elektronischer Form vorliegt. Bei selbst produzierten Dokumenten ist das heutzutage in jedem Unternehmen selbstverständlich. Außerdem werden in der Regel wichtige externe Dokumente, die in Papierform in das Unternehmen gelangen, wie beispielsweise Aufträge, eingescannt. Es geht also darum, eine Übersicht über die elektronischen Dateien eines Unternehmens zu bekommen. Da gibt es eigentlich nur zwei Methoden:
- Die komfortable, aber teurere und aufwändige Lösung eines Dokumentenmanagementsystems (DMS), das auch Teil eines Content-Managementsystems (CMS) sein kann. In diesen Systemen ist immer eine Suchmaschine integriert.
- Oder die einfache Variante einer "nackten", zentralen Suchmaschine.
Ich möchte hier nicht in eine Diskussion über die Vorteile eines DMS/CMS einsteigen. Hierzu findet der Leser eine Fülle von Informationen im Internet, z.B. in [2]. Die Sybit GmbH hat sich entschlossen, eine Suchmaschine einzusetzen, die den gesamten Fileserver indiziert und für alle Mitarbeiter eine zentrale Suche über alle Dokumente anbietet. Indizieren bedeutet dabei das Aufbereiten der Dateiinhalte und der Dateimetadaten für eine optimale Suche und das Abspeichern dieser aufbereiteten Daten in einer Suchdatenbank. Die eigentliche Suchabfrage eines Nutzers (nachdem eine Indizierung durchgeführt wurde) läuft dann nur über die Suchdatenbank und belastet das Filesystem nicht.
Die Suchmaschine
Beim Einsatz einer Suchmaschine war uns wichtig,
Tipp: LDAP-Anbindung für die Berechtigungssteuerung berücksichtigen!
dass diese eine LDAP-Anbindung an das Windows Active Directory für die Nutzer-Identifikation hat und dass die Suchmaschine die Nutzerrechte auf dem Fileserver berücksichtigt. Beides wird vom Microsoft Search Server erfüllt. Diesen gibt es sogar in einer kostenlosen Express-Version, die für unsere Zwecke eine ausreichende Funktionalität bietet.
Der MS Search Server Express kann kostenlos von Microsoft heruntergeladen und dann betrieben werden [3]. Er ist der kleinere Bruder des kostenpflichtigen Microsoft Search Servers. Die Funktionalitäten sind ähnlich. Ein wichtiger Unterschied der Express-Version liegt darin, dass man keine Serverfarm mit mehreren Application-Servern aufbauen kann. Für die Sybit GmbH war es absolut ausreichend, nur einen Server zu installieren, daher haben wir uns für den MS Search Server Express entschieden. Der Express-Server kann entweder mit der MS-SQL-Express-Datenbank, die im Setup enthalten ist, installiert oder mit einer externen MS-SQL-Datenbank verbunden werden.
Tipp: Der kostenlose MS Search Server Express reicht für 500.000+ Dokumente!
Die Express-Datenbank ist zwar kostenlos, hat aber eine 4-GByte-Sperre eingebaut. Diese Grenze haben wir in einem ersten Test-Versuch sofort gerissen, so dass wir bei der Produktiv-Installation eine vorhandene MS-SQL-Datenbank verwendet haben.
Tipps zur Installation
Die Dokumentation von Microsoft ist im Prinzip ausreichend für die erfolgreiche Installation und Inbetriebnahme des MS Search Server Express [4]. Dennoch gibt es ein paar Fallstricke und Tipps, die nützlich sind zu wissen.
Tipp: Vor der Installation Systemvoraussetzungen prüfen!
Wir nutzen die Version MS Search Server 2008 Express (12.0.6425.1000). Mit einem Assistenten prüft man unbedingt im Vorfeld der Installation, ob alle Systemvoraussetzungen für die Installation gegeben sind (Internet Information Server, DotNet-Framework, …). Bei der Installation des Suchservers muss man entscheiden, ob man die im Setup enthaltene MS-SQL-Express-Datenbank betreiben möchte (4 GByte-Sperre) oder ob man eine vorhandene MS-SQL-Datenbank nutzen möchte. Diese Entscheidung kann man nach der Installation nicht mehr rückgängig machen (außer man führt eine komplette Deinstallation durch). Eine vorhandene MS-SQL-Datenbank kann nur genutzt werden, wenn man die Option „Serverfarm“ wählt. Dieses kann bedenkenlos ausgewählt werden, auch wenn man nicht die Absicht hat, eine Serverfarm aufzubauen, wie in unserem Fall.
Tipp: Tests mit dem MS Search Server NUR innerhalb einer VM machen!
Eine Testversion sollte auf alle Fälle in einer virtuellen Maschine (VM) installiert werden, damit man ungestört experimentieren kann. Eine VM ist ein absolutes MUSS, wenn man die Beta-Version testet. Bei der Version 2010 Beta wird von Microsoft nicht garantiert, dass die Deinstallation absolut sauber von statten geht. Definitiv kann man nach der Installation und Deinstallation der Beta-Version weder Sharepoint 2008 noch die 2008-Suchmaschine installieren. Abhilfe würde hier nur die Operation am offenen Herzen des Windows-Systems schaffen, in dem man nach der Deinstallation der Beta-Version die übrig gebliebenen Sharepoint-Policies manuell löscht. So haben wir das einmal nach der Deinstallation der Beta-Version wieder hinbekommen, die 2008-Version zu installieren. Auch wenn es trivial klingt: Wir können nur dringend empfehlen, für eine produktive Suchmaschineninstallation keine Beta-Version zu verwenden!
Tipp: Keine Betas verwenden!
Der Microsoft Search Server (Express) kann, so wie er ausgeliefert wird, keine Wild-Card-Suche. Außerdem indiziert er keine PDF-Dateien. Letzteres lässt sich recht einfach erweitern. Dazu wird das Interface IFilter genutzt. Es gibt von Adobe ein kostenloses PlugIn dazu [5].
Tipp: PlugIn für PDF einbinden!
Befolgt man genau die Installationsanleitung von Adobe, so klappt das sofort. Auch andere Formate, die der Suchserver von Haus aus nicht kennt, können ihm über das Interface IFilter beigebracht werden. Für die Wild-Card-Suche gibt es auch ein PlugIn [6], das wir aber bisher noch nicht ausprobiert haben. Vielleicht gibt es ja einen geneigten Leser, der dieses mal testet und uns dann davon berichtet.
Erfahrungen beim Testen bzw. Evaluieren
Bei der ersten Testinstallation haben wir die Standardinstallation mit der MS-SQL-Express-Datenbank gewählt. Wir waren nach dem ersten vollen Durchforsten unseres Fileservers (Crawl) zum Indizieren der Dateien, erstaunt, dass die Suchmaschine dort über 500.000 Dateien gefunden hatte. Was sind unsere Kollegen fleißig gewesen! Das Datenaufkommen durch die Indizierung hängt sowohl von der Anzahl als auch von der Größe der Dateien ab. Unsere 500.000 Dateien beanspruchen einen Platz von ca. 80 GByte, sodass die durchschnittliche Größe einer Datei 160 kByte ist. Dieses Datenvolumen hat aber schon die 4-GByte-Grenze der MS-SQL-Express-Datenbank bei der ersten Indizierung fast geknackt. Nach einer weiteren inkrementellen Indizierung war es dann soweit und die MS-SQL-Express-Datenbank kam an ihre Grenze. Leider gibt es keine Meldung beim Erreichen dieser Grenze oder vorsichtiger ausgedrückt, wir haben keine entsprechende Meldung im System finden können. Die Indizierung bleibt einfach stehen. Es blieb uns nichts anderes übrig, als eine erneute Installation der Suchmaschine als Serverfarm durchzuführen, um eine MS-SQL-Datenbank ohne Sperre nutzen zu können.
Tipp: MS-SQL-Express nur im Notfall!
Die Indizierung läuft in den frühen Morgenstunden als inkrementeller Prozess und am Wochenende tagsüber als Vollindizierung. Die Vollindizierung benötigt ca. 8 Stunden, die inkrementelle ca. 2:30 Std. Da nachts unser Backup läuft, haben wir vorsichtshalber die Indizierungszeit außerhalb des Backups gewählt.
Nach diesen Vor-Tests habe ich dann einige potentielle Key-User gebeten, die Testinstallation zu evaluieren, sprich die Suchmaschine für ihre tägliche Arbeit zu nutzen. Das erste Ergebnis war ernüchternd. Das lag nicht an der Suchmaschine sondern an meiner Auswahl der Testnutzer. Im Rahmen einer CMMI-Prozessverbesserungsinitiative (CMMI siehe [7]) hatten wir eine streng definierte Ordnerstruktur für jedes Projekt eingeführt, bei der genau festgelegt ist, wo welche Dokumente/Dokumenttypen abgelegt werden müssen. Meine ersten Testnutzer waren ausschließlich Projektleiter, die sich in ihren Projekten und ihren Projektdokumenten nicht zuletzt wegen der strengen Ordnerstruktur bestens auskannten.
Tipp: Die richtigen Verbündeten suchen!
Jeder Projektleiter hatte aber nur die Dokumente seiner Projekte im Auge, so dass hier eine Suchmaschine gar keinen so großen Mehrwert brachte (trotz der eingangs erwähnten Statistik über Zeitverschwendung durch Suche). Wenn ich genau weiß, wo meine Dokumente liegen, brauche ich nicht zu suchen. Das fast einhellige Ergebnis dieser ersten Evaluation war: "Nice to have", aber nicht absolut nötig. Ich wollte schon aufgeben und die Suchmaschine wieder "einstampfen", da kam mir der Zufall zu Hilfe: Unser Vertrieb und Marketing bekam von der Sache Wind und war begeistert. Hier war die Situation natürlich ganz anders, da eine projektübergreifende Suche gefragt war. Durch Suchabfragen konnten Querbezüge zwischen Dokumenten hergestellt werden, die sowohl für den Vertrieb als auch für das Marketing von großer Wichtigkeit waren. Ich hatte also für die Evaluation zuerst die falschen Stakeholder ausgewählt.
Fazit
Mittlerweile ist unsere Suchmaschine einige Wochen offiziell in Betrieb, es ist also keine Testinstallation mehr. Anhand der Abfragestatistiken, die man als Administrator einsehen kann, erkenne ich, dass die Suchmaschine immer mehr angenommen wird. Dieser Prozess geht zwar langsam von statten, aber der Trend ist eindeutig. Anhand der Suchabfragen und der Klicks auf die Ergebnisse (auch das liefert der Suchserver) sehe ich, dass wahrscheinlich auch Projektleiter die Suche nutzen.
Die zentrale Suche von Dokumenten ist besonders wertvoll für projektübergreifende Abfragen. Diese werden tendenziell häufiger von Unternehmensbereichen wie Vertrieb/Marketing, Organisation oder Qualitätsmanagement durchgeführt.
Wichtige Information bekommt man über Querbezüge zwischen Dokumenten. Das kann nur eine Suchmaschine liefern. Und wenn es auch "nur" darum geht, konsequent "durchgehaltene" Schreibfehler in vielen Dokumenten zu finden. Für Projektmitarbeiter, die hauptsächlich an Dokumenten ihrer Projekte interessiert sind und genau wissen, wo diese liegen, bietet die Suche trotzdem neue Möglichkeiten, nämlich in archivierten Projekten zu suchen.
Die Suchmöglichkeit entbindet aber nicht von einer strukturierten Ablage von Dokumenten. Eine Suchmaschine darf nicht dazu führen, dass man Dokumente wahllos "abkippt", da sie ja sowieso über die Suche gefunden werden können. Hier ist immer noch unsere straffe Organisation der Projektordner von großer Bedeutung.
Als Ausblick ist erwähnenswert, dass man in den Suchserver über das Interface "OpenSearch" weitere externe Suchmaschinen einbinden kann. Dabei muss man jetzt nicht nur an Internetsuchmaschinen denken, sondern z.B. auch an einen firmeninternen Issuetracker oder ein Intranet. Ich bin mir sicher, dass die Projektleiter eine integrierte Suche in unserem Issuetracker nicht nur als "nice to have" empfinden würden.
[1] http://www.steinbeis-wissensmanagement.de/Weblog/Kosten-Dokumentensuche und iwd 2003
[3] http://www.microsoft.com/enterprisesearch/en/us/search-server-express.aspx
[4] http://technet.microsoft.com/en-us/library/dd183108.aspx
[5] http://www.adobe.com/support/downloads/detail.jsp?ftpID=4025
[6] http://wildcardsearch.codeplex.com
[7] http://www.sybit.de/sybit-agile/CMMI_als-_Leitfaden_nicht_als_Gaengelband.html
Erschienen in:
Sybit Industry online
Ausgabe:
Mai 2010
Autor:
Dr. Friedrich-Karl Koschnick, Sybit GmbH
Kontakt
Stephanie King
Tel. +49 (0) 7732 9508-106
Fax +49 (0) 7732 9508-111
presse@sybit.de
Dr. Friedrich-Karl Koschnick

Dr. Friedrich-Karl Koschnick ist promovierter Physiker. Er hat Erfahrung als Software-Entwickler und Entwicklungs-
leiter, ist CMMI-Assessor und zertifzierter ScrumMaster.
Bei der Sybit GmbH ist er für das Qualitätsmanagement und für das Projekt-Controlling verantwortlich.

