Systemüberwachung und -optimierung

Kunde: Hersteller von Werkzeugen und Werkzeugmaschinen
Zeitraum: 24.06.1998 bis 31.12.1998

Herausforderung:
Aufgabe in diesem Projekt war es, die Abteilung "R/3 Basis" bei der Betriebsführung der R/3 Systeme zu unterstützen. Technisch gesehen, sind R/3 Systeme komplexe und hoch-skalierbare Client/Server Systeme mit transaktional-relationalen Datenbanksystemen. Sie dienen nicht nur einer großen Anzahl von Endanwendern (sowohl in Dialog- als auch in Batch-szenarien), sie sind im Normalfall zudem mit weiteren Systemen verbunden, deren Funktionsweise bei einem Ausfall des R/3 Systems eingeschränkt ist.
Es waren 9 Entwicklungssysteme, 9 Testsysteme und 9 Produktivsysteme, zu betreuen. Dabei lief das größte Produktivsystem auf 8 UNIX Servern.
Meine Hauptaufgabe war es, die Systemüberwachung hinsichtlich Fehlfunktionen und nicht ausreichender Performanz zu übernehmen und soweit möglich zu automatisieren. Dabei sollten auch Trendanalysen ermöglicht werden, um Probleme präventiv erkennen zu können. Es sollten auch Systemoptimierungen vorgenommen werden (bei Erkennung von unzureichender Konfiguration bzw. Parametrisierung der verantwortlichen Systemkomponenten).

Ergebnis:
Durch die Überwachung der R/3 Systeme konnten Systemausfälle präventiv vermieden werden.

Vorgehensweise:
Ein Grund für die mangelnde Ausstattung an Systemüberwachungsmitteln ist die Komplexität der zu überwachenden Systeme, die oftmals eine Einführung bzw. Produktauswahl solcher Hilfs- und Dienstprogramme erschwert. Meiner Erfahrung nach stellt ein Hilfs- und Dienstprogramm in den seltensten Fällen die alleinige Lösung des Problems dar, da es nur im Rahmen eines verlässlichen Betriebsführungskonzeptes wirksam eingesetzt werden kann.
Ein Betriebsführungskonzept (auch "Betriebsführungshandbuch") legt fest, welche Service-Level-Agreements (SLAs) zwischen den Fachabteilungen und den für den Systembetrieb verantwortlichen EDV-Abteilungen abgeschlossen wurden (z.B. Mindestreaktionszeiten im Störfall, oder Mindestantwortzeiten des Produktivsystems), wie Fehlfunktionen zu erkennen sind, welche Maßnahmen in welchen Fehlerfällen zu ergreifen sind etc. Dies geht hin bis zu detaillierten Anweisungen zum Wiederanstarten oder im Zerstörungsfall zum Wiederherstellen der Systeme. Da die Systemüberwachung ein sehr individuelles (von der Systemumgebung und Organisation des Kunden abhängiges Problem) darstellt, schlage ich in Fällen wie bei diesem Kunden eine Prototyping-Methode vor. Mithilfe eines systematisch entwickelten Prototypen können folgende Vorteile realisiert werden: 1) die Grundprobleme der Architekturen und des Monitorings können von Mitarbeitern des EDV-Betriebs besser verstanden werden. 2) Zeitgleich können schon die drängendsten Probleme angegangen werden, ohne dass man auf eine Systemüberwachungslösung wartet, deren Einführung sich über einen längeren Zeitraum hinziehen kann. 3) Der Prototyp dient dem Investitionsschutz des Unternehmens, da er die Basis für ein qualitativ hochwertiges Pflichtenheft darstellt und dazu beiträgt, die für das Unternehmen richtige Investitionsentscheidung zu treffen. M.E. ist hier der Prototyping-Ansatz dem klassischen Wasserfallmodell überlegen.
Im Rahmen der Unterstützungsleistung habe ich die Produktivsysteme auf ihre Konfiguration und Performanzcharakteristiken hin analysiert und die Ergebnisse mit Mitarbeitern der "R/3 Basis" Abteilung diskutiert. Weiterhin habe ich in Hinblick auf eine systematische und verlässliche Betriebsführung ein Arbeitspapier vorgelegt, in welchem ich strikt zwischen K- und P-Parametern trenne (Kritische Parameter bzw. Ereignisse versus Performanz-beeinflussenden Parameter bzw. Ereignisse). K-Ereignisse sind Ereignisse, die die Funktionstüchtigkeit des Systems erheblich gefährden, z.B. ABAP-Fehler oder volle Filesysteme/Tablespaces. P-Ereignisse sind Ereignisse, die eigentlich keinen "Fehler" darstellen, sondern die die Funktionstüchtigkeit des Systems einschränken, weil dieses nicht in angemessener Zeit auf User-Requests reagiert. Ausgehend von dieser Unterscheidung beschreibe ich die für die Betriebsführung relevanten Überwachungsparameter. Mithilfe des Papiers konnte überprüft werden, welche K-Parameter die eingesetzten Hilfs- und Dienstprogramme zur Überwachung bereits abdecken. Lücken konnten systematisch geschlossen werden. Zur Beurteilung der ebenso wichtigen P-Parameter jedoch fehlte ein Hilfs- und Dienstprogramm zur Überwachung. Gerade Trendanalysen waren somit schwer zu erhalten, z.B. blieb die Frage offen, ob sich die Antwortzeit eines Produktivsystems stetig über Wochen verschlechtert (was in der Praxis durchaus vorkommen kann, weil sich z.B. Tabellenzugriffszeiten sukzessive verschlechtern). Deshalb schlug ich vor, einen Prototypen zu entwickeln, mit dessen Hilfe die P-Parameter aus den Systemen extrahiert und grafisch dargestellt werden konnten. Ausgehend von einem Pflichtenheft basierend auf meinem Arbeitspapier entwickelte ich eine Systemsoftware, die R/3 Laufzeitkennzahlen aufbereitet und grafisch darstellt.
Die Qualität des Prototypen wurde in regelmäßigen Reviews überprüft und Änderungswünsche des Kunden entsprechend eingebaut.

Benötigte Kenntnisse:
Informationstechnologie, Netzwerke, Betriebssysteme, Datenbank-Architekturen, Architektur von SAP R/3, CCMS (R/3 Computing Center Management System), Architektur von Frontends (PCs, Laptops), Methoden der systematischen und verlässlichen Systemüberwachung, Architektur von Hochverfügbarkeitslösungen, Performanz-Analyse und systematisches Tuning. Programmiersprachen (SQL, ABAP, Visual Basic, UNIX Skripte). Microsoft Excel, Betriebsführungskonzepte

Vergleichbare Projekte:
Entwicklung eines Betriebsführungshandbuches.