In-situ MTBF-BerechnungsmethodenDie Zuverlässigkeit von Systemen vorhersagen
Von
Christian Bernhardt*
7 min Lesedauer
Die Industrie ist zunehmend daran interessiert, drohende Ausfälle von komplexen elektrischen Schaltkreisen zu erkennen und deren aktuellen Zustand zu bewerten – und das trotz der Komplexität und der technischen Herausforderungen. Doch wie lässt sich das realisieren?
Bild 1: Die Badewannenkurve und die Beiträge der verschiedenen Phasen.
(Bild: Infineon Technologies)
Besonders in Rechenzentren und im Telekommunikationssektor bergen Ausfälle der Stromversorgung erhebliche Risiken. Einem Bericht des Uptime Institute aus dem Jahr 2021 zufolge belaufen sich die durchschnittlichen Kosten eines ungeplanten Ausfalls eines Rechenzentrums auf etwa 740.357 US-Dollar. In einer Umfrage des ITIC zur Zuverlässigkeit von Serverbetriebssystemen gaben 40 Prozent der befragten Unternehmen an, dass die Kosten für die Ausfallzeit pro Stunde 1 Million US-Dollar übersteigen. Ein reibungsloser Betrieb und die Minderung finanzieller Auswirkungen sind daher dringend erforderlich.
Die Bestimmung der Zuverlässigkeit und des Gesamtzustands elektrischer Systeme, insbesondere von Stromversorgungen, ist komplex. Diese Komplexität ergibt sich aus der Vielzahl von Komponenten in typischen Designs und den extremen Bedingungen, denen Hochleistungsnetzteile ausgesetzt sind. Aufgrund der Vielfalt dieser Systeme und ihrer Betriebsumgebungen gibt es keine universelle Lösung.
Klassische Ansätze zur Modellierung der Zuverlässigkeit
Mögliche Ansätze zur Bewertung der Zuverlässigkeit elektrischer Schaltkreise lassen sich in vier Hauptkategorien einteilen, wie in Tabelle 1 dargestellt. Die Lösungen variieren je nach deterministischer oder statistischer Modellierung und danach, ob die Ausführung in-situ (z. B. auf einem Mikrocontroller) oder ex-situ (z. B. eine Cloud-Anwendung) erfolgt.
Um die Komplexität zu bewältigen, ist es ratsam, sich näher mit statistischen Modellen, insbesondere Zuverlässigkeits-Vorhersagemodellen zu befassen – ein allgemein anerkannter, klassischer Ansatz in diesem Bereich. Die Badewannenkurve, wie in Bild 1 dargestellt, ist hier von grundlegender Bedeutung und veranschaulicht, wie sich die Ausfallrate einer Bauteilgruppe im Laufe der Zeit verändert. Sie wird mithilfe der Weibull-Verteilung beschrieben.
Die erste Lebenszyklusphase ist die Phase der Frühausfälle. Sie weist eine hohe, schnell abnehmende Ausfallrate aufgrund anfänglich fehlerhafter Bauteile auf. In der zweiten Phase, der normalen Lebensdauer mit zufälligen Ausfällen, ist die Ausfallrate relativ konstant, da die meisten fehlerhaften Bauteile bereits ausgefallen sind und Alterungseffekte minimal sind. In der dritten Phase, der Verschleißphase, kommt es zu einem starken Anstieg der Ausfallraten aufgrund von Alterung und Verschleiß. Der Zeitraum zwischen der normalen Lebensdauer und der Verschleißphase wird als Produktlebensdauer bezeichnet und ist in der Regel so konzipiert, dass Verschleißerscheinungen vermieden werden.
Das Verständnis dieser Phasen ist für eine effektive Modellierung der Zuverlässigkeit und die Identifizierung von Strategien von entscheidender Bedeutung. Die Ausfallrate, die mit λ (Failure in Time, FIT) bezeichnet wird, wird in Ausfällen pro Milliarde Betriebsstunden gemessen und erlaubt es, die Ausfallwahrscheinlichkeit innerhalb eines bestimmten Zeitrahmens zu berechnen. Der Kehrwert von FIT, die mittlere Zeit zwischen Ausfällen (Mean Time Be- tween Failures, MTBF) oder die mittlere Zeit bis zum Ausfall (Mean Time To Failure, MTTF), gibt die durchschnittliche Zeit zwischen Ausfällen für reparierbare Systeme (MTBF) oder nicht reparierbare Systeme (MTTF) an. In diesem Artikel wird der Begriff MTBF verwendet (die zugrunde liegenden Konzepte gelten jedoch auch für MTTF), der auf Teile oder ganze Systeme wie Netzteile anwendbar ist, auch wenn die Methoden variieren. Die MTBF kann anhand von Feldtests mit folgender Formel berechnet werden:
Bei komplexen Systemen sollte die MTBF jedes einzelnen Teils und deren Interaktionen mithilfe von Zuverlässigkeits-Blockdiagrammen oder Fehlerbaumanalysen berücksichtigt werden. Mithilfe von Handbüchern zur Zuverlässigkeit kann die MTBF für komplexe Systeme modelliert und berechnet werden, was für das Design langlebiger Produkte und die Identifizierung potenzieller Fehlerquellen vor dem Testen von entscheidender Bedeutung ist. Dadurch kann die Wartung besser geplant und die Lebensdauer des Produkts verlängert werden. Betrachten wir nun in der weiteren Diskussion die Anwendung der MTBF-Berechnungstheorie in der Praxis.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Modellierung von Ausfallraten
Ausfälle während der normalen Lebensphase sind in der Praxis von besonderem Interesse. MTBF-Berechnungsmethoden, wie sie z. B. in Zuverlässigkeits-Handbüchern wie Telcordia SR-332 oder MIL-HDBK-217F angegeben sind, bieten einen strukturierten Ansatz zur Vorhersage und Quantifizierung der Zuverlässigkeit elektronischer Komponenten und Systeme ex-situ während der Designphase.
Der Prozess beginnt mit der Datenerfassung, einschließlich der Spezifikationen der Komponenten, der Betriebsumgebungen, der Anwendungsbedingungen und der historischen Fehlerdaten. Im nächsten Schritt werden die Ausfallraten der einzelnen Komponenten (λcomp) geschätzt. Handbücher enthalten Methoden zur Ableitung der Basisausfallraten (λbase) aus empirischen Daten oder es können FIT-Berichte der Hersteller herangezogen werden.
Der FIT-Bericht von Infineon für das Produkt IPB014N06N enthält beispielsweise eine FIT-Rate und Testbedingungen.
Die Basisausfallrate (λbase) wird unter Verwendung zusätzlicher Faktoren (π) angepasst, wobei Umweltbedingungen (πenv) und Anwendungsbelastungen (πT für Temperatur, πSfür elektrische Belastung) berücksichtigt werden. In Bild 1 mit der Badewannenkurve werden beispielsweise zwei beobachtete Ausfallraten (blau und orange) für unterschiedliche Anwendungsbelastungen dargestellt. Andere Faktoren, wie z. B. Qualität (πQ), können ebenfalls einbezogen werden.
Diese angepassten Ausfallraten werden durch Multiplikation der Basisausfallrate mit den jeweiligen Faktoren ermittelt.
Zum Beispiel werden Belastungsfaktoren für Temperatur πT und elektrische Belastung πS typischerweise in der oben gezeigten Form definiert. Für den Temperaturfaktor ist Ea eine komponentenspezifische Aktivierungsenergie, T ist die Temperatur der jeweiligen Komponente des jeweiligen Systems, T0 ist eine Referenztemperatur und kB ist die Boltzmann-Konstante. Für den elektrischen Belastungsfaktor bezeichnen A und B normalerweise komponentenspezifische Formparameter, die das Verhalten des jeweiligen Bauteils berücksichtigen. Darüber hinaus ist s ein elektrischer Belastungsparameter, der beispielsweise in Abhängigkeit von der Komponente als Verhältnis eines angewandten Wertes und eines Nennwertes definiert ist, z. B. für Widerstände s = (angewandte Leistung/Nennleistung) oder für Kondensatoren s = (anliegende Spannung/Nennspannung), und s0 ist ein Referenzbelastungsparameter.
Die Systemausfallrate wird in der Regel berechnet, sobald die Ausfallraten der einzelnen Komponenten ermittelt wurden. Bei Komponenten in Serie ist die Systemausfallrate die Summe aller angepassten Komponentenausfallraten. Hier könnten zusätzliche Faktoren, wie z. B. ein Umweltfaktor, der sich auf alle Komponenten gleichermaßen auswirkt, berücksichtigt werden, wie in Bild 2 dargestellt. Für parallele Konfigurationen sind zusätzliche Berechnungen erforderlich. Schließlich wird die MTBF als Kehrwert der Gesamtsystemausfallrate berechnet. Bild 2 veranschaulicht den Gesamtansatz und enthält beispielhafte Werte. Anhand dieser Handbuchschritte kann die MTBF für elektronische Systeme systematisch geschätzt werden. Diese Berechnungen sind jedoch durch Annahmen über Einsatzprofile und Betriebsbedingungen in Ex-situ-Szenarien begrenzt. Diese Einschränkung kann durch die Durchführung der Berechnungen in-situ behoben werden, wie im nächsten Abschnitt erläutert wird.
Vorteile der In-situ-Modellierung
Der Nachteil von Ex-situ-Methoden liegt darin, dass sie auf vorherigen Annahmen wie Einsatzprofilen oder Umweltbedingungen beruhen, was Echtzeit-Einblicke in den Zustand eines Systems verhindert. Die Implementierung eines In-situ-Modells zur Vorhersage der Zuverlässigkeit, bei dem Berechnungen und Überwachung innerhalb des Systems unter Berücksichtigung der tatsächlichen Betriebsbedingungen stattfinden, bietet gegenüber herkömmlichen Ex-situ-Ansätzen mehrere Vorteile. Daher hat Infineon die Methodik der MTBF-Berechnungen direkt in seine Mikrocontroller für Schaltnetzteile integriert. Durch die Übertragung strukturierter und standardisierter ex-situ-Vorhersagen zur Zuverlässigkeit in die in-situ-Umgebung ermöglicht Infineon die Echtzeitüberwachung und dynamische Anpassung der Ausfallraten auf der Grundlage tatsächlicher Bedingungen.
Bei einer In-Situ-Anwendung überwacht das System kontinuierlich Echtzeitdaten wie Temperatur, Spannung und Stromstärke. Diese Daten passen die Berechnungen der Ausfallrate und die MTBF-Vorhersagen dynamisch an die tatsächlichen Bedingungen an. Viele dieser Parameter sind bereits Teil des Regelkreises des Schaltnetzteiles (z. B. PFC-Regelkreise oder LLC-Regelkreise), wie in Bild 3 dargestellt, werden aber heute nicht für solche Berechnungen verwendet. Modellparameter, einschließlich Basisausfallraten und Umweltfaktoren, werden auf der Grundlage von Echtzeitdaten angepasst, sodass kontinuierlich bereinigte Ausfallraten und MTBF berechnet werden können. Dadurch werden aktualisierte Vorhersagen zur Zuverlässigkeit bei sich ändernden Bedingungen ermöglicht. Das System liefert proaktive Wartungswarnungen und Empfehlungen basierend auf berechneten Zuverlässigkeitsmetriken, die den Vergleich mehrerer Systeme erleichtern. Obwohl beispielsweise erwartet wird, dass die Stromversorgungen in einem Rechenzentrum alle das gleiche Lastprofil haben, ermöglicht der vorgeschlagene Ansatz die Erkennung von Abweichungen von diesen Annahmen, und es können entsprechende Maßnahmen eingeleitet werden. In-situ MTBF-Berechnungen bieten höhere Genauigkeit, da Echtzeitdaten die tatsächlichen Bedingungen widerspiegeln. Kontinuierliche Überwachung und dynamische Berechnungen erkennen potenzielle Probleme vor dem Ausfall. Das System passt sich an unterschiedliche Umgebungen an und gewährleistet zuverlässige Vorhersagen auch bei unerwarteten Belastungen.
Das Verständnis von Echtzeit-Belastungen ermöglicht die Optimierung des Betriebs, um die Lebensdauer der Komponenten zu verlängern und die Systemzuverlässigkeit zu steigern. Dieser proaktive Wartungsansatz und genaue Vorhersagen zur Zuverlässigkeit können Notfallreparaturen reduzieren und geplante Wartungsintervalle verlängern, was zu Kosteneinsparungen führt. Echtzeit-Zuverlässigkeitsdaten unterstützen eine verbesserte Entscheidungsfindung bei Wartungs- und Upgrade-Maßnahmen. Kontinuierliches Feedback im Designprozess hilft Entwicklern, zukünftige Designs basierend auf der tatsächlichen Leistung zu optimieren. Bild 4 fasst diese Vorteile zusammen, indem es die Zuverlässigkeit der Randbedingungen des Anwenders (z. B. eine maximale Ausfallwahrscheinlichkeit von 3 Prozent) veranschaulicht. Basierend auf dem tatsächlichen Einsatzprofil (violett) wird die Ausfallwahrscheinlichkeit durch In-situ-MTBF-Modellierung berechnet. Die aktuelle statistische Ausfallwahrscheinlichkeit ermöglicht es den Anwendern, die Wartung zu planen. Die Trendanalyse zeigt, ob das System unter dem aktuellen Einsatzprofil Gefahr läuft, die Zuverlässigkeitsgrenze früher als ursprünglich geplant zu erreichen (gestrichelte violette Linie). Im Bild ist auch eine Durchschnitts- und eine Worst-Case-Kurve enthalten, die zwei verschiedene Annahmen zu den Betriebsbedingungen zeigen. Der scharfe Knick markiert den Eintritt des Systems in die Verschleißphase nach der erwarteten Lebensdauer. (mr)
* Christian Bernhardt ist Systemarchitekt bei Infineon Technologies