Spolehlivost distribuovaného systému popisuje, nakolik lze systému důvěřovat, že bude dlouhodobě poskytovat správnou službu navzdory chybám, poruchám a nepředvídatelným podmínkám prostředí.

Je to zastřešující vlastnost, která není o jednom běhu systému, ale o jeho chování v čase.

[!note] Jak získat spolehlivost Protože komponenty selhávají, spolehlivost získáme jen tím, že máme všeho víc. (redundance)

Typy redundance:

  1. Informační redundance: Přidáme bity navíc pro opravu chyb (ECC paměť, checksumy v paketech).
  2. Časová redundance: Když se akce nepovede, zkusíme to znovu (retry logic v RPC).
  3. Fyzická redundance (replikace): Místo jednoho serveru máme tři.

    vztah spolehlivosti a stavu distribuovaného systému


Vlastnosti co chceme

  1. Availability (Dostupnost):
  2. Reliability (Spolehlivost v užším smyslu):
  3. Safety (Bezpečnost provozu):
  4. Integrity (Integrita):