Список определений, используемых в данном руководстве
- Действие
- Задача, которая выполняется HAM при определенных условиях — например, запуск внешнего процесса, перезапуск уничтоженного процесса, отправка уведомления в виде сигнала/импульса и т.п.
- Готовность
- Способность системы бесперебойно выполнять возложенные на нее функции в течение длительного времени.
- Кластеризация
- Метод организации распределенной обработки на нескольких компьютерах с целью уменьшения количества единых точек отказа (см. SPOF). Собственная сетевая технология операционной системы ЗОСРВ «Нейтрино» обеспечивает прозрачную обработку в сетевой среде и позволяет разрабатывать кластерные системы высокой готовности.
- Условие
- Событие, которое инициирует действия, выполняемые HAM. Примерами условий являются уничтожение объекта, отсутствие контрольного сигнала и др.
- Объект
- Процесс, за которым наблюдает HAM. Наблюдение может осуществляться как по инициативе объекта (посредством его самостоятельного присоединения), так и без его ведома.
- Правило «пяти девяток»
- Часто используемый показатель готовности, который характеризует способность системы выполнять возложенные на нее функции в течение 99,999% рабочего времени.
- Дублер
- Guardian
- Процесс-клон, который создается HAM для обеспечения собственной бесперебойной работы в среде ЗОСРВ «Нейтрино».
- Менеджер высокой готовности
- High Availability Manager
- HAM
- Высоконадежный сервис, который наблюдает за системой и восстанавливает ее службы и процессы после сбоев и отказов в обслуживании.
- Контрольный сигнал
- heartbeat
- Уведомление, которое клиент отправляет HAM через определенные интервалы времени, чтобы сообщить о своей работоспособности.
- Горячая замена
- Возможность добавлять и удалять компоненты системы, не прерывая ее работу.
- Среднее время наработки на отказ
- Mean Time To Failure
- MTTF
- Средняя продолжительность безотказной работы системы. Желательно, чтобы среднее время наработки на отказ было как можно больше.
- Среднее время восстановления
- Mean Time To Repair
- MTTR
- Время возвращения системы в рабочее состояние после отказа или обновления ее компонента. Желательно, чтобы среднее время восстановления системы было как можно меньше.
- Единая точка отказа
- Single Point Of Failure
- SPOF
- Любое «слабое звено», нарушение работы которого создает риск общесистемного отказа.
- Сторожевой таймер
- watchdog
- Надежное устройство, которое запускает код проверки исправности системы. Также существуют программные сторожевые таймеры; HAM можно рассматривать как интеллектуальный сторожевой таймер.
Предыдущий раздел: Менеджер высокой готовности (HAM)