Робочі інструкції для чергового оператора
Методология работы
Основной портал для контроля за работой грид инфраструктуры
Central Operations Portal
Операционный дежурный (как член команды РОД) должен проверять данные портала минимум 3 раза в день. В выходных дни — хотя бы один раз в день, контролируя информацию об открытых тикетах.
Для доступа на портал необходимо импортировать сертификат в браузер.
Последовательность работы с порталом:
Открываем начальную страницу портала .
Открываем вкладку c опцией «sites in my scope» (сайты за которые отвечает член РОД) – проверяем на количество алертов и время действия алертов.
Работа с алертами
В зависимости от времени жизни алерта выполняем следующие действия:
0-24 – Если показано что время жизни алерта менше 24 часов, член команды ждет пока администратор в течении этого времени отреагирует на алерт или уйдет в даунтайм. Реакция администратора: либо исправить ошибку, либо уйти в даунтайм, связаться с членами РОД для консультации.
24-72 – Если же время жизни алерта находиться в периоде от 24 часов до 72 – РОД обязан открыть тикет! (смотри Рис.4) и дождаться реакции на тикет в течении этого времени. Когда открыт тикет – Алерт закрывается (в табличке выводящейся при закрытии, выбирается привязка к тикету, который был открыт членом РОД.)
>72 – Если время жизни алерта больше 72 часов, то это плохой знак.
Это означает, что команда РОД плохо справилась со своей работой и был пропущен алерт, так как был пропущен процесс открытия тикета, процесс закрытия алерта. (!!!)
Алерты с таким временем жизни являются критическими для Индекса эффективности команды РОД (смотри вкладку ROD performance index for NGI : NGI_UA https://operations-portal.egi.eu/dashboard/rodOlaMetrics).
Крайняя левая кнопка «Закрытие алерта» в статусе «Critical» позволяет закрыть алерт когда:
Сервис в режиме «Downtime». Состояние «Downtime» отображается в строке сайта специальным символом.
Не обновилась информация в операционном портале (необходимо проверить так ли это: закрыт ли тикет и соответствующий тест в системе Nagios (
https://mon-ua.bitp.kiev.ua/nagios/) показывает статус «ОК», создать тикет с проблемой )
Не обновились Nagios тесты (создать тикет с проблемой и ввести номер созданого тикета в формочку)
После того как тесты в нагиусе прошли удачно и статус алерта стал ОК – РОД должен просто его закрыть.
Работа с тикетами
Кнопка открытия Тикета очень проста для пользования – нажимаете, вводите текст – тикет готов.
Тикеты к Алертам создаються только отсюда (из Дашбоарда), не в коем случае из GGUS.(!!!)