Составляющие надежности

Чтобы определить общую надежность ИТ-системы, необходимо определить составляющие ИТ-систем, по которым можно повышать надёжность.
Существуют три основные составляющие:
* люди;
* процессы;
* технологии.
В случае современных информационных технологий, последний пункт следует разделить на две части, и рассматривать их отдельно:
* аппаратное обеспечение;
* программное обеспечение.
К каждой части (аппаратной и программной) применимы свои методы повышения надежности.
Принципиальная разница в том, что аппаратное обеспечение – это технологии, на которые имеет воздействие физический мир. К этой части можно применять различные теории по надежности физических объектов, включая время наработки на отказ, износ материалов, влияние окружающей среды и т.п. Continue reading

Классификация ошибок персонала. Часть 2.

В продолжение предыдущей части, рассмотрим классификацию ошибок персонала немного в другом разрезе.

Ошибки бывают:
1) Ошибка случайная – неверные команды/адреса/параметры при проведении работ в ПРОД. Опечатки. Это – чистый человеческий фактор, снизить который – главная управленческая цель эксплуатации.
2) Недостаточно протестированное решение, которое все таки попало в ПРОД. В данном случае следует считать это не ошибкой персонала, а ошибкой процесса.
3) Излишне долгое время сбора информации и принятия решения о необходимости работ. Также ошибка процесса.
4) Отсутствие сотрудника на месте (когда должен там находиться). Ошибка дисциплины и организации, которую можно отнести к недостаточному управлению (ошибка менеджера).
5) Ошибки вендоров. Слишком долгий ответ 3-й линии поддержки. Ошибки контрактования. Continue reading

Надежность аппаратных и программных компонент

Какую бы статистику не приводили вендоры по надежности своих решений, какие бы гарантии они не давали, железо всё равно будет выходить из строя. При работе некритичных приложений, где допустимое время простоя может достигать несколько часов, вполне допустимо иметь запасное оборудование в холодном резерве, а также набор программного обеспечения для быстрого развертывания системы «с нуля». Для этого поможет качественно организованные библиотеки DHS и DSL (Definitive Hardware Store и Definitive Software List), которые позволяют иметь в готовности протестированное аппаратное обеспечение и полный комплект системного и прикладного ПО.
Для критических информационных систем такого решения будет недостаточно. Если разговор идет про планируемую доступность более 99,9%, то здесь необходимо рассчитывать на то, сбой аппаратной компоненты не должен приводить к прерыванию предоставления бизнес-сервиса. В этом случае рассматриваются решения следующих типов: Continue reading

Определение и понимание надежности

(Из заготовок серии статей)

В первую очередь необходимо определить, что есть надёжность. Для этого дадим чёткие определения трём основным терминам, которые лежат в основе теории надежности. Между ними часто возникает путаница, которую нужно разрешить сразу, т.к. в последующем всё будет строиться именно на этих понятиях. Итак, эти три ключевых слова: качество, доступность, надёжность.
Начнем с понятия «доступность».
Доступность – это способность системы выполнять свои функции в заданный период времени. Например, за последние сутки система проработала 23,5 часа. Значит, её доступность равна 23/24 = 95.83%.
Необходимо помнить ключевой момент: доступность измеряется только за прошедшее время. Измерить доступность в будущем мы не можем. Continue reading