Ещё о надежности

Совсем кратко: главные критерии надежности для:
1) оборудования — дублирование и мгновенное переключение;
2) ПО — отсутствие ошибок;
3) человека — отсутствие человека;
4) процесса — отсутствие необходимости комментировать процесс новым сотрудникам.

Составляющие надежности

Чтобы определить общую надежность ИТ-системы, необходимо определить составляющие ИТ-систем, по которым можно повышать надёжность.
Существуют три основные составляющие:
* люди;
* процессы;
* технологии.
В случае современных информационных технологий, последний пункт следует разделить на две части, и рассматривать их отдельно:
* аппаратное обеспечение;
* программное обеспечение.
К каждой части (аппаратной и программной) применимы свои методы повышения надежности.
Принципиальная разница в том, что аппаратное обеспечение – это технологии, на которые имеет воздействие физический мир. К этой части можно применять различные теории по надежности физических объектов, включая время наработки на отказ, износ материалов, влияние окружающей среды и т.п. Continue reading

Классификация ошибок персонала. Часть 2.

В продолжение предыдущей части, рассмотрим классификацию ошибок персонала немного в другом разрезе.

Ошибки бывают:
1) Ошибка случайная – неверные команды/адреса/параметры при проведении работ в ПРОД. Опечатки. Это – чистый человеческий фактор, снизить который – главная управленческая цель эксплуатации.
2) Недостаточно протестированное решение, которое все таки попало в ПРОД. В данном случае следует считать это не ошибкой персонала, а ошибкой процесса.
3) Излишне долгое время сбора информации и принятия решения о необходимости работ. Также ошибка процесса.
4) Отсутствие сотрудника на месте (когда должен там находиться). Ошибка дисциплины и организации, которую можно отнести к недостаточному управлению (ошибка менеджера).
5) Ошибки вендоров. Слишком долгий ответ 3-й линии поддержки. Ошибки контрактования. Continue reading

Классификация ошибок персонала

1. Категории ошибок персонала
Ошибки персонала разделяются на уровни управления и исполнения. Уровень управления, в свою очередь, разделяется на линейное и процессное.

В «линейное управление» входят следующие вопросы:
* Управление ресурсами (наличие и квалификация Исполнителей);
* Организация работ;
* Наличие и актуальность инструкций и другой документации технического уровня.
Целевые документы, ожидаемые на уровне линейного управления:
* Инструкция;
* План работ.

В «процессное управление» входят вопросы:
* Процессы планирования, разработки и эксплуатации;
* Регламентация; Continue reading

Как ломаются сложные системы

Очень жаль, что я не прочитал эту статью лет 5 назад.
Всем строящим Управление Проблемами и Управление Рисками — обязательно к прочтению.
И особенно тем, кто рассказывает о том, как «дайте бесконечные деньги, и получите доступность 99,(9)%». Кратко — шиш.
Автор статьи, кстати, не ИТ-шник, а медик.
Роману Журавлеву из Cleverics — низкий поклон за перевод.

1) Опасность – неотъемлемый атрибут сложных систем
Все интересные системы (транспорт, здравоохранение, энергетика…) естественно и неминуемо опасны по своей природе. На частоту опасных явлений в ряде случаев можно влиять, но процессы, входящие в состав этих систем, сами по себе являются источником неотвратимой опасности. И именно присутствие этой опасности приводит к созданию многочисленных средств защиты, столь характерных для этих систем. Continue reading

Инциденты по производительности

Инциденты по производительности могут быть двух типов:
Тип 1. Трендовые инциденты. Связанные с ростом тренда нагрузки, который мы не обнаружили вовремя (поддержание запаса мощности на, например, 6 месяцев). Подобный инцидент, скорее всего, не будет одиночным – это будет серия однотипных инцидентов с возрастающей частотой проявления и с единой корневой причиной.
Инциденты этого типа подразумевают, что все компоненты ИТ-системы находятся в работоспособном состоянии, и нам необходимо обеспечить запас производительности исправных компонент.
При этом, дополнительно, компоненты работают в штатном режиме. То есть нет внеплановой нагрузки, такой, как например, выполнение резервного копирования в период высокой нагрузки. Continue reading

Надежность ИТ-процессов: доступ в ПРОМ

Основная цель функционирования процессов разработки и эксплуатации ИТ в части надежности – это предсказуемость результатов.
Когда вопрос касается повышения надежности сложных систем, надо учитывать, что такие вопросы как производительность, скорость обработки и т.п., должны быть отложены на вторую очередь.
На первую очередь выходит стабильность работы каждой отдельной итерации, ожидаемый результат работы каждого шага. Особенно это касается операций в продуктивной среде. Continue reading

Надежность аппаратных и программных компонент

Какую бы статистику не приводили вендоры по надежности своих решений, какие бы гарантии они не давали, железо всё равно будет выходить из строя. При работе некритичных приложений, где допустимое время простоя может достигать несколько часов, вполне допустимо иметь запасное оборудование в холодном резерве, а также набор программного обеспечения для быстрого развертывания системы «с нуля». Для этого поможет качественно организованные библиотеки DHS и DSL (Definitive Hardware Store и Definitive Software List), которые позволяют иметь в готовности протестированное аппаратное обеспечение и полный комплект системного и прикладного ПО.
Для критических информационных систем такого решения будет недостаточно. Если разговор идет про планируемую доступность более 99,9%, то здесь необходимо рассчитывать на то, сбой аппаратной компоненты не должен приводить к прерыванию предоставления бизнес-сервиса. В этом случае рассматриваются решения следующих типов: Continue reading

Ошибки персонала: халатность

Некоторая классификация ошибок сотрудников при работе в продуктивной среде.
Первая категория — человеческий фактор. Это когда сотрудник хотел сделать все как надо, но «дрогнула рука». При этом, заметьте, все остальные факторы были соблюдены — наличие инструмента, наличие инструкции, достаточная квалификация.
Вторая категория — это умышленная ошибка. В настоящее время в крупных компаниях встречается крайне редко, если не сказать — никогда.
Но вот есть и промежуточное состояние ошибки, которое можно назвать емким русским словом «халатность». Здесь дело обстоит сложнее.
Этот тип ошибки подразумевает, что:
1) Исполнитель был снабжен всеми инструкциями и инструментами. То есть в данной части исправлять нечего. Continue reading

Определение и понимание надежности

(Из заготовок серии статей)

В первую очередь необходимо определить, что есть надёжность. Для этого дадим чёткие определения трём основным терминам, которые лежат в основе теории надежности. Между ними часто возникает путаница, которую нужно разрешить сразу, т.к. в последующем всё будет строиться именно на этих понятиях. Итак, эти три ключевых слова: качество, доступность, надёжность.
Начнем с понятия «доступность».
Доступность – это способность системы выполнять свои функции в заданный период времени. Например, за последние сутки система проработала 23,5 часа. Значит, её доступность равна 23/24 = 95.83%.
Необходимо помнить ключевой момент: доступность измеряется только за прошедшее время. Измерить доступность в будущем мы не можем. Continue reading