Перейти к содержанию
В рабочем режимеПоследний релиз · 4 часа назадВ работе · 6 проектовОтвет · в течение 4 часовТолько сеньоры-партнёрыMMXXVIВ рабочем режимеПоследний релиз · 4 часа назадВ работе · 6 проектовОтвет · в течение 4 часовТолько сеньоры-партнёрыMMXXVIВ рабочем режимеПоследний релиз · 4 часа назадВ работе · 6 проектовОтвет · в течение 4 часовТолько сеньоры-партнёрыMMXXVI
SmartyDevs
Облако · 04

Надёжность как дисциплина.

SLO, error budgets, on-call rotations, postmortems и инфраструктура наблюдаемости, превращающая надёжность из чаяния в число, которое ваша команда может двигать.

§ 01The problem

Какую проблему решаем

Большинство работы над надёжностью — реактивная: кого-то paged, починили, написали postmortem, который никто не читает. Привносим SRE-практики, делающие надёжность измеримой и улучшаемой — SLO, error budgets, реагирование на инциденты как часы и инфраструктуру наблюдаемости, дающую инженерам уверенно дебажить продакшен.

§ 02Capabilities

Что собираем

  • 01Определение SLO и error budgets под бизнес-результаты
  • 02Наблюдаемость: логи, метрики, трейсы, профили — интегрированы, не silo
  • 03Playbook'и реагирования на инциденты и on-call rotations
  • 04Культура и процесс postmortem
  • 05Программы chaos engineering и нагрузочного тестирования
  • 06Roadmap надёжности с инженерными инвестициями
  • 07Synthetic-мониторинг и proactive-алертинг
  • 08Runbook'и, спроектированные под использование под давлением
  • 09Планы burn-down хронической on-call боли
§ 03Deliverables

Что получаете

  • Задокументированные SLO и политика error-budget
  • Observability-стек, который вы можете расширять
  • Playbook реагирования на инциденты, обкатанный на вашей команде
  • Измеримое улучшение p99-латентности или доступности
§ 04Stack

Стек, к которому тянемся

Datadog · New Relic · Honeycomb
Grafana · Loki · Tempo · Mimir
OpenTelemetry
PagerDuty · Incident.io · Rootly
Nobl9 · Sloth
Grafana k6 · Gremlin
§ 05Ideal for

Подходит

  • Компаниям, чей on-call неустойчив
  • Инженерным лидерам, которые не могут ответить «насколько надёжна система?»
  • Продуктам, где простои имеют материальную бизнес-стоимость
  • Командам, внедряющим SRE-практики впервые
§ 06Process

Как идёт проект

  1. 01

    Reliability-аудит

    Текущая наблюдаемость, алертинг, on-call burden, процесс инцидентов. Письменный отчёт.

  2. 02

    SLO-воркшоп

    Определяем SLO под бизнес-результаты, согласовываем политику error-budget с руководством.

  3. 03

    Наблюдаемость и реагирование

    Стек телеметрии, дашборды, runbook'и, on-call rotation перестроены.

  4. 04

    Обучение и передача

    Tabletop-инциденты, реальный on-call shadowing, передача знаний.

§ 07Engagement

Как сотрудничать

01

Reliability-аудит

2 недели

Оценка с приоритизированными рекомендациями.

02

SRE Programme

8 — 16 недель

End-to-end построение SRE-практики.

03

Embedded SRE

3 — 12 месяцев

Сеньорные SRE-мощности внутри вашей команды, пока вы растите своих.

§ 08Common questions

Frequently asked.

01Нужна ли отдельная SRE-команда?

Часто нет. SRE-практики, применяемые вашими существующими инженерами, решают большинство проблем. Отдельные команды оправданы на определённом масштабе — скажем, когда.

02Какой observability-стек?

Datadog, если бюджет позволяет и хотите одного вендора. Self-hosted Grafana-стек, когда требует стоимость или резиденция данных. Honeycomb для команд, живущих в трейсах. Подберём под вашу команду.

Есть задача, которую стоит решить как следует?

Напишите, какой результат нужен. Мы честно скажем, во что это обойдётся — письменно, в течение недели.

Начать разговор