[Thinknetica] Мониторинг и стабильность Rails-приложений. Пакет Слушатель (Алексей Наумов)

Аноним · Четверг в 22:02

Этот воркшоп для вас, если:

дошли до уровня, когда уже задумываетесь о работе всего приложения, а не только делаете отдельные задачи
в проекте нет системного мониторинга и алертинга
порой приходится что-то чинить на проде и долго разбираться с причинами проблем
планируете рост нагрузки на приложение
хотите сделать мониторинг был действительно полезным и эффективным, а не набором красивых данных, в которые никто не смотрит
с приложением всё здорово, но хочется быть уверенным в том, что это будет продолжаться и дальше

Программа воркшопа:

День 1. Основы мониторинга

Поговорим о том, зачем нужен мониторинг, на какие метрики надо смотреть, чтобы быть уверенными, что приложение работает. Разберём, что такое «золотые сигналы». Заведём в рельсовое приложение мониторинг с помощью Прометеуса, Графаны и Ябеды.

Результат:

Поймёте, зачем нужен мониторинг и как он помогает не только техническим специалистам, но и бизнесу.
Научитесь ориентироваться в метриках, на основе которых строится мониторинг — технические, инфраструктурные и бизнесовые метрики.
Соберёте связку Прометеус-Графана-приложение, чтобы добавить первые дэшборды в ваше приложение.

Содержание:

Зачем нужно мониторить приложение?
Какие бывают мониторинги
На какие метрики смотреть?
Технические метрики (Latency, Traffic, Errors, Saturation)
Инфраструктурные метрики
Бизнесовые метрики

День 2. Алерты и решения для организации мониторинга

Посмотрим на систему, которую собрали на первом дне воркшопа. Сравним системы сбора метрик и дэшбодров между собой — беплатные, платные, облачные и т.д.
Разберёмся, почему дэшбордов недостаточно для полноценного мониторинга приложений. Алерты — по каким метрикам настраивать, какие пороги выбирать, как обрабатывать. Алерты предвосхищающие проблемы — z-index и Нострадамус.
Трассировка запросов — зачем нужна, какие инструменты использовать, хорошие практики для построения систем.

Результат:

Разберётесь с множеством систем мониторинга и сможете выбрать наиболее подходящую
Научитесь настраивать алертинг - выставлять пороги срабатывания, поймёте, в каких случаях нужны ночные звонки, а в каких можно обойтись без них.
Поёмете, зачем нужна трассировка во взаимодействии между сервисами, как её организовать и как использовать при поиске проблем.

Содержание:

Опенсорсные решения (Prometheus, Grafana, Grafana OnCall, Zabbix)
Коммерческие решения (Datadog, New Relic, Dynatrace, Okmeter)
Быстрый поиск проблем
Сквозная трассировка запросов (Jaeger, Zipkin)
Алертинг
Предсказание проблем

День 3. Инцидент-менеджмент и стабильность приложений

Пройдемся от алертов к причинам их возникновения — инцидентам. Ответим на вопросы: что считать инцидентом? Что делать, чтобы их было меньше? Обсудим регламенты работы, подсказки для сложных ситуаций, дежурства, разборы причин и планирование улучшений.
Поговорим об SLI, SLO, SLA и подходах, которые помогут вам договориться с бизнесом о том, что значит «стабильное приложение» и сколько это будет стоить.
Затронем нагрузочное тестирование приложения. Что такое хаос тесты и когда они вам могут пригодится? Сделаем обзор практик по хаос-инжинирингу.

Результат:

Поймёте, как внедрить в компании процесс инцидент-менеджмента.
Узнаете, как договориться с бизнесом о приемлемых диапазонах простоя приложения.
Сможете убедить бизнес, что 100% работоспособности — это не то, чего он хочет.
Разберётесь, как подготовится к большим нагрузкам с помощью нагрузочного тестирования. И как протестировать систему на отказ с помощью хаос-тестов.

Содержание:

Фазы работы над инцидентом
Роли участников процесса
Организация с точки зрения процесса и технической реализации
Метрики стабильности (SLI, SLO, SLA)
Нагрузочное тестирование
Хаос-тесты

Этот воркшоп поможет:

Систематизировать знания по мониторингу
Посмотреть на разные решения и практики по стабилизации приложений и подготовке к работе под нагрузкой
Поднять мониторинг на проекте с нуля
С чего начать и как рассказать бизнесу, что мониторинг — это обязательная часть работы системы
Сделать приложение более стабильным
Внедрить практики инцидент менеджмента — дежурства, регламенты, разборы. Быстро находить проблемы с помощью трассировки.
Получить набор инструментов под разные виды метрик
Разобраться какие бывают технические, инфраструктурные и бизнесовые метрики. Какие из метрик более приоритетные и с помощью каких технических решений их можно отслеживать.

[Thinknetica] Мониторинг и стабильность Rails-приложений. Пакет Слушатель (Алексей Наумов)

Маска Организаторов

Складчина: [Thinknetica] Мониторинг и стабильность Rails-приложений. Пакет Слушатель (Алексей Наумов)