«Пульс» под нагрузкой: как HR-платформа справляется с 300 000 пользователей одновременно?
Текстовая расшифровка видео
Почему «Пульс» стабилен даже при высокой нагрузке?
Когда Сбер создавал платформу, то ориентировался на 200 тысяч активных пользователей. Тогда этого казалось более чем достаточно, но Сбер – это динамичная развивающаяся экосистема. Сегодня на платформу могут заходить одновременно 250 000 человек, и важно, чтобы каждый получил быстрый отклик без задержек и ошибок.
Как добиться стабильности?
- Микросервисная архитектура – система не монолитна, а разделена на независимые сервисы, что предотвращает «цепную реакцию» сбоев.
- Горизонтальное масштабирование – если пользователей в один момент станет больше, система автоматически подключит дополнительные серверные мощности.
- Автоскейлинг контейнеров приложений (OpenShift, Kubernetes) – чем больше запросов, тем больше ресурсов выделяется, а когда нагрузка спадает – лишние мощности отключаются, чтобы не расходовать их зря.
По сути, «Пульс» подстраивается под активность пользователей, растёт и сжимается в зависимости от потребностей, без потери скорости и качества работы.
— Возможность «Пульса» с точки зрения нагрузки ограничена исключительно объемом серверной инфраструктуры. Сегодня он выдерживает до 12 тысяч RPS.
А если нагрузка будет критической?
Пиковые периоды – это нормально, но что, если вдруг происходит что-то экстраординарное? Например, одновременно запускаются массовый кадровый процесс, обучение и рассылка уведомлений о старте ежеквартальной оценки?
Здесь нам поможет многоуровневый мониторинг и система быстрого реагирования:
- 24/7 мониторинг ключевых метрик нагрузки. Если нагрузка на платформу приближается к максимуму, то система мониторинга оповестит об этом заранее.
- Автоматическое выделение дополнительных мощностей – при необходимости масштабирование системы происходит мгновенно.
- Дежурная команда инженеров подключается в течение 15 минут, если требуется участие человека.
Мониторинг развёрнут на 415 продуктовых и инфраструктурных сервисов платформы и «натравлен» на 5 тысяч хостов. Мы отслеживаем 826 тысяч метрик и 363 тысячи триггеров, понимая, насколько важно, чтобы каждый мог вовремя оформить документ, пройти обучение или завершить задачу. Все механизмы построены таким образом, чтобы пользователи даже не замечали, что система сильно нагружена.
Как быстро данные восстановятся, если всё упало?
Какая бы надежная ни была система, всегда есть план Б. В «Пульсе» предусмотрены механизмы резервного копирования и восстановления, чтобы даже в редких случаях сбоев всё можно было восстановить максимально быстро. Для разрабатываемых сервисов предусмотрены механизмы feature toggle и обратной совместимости критичных сервисов.
- Каждый релиз проходит нагрузочное тестирование, где эмулируется работа тысяч пользователей одновременно, а для новых сервисов разработана методика подбора оптимальной инфраструктуры.
- Применяются практики SRE. Анализируются слабые места – если что-то может замедлить систему, мы исправляем это заранее.
- Система резервного копирования позволяет восстановить данные за 2 часа.
— В 2024 году мы внедрили селф-сервисы по управлению базами данных. Теперь восстановление данных занимает не больше 2 часов.
Три уровня поддержки: помощь всегда рядом
HR-платформа – это не просто код, это инструмент, которым ежедневно пользуются люди. А значит, если у кого-то возникнет вопрос или проблема, важно, чтобы помощь была доступна сразу.
В «Пульсе» работает трёхуровневая система поддержки:
- Первая линия отвечает на базовые вопросы, помогает с настройками.
- Вторая линия анализирует технические ошибки, разбирается в сложных кейсах.
- Третья линия – это команда разработчиков, которая подключается, если требуются изменения в коде.
Кроме того, круглосуточно дежурит команда мониторинга, которая следит за состоянием платформы и реагирует до того, как пользователь заметит проблему.
Будущее «Пульса»
Сегодня система уже способна выдерживать значительные нагрузки и продолжает развиваться. Мы внедрили модель мультикомпании, которая позволяет нескольким организациям работать в едином пространстве, не создавая перегрузок.
— В одном тенанте сразу несколько клиентов, но логически их данные полностью разделены. Таким образом, мы эффективно управляем ресурсами, сохраняя высокий уровень безопасности.
Что дальше?
- Полностью автоматизированное масштабирование без ручных настроек, в режиме реального времени.
- Оптимизация производительности – ещё больше скорости на меньшем объёме инфраструктуры.
- Внедрение AI агентов: предиктивный мониторинг и исключение человеческого фактора.
«Пульс» не только справляется с текущими нагрузками, но и подстраивается под пользователей и бизнес, растёт вместе с ними. Мы создаём платформу, где скорость, стабильность и производительность – не просто слова в презентации, а реальность в работе сотен тысяч людей и десятков компаний каждый день.
На правах рекламы:
ПАО Сбербанк
ИНН 7707083893
Реклама ЕРИР № 2W5zFHYtVUC