Возможности Datadog предоставляются на платформе анализа данных на основе SaaS, которая позволяет нескольким группам совместно работать над проблемами инфраструктуры. Платформа компании предоставляется по модели обслуживания SaaS, позволяет собирать данные и метрики с серверов, баз данных, журнала приложений и анализировать их в режиме реального времени. Datadog – это прежде всего инструмент мониторинга облачных приложений.
Например, issue, описывающий, как обновление systemd ломает сетевой трафик Cilium, оставался открытым с марта 2020 года по июнь 2022-го. «Среди виртуальных машин, которые были выведены из строя этим багом, были те, что обеспечивают работу наших региональных управляющих слоев [на базе Cilium]. Это привело к тому, что большинство кластеров Kubernetes не могли планировать новые рабочие нагрузки, автоматически восстанавливаться и масштабироваться. Systemd — это процесс №1, и, если что-то меняется во время обновления, он перезапускается сам и делает то же самое со своими дочерними процессами.
Если бы его узлы остались в строю, оно, скорее всего, было бы кратковременным. В этом случае Datadog могла просто добавить пропавшие узлы в маршруты. datadog что это Отказ управляющего слоя привел к тому, что в первую очередь необходимо было вернуть в строй его и выяснить, почему он вообще исчез.
Проблемы с коммуникацией во время сбоя
«Выкат нового кода, исправлений безопасности или измененной конфигурации проходит последовательно регион за регионом, кластер за кластером, узел за узлом. Что касается процесса, мы не применяем изменения in situ (в месте нахождения); наоборот, узлы и контейнеры заменяются по принципу синих/зеленых развертываний. Мы уверены в таком подходе, потому что он применяется десятки раз в день». Проблема заключалась в том, что обновление происходило почти одновременно на десятках тысяч виртуальных машин.
Например, у Roblox ушло почти три месяца на подготовку обзора по итогам 3-дневного падения. То есть работать оказалось проще с облачными провайдерами, которые не пытались мудрить по поводу нездоровых узлов. На них уже была таблица маршрутизации — достаточно было загрузить ее в systemd-networkd. Усугубили ситуацию именно те провайдеры, которые при первых признаках нездоровья запускали новый узел и избавлялись от старого, нездорового. То есть истинной проблемой стало отключение управляющего слоя.
Агрегации метрик DataDog
Несмотря на это, на стороне DD агрегация производится при обработке запроса данных метрик для их визуализации. Поэтому важно понимать, как именно и на каких этапах происходят агрегации полученных от системы данных. На этом мы с командой решили не останавливаться и посмотреть возможные решения и архитектуру работы продукта Datadog по мониторингу баз данных используемых на проекте. «Мы неоднократно слышали, что существует четкая иерархия данных, которые мы обрабатываем для наших клиентов. Самое главное — возможность использовать live-данные и алерты.
- Важно помнить, что к метрикам типа GAUGE DD автоматически применяет линейную интерполяцию, заполняя таким образом отсчеты, данные для которых отсутствуют.
- Логика автоматического масштабирования других облачных провайдеров сразу заменяет нездоровый узел на новый.
- Пять-шесть сотен инженеров Datadog неустанно трудились, чтобы сократить время простоя и добиться полного восстановления.
- По истечении интервала агент построит 3 агрегата (по одному на каждый набор меток) и отправит их в бэк-энд DD, который сохранит их в таком же виде.
- Так что я решил не упустить эту возможность и поэкспериментировал с созданием собственных дашбордов.
- На виртуальных машинах работает Ubuntu Linux, дистрибутив которой регулярно обновляется до последней версии.
А среди всех live-данных ценнее те, которые активно мониторятся или отображаются на дашбордах. Мы будем учитывать эту иерархию в условиях деградации сервиса». По их словам, сложность была в том, что к написанию постмортема привлекли десятки команд и все они внесли свои правки. Медлительность говорит о том, что компании есть над чем поработать в части своевременного информирования клиентов об инцидентах.
Альтернативы для Datadog
Он предоставляет подробные метрики для всех облачных приложений, серверов и сетей. Его можно интегрировать с другими инструментами автоматизации, такими как Ansible, Chef, Puppet и т. В тарифные планы Datadog входят Synthetics, Log Management, Infrastructure и APM по цене 5, 1,27, 15 и 31 долл. Цены могут быть выше в зависимости от выбора пакетов (профессиональный и корпоративный).
У каждого облачного провайдера Datadog использует несколько регионов и работает с десятками зон доступности. К [08.31 CEST] процесс приобрел такой масштаб, что стал заметен для [клиентов]». При инциденте TTD указывает, сколько времени прошло с его начала до того, как он подтвержден дежурной командой и объявлено о перебоях в работе. «Мы выясняем причины проблем с работой нашего веб-приложения. В результате у некоторых пользователей могут возникать ошибки или возрастать задержки».
Почему не помогла работа в 5 регионах у 3 разных облачных провайдеров?
Так что, дорогие читатели, в тексте расскажу о возможности мониторинга Datadog на различных уровнях. А о том, как развернуть проект в AKS, настроить CI/CD и прочие DevOps фишки оставлю на сладкое https://boriscooper.org/ до следующего материала. Я рад, что Datadog осознала это и сосредоточилась на восстановлении работы с live-данными и алертами, прежде чем приступить к заполнению пробелов (backfilling).
Определить TTE обычно сложно, поэтому в большинстве инцидентов эта информация не фиксируется. Отслеживать TTE полезно, чтобы выявить, в каких случаях трудно оперативно привлечь инженеров, отвечающих за конкретную систему». Sysdig отмечают рост количества компаний, которые сканируют образы на наличие уязвимостей и вредоносного ПО на этапе сборки, то есть до деплоя.
Вот мои мысли насчет того, как все прошло с точки зрения информирования клиентов и общественности и что именно пошло не так. «В базовом образе ОС, который мы используем для запуска Kubernetes, был включен устаревший канал обновления безопасности, это привело к автоматическому применению обновления. Мы используем минималистичные базовые образы ОС, поэтому такие обновления происходят нечасто.
Некоторые мелкие ($50 тысяч в год) и крупные (более $1 миллиона в год) клиенты были полностью удовлетворены сервисом. Другие же клиенты разных масштабов после сбоя не получили ни одного постмортема от компании (в том числе те, кто тратит на Datadog более $1 миллиона в год). После завершения инцидента компания не общалась с клиентами централизованно. После устранения крупного сбоя следующим шагом является его анализ и публикация постмортема, о чем и говорится в разделе «Анализ инцидента и лучшие практики постмортемов». Обычно принято делиться результатами с клиентами, чтобы укрепить доверие. На мой взгляд, Datadog поступает мудро, отказываясь от автоматических обновлений, способных одновременно перезагрузить весь парк машин.
График DDOG
Внесение изменений, направленных на устранение системных первопричин инцидента. Проводятся ли автоматизированные тесты, внедряются ли в процесс ручные операции или другие изменения, способные решить системные проблемы, лежащие в основе инцидента? Общие подходы включают в себя автоматическое канареечное тестирование и откат, статический анализ, автоматизированные тесты (например, модульные, интеграционные или сквозные), применение staging-окружений.
Тренды безопасности контейнеров
Это не полная перезагрузка, но последствия могут быть похожими. Могло ли устранение уязвимости, которая потенциально приводила к утечке информации, вызвать проблемы у Datadog? Сложности могли бы возникнуть, если бы некие процессы анализировали дампы ядра упавших процессов. Они бы просто лишились доступа к подробностям об использовании памяти root-процессами. Common Vulnerabilities and Exposures (CVE) — обнародованный список уязвимостей в системе безопасности. Программа CVE реализуется корпорацией MITRE при финансовой поддержке Министерства внутренней безопасности США.
«Я не верю, что 37,5% DevOps’ов управляют собственной локальной инфраструктурой. Думаю, что некоторые из них используют такие инструменты, как EKS. Но, возможно, они говорят, что управляют этими сервисами просто потому, что у них договоренности с поставщиками».
Сейчас я уже хорошо понимаю, какие нагрузки на какие сервисы поступают при тестировании. Стоит отметить, что Datadog также возможно интегрировать с различными системами оповещений. Подводя итог могу сказать, что есть еще множество тонких настроек в подробности которых я бы не вдавался именно в этой статье. Немного затрагивая систему оповещений, хотелось бы отметить что она удобная в Datadog и интуитивно понятная. При разработке проектов на Azure существует возможность интеграции с подпиской Azure. Но именно в этот момент история сбоя Datadog приняла странный оборот.
Для обновления существующих задач можно использовать команду @jira-update. Эта команда добавляет к задаче Jira комментарий с текстом, после которого следует команда @jira-update. 19 сентября 2019 года состоялось первичное публичное размещение акций Datadog на фондовой бирже Nasdaq. Первая доступная цена в момент открытия рынка была $40,55 за акцию. В течение всей торговой сессии бумаги демонстрировали умеренную волатильность. Выделенное поле query содержит запрос данных, который DD должен выполнить для построения графика.
Comentarios recientes