Мы предлагаем вам рассказ о разработке сервиса в контексте его эксплуатации, решения инцидентов и их расследования. Представьте, у вас проект с полутора тысячами машин, многомиллионной аудиторией и сложной бизнес-логикой. Как писать логи, чтобы расследование инцидентов не превращалось в поиск иголки в стоге сена? Как локализовать проблему, как её воспроизвести и как не потратить на это целый день? Мы рассмотрим распространенные проблемы и некоторые приёмы, которые мы используем для их решения. Также в нашем докладе будут затронуты темы сбора метрик и мониторинга. Рассказ основан на опыте разработки проекта Облако@Mail.ru и личном опыте докладчиков.