Infra→Deploy→Run을 하나로: 복구 시간을 줄인 Observability-First 운영 설계

2022년 12월 21일 · ◷ 2분

운영에서 가장 비싼 장애는 “예상 못 한 실패"가 아니라 예상했지만 처리 경로가 없던 실패다.

이 글은 Infra→Deploy→Run 전체 흐름에서 관측/실패처리를 먼저 설계한 방법을 정리한다.

문제 정의

실시간과 결제가 동시에 있는 서비스는 장애 한 번이 곧 이탈로 이어진다. 그래서 기능 확장보다 장애 포인트 축소가 우선이었다.

배포만 빠르게 만드는 것으로는 충분하지 않았다. 장애가 났을 때 “어디가 망가졌는지"를 5분 내 좁히지 못하면 운영팀이 소모된다.

흐름은 아래처럼 단순화했다.

핵심은 로그를 남기는 것이 아니라 실패를 복구 가능한 이벤트로 만드는 것이다.

이 검증을 릴리즈 전에 강제하면, “배포 성공"과 “운영 성공"의 간극이 줄어든다.

실제 개선은 화려한 기능보다 mttd/mttr이 내려가는지로 판단했다.

이 루프를 운영 문서로 고정해야, 장애가 났을 때 개인 역량이 아니라 시스템 프로세스로 대응할 수 있다.

알람 수를 늘리는 것이 아니라, “누가 언제 대응해야 하는가"가 명확한 알람만 남기는 게 중요하다.

참고: Google SRE의 모니터링 원칙은 지표를 행동 가능한 신호로 설계해야 한다고 강조한다. Monitoring Distributed Systems

참고: SLO 기반 운영은 릴리즈 성공과 사용자 체감 신뢰도를 연결하는 핵심 프레임이다. Implementing SLOs

참고: OpenTelemetry는 로그/메트릭/트레이스의 공통 수집 표준을 제공한다. OpenTelemetry Docs