목록전체 글 (51)

Project Architecture Diagram아래의 아키텍처는 Grafana에서 제공하는 intro-to-mltp라는 프로젝트의 아키텍처로, 본 글은 Grafana의 Loki, Grafana, Tempo, Mimir를 통해 해당 프로젝트에서 발생하는 에러의 원인을 파악하는 것을 목적으로 한다.Loki로그는 어디서든 발생할 수 있기 때문에 로그에서 특정한 내용을 찾으려고 할 때 다소 어려움이 존재할 수 있다. 또한 시스템의 가동 시간이 길어지고 사용량이 많아질 수록 기록이 방대해지면서 저장 공간의 필요성도 커지고 있다. 또한, 방대한 양의 로그를 어떤 식으로 결합하고 의미있는 방식으로 집계할지에 대한 고민이 필요하다.이에 더해, 영구적이지 않은 저장소에서 정보를 추출하는 것은 불확실성을 내포하고 있기..

Observability란?인체는 서로 다른 기능을 수행하는 여러 시스템으로 구성되어 있다. 소화계, 호흡계, 신경계, 근육 등 모든 시스템이 모여 하나의 인체를 형성한다.이중 하나 이상의 시스템이 제대로 동작하지 않을 때, 우리는 원인 모를 질병에 시달리거나 기력을 상실할 것이다. 이를 해결하기 위해 우리는 인체의 전문가 즉, 의사를 찾아간다. 의사는 인체의 체온, 혈압, 산소 수치 등과 같은 신체 지표를 우선 측정한다. 해당 진찰을 통해 우리의 신체 지표 중 이상이 발생한 부분을 발견하고 원인을 파악하기 위해 다양한 검진을 진행할 수 있다. 이를 통해 의사는 우리 인체 내부에서 무슨 일이 발생하는지 어디서 발생하는 지를 더 자세히 알아볼 수 있다. 또한, 이를 통해 의사는 문제를 해결하고 동일한 문제..

Chapter 1 - Introduction📌 Summary시스템의 복잡도와 트래픽이 증가할수록 서비스 관리의 어려움이 커지며, 운영팀과 개발팀 간의 상이한 목표로 인해 갈등이 자주 발생한다. Google은 이를 해결하기 위해 운영을 코드로 해결하는 엔지니어링 접근법을 도입했고, 이를 SRE(Site Reliability Engineering) 라고 명명했다. SRE의 도입으로 인해 제품 개발팀과 SRE팀 간의 손쉬운 업무 전환이 가능해져, 개발팀과 운영팀의 분리에서 발생하는 갈등이 완화되었다. 또한, SRE팀은 반복적인 운영 작업을 자동화하고 혁신적인 운영 방식으로 전환하는 역할을 수행한다.SRE팀은 개발팀의 목표인 빠른 개발 속도와 운영팀의 목표인 서비스 안정성 사이의 균형을 맞추기 위해 SLO(S..