[SRE] Ch.5&6 삽질은 이제 그만! & 분산 시스템 모니터링

이번 챕터는 삽질은 이제 그만! 과 분산 시스템 모니터링을 공부하고, 개인적인 생각을 추가하여 포스팅 하고자 한다. 이번 문서도 역시 구글 공식문서를 참고하여 공부하였다. 관련문서 링크 삽질은 이제 그만 (Eliminating Toil) 삽질의 정의 그렇다면 SRE에서 말하는 삽질이란? 수작업 필요 자동화된 작업을 실행하기 위해 수작업으로 스크립트를 실행 시킨다면, 그 시간은 삽질에 소비된 시간으로 분류될 수 있습니다. 하지만 … Read more

[SRE] Ch. 3 & 4 : 위험 요소 수용하기 & 서비스 수준 목표

Ch.3 : 위험 요소 수용하기 (Embracing Risk) SRE 측면에서, 이번 챕터 한줄 요약 다운 타임과 측정하고, 에러에 대한 에러 버짓을 설정하여 미리 관리하면 위험 요소 (Risk) 를 어느정도 관리할수 있다. 내용 전체를 적는게 아니라, 스터디 하면서 중요하다 생각한 내용 위주로 적고 있기때문에, 아래의 문서들을 참고하시길. 공부할때 참조한 구글 문서 위험 요소(Risk) 관리하기 SRE(사이트 신뢰성 엔지니어링)를 … Read more

[SRE] Ch.01 & Ch.02

서론 SRE (사이트 신뢰성 엔지니어링) 이란 책을 읽고, 스터디를 진행했었다. 이후에는 SRE 관련하여 업무도 진행하게 되었다. 이런 경험들을 바탕으로 당시 스터디를 하면서 정리했던 내용과 몇 년이 지난 현재 나의 생각을 섞어서 내용을 작성해보고자 한다. SRE는 구글에서 무료로 제공하기 때문에 꼭 책을 살 필요는 없다. 관련 링크 소개 시스템 관리자를 활용하는 방법 시스템 관리자를 통해 시스템을 … Read more