What I Learn Today

Start Date : 2022/02/07 ~

Learn/Error Report 4

[Error #2+] 장애 리뷰 준비 & 올해의 장애 TOP 2

장애가 발생했다면 추후 재발 방지를 위해장애 리뷰를 진행합시다목차1. 장애 리뷰 문서 형식2. 올해의 장애 TOP2 (RDS)3. 장애 리뷰 - 문서 작성 (Rabbit MQ)4. 장애 리뷰 - 논의가 필요한 부분회사에서 장애가 발생하면 담당자가 장애 리뷰 문서를 작성하고 개발팀 내에서 장애 리뷰를 진행합니다.연말에 발생한 Rabbit MQ 장애 사건도 장애 리뷰를 진행하기로 했는데요!다만 연말인 만큼 모두 휴가를 갔기 때문에 (...) 시간 공백이 생긴 만큼 문서 작성에 좀 더 공을 들여 보았습니다.이때를 위해 장애 났을 때부터 틈틈이 캡처해 둔 증거 사진 (?) 과 함께 전반적인 타임라인과 개선점을 정리했더니 3시간이 훌쩍 지나가네요...ㅎㅎ(+ 2월부터 서버 장애를 하도 겪다보니 캡처하는 습관이 생..

Learn/Error Report 2022.12.31

[Error #2] 연말은 에러와 함께~ (Rabbit MQ)

모니터링이 필요한 곳이 있다면 모니터링 방안을 구상하자 약 6개월 만의 작성해보는 게시글이네요. 벌써 입사 1년이 되어간다니 감회가 새로운데요...ㅎㅎ 소중히 아껴온 2022년 마지막 연차가 에러와 함께 불타오르는 것을 보니 서버 개발자가 된 것이 실감이 났습니다 (*ˊᵕˋ*)ノ 사실 1년차가 되면 일정량 업무가 반복 업무처럼 되어갈 줄 알았는데 매일매일이 새롭네요. 이 쯤 되니 경이롭습니다. (하지만 거의 12시간 동안 서버 장애가 해결 안된 건 너무 새로운 이벤트가 아닌지...) 목차 1. 발생한 오류 2. 자세한 타임라인 (장애 인지부터 장애 대응 완료까지) 3. 장애 인지 및 대응 개선 4. 결론 ▶ 발생한 오류 이번에 마주하게된 에러는 Rabbit MQ 과부하 (DISK FULL) 입니다. 챌린..

Learn/Error Report 2022.12.28

[Error #1] Server - update 가 랜덤하게 성공하는 경우

매우 짧은 순간에 여러 개의 update API 요청이 진행되는 경우 순서를 보장하지 못한다. 서버 외 클라이언트 로직도 살피고 로그 분석 시 API 호출 시간 간격도 살펴보자! ▶ 발생한 오류 플레이어에서 다른 목차로 이동 후 콘텐츠를 목록을 띄울 시, 사용자의 재생률이 update 되지 않는 경우가 발생한다. (=update 가 랜덤하게 성공한다) (※ 참고 1 : 재생률은 실제로 유저가 재생한 소요 시간으로 책정되는 것이 아닌, 유저가 마지막으로 재생한 위치가 콘텐츠 전체 길이에서 몇 퍼센트 지점인지를 나타낸다.) (※ 참고 2 : 이번에 작업한 부분과 전혀 관계없는 부분이다. 이번에 작업한 부분은 재생 플레이어에서 콘텐츠 목록을 띄우는 기능으로, QA 에서 해당 목록에서 사용자의 재생률이 즉각 반..

Learn/Error Report 2022.04.24

[Error #0] Braze API - 유효하지 않은 API Key 응답 오류

공식 문서를 볼 때는 Overview (개요) 를 확인하자. 공식 문서에는 크리티컬한 주의사항도 있으니 꼼꼼히 보아야 한다! ▶ 발생한 오류 Braze API 호출 시, 계속 유효하지 않은 API Key 라고 메세지가 반환된다. ▶ 발생한 이유 Braze 는 dashboard 및 REST end-point 에 대한 다양한 인스턴스를 관리하고 있다. 이를 인지하지 못하고 회사 계정과 프로비저닝된 인스턴스가 아닌 인스턴스에 요청을 보냄. 회사와 연결된 US-5 인스턴스에 해당하는 REST end-point URL 로 변경하여 해결. Python Braze-client 라이브러리는 US-2, 공식 문서 예제는 US-1 로 되어 있었음. ▶ 해결점에 도달한 방법 차장님에게 문제 상황 공유 → 디버깅을 통해 문제..

Learn/Error Report 2022.03.04
1