TOSS SLASH 24
양석준 토스 DevOps Engineer
https://static.toss.im/slash24/QR/slash24-24.pdf
클러스터 관리의 문제점
Kubespray를 사용하여 Kubernetes 클러스터를 관리하고 있었다.
문제는 버전 업그레이드 과정이 복잡하고 시간이 많이 소요된다.
노드 조인: 30분
운영체제/커널 업그레이드: 30분
Kubernetes 업그레이드: 2시간 (버전당)
전체 과정이 짧게는 30분, 길게는 12시간까지 걸릴 수 있다.
개선 방안: EKS (Amazon Elastic Kubernetes Service) 도입
EKS는 AWS에서 제공하는 관리형 Kubernetes 서비스이다.
- 클러스터 관리 부담 감소
- 자동화된 노드 조인 및 업그레이드 프로세스
이를 활용한 개선 결과:
- 노드 조인 시간: 30분 → 0분 (100% 개선)
- 운영체제/커널 업그레이드: 30분 → 2분 (94% 개선)
- Kubernetes 업그레이드: 2시간 → 30분 (75% 개선)
서비스 관리 개선
서비스 배포 및 관리를 위한 파이프라인 자동화
블루-그린 배포와 카나리 배포 전략 사용
미사용 서비스 관리
주기적으로 미사용 서비스를 탐지하고 제거
HTTP 트래픽, Kafka 컨슈머, 배치 작업 등 다양한 지표를 활용하여 사용 여부 판단
결과: 80개의 미사용 서비스 제거, 1280코어 CPU와 1280Gi 메모리 자원 확보
나의 한줄평:
미사용 서비스를 주기적으로 정리하는 것이 중요하나 정말 챙기기 어려운 영역이구나..