https://docs.aws.amazon.com/wellarchitected/latest/framework/welcome.html
프레임워크의 6가지 기둥
1. 운영 효율성
- 코드로 작업 수행
- 클라우드에서는 애플리케이션 코드에 사용하는 것과 동일한 엔지니어링 원칙을 전체 환경에 적용할 수 있습니다. 전체 워크로드(애플리케이션, 인프라 등)를 코드로 정의하고 코드로 업데이트할 수 있습니다. 운영 절차를 스크립트로 작성하고 이벤트에 대한 응답으로 실행하여 프로세스를 자동화할 수 있습니다. 작업을 코드로 수행함으로써 인적 오류를 제한하고 이벤트에 대한 일관된 응답을 생성할 수 있습니다.
- 자주, 작게, 되돌릴 수 있는 변경 수행
- 구성 요소가 정기적으로 업데이트될 수 있도록 확장 가능하고 느슨하게 결합된 워크로드를 설계합니다. 더 작은 증분 변경과 함께 자동화된 배포 기술을 사용하면 폭발 반경이 줄어들고 오류 발생 시 더 빠르게 되돌릴 수 있습니다. 이를 통해 품질을 유지하고 시장 상황 변화에 신속하게 적응하면서 워크로드에 유익한 변화를 제공할 수 있다는 자신감이 높아집니다.
- 운영 절차를 자주 개선하세요.
- 워크로드가 발전함에 따라 운영도 적절하게 발전시키세요. 운영 절차를 사용하면서 이를 개선할 수 있는 기회를 찾으세요. 정기적인 검토를 실시하고 모든 절차가 효과적이며 팀이 해당 절차를 숙지하고 있는지 확인하세요. 격차가 확인되면 그에 따라 절차를 업데이트합니다. 모든 이해관계자와 팀에 절차적 업데이트를 전달합니다. 모범 사례를 공유하고 팀을 교육하기 위해 운영을 게임화하세요.
- 실패 예측
- "사전 분석" 연습을 수행하여 잠재적인 실패 원인을 식별하여 제거하거나 완화할 수 있습니다. 실패 시나리오를 테스트하고 그 영향에 대한 이해를 검증하세요. 대응 절차를 테스트하여 효과적인지, 팀이 프로세스를 잘 알고 있는지 확인하세요. 시뮬레이션된 이벤트에 대한 작업량과 팀의 반응을 테스트하기 위해 정기적인 게임일을 설정하세요.
- 모든 운영 실패로부터 학습
- 모든 운영 이벤트 및 실패에서 얻은 교훈을 통해 개선을 추진합니다. 학습한 내용을 팀 전체와 조직 전체에 공유하세요.
- 관리형 서비스 사용
- 가능한 경우 AWS 관리형 서비스를 사용하여 운영 부담을 줄입니다. 해당 서비스와의 상호 작용을 중심으로 운영 절차를 구축하세요.
- 실행 가능한 통찰력을 위한 관찰 가능성 구현
- 워크로드 동작, 성능, 안정성, 비용 및 상태에 대한 포괄적인 이해를 얻습니다. 핵심 성과 지표(KPI)를 설정하고 관측 가능성 원격 측정을 활용하여 정보에 입각한 결정을 내리고 비즈니스 결과가 위험할 때 즉각적인 조치를 취하세요. 실행 가능한 관측 가능성 데이터를 기반으로 성능, 안정성, 비용을 사전에 개선합니다.
2. 보안
- 강력한 ID 기반 구현
- 최소 권한 원칙을 구현하고 AWS 리소스와의 각 상호 작용에 대해 적절한 권한 부여를 통해 업무 분리를 시행합니다. ID 관리를 중앙 집중화하고 장기적인 정적 자격 증명에 대한 의존도를 없애는 것을 목표로 합니다.
- 추적성 유지
- 환경에 대한 작업과 변경 사항을 실시간으로 모니터링, 경고, 감사합니다. 로그 및 지표 수집을 시스템과 통합하여 자동으로 조사하고 조치를 취합니다.
- 모든 계층에 보안 적용
- 여러 보안 제어를 통해 심층 방어 접근 방식을 적용합니다. 모든 계층(예: 네트워크 에지, VPC, 로드 밸런싱, 모든 인스턴스 및 컴퓨팅 서비스, 운영 체제, 애플리케이션 및 코드)에 적용됩니다.
- 보안 모범 사례 자동화
- 자동화된 소프트웨어 기반 보안 메커니즘은 보다 빠르고 비용 효율적으로 안전하게 확장할 수 있는 능력을 향상시킵니다. 버전 제어 템플릿에서 코드로 정의 및 관리되는 컨트롤 구현을 포함하여 보안 아키텍처를 생성합니다.
- 전송 중 및 저장 중인 데이터 보호
- 데이터를 민감도 수준으로 분류하고 적절한 경우 암호화, 토큰화, 액세스 제어 등의 메커니즘을 사용합니다.
- 사람들이 데이터에 접근하지 못하도록 합니다.
- 메커니즘과 도구를 사용하여 데이터에 직접 액세스하거나 수동으로 처리할 필요성을 줄이거나 제거합니다. 이를 통해 민감한 데이터를 처리할 때 잘못된 처리나 수정, 인적 오류의 위험을 줄일 수 있습니다.
- 보안 이벤트 준비
- 조직 요구 사항에 맞는 사고 관리 및 조사 정책과 프로세스를 마련하여 사고에 대비합니다. 사고 대응 시뮬레이션을 실행하고 자동화 도구를 사용하여 탐지, 조사, 복구 속도를 높입니다.
3. 신뢰성
- 오류 자동 복구
- KPI(핵심성과지표)에 대한 워크로드를 모니터링하여 임계값이 위반되면 자동화를 시작할 수 있습니다. 이러한 KPI는 서비스 운영의 기술적 측면이 아닌 비즈니스 가치를 측정하는 척도여야 합니다. 이는 오류에 대한 자동 알림 및 추적과 오류를 해결하거나 복구하는 자동화된 복구 프로세스를 제공합니다. 더욱 정교한 자동화를 통해 장애가 발생하기 전에 이를 예측하고 해결할 수 있습니다.