Design and Operation Considerations When Using vSAN Fault Domains

vSAN의 장애 도메인 기능은 토폴로지를 기반으로 클러스터의 복원력을 향상시키기 위한 선택적 구성 옵션입니다. 이는 단일 호스트 또는 랙이나 데이터 옷장(data closet)과 같은 호스트 그룹을 사용할 수 없는 경우에도 클러스터의 데이터를 계속 사용할 수 있도록 보장합니다. 그림 1에 표시된 것처럼 vSAN 클러스터의 호스트 그룹을 논리적으로 연결함으로써 vSAN은 VMDK와 같은 특정 개체에 규정된 스토리지 정책에 따라 복원력 수준을 유지하기 위해 데이터를 배치하는 위치를 조정합니다.

그림 1. 장애 도메인은 다양한 유형의 오류로부터 보호합니다.

장애 도메인의 목적은 간단하며 구성도 간단합니다. 그러나 때때로 간과되는 설계 및 운영 고려 사항이 있습니다.

  • vSAN 클러스터에는 몇 개의 장애 도메인이 권장됩니까?
  • 장애 도메인 내에는 몇 개의 호스트가 권장됩니까?
  • 이러한 장애 도메인은 얼마나 대칭적이어야 합니까?
  • 장애 도메인을 사용할 때 여유 공간과 여유 공간은 어떤 영향을 받나요?
  • 장애 도메인은 다중 클러스터 사용과 어떻게 비교됩니까?

vSAN 설계 및 크기 조정 가이드와 vSAN 운영 지침 문서는 장애 도메인의 설계 및 운영에 대한 권장 사항을 제공하지만 아래에서 이러한 질문을 해결해 보겠습니다.

vSAN 클러스터에는 몇 개의 장애 도메인이 권장됩니까?

이에 대한 답은 또 다른 질문에서 나옵니다. 이 클러스터에서 사용하려는 FTT(허용 장애) 수준 중 가장 많은 수의 호스트를 준수해야 합니까? RAID-1 미러링을 통해 FTT=1 이하를 사용할 계획입니까? 이를 위해서는 3개 이상의 장애 도메인이 필요합니다. RAID-6을 사용하여 FTT=2가 필요한 개체가 있습니까? 이를 위해서는 최소 6개의 장애 도메인이 필요합니다.

이는 특정 저장소 정책을 실행하는 데 필요한 절대적인 최소 장애 도메인을 정의하는 데 도움이 되지만 권장되는 숫자는 아닙니다. 장애 도메인이 지원되지 않는 vSAN 클러스터의 호스트 수와 마찬가지로 최소한 N+1 전략을 권장합니다. 즉, 그림 2에 표시된 것처럼 필요한 최소값보다 장애 도메인이 하나 더 많다는 뜻입니다. 이렇게 하면 vSAN이 자동으로 자체 복구될 수 있습니다. 재구축에 사용할 수 있는 장애 도메인이 있기 때문에 장애 도메인이 완전히 실패하는 경우: 저장소 정책에 의해 할당된 복원력 수준을 다시 얻습니다.

그림 2. 장애 도메인 사용 시 N+1 이상의 전략 사용

조직의 요구 사항이 이 기능에 관심을 갖게 된 동기라면 N+1 이상의 디자인을 고려하는 것이 신중한 단계입니다.

장애 도메인 내에는 몇 개의 호스트가 권장됩니까?

이 결정은 장애 도메인 내에 장애가 발생한 호스트가 하나만 있고(전체 FD 장애가 아님) 재구축 대상에 대한 다른 장애 도메인이 없는 경우 데이터 재구축에 사용할 수 있는 여유 리소스를 결정합니다. 장애 도메인당 하나의 호스트만 사용할 수 있지만 그렇게 하면 기능의 목적이 무색해집니다. 두 개의 호스트를 사용할 수 있지만 해당 오류 도메인 내에서 단일 호스트에 오류가 발생하고 다른 오류 도메인을 사용할 수 없는 경우 충분한 용량을 제공하지 못할 수 있습니다. 오류 도메인 내의 세 개의 호스트는 현실적인 시작점입니다. 이 구성은 개체에 대한 스토리지 정책 준수를 회복하는 데 사용할 수 있는 다른 오류 도메인이 없을 때 단일 호스트 중단 시 용량 문제가 발생할 가능성이 적기 때문입니다. 장애 도메인 수(필요한 최소 수 이상)가 증가하면 장애 도메인 내의 호스트 수는 덜 중요해집니다.

장애 도메인은 얼마나 대칭적이어야 합니까?

vSAN은 클러스터 전체에서 호스트의 엄격한 대칭을 요구하지 않습니다. vSAN의 CPU, 메모리, 스토리지 리소스 등 모든 클러스터링 리소스 유형에 대해 각 호스트 전체에 동일한 수준의 리소스를 사용하는 것이 좋습니다. 호스트의 대칭성은 장애 발생 시 충분한 리소스를 사용할 수 있도록 보장하는 복잡성을 대폭 줄여줍니다. 이는 매우 적은 수의 호스트로 구성된 클러스터의 경우 특히 그렇습니다. 그림 3에 표시된 것처럼 불균형적으로 많은 양의 리소스를 제공하는 한 호스트에 장애가 발생하면 해당 호스트에 장애가 발생하고 다른 곳에서는 충분한 리소스를 확보하는 것이 문제가 됩니다.

그림 3. vSAN 클러스터의 비대칭 호스트 예

호스트 대칭에 대한 권장 사항(특히 호스트 수가 매우 적은 vSAN 클러스터의 경우)은 장애 도메인 전체에서 대칭이 적극 권장되는 이유와 같습니다. 이 경우 대칭은 호스트 사양 및 장애 도메인당 호스트 수에 적용됩니다. 리소스가 비대칭인 장애 도메인을 갖는 것은 매우 작은 비대칭 클러스터의 장애 도메인과 유사합니다. 장애가 발생하면 이러한 비대칭성으로 인해 데이터 배치가 더 어려워질 수 있습니다.

그림 4. 비대칭 장애 도메인의 예

장애 도메인을 사용할 때 여유 공간과 여유 공간은 어떤 영향을 받나요?

“여유 공간(free space)“에 대한 언급은 클러스터 전체에서 사용 가능한 용량의 백분율로 간주되는 경우가 많습니다. vSAN은 호스트, 디스크 그룹, 개별 디스크 등 훨씬 더 개별적인 수준에서 여유 공간을 확인합니다. 장애 도메인에는 vSAN에 대한 또 다른 배치 및 “여유 공간” 제약이 도입됩니다. 모든 장애 조건(장애 도메인 사용 여부)에서 vSAN은 다른 데이터 복사본과 겹치지 않는 데이터를 복구할 위치를 찾습니다. 장애 도메인을 사용하는 클러스터의 경우 이러한 임시 활동을 위한 여유 공간으로 용량의 25~30%를 유지하는 것이 좋습니다.

중복 제거 및 압축을 사용하는 경우 오류 도메인을 실행하지 않는 클러스터와 마찬가지로 오류 도메인을 사용하는 클러스터에도 동일한 고려 사항이 적용됩니다. 이는 기회주의적인 공간 효율성 기능입니다. 스토리지 정책 변경 및 호스트 장애와 같은 활동으로 인해 발생하는 데이터 이동은 효과적인 용량 절감 수준이 결코 보장되지 않음을 의미합니다.

장애 도메인은 다중 클러스터 사용과 어떻게 비교됩니까?

장애 도메인에 대한 전제 조건은 일반적으로 호스트 수가 보통 이상인 클러스터에서 활성화된다는 의미입니다. 조직이 장애 도메인 사용을 고려하고 설계(장애 도메인 수 x 각 호스트 수)를 생각해 낸 경우 후속 조치로 공정한 질문을 던져야 합니다. 다음을 통해 원하는 결과를 얻을 수 있습니까? 장애 도메인을 실행하지 않는 여러 vSAN 클러스터를 사용하는 것이 요구 사항에 더 적합합니까?

그림 5에 표시된 한 시나리오에서는 장애 도메인 기능 대신 여러 클러스터를 사용하여 랙 수준 보호를 달성할 수 있습니다. 클러스터는 랙당 단 하나의 호스트로 구성되므로 얕은(하나의 호스트 깊이) 암시적 오류 도메인이 생성됩니다.

이는 확실히 vSAN의 장애 도메인 기능에서 볼 수 있는 흥미로운 복원력 용량을 제공하지 않습니다. 즉, 클러스터 내 랙당 호스트는 항상 하나로 제한됩니다. 다중 클러스터는 운영 및 유지 관리 도메인이 더 작아진다는 또 다른 고유한 이점을 제공합니다. 클러스터 서비스(중복 제거 및 압축, 암호화 등)는 더 작은 호스트 집합에 맞게 맞춤화될 수 있으며 유지 관리 및 계획되지 않은 이벤트를 더 쉽게 관리할 수 있습니다. 자세한 내용은  vSAN Cluster Design – Large Clusters Versus Small Clusters 문서를 참조하십시오.

요약

장애 도메인은 호스트 장애뿐만 아니라 랙, 배선실 또는 장애 경계를 정의하는 모든 호스트 등 전체 호스트 모음에 대한 보호를 제공하는 vSAN의 가용성 기능입니다. 다음은 vSAN의 장애 도메인 기능 설계 및 운영에 대한 몇 가지 주요 사항입니다.

  • 사용자 환경에 장애 도메인 사용을 통한 보호가 필요한지 평가합니다.
  • 항상 필요한 최소값보다 하나 이상의 장애 도메인을 구현하십시오. 이는 명시적인 장애 도메인을 사용하지 않는 vSAN 클러스터의 호스트에 대한 지침과 유사합니다.
  • 호스트 오류 가능성을 지원하고 동일한 오류 도메인에 있는 다른 호스트의 모든 데이터를 흡수할 수 있도록 각 오류 도메인 내에 충분한 수의 호스트가 있는지 확인합니다.
  • 장애 도메인이 많고 해당 장애 도메인 내에 호스트 수가 적은 클러스터는 호스트가 많고 장애 도메인 수가 적은 클러스터보다 유연한 경향이 있습니다.
  • 오류 시나리오를 단순화하려면 CPU, 메모리, 스토리지 용량에 대해 가능한 한 많은 대칭을 보장하세요.