본문 바로가기
Private & Public Cloud/VMware vSphere

VMware vSphere 정기 점검

by TwoJun 2025. 2. 25.

2025-02-24(MON)

 

 

 

 

 

1. VMware vSphere 정기 점검

1-1. vSphere 정기 점검

(1) 지원하는 고객사의 vSphere 정기 점검은 VMware vSphere 환경을 사용하는 인프라 운영 환경을 최적화하고 안정성을 확보하기 위해 주기적으로 시행하는 인프라 점검 작업을 의미한다.

 

(2) vSphere 클러스터와 가상화 환경의 성능, 보안, 시스템 로그 등을 검토하고 필요한 업데이트나 패치를 적용하는 작업을 포함한다.

 

 

 

 

 

 

2. vSphere 정기 점검 문서

2-1. 정기 점검 문서 : 정기 점검 시 Check-List 

(1) Computing Resource(CPU, MEM.) 상태 및 사용률 추세

 

(2) 스토리지 상태 및 용량

 

(3) 네트워크 상태

 

(4) VMware License

 

(5) NTP(Network Time Protocol), DNS 연동 상태

 

(6) 인증서

 

(7) VMware Service(HA, DRS 등) 운영 상태

 

(8) 경보 및 알람

 

(9) 그 외 기타사항

 

 

(10) 기타 : open-vm-tools, vm-tools 차이?

- open-vm-tools, vm-tools는 모두 VMware Tools를 의미하며 VM과 호스트 간 상호작용을 최적화하고 vCenter에서 관리자의 관리 편의성, VM 모니터링을 담당하는 핵심 도구이지만 open-vm-tools는 오픈소스, vm-tools는 VMware에서 상용화한 VMware-Tools이다.

 

- open-vm-tools는 리눅스 배포판 등에서 기본적으로 제공되며 VMware에서 업데이트함에 따라 지속적으로 버전업 된다.

 

- vm-tools의 경우 Windows와 여러 리눅스 배포판에 대해 지원되고 VMware vSphere 등 솔루션에서 기본적으로 제공되는 VMware Tools이다.

 

 

(11) End of General Support

- 일반 지원 종료는 소프트웨어 또는 하드웨어 제품에 대해 제공되는 주요 기능 개선 및 버그 수정과 같은 기본적인 지원이 종료되는 것을 의미한다.

 

 

(12) End of Technical Support

- 기술 지원 종료는 제품이나 솔루션에 대한 기술적 문제 해결을 포함한 모든 형태의 지원이 종료되는 것을 의미한다.

 

 

 

 

 

 

 

 

 

3. 정기 점검 메뉴얼

3-1. vSphere Alarm & Task 및 Events 확인 (Error 발생 유무 확인)

(1) vCenter > 호스트  > 모니터 > 문제 및 경보에서 Alarm 확인이 가능하다.

 

(2) vCenter > 호스트  > 모니터 > 작업 및 이벤트에서 Task & Events 확인이 가능하다.

 

 

 

 

3-2. ESXi 호스트 Resource 사용량 확인(CPU, MEM.)

(1) 클러스터 > 호스트에서 사용된 CPU, MEM.을 간단하게 확인할 수 있다.

 

 

(2) 하지만 클러스터 또는 호스트 > 모니터 > 성능 > 개요 및 고급 에서 기간별 리소스 사용률을 확인해볼 수 있다.

- 기간별 리소스 확인이 필요한 이유 : 기간별 리소스 사용률의 동향을 보며 향후 장비 증설에 대한 부분을 예측해볼 수 있다.

 

(3) 정기점검 테스트 시, 그 시각 당시에 사용되는 자원 사용률을 체크한다.

 

(4) 또한 CPU의 경우 물리 코어 수를 넘기더라도 VM 추가 증설이 가능하지만 메모리의 경우 넘어가면 생성 불가능하다.

 

 

(5) 또한 호스트의 > 모니터 > 성능 > 고급 > 차트 옵션에서 특정 호스트에 대한 기간별 리소스 사용률을 자세하게 확인해 볼 수 있다.

 

(6) 최대, 최소, 평균값 %를 체크해볼 수 있다.

 

 

(7) 메모리 사용률도 한 달 기준으로 최대, 최소, 평균을 차트 옵션에서 확인해 볼 수 있다.

 

(8) ESXi 호스트 CPU 75% 이상 사용 시 주의, 90% 이상 사용 시 경고 Alert 발생

 

(9) ESXi 호스트 MEM. 90% 이상 사용 시 주의, 95% 이상 사용 시 경고 Alert 발생

 

(10) ESXi 호스트 스토리지 75% 이상 사용 시 주의, 85% 이상 사용 시 경고 Alert 발생

 

 

 

 

3-3. 스토리지 상태 및 사용량 점검  - 데이터스토어 상태 및 사용량 확인

(1) 데이터 센터 또는 클러스터 > 데이터스토어 항목에서 호스트와 연결된 스토리지 실행 상태, 용량 및 사용 가능 공간을 확인할 수 있다.

 

 

 

 

 

3-4. 스토리지 상태 및 사용량 점검 - 스토리지 어댑터 & 디바이스 확인

(1) 호스트 > 구성 > 스토리지 어댑터에서  어댑터 및 경로 상태 체크 확인이 가능하다.

 

(2) 스토리지 어댑터에 대한 상태 체크도 중요하지만 이를 통해 받아오는 LUN에 대한 상태도 체크해 주어야 한다.

 

 

(3) 호스트 > 구성 > 스토리지 디바이스에서 호스트와 연결된 스토리지의 상태 확인이 가능하다.

 

 

 

 

3-5. 스토리지 상태 및 사용량 점검 - vSAN 스토리지 사용량 점검

(1) 클러스터 선택 > 구성 > vSAN > 서비스에서 성능 서비스를 확인해 볼 수 있다.

 

 

(2) 클러스터 선택 > 구성 > vSAN > 디스크 관리에서 vSAN을 관리하는 각 디스크에 대한 상태를 확인해 볼 수 있다.

 

(3) vSAN 디스크 그룹의 경우 단일 호스트의 디스크 그룹을 의미한다.

 

 

(4) vSAN 디스크 영역 체크 시, Cache Disk의 동작여부를 확인한다. Cache Disk가 다운되면 vSAN 전체가 Fault 된다.

- Capacity Disk는 일부가 다운되더라도 전체가 Fault 되지 않는다.

 

 

 

 

3-6. 스토리지 상태 및 사용량 점검 - Skyline Status(vSAN 스토리지 상태 점검)

(1) 클러스터 선택 > 모니터 > vSAN > Skyline 상태에서 vSAN 클러스터를 모니터링하고 문제를 해결하기 위한 Skyline 항목을 열어볼 수 있다.

 

 

 

 

3-7. ESXi 호스트 네트워크 상태 확인

(1) ESXi 호스트 > 구성 > 네트워킹 > 물리적 어댑터에서 호스트에 연결된 VMNIC 상태를 확인할 수 있다.

 

 

 

(2) 호스트 > 구성 > 네트워킹 > 가상 스위치 > 표준 스위치 : vSwitch0 > 설정 보기에서 표준 스위치와 관련된 속성, 정책 정보를 확인할 수 있다.

 

 

(3) 동일한 경로에서 vDS에 대한 포트 그룹의 속성, 정책 정보도 포트 그룹 선택 후 "설정 보기"에서 확인 가능하다.

 

(4) 표준 가상 스위치 기준으로 물리 NIC의 Standby, Active 여부 확인, Fail-back 여부까지 확인한다.

- Failover : 시스템이나 구성 요소에 장애 발생 시 예비 시스템으로 전환되는 것을 말한다.

- Failback : 장애 포인트가 복구되었을 때 Failover에 따라 전환된 시스템을 장애가 발생하기 전 상태로 되돌리는 과정을 의미한다.

 

 

 

 

3-7. VMware License 관리 : vCenter, ESXi 호스트에서 라이센스 

(1) vSphere Client 메뉴 > 관리 > 라이센싱 > 라이센스 > 자산 항목에서 vCenter와 ESXi 호스트에 적용된 라이센스 제품명과 만료 여부를 확인할 수 있다.

 

 

(2) vCenter > 구성 > 시스템 > 라이센싱 항목에서 vCenter에 적용된 라이센스를 확인할 수 있다.

 

 

(2) 호스트 > 구성 > 시스템 > 라이센싱 항목에서 ESXi 호스트에 적용된 VMware 라이센스 확인이 가능하다.

 

 

 

 

3-8. NTP(Network Time Protocol), DNS 연동 여부 확인

(1) vSphere Client > 호스트 선택 > 구성 > 시스템 > 시간 구성 항목에서 각 호스트에 적용된 NTP 서버와 실행 여부까지 확인할 수 있다.

 

 

(2) vSphere Client > 호스트 선택 > 구성 > 네트워킹 > TCP/IP Configuration에서 호스트와 연결된 DNS 서버를 확인할 수 있다.

 

 

(3) 위와 같이 vCenter Appliance Management Interface(VAMI)에서도 vCenter의 NTP 및 DNS 서버 정보를 확인할 수 있다.

 

 

(4) VAMI > 시간 >  시간 동기화 메뉴에서 NTP 서버 정보 확인

 

 

(5) VAMI > 네트워킹 > 네트워크 설정 메뉴에서 DNS 서버 주소 확인

 

 

 

 

3-9. vCenter 인증서 확인

(1) vSphere Client > 호스트 > 구성 > 시스템 > 인증서 메뉴에서 인증서를 통한 ESXi 호스트 인증서 상태와 만료일을 확인할 수 있다.

 

 

(2) vCenter CLI에서도 vCenter 인증서를 조회할 수 있는데 아래와 같은 커맨드로 조회 가능하다.

 

(3) for store in $(/usr/lib/vmware-vmafd/bin/vecs-cli store list | grep -v TRUSTED_ROOT_CRLS); do echo "[*] Store :" $store; /usr/lib/vmware-vmafd/bin/vecs-cli entry list --store $store --text | grep -ie "Alias" -ie "Not After";done;

 

(4) MACHINE_SSL_CERT

> vCenter에서 사용되는 인증서로 서버와 클라이언트 간의 HTTPS 연결을 보호하는 역할을 수행한다. 주요 인증서 중 하나로 관리자나 사용자가 웹 콘솔을 통해 vCenter에 접근 시 사용된다.

 

(5) TRUSTED_ROOTS

> vCenter가 신뢰하는 루트 인증서를 보관하는 위치이다. 해당 인증서를 통해 외부와의 안전한 연결을 생성 시 사용하며 주로 타사 인증 기관에서 발급한 인증서를 모두 포함한다. 신뢰된 루트 인증서는 vCenter가 연결을 수립할 때 Validation 과정에서 사용된다.

 

(6) MACHINE

> vCenter 시스템 자체에 대한 인증서이며 일반적으로 vCenter Server 시스템의 기본 인증서 역할을 수행한다. 

 

(7) vsphere-webclient

> vSphere Web Client는 vCenter와 상호작용하는 인증서이다. 해당 인증서는 웹 클라이언트를 통해 vCenter에 안전하게 접속할 수 있도록 돕는다. 주로 SSL 인증서를 통해 웹 클라이언트와 vCenter 간의 암호화된 연결을 설정한다.

 

(8) vpxd

> vCenter의 핵심 서비스이다. vCenter가 ESXi 호스트 및 VM과 통신하는데 사용된다. vpxd 인증서는 vCenter의 API 및 관리 인터페이스를 통해 안전한 통신을 보장하는 과정에서 사용된다.

 

(9) vpxd-extension

> vCenter의 확장 기능을 제공하는 서비스

 

(10) hvc

> vCenter의 Hybrid Cloud vCenter와 관련된 인증서이다. 온프레미스와 퍼블릭 클라우드의 하이브리드 연결을 설정하는 과정에서 사용된다.

 

(11) data-encipherment

> 데이터 암호화와 관련된 인증서

 

(12) APPLMGMT_PASSWORD

> vCenter에서 애플리케이션 관리와 관련된 인증서를 나타낸다.

 

(13) SMS

> Storage Management Service와 관련된 인증서다. 스토리지 장치와 안전하게 통신하는데 사용된다.

 

(14) wcp

> vSphere with Tanzu와 관련된 서비스인 vSphere Container Pod와 관련된 인증서이다. Kubernetes 클러스터와 vCenter 간의 보안 연결을 수립한다.

 

(15) 위의 인증서들은 vCenter의 다양한 서비스와 기능들이 안전하게 상호작용할 수 있도록 보장하는 중요한 역할을 수행한다. 각각의 서비스는 특정 인증서를 사용하여 통신을 암호화하고, 이를 통해 전체 시스템의 보안을 유지한다.

 

 

(16) __MACHINE__CERT

> vCenter의 기본 머신 인증서, vCenter가 네트워크에서 다른 시스템과 안전하게 통신할 수 있도록 보장해준다.

> vCenter와 호스트 간 통신 간의 암호화된 SSL/TLS 연결 수립

 

(17) VMCA_ROOT_CERT

> VMware Certificate Authority(VMCA)의 루트 인증서, VMware는 자체적으로 인증서 관리 시스템을 제공하는데, vCenter와 관련된 모든 인증서를 서명하고 관리한다. 

 

(18) STS_CERT

> Security Token Service(STS) 인증서, vCenter의 SSO 서비스와 관련되어 있다. STS는 토큰 발급을 관리하는 역할을 하며 vSphere 환경 내부에서 사용자 인증을 처리하고 관리하는데 사용된다.

 

(19) SSO(Single Sign On)

> vSphere 서비스 환경에서 사용자 인증을 단일화하고 관리하는 시스템으로 vCenter SSO를 한 번의 인증으로 vSphere의 다양한 서비스를 사용할 수 있도록 돕는 서비스이다.

 

 

 

 

3-10. vCenter 점검 : Running/Stopped 서비스, SSO 도메인 계정, vCenter 파티션(core, log, db) 용량, vCenter ROOT PW 만료일, vCenter Backup 여부 확인

(1)  vCenter CLI에서 service-control --status 커맨드를 주면 실행 중인 서비스 목록, 중지된 서비스 목록이 출력된다.

 

 

(2) VAMI에서도 서비스 리스트 확인이 가능하다.

 

 

(3) vSphere Client > 관리 > SSO > 사용자 및 그룹에서 SSO 계정 정보를 확인할 수 있다.

 

 

vCenter Shell Command Line Interface : df -h

(4) vCenter Shell CLI에서 df -h 커맨드로 core, db, log 파티션 사용량 체크가 가능하고, VAMI에서도 모니터 > 디스크 항목에서 확인 가능하다.

 

 

(5) VAMI에서 루트 계정에 대한 패스워드 만료여부, 만료일 확인이 가능하고 CLI 환경에서는 chage -l root 커맨드 옵션으로 PW 만료 여부를 확인할 수 있다.

 

 

(6) VAMI > 백업 탭에서 vCenter Backup 여부를 확인할 수 있다. VMware에서는 기본적으로 vCenter Backup을 권고하고 있다.

 

 

 

 

3-11. vSphere Service Status 확인 (vSphere HA, DRS EVC, vCLS(vSphere Cluster Service))

(1) vSphere Client에 접속해서 클러스터 > 구성 > vSphere 가용성, vSphere DRS 항목에서 사용자가 설정한 HA, DRS 옵션 등을 상세하게 확인할 수 있다.

 

(2) 고객사의 구성 요청 사항에 따라 확인한다.

 

(3) vSphere HA 권장 옵션 및 고객사 요청에 따라 확인한다.

 

(4) 만약 vSphere HA의 경우 vSAN이 구성되어 있지 않다면 아래와 같은 권장 옵션을 적용한다.

- Host Isolation(호스트 분리) : 사용 안 함

- PDL이 있는 데이터스토어 : 전원을 끈 후 VM 재시작

- APD가 있는 데이터스토어 : 전원을 끈 후 VM 재시작 - Conservative Restart Policy

- VM Monitoring : 사용 안 함

 

 

 

(5) vSphere Client  > 클러스터 > 구성 > VMware EVC 항목에서 다른 CPU 세대 수를 가진 호스트 간 vMotion을 위한 EVC 모드를 체크할 수 있다.

 

 

(6) vSphere Client > 클러스터  > 모니터 > vSphere 클러스터 서비스 > 작동 상태 항목에서 Running 중이거나 문제가 있는 vCLS 항목을 확인할 수 있다.

 

 

 

 

3-12. 가상 시스템 상태 확인 : VM Snapshot

(1) vSphere Client  > vCenter > 모니터 > 문제 및 경보 > 모든 문제 or 트리거 된 경보에서 VM Snapshot 기반 경보가 발생했는지 체크해 볼 수 있다.

 

(2) 하지만 스냅샷 기반 경보는 따로 존재하지 않아서 관리자가 직접 Custom 해줘야 한다.

 

 

(3) vSphere Client > vCenter  > 구성 > 경보 정의 > 추가 버튼으로 VM Snapshot과 관련된 경보를 Custom으로 생성해 줄 수 있다.

 

 

(4) 경보 정책을 추가한다. 이름과 설명을 작성하고 다음으로 넘어간다.

 

 

(5) 생성된 스냅샷의 일정 크기가 초과되면 트리거를 발생시켜 주의 경보가 발생하도록 지정한다.

 

 

(6) 트리거된 문제 상황이 더 이상 발생하지 않을 때 경보를 정상 상태로 되돌리도록 규칙을 재설정한다.

 

 

(7) Custom된 모든 규칙을 확인하고 경보 정의를 마무리한다.

 

 

(8) 경보 정의 리스트에 방금 생성한 VM Snapshot 경보 알림이 확인된다.

 

 

(9) 테스트를 위한 스냅샷을 생성한다.

 

(10) VMware에서는 스냅샷 생성 후 72시간 이내에 삭제를 권고하고 있다.

 

 

(11) 현재 위와 같이 스냅샷이 생성되었으나 경보가 발생하지 않아 확인 예정

 

 

 

 

3-13. 가상 시스템 상태 확인 : VM CD/DVD Mount 상태 확인

(1) VM 우 클릭 > 설정 편집 > CD/DVD 드라이브에서 ISO 파일 마운트 여부를 확인할 수 있다.

- VM의 개수가 많다면 RV Tools 등의 도구를 활용해 확인한다.

 

(2) VM에 대한 CD/DVD 드라이브를 클라이언트 디바이스로 변경하여 ISO 파일 등의 마운트 해제를 권고한다.

- CD/DVD에 마운트된 ISO 이미지 파일로 인해 호스트 간 vMotion이 실패할 상황이 발생할 수도 있기 때문이다.

 

 

 

 

 

 

 

 

 

 

※ 해당 포스팅을 기준으로 내용 추가가 필요하다고 생각되면 기존 내용에 다른 내용이 추가될 수 있습니다.

개인적으로 공부하며 정리한 내용이기에 오타나 틀린 부분이 있을 수 있으며, 이에 대해 댓글로 알려주시면 감사하겠습니다!

댓글