Monitoramento de Cluster

 Gestão e Monitoramento de NVIDIA GPU Cluster
Bright Cluster Manager ® inclui a capacidade de gestão e monitoramento de GPU que aproveita a funcionalidade de Tesla ™ GPUs NVIDIA ® 's para assumir o controle máximo das GPUs e ganhar a introspecção em seu status e atividade ao longo do tempo. Bright também inclui as bibliotecas CUDA e OpenCL necessárias.
Monitoramento GPU
Bright Cluster Manager pode provar e monitorar indicadores de GPUs com suporte a sistemas de computação, como a NVIDIA Tesla K10 e K20 GPU NVIDIA Tesla e o K10 e K20 montados em rack .
Exemplos de métricas suportados incluem:
Temperaturas GPU
Modos de GPU de exclusividade
Velocidades do ventilador GPU
velocidades do ventilador do sistema
Tensões e correntes PSU
estados do LED sistema
Estatísticas GPU ECC (Fermi GPUs apenas).
 
A freqüência de amostragem métrica é totalmente configurável e por isso a consolidação dos dados de métricas ao longo do tempo. Métricas  são armazenadas em banco de dados SQL central do Bright Cluster Manager e podem ser visualizados em gráficos valor / hora, bem como em Rackview unico do Bright Cluster Manager.
Gestão GPU
Bright Cluster Manager permite alertas e ações a serem desencadeadas automaticamente quando os limites forem ultrapassados ​​. Tais regras são completamente configuráveis para atender às suas necessidades, e qualquer comando interno de gerenciamento de cluster, de comando do Linux, ou script shell pode ser usado como uma ação.
Por exemplo, se você gostaria de receber automaticamente um e-mail e desligar um nó GPU quando sua temperatura  excede um valor definido, o que pode facilmente ser configurado com Bright Cluster Manager.
 
Gestão Health Cluster para Clusters GPU
Gestão Health Cluster também pode incluir exames de disponibilidade para placas GPU e sistemas de computação em clusters. Qualquer das métricas GPU suportados podem ser utilizados com controles normais e prejobs.
Por exemplo, você pode configurar uma verificação de saúde prejob chamado "AllFansRunning" e definir uma ação apropriada quando o exame de saúde tem estado FALHA. A captura de tela do Rackview à direita mostra que este indicador para GPU Unidade 41 tem estado FALHA.