Données communes
De façon générale, les métriques sont regroupées par composant.
JVM
Pour chaque composant, vous pourrez trouver les métriques concernant la JVM :
- bm-<composant>.hprof : le nombre de fichier hprof existant sur la machine, permet de constater s'il y a eu un plantage
- bm-<composant>.jvm.* : toutes les informations concernant la jvm pour ce composant (consommation mémoire courante, maximum, etc.)
Heartbeat
Dans chaque composant ayant des interactions avec le core, on retrouvera les métriques suivantes qui servent à surveiller que les données de l'état de santé (heartbeat - littéralement « battement de cœur ») du core sont bien reçues par le composant :
Nom de la métrique | type | contenu | Informations complémentaires |
---|---|---|---|
heartbeat.receiver.age | Gauge | âge de la réception du dernier heartbeat | Correspond à la durée entre 2 heartbeat. Le core est censé envoyer son état de santé toutes les 4 secondes, des durées supérieures, voire dépassant les 8 secondes, doivent donc alerter sur le bon état de fonctionnement de celui-ci |
heartbeat.receiver.failures | Counter | nombre d'échecs de réception | |
heartbeat.receiver.latency | Gauge | durée de réception du heartbeat | durée entre l'émission du heartbeat par le core et la réception par le composant |
heartbeat.receiver.latencyMax | Gauge | durée de réception maximum | |
heartbeat.receiver.received | Counter | nombre de réceptions OK |
Hazelcast
Les serveurs membres du cluster hazelcast comportent la métrique suivante :
Nom de la métrique | type | contenu | Informations complémentaires |
---|---|---|---|
cluster.members | Gauge | la valeur de cette métrique doit être '3' |
Les métriques
Nom de la métrique | type | contenu | Informations complémentaires |
---|---|---|---|
agent.metricsGathered | Counter | nombre de métriques collectées par l'agent | cette métriques sert principalement à vérifier que l'agent est toujours en fonctionnement : l'absence de données indique que l'agent ne collecte plus rien, donc qu'il ne fonctionne plus |
agent.vmware* | données concernant la machine hébergeant l'agent | L'agent est actif uniquement si les vmware tools sont détectés sur les machines hébergeant BlueMind. Dans cas les métriques du "vSphere Guest SDK" sont extraites et historisées. Ces métriques permet de diagnostiquer des problèmes liés à la façon dont serait virtualisé BlueMind sur vmware. | |
bluemind.cluster | |||
bluemind.cluster.partitions | |||
bm-core | moteur principal de BlueMind | ||
callsCount | Counter | nombre d'appels reçus par le core | |
dirVersion | Gauge | ||
directory.cluster.events | Counter | ||
handlingDuration | Timer | durée de traitement des requêtes | |
heartbeat.broadcast | Counter | ||
heartbeat.maxPeriod | Gauge | ||
heartbeat.period | Gauge | ||
bm-eas | service de connexion mobile | ||
executionTime | Timer | ||
responseSize | DistSum | ||
bm-hps | service d'authentification | ||
authCount | Counter | nombre de demandes de connexions à BlueMind |
|
ftlTemplates.requests | Counter | nombre de pages générées demandées | |
requestsCount | Counter | nombre de requêtes servies par hps |
Permet notamment de vérifier le nombre d'affichage effectifs de la page de maintenance. Trop de requêtes de type "maintenance" peut être le signe d'un problème. |
staticFile.requests | Counter | nombre de pages statiques demandées | exemple : page de login |
upstreamRequestSize | DistSum | taille des requêtes | |
upstreamRequestTime | Timer | durée de traitement des requêtes | |
upstreamRequestsCount | Counter | nombre de requêtes | |
bm-ips | traçage des opérations IMAP | ||
activeConnections | Gauge | nombre de connexions ips actives | |
bm-lmtpd | service de remise des emails | ||
activeConnections | Gauge | nombre de connexions actives | |
connectionCount | Counter | ||
deliveries | Counter | ||
emailRecipients | DistSum | nombre de destinataires par email | |
emailSize | DistSum | taille des emails | |
sessionDuration | Timer | durée de session | |
traffic.transportLatency | Timer | ||
bm-locator | localisation des services | ||
executionTime | Timer | temps d'exécution des requêtes | |
requestsCount | Counter | nombre de requêtes reçues par le service |
|
bm-milter | Analyse et modification des emails au niveau SMTP | ||
connectionsCount | Counter | ||
sessionDuration | Timer | ||
traffic.class | Counter | ||
traffic.size | Counter | ||
bm-webserver | serveur d'application web | ||
appCache.requestTime | Timer | ||
appCache.requests | Counter | ||
ftlTemplates.requests | Counter | nombre de requêtes d'affichage de pages générées par le webserver | |
staticFile.requests | Counter | nombre de requêtes d'affichage de pages statiques | |
bm-xmpp | service de messagerie instantanée | ||
packetsCount | Counter | nombre de paquets transmis par le service | sert à voir à quel point le service de messagerie est utilisé ainsi que s'il fonctionne correctement ou a cessé de fonctionné |
bm-ysnp | service de validation des données | ||
authCount | Counter | nombre de demandes traitées |
|
Autres | |||
cpu | données d'utilisation des processeurs | permet de contrôler l'utilisation et la répartition des processeurs | |
disk | données de gestion de l'espace disque | permet de contrôler l'espace disque utilisé/libre/total/etc. par disque, partition, chemin, etc. | |
diskio | nombre d'octets écrits/lus en temps réel | permet de voir si le disque travaille correctement ou trop | |
elasticsearch* | données concernant ElasticSearch | pour plus d'informations et de détails sur les métriques ES, voir la documentation dédiée https://github.com/influxdata/telegraf/tree/master/plugins/inputs/elasticsearch | |
imapd.process | |||
influxdb* | données de la base de stockage des métriques | ||
kapacitor* | données concernant l'outil lui-même | ||
kernel | |||
kernel_vmstat | |||
mem | |||
memcached | |||
net | |||
netstat | |||
nginx | |||
phpfpm | |||
postfix_queue | |||
postgresql | informations sur la base de données de BlueMind | ||
processes | |||
swap | |||
syslog | |||
system |