...
Sv translation |
---|
|
Common dataAs a rule, metrics are grouped by component. JVMThere are JVM metrics for every JVM component: - bm-<composant>.hprof: the number of hprof files on the server can be used as an indication of a crash
- bm-<composant>.jvm.*: all the jvm information for this component (current or maximum memory usage, etc.)
HeartbeatIn each component with interactions with the core, you will find the following metrics which are used to make sure that the component is receiving the core's health data: Metric Name | Type | Content | Additional Information |
---|
heartbeat.receiver.age | Gauge | age of the last heartbeat received | The time between 2 heartbeats. The core is supposed to send its health information every 4 seconds. Durations exceeding this, or exceeding 8 seconds, may indicate some issue. | heartbeat.receiver.failures | Counter | number of failed heartbeats |
| heartbeat.receiver.latency | Gauge | heartbeat delivery time | Time between the heartbeat being sent by the core and it being received by the component. | heartbeat.receiver.latencyMax | Gauge | maximum heartbeat delivery time |
| heartbeat.receiver.received | Counter | number of successful heartbeats |
|
HazelcastThe servers members of the hazelcast cluster comprise the following metric: Metric Name | Type | Content | Additional Information |
---|
cluster.members | Gauge |
| The value of this metric must be '3' |
MetricsMetric Name | Type | Content | Additional Information |
---|
agent.metricsGathered | Counter | number of metrics collected by the agent | This metric is mostly useful for checking whether the agent is working properly: no data means that the agent isn't collecting anything and therefore that it is no longer working. | agent.vmware* |
| agent host server data | The agent is enabled only if vmware tools are detected on the BlueMind host servers. In this case, the "vSphere Guest SDK" metrics are extracted and historized. These metrics are used to diagnose issues with BlueMind's virtualization on vmware. | bluemind.cluster |
|
|
| bluemind.cluster.partitions |
|
|
| bm-core | Main BlueMind Engine |
---|
callsCount | Counter | number of calls received by the core |
| dirVersion | Gauge |
|
| directory.cluster.events | Counter |
|
| handlingDuration | Timer | request handling time |
| heartbeat.broadcast | Counter |
|
| heartbeat.maxPeriod | Gauge |
|
| heartbeat.period | Gauge |
|
| bm-eas | Mobile Connection Service |
---|
executionTime | Timer |
|
| responseSize | DistSum |
|
| bm-hps | Authentication Service |
---|
authCount | Counter | number of connections requests to BlueMind | - success: successful connection
- failed: failed connection (wrong username and/or password)
| ftlTemplates.requests | Counter | number of page requests |
| requestsCount | Counter | number of hps requests | - kind: maintenance - maintenance page displays
- kind: protected - protected pages displays
Used, among other things, to check the number of times the maintenance page has been displayed. Too many "maintenance" requests may indicate an issue. | staticFile.requests | Counter | number of static page requests | e.g.: login page | upstreamRequestSize | DistSum |
|
| upstreamRequestTime | Timer | request handling duration |
| upstreamRequestsCount | Counter | number of requests |
| bm-lmtpd | Email Delivery Service |
---|
activeConnections | Gauge | number of active connections |
| connectionCount | Counter |
|
| deliveries | Counter |
|
| emailRecipients | DistSum | number of recipients per email |
| emailSize | DistSum | size of messages |
| sessionDuration | Timer |
|
| traffic.transportLatency | Timer |
|
| bm-locator | Service Localization |
---|
executionTime | Timer | request execution time |
| requestsCount | Counter | number of requests received by the service | - origin: component that makes the request
- statusCode: http return code
| bm-milter | Analysis and Modification of Emails at SMTP Level |
---|
connectionsCount | Counter |
|
| sessionDuration | Timer |
|
| traffic.class | Counter |
|
| traffic.size | Counter |
|
| bm-webserver | Web Application Server |
---|
appCache.requestTime | Timer |
|
| appCache.requests | Counter |
|
| ftlTemplates.requests | Counter | number of display requests generated by the webserver |
| staticFile.requests | Counter | number of static page display requests |
| bm-xmpp | Instant Messaging Service |
---|
packetsCount | Counter | number of packets sent by the service | used to assess messaging service usage and whether it is working properly or has stopped | bm-ysnp | Data Validation Service |
---|
authCount | Counter | number of requests handled | - ok statuses: confirmed requests (e.g. authentications accepted for a username/password entered by a user)
- failed statuses: rejected validations (e.g. failed authentications due to a wrong password)
| Other |
|
---|
cpu |
| processor usage data | used to monitor usage and processor distribution | disk |
| disk handling space | used to monitor disk usage space used/free/total/etc. by disk, partition, path, etc. | diskio |
| number of bites written/read in real time | used to see whether the disk is working properly or excessively | elasticsearch* |
| ElasticSearch data | for more information and details about ES metrics, please refer to the dedicated documentation https://github.com/influxdata/telegraf/tree/master/plugins/inputs/elasticsearch | imapd.process |
|
|
| influxdb* |
| metrics storage database data |
| kapacitor* |
| tool-specific data |
| kernel |
|
|
| kernel_vmstat |
|
|
| mem |
|
|
| memcached |
|
|
| net |
|
|
| netstat |
|
|
| nginx |
|
|
| phpfpm |
|
|
| postfix_queue |
|
|
| postgresql |
| BlueMind database information |
| processes |
|
|
| swap |
|
|
| syslog |
|
|
| system |
|
Sv translation |
---|
|
Gemeinsame Daten
Im Allgemeinen sind die Metriken nach Komponenten gruppiert.
JVM
Für jede Komponente können Sie die Metriken für die JVM finden:
- bm-<Komponente>.hprof: Die Anzahl der auf dem Rechner vorhandenen hprof-Dateien ermöglicht festzustellen, ob es einen Absturz gab
- bm-<Komponente>.jvm.* alle jvm-Informationen für diese Komponente (aktueller Speicherverbrauch, Maximum, etc.)
Heartbeat
In jeder Komponente, die mit dem Core interagiert, werden die folgenden Metriken verwendet, um zu überwachen, dass die Core-Zustandsdaten (Heartbeat) von der Komponente empfangen werden:
Name der Metrik | Typ | Inhalt | Weitere Informationen |
---|
heartbeat.receiver.age | Gauge | Alter des letzten Heartbeat-Empfangs | Entspricht der Zeit zwischen 2 Heartbeats. Der Core soll alle 4 Sekunden seinen Gesundheitszustand senden, längere Abstände, die ggf. 8 Sekunden überschreiten, müssen daher als Funktionswarnung gedeutet werden. |
heartbeat.receiver.failures | Counter | Anzahl der Empfangsfehlschläge | heartbeat.receiver.latency | Gauge | heartbeat-Eingangsdauer | Zeit zwischen dem Senden des Heartbeats durch den Core und dem Empfang durch die Komponente |
heartbeat.receiver.latencyMax | Gauge | maximale Eingangsdauer | heartbeat.receiver.received | Counter | Anzahl der Empfänge OK | Hazelcast
Server, die Mitglieder des Hazelcast-Clusters sind, haben die folgende Metrik:
Name der Metrik | Typ | Inhalt | Weitere Informationen |
---|
cluster.members | Gauge | der Wert dieser Metrik muss '3' sein | Metriken
Name der Metrik | Typ | Inhalt | Weitere Informationen |
---|
agent.metricsGathered | Counter | Anzahl der vom Agent gesammelten Metriken | Diese Metrik wird hauptsächlich verwendet, um zu überprüfen, ob der Agent noch in Betrieb ist: das Fehlen von Daten zeigt an, dass der Agent nichts mehr sammelt, also nicht mehr funktioniert |
agent.vmware* | Daten, die den Rechner betreffen, auf dem der Agent läuft | Der Agent ist nur aktiv, wenn vmware-Tools auf Rechnern erkannt wird, auf denen BlueMind gehostet wird. In diesem Fall werden die Metriken des "vSphere Guest SDK" extrahiert und historisiert. Diese Metriken können verwendet werden, um Probleme zu diagnostizieren, die mit der Art und Weise zusammenhängen, wie BlueMind auf vmware virtualisiert wurde. | bluemind.cluster | bluemind.cluster.partitions | bm-core | BlueMind Hauptmaschine |
---|
callsCount | Counter | Anzahl der vom Core empfangenen Anrufe | dirVersion | Gauge | directory.cluster.events | Counter | handlingDuration | Timer | Anfragebearbeitungszeit | heartbeat.broadcast | Counter | heartbeat.maxPeriod | Gauge | heartbeat.period | Gauge | bm-eas | mobiler Verbindungsdienst |
---|
executionTime | Timer | responseSize | DistSum | bm-hps | Authentifizierungsdienst |
---|
authCount | Counter | Anzahl der Verbindungsanfragen für BlueMind | - status success: Verbindung erfolgreich
- status failed: Verbindung fehlgeschlagen (falsches Login und/oder Passwort)
|
ftlTemplates.requests | Counter | Anzahl der angeforderten generierten Seiten | requestsCount | Counter | Anzahl der bedienten Anfragen pro hps | - kind: maintenance - Anzeige der Wartungsseite
- kind: protected - Anzeige einer geschützten Seite
Ermöglicht insbesondere die Überprüfung der Anzahl der tatsächlichen Anzeigen der Wartungsseite. Zu viele "Wartungsanfragen" können ein Zeichen für ein Problem sein. |
staticFile.requests | Counter | Anzahl der angeforderten statischen Seiten | Beispiel: Login-Seite |
upstreamRequestSize | DistSum | Anforderungsgröße | upstreamRequestTime | Timer | Anfragebearbeitungszeit | upstreamRequestsCount | Counter | Anzahl der Anfragen | bm-lmtpd | E-Mail-Zustelldienst |
---|
activeConnections | Gauge | Anzahl der aktiven Verbindungen | connectionCount | Counter | deliveries | Counter | emailRecipients | DistSum | Anzahl von Empfängern pro E-Mail | emailSize | DistSum | Größe der E-Mails | sessionDuration | Timer | Sitzungsdauer | traffic.transportLatency | Timer | bm-locator | Lokalisierung der Dienste |
---|
executionTime | Timer | Abfrage-Durchlaufzeit | requestsCount | Counter | Anzahl der vom Dienst empfangenen Anfragen | - Origin: Komponente, die die Anfrage gestellt hat
- statusCode: http-Rückgabecode
|
bm-filter | Analyse und Modifikation von E-Mails auf SMTP-Ebene |
---|
connectionsCount | Counter | sessionDuration | Timer | traffic.class | Counter | traffic.size | Counter | bm-webserver | Web-Anwendungsserver |
---|
appCache.requestTime | Timer | appCache.requests | Counter | ftlTemplates.requests | Counter | Anzahl der vom Webserver erzeugten Seitenanzeigeanforderungen | staticFile.requests | Counter | Anzahl der Anzeigeanforderungen für statische Seiten | bm-xmpp | Instant-Messaging-Dienst |
---|
packetsCount | Counter | Anzahl der vom Dienst übertragenen Pakete | Wird verwendet, um zu sehen, in welchem Umfang der Messaging-Dienst genutzt wird und ob er ordnungsgemäß oder nicht mehr funktioniert |
bm-ysnp | Datenvalidierungsdienst |
---|
authCount | Counter | Anzahl der abgeschlossenen Anfragen | - Status ok: Anfragen wurden validiert (z.B. Authentifizierung akzeptiert für Login/Pass, die von einer Person eingegeben wurden)
- Status fehlgeschlagen: Validierung abgelehnt (z.B. Authentifizierung fehlgeschlagen aufgrund eines falschen Passworts)
|
Andere | cpu | Prozessorauslastungsdaten | Ermöglicht die Steuerung der Verwendung und Verteilung von Prozessoren | disk | Speicherplatzverwaltungsdaten | Ermöglicht die Kontrolle des verwendeten/freien/gesamten/etc. Speicherplatzes pro Festplatte, Partition, Pfad usw. | diskio | Anzahl der geschriebenen/gelesenen Bytes in Echtzeit | Zeigt an, ob die Festplatte richtig oder zu viel arbeitet | elasticsearch* | ElasticSearch betreffende Daten | Weitere Informationen und Details zu ES-Metriken finden Sie in der Dokumentation https://github.com/influxdata/telegraf/tree/master/plugins/inputs/elasticsearch | imapd.process | influxdb* | Daten der Metrik-Speicherdatenbank | kapacitor* | Daten, die das Tool selbst betreffen | kernel | kernel_vmstat | mem | memcached | net | netstat | nginx | phpfpm | postfix_queue | postgresql | Informationen über die BlueMind-Datenbank | processes | swap | syslog | system | |