Comparaison des versions

Légende

  • Ces lignes ont été ajoutées. Ce mot a été ajouté.
  • Ces lignes ont été supprimées. Ce mot a été supprimé.
  • La mise en forme a été modifiée.

...

Sv translation
languageen
Remarque

This page is no longer being updated. From BlueMind 4.8, please refer to the new BlueMind documentation

Introduction

BlueMind's Tick package is used to monitor large amounts of data (metrics). Some monitored data is raw, but other data is the result of pre-processing to provide more relevance make interpretation and analysis easier.

Every metric has its own tree structure which can contain:

  • datalocation: server name
  • host: host name or IP 
  • meterType: data type
    • gauge: instant measurement
    • counter: incremental counter
    • distsum: counter-amount data pair 
      e.g.:
      • bm-lmtpd.emailSize = (number of emails, total size of emails)
      • bm-lmtpd.emailRecipients = (number of emails, number of recipients)
    • timer: same as distsum but with the amount always expressed in nanoseconds
  • status: depending on the type of data, this status may be ok/failed (e.g. request successful/failed), success/failure (e.g. authentication successful/failed), etc.

Common data

As a rule, metrics are grouped by component.

JVM

There are JVM metrics for every JVM component:

  • bm-<composant>.hprof: the number of hprof files on the server can be used as an indication of a crash
  • bm-<composant>.jvm.*: all the jvm information for this component (current or maximum memory usage, etc.)

Heartbeat

In each component with interactions with the core, you will find the following metrics which are used to make sure that the component is receiving the core's health data:

Metric NameTypeContentAdditional Information
heartbeat.receiver.ageGaugeage of the last heartbeat received

The time between 2 heartbeats.

The core is supposed to send its health information every 4 seconds. Durations exceeding this, or exceeding 8 seconds, may indicate some issue.

heartbeat.receiver.failuresCounternumber of failed heartbeats
heartbeat.receiver.latencyGaugeheartbeat delivery timeTime between the heartbeat being sent by the core and it being received by the component.
heartbeat.receiver.latencyMaxGaugemaximum heartbeat delivery time
heartbeat.receiver.receivedCounternumber of successful heartbeats

Hazelcast

The servers members of the hazelcast cluster comprise the following metric:

Metric NameTypeContentAdditional Information
cluster.membersGauge
The value of this metric must be '3'

Metrics

Metric NameTypeContentAdditional Information
agent.metricsGatheredCounternumber of metrics collected by the agentThis metric is mostly useful for checking whether the agent is working properly: no data means that the agent isn't collecting anything and therefore that it is no longer working.
agent.vmware*
agent host server data

The agent is enabled only if vmware tools are detected on the BlueMind host servers. In this case, the "vSphere Guest SDK" metrics are extracted and historized.

These metrics are used to diagnose issues with BlueMind's virtualization on vmware.

bluemind.cluster


bluemind.cluster.partitions


bm-coreMain BlueMind Engine
callsCountCounternumber of calls received by the core
dirVersionGauge

directory.cluster.eventsCounter

handlingDurationTimerrequest handling time
heartbeat.broadcastCounter

heartbeat.maxPeriodGauge

heartbeat.periodGauge

bm-easMobile Connection Service
executionTimeTimer

responseSizeDistSum

bm-hpsAuthentication Service
authCountCounternumber of connections requests to BlueMind
  • success: successful connection
  • failed: failed connection (wrong username and/or password)
ftlTemplates.requestsCounternumber of page requests
requestsCountCounternumber of hps requests
  • kind: maintenance - maintenance page displays
  • kind: protected - protected pages displays

Used, among other things, to check the number of times the maintenance page has been displayed. Too many "maintenance" requests may indicate an issue.

staticFile.requestsCounternumber of static page requestse.g.: login page
upstreamRequestSizeDistSum

upstreamRequestTimeTimerrequest handling duration
upstreamRequestsCountCounternumber of requests
bm-lmtpdEmail Delivery Service
activeConnectionsGaugenumber of active connections
connectionCountCounter

deliveriesCounter

emailRecipientsDistSumnumber of recipients per email
emailSizeDistSumsize of messages
sessionDurationTimer

traffic.transportLatencyTimer

bm-locatorService Localization
executionTimeTimerrequest execution time
requestsCountCounternumber of requests received by the service
  • origin: component that makes the request
  • statusCode: http return code
bm-milterAnalysis and Modification of Emails at SMTP Level
connectionsCountCounter

sessionDurationTimer

traffic.classCounter

traffic.sizeCounter

bm-webserverWeb Application Server
appCache.requestTimeTimer

appCache.requestsCounter

ftlTemplates.requestsCounternumber of display requests generated by the webserver
staticFile.requestsCounternumber of static page display requests
bm-xmppInstant Messaging Service
packetsCountCounternumber of packets sent by the serviceused to assess messaging service usage and whether it is working properly or has stopped
bm-ysnpData Validation Service
authCountCounternumber of requests handled
  • ok statuses: confirmed requests (e.g. authentications accepted for a username/password entered by a user)
  • failed statuses: rejected validations (e.g. failed authentications due to a wrong password)
Other
cpu
processor usage dataused to monitor usage and processor distribution
disk
disk handling spaceused to monitor disk usage space used/free/total/etc. by disk, partition, path, etc.
diskio
number of bites written/read in real timeused to see whether the disk is working properly or excessively
elasticsearch*
ElasticSearch datafor more information and details about ES metrics, please refer to the dedicated documentation https://github.com/influxdata/telegraf/tree/master/plugins/inputs/elasticsearch
imapd.process


influxdb*
metrics storage database data
kapacitor*
tool-specific data
kernel


kernel_vmstat


mem


memcached


net


netstat


nginx


phpfpm


postfix_queue


postgresql
BlueMind database information
processes


swap


syslog


system


Sv translation
languagede
Remarque

Diese Seite ist nicht mehr aktuell. Ab der Version BlueMind 4.8 finden Sie alle Infos in der neuen Dokumentation

Präsentation

Das Packaging-Tick von BlueMind ermöglicht das Monitoring einer großen Anzahl von Daten (Metriken genannt). Einige der überwachten Daten sind roh, andere werden jedoch vorverarbeitet, um eine größere Relevanz zu erhalten und die Interpretation und Analyse zu erleichtern.

Jede Metrik hat eine Baumstruktur, die folgende Elemente enthalten kann:

  • datalocation: Servername
  • host: Name oder IP des Hosts
  • meterType: der Datentyp
    • gauge: momentane Messung
    • counter: inkrementaler Zähler
    • distsum: Datenpaar bestehend aus einem Zähler und einer Menge
      , z. B.:
      • bm-lmtpd.emailSize = (Anzahl der Emails, Gesamtgröße der Emails)
      • bm-lmtpd.emailRecipients = (Anzahl der Emails, Anzahl der Empfänger)
    • timer: wie distsum, aber die Menge wird immer in Nanosekunden angegeben
  • status: je nach Art der Daten kann es sich um einen Status ok/failed handeln (z.B. erfolgreiche/fehlgeschlagene Anfrage), success/failure (z.B. erfolgreiche/fehlgeschlagene Authentifizierung) usw.

Gemeinsame Daten

Im Allgemeinen sind die Metriken nach Komponenten gruppiert.

JVM

Für jede Komponente können Sie die Metriken für die JVM finden:

  • bm-<Komponente>.hprof: Die Anzahl der auf dem Rechner vorhandenen hprof-Dateien ermöglicht festzustellen, ob es einen Absturz gab
  • bm-<Komponente>.jvm.* alle jvm-Informationen für diese Komponente (aktueller Speicherverbrauch, Maximum, etc.)

Heartbeat

In jeder Komponente, die mit dem Core interagiert, werden die folgenden Metriken verwendet, um zu überwachen, dass die Core-Zustandsdaten (Heartbeat) von der Komponente empfangen werden:

Name der MetrikTypInhaltWeitere Informationen
heartbeat.receiver.ageGaugeAlter des letzten Heartbeat-Empfangs

Entspricht der Zeit zwischen 2 Heartbeats.

Der Core soll alle 4 Sekunden seinen Gesundheitszustand senden, längere Abstände, die ggf. 8 Sekunden überschreiten, müssen daher als Funktionswarnung gedeutet werden.

heartbeat.receiver.failuresCounterAnzahl der Empfangsfehlschläge
heartbeat.receiver.latencyGaugeheartbeat-EingangsdauerZeit zwischen dem Senden des Heartbeats durch den Core und dem Empfang durch die Komponente
heartbeat.receiver.latencyMaxGaugemaximale Eingangsdauer
heartbeat.receiver.receivedCounterAnzahl der Empfänge OK

Hazelcast

Server, die Mitglieder des Hazelcast-Clusters sind, haben die folgende Metrik:

Name der MetrikTypInhaltWeitere Informationen
cluster.membersGauge
der Wert dieser Metrik muss '3' sein

Metriken

Name der MetrikTypInhaltWeitere Informationen
agent.metricsGatheredCounterAnzahl der vom Agent gesammelten MetrikenDiese Metrik wird hauptsächlich verwendet, um zu überprüfen, ob der Agent noch in Betrieb ist: das Fehlen von Daten zeigt an, dass der Agent nichts mehr sammelt, also nicht mehr funktioniert
agent.vmware*
Daten, die den Rechner betreffen, auf dem der Agent läuft

Der Agent ist nur aktiv, wenn vmware-Tools auf Rechnern erkannt wird, auf denen BlueMind gehostet wird. In diesem Fall werden die Metriken des "vSphere Guest SDK" extrahiert und historisiert.

Diese Metriken können verwendet werden, um Probleme zu diagnostizieren, die mit der Art und Weise zusammenhängen, wie BlueMind auf vmware virtualisiert wurde.

bluemind.cluster


bluemind.cluster.partitions


bm-coreBlueMind Hauptmaschine
callsCountCounterAnzahl der vom Core empfangenen Anrufe
dirVersionGauge

directory.cluster.eventsCounter

handlingDurationTimerAnfragebearbeitungszeit
heartbeat.broadcastCounter

heartbeat.maxPeriodGauge

heartbeat.periodGauge

bm-easmobiler Verbindungsdienst
executionTimeTimer

responseSizeDistSum

bm-hpsAuthentifizierungsdienst
authCountCounterAnzahl der Verbindungsanfragen für BlueMind
  • status success: Verbindung erfolgreich
  • status failed: Verbindung fehlgeschlagen (falsches Login und/oder Passwort)
ftlTemplates.requestsCounterAnzahl der angeforderten generierten Seiten
requestsCountCounterAnzahl der bedienten Anfragen pro hps
  • kind: maintenance - Anzeige der Wartungsseite
  • kind: protected - Anzeige einer geschützten Seite

Ermöglicht insbesondere die Überprüfung der Anzahl der tatsächlichen Anzeigen der Wartungsseite. Zu viele "Wartungsanfragen" können ein Zeichen für ein Problem sein.

staticFile.requestsCounterAnzahl der angeforderten statischen SeitenBeispiel: Login-Seite
upstreamRequestSizeDistSumAnforderungsgröße
upstreamRequestTimeTimerAnfragebearbeitungszeit
upstreamRequestsCountCounterAnzahl der Anfragen
bm-lmtpdE-Mail-Zustelldienst
activeConnectionsGaugeAnzahl der aktiven Verbindungen
connectionCountCounter

deliveriesCounter

emailRecipientsDistSumAnzahl von Empfängern pro E-Mail
emailSizeDistSumGröße der E-Mails
sessionDurationTimerSitzungsdauer
traffic.transportLatencyTimer

bm-locatorLokalisierung der Dienste
executionTimeTimerAbfrage-Durchlaufzeit
requestsCountCounterAnzahl der vom Dienst empfangenen Anfragen
  • Origin: Komponente, die die Anfrage gestellt hat
  • statusCode: http-Rückgabecode
bm-filterAnalyse und Modifikation von E-Mails auf SMTP-Ebene
connectionsCountCounter

sessionDurationTimer

traffic.classCounter

traffic.sizeCounter

bm-webserverWeb-Anwendungsserver
appCache.requestTimeTimer

appCache.requestsCounter

ftlTemplates.requestsCounterAnzahl der vom Webserver erzeugten Seitenanzeigeanforderungen
staticFile.requestsCounterAnzahl der Anzeigeanforderungen für statische Seiten
bm-xmppInstant-Messaging-Dienst
packetsCountCounterAnzahl der vom Dienst übertragenen PaketeWird verwendet, um zu sehen, in welchem Umfang der Messaging-Dienst genutzt wird und ob er ordnungsgemäß oder nicht mehr funktioniert
bm-ysnpDatenvalidierungsdienst
authCountCounterAnzahl der abgeschlossenen Anfragen
  • Status ok: Anfragen wurden validiert (z.B. Authentifizierung akzeptiert für Login/Pass, die von einer Person eingegeben wurden)
  • Status fehlgeschlagen: Validierung abgelehnt (z.B. Authentifizierung fehlgeschlagen aufgrund eines falschen Passworts)
Andere
cpu
ProzessorauslastungsdatenErmöglicht die Steuerung der Verwendung und Verteilung von Prozessoren
disk
SpeicherplatzverwaltungsdatenErmöglicht die Kontrolle des verwendeten/freien/gesamten/etc. Speicherplatzes pro Festplatte, Partition, Pfad usw.
diskio
Anzahl der geschriebenen/gelesenen Bytes in EchtzeitZeigt an, ob die Festplatte richtig oder zu viel arbeitet
elasticsearch*
ElasticSearch betreffende DatenWeitere Informationen und Details zu ES-Metriken finden Sie in der Dokumentation https://github.com/influxdata/telegraf/tree/master/plugins/inputs/elasticsearch
imapd.process


influxdb*
Daten der Metrik-Speicherdatenbank
kapacitor*
Daten, die das Tool selbst betreffen
kernel


kernel_vmstat


mem


memcached


net


netstat


nginx


phpfpm


postfix_queue


postgresql
Informationen über die BlueMind-Datenbank
processes


swap


syslog


system