Solucionamos escritura/lectura concurrente en graph #24

adrianlzt · 2021-06-10T10:28:06Z

Al hacer el último refactor para separar el procesamiento de métricas en
una función a parte se introdujo un error, no bloquear el grafo cuando
solicitamos los nodos child (Software) de un Server (LookupChildren en
la función processMetric).

Si en el momento de esa lectura, otra parte de skydive estaba intentando
escribir en el grafo, se producía un panic:
fatal error: concurrent map read and map write

Para solventar este problema se ha hecho una recolocación de los locks,
simplificando esta gestión.

Dentro de proccon los locks ahora quedan de la siguiente manera:

ServeHTTP
  processMetrics
    for hostMetrics
      LOCK
        get/create server
        processMetrics
        removeFromOthers
      UNLOCK
  generateOthers
    for hosts
      LOCK
      UNLOCK

cleanSoftwareNodes
  LOCK
  UNLOCK

De esta manera, cuando el servidor procesa un paquete de métricas, se
hace un lock por cada host que se está procesando y se elimina al
terminar ese host entero.

También solucionamos otra condición de carrera que se podía producir en
processMetrics, si entre que obteníamos un Server y se actualizaba su
metadata se producía alguna modificación en el nodo.
Esto era muy poco probable, ya que cada nodo en principio envía sus
métricas separadas por grandes intervalos de tiempo.

Al hacer el último refactor para separar el procesamiento de métricas en una función a parte se introdujo un error, no bloquear el grafo cuando solicitamos los nodos child (Software) de un Server (LookupChildren en la función processMetric). Si en el momento de esa lectura, otra parte de skydive estaba intentando escribir en el grafo, se producía un panic: fatal error: concurrent map read and map write Para solventar este problema se ha hecho una recolocación de los locks, simplificando esta gestión. Dentro de proccon los locks ahora quedan de la siguiente manera: ServeHTTP processMetrics for hostMetrics ¦ LOCK ¦ get/create server ¦ processMetrics ¦ removeFromOthers ¦ UNLOCK generateOthers for hosts ¦ LOCK ¦ UNLOCK cleanSoftwareNodes LOCK UNLOCK De esta manera, cuando el servidor procesa un paquete de métricas, se hace un lock por cada host que se está procesando y se elimina al terminar ese host entero. También solucionamos otra condición de carrera que se podía producir en processMetrics, si entre que obteníamos un Server y se actualizaba su metadata se producía alguna modificación en el nodo. Esto era muy poco probable, ya que cada nodo en principio envía sus métricas separadas por grandes intervalos de tiempo.

pablombg merged commit b242ead into datadope Jun 10, 2021

pablombg deleted the bug/concurrent_map_read_write branch June 10, 2021 11:05

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Solucionamos escritura/lectura concurrente en graph #24

Solucionamos escritura/lectura concurrente en graph #24

adrianlzt commented Jun 10, 2021

Solucionamos escritura/lectura concurrente en graph #24

Solucionamos escritura/lectura concurrente en graph #24

Conversation

adrianlzt commented Jun 10, 2021