In [48]:
import plotly.express as px

%load_ext cypher
%config CypherMagic.uri='http://neo4j:neo@localhost:7474/db/data'

The cypher extension is already loaded. To reload it, use:
  %reload_ext cypher


# Expertenanalyse mit Software Analytics

# Intro zur Analyse der Anwendung "Spring Data MongoDB"
* Programmierschnittstelle zur Anbindung einer dokumentenbasierten MongoDB-Datenbank an ein Java-Spring-Projekt

## Gründe für Wahl
* bekanntes Open Source Java Projekt, das zum Spring-Framework gehört
* Hosting auf GitHub (zur Analyse der GitHub-Issues)
* Verwendung von Maven als Build-Management-Tool (anstatt Gradle, das in vielen Spring-Projekten genutzt wird)
* nicht zu groß und nicht zu klein
* mehrere Hauptentwickler
* Git-Historie geht bis ins Jahr 2010 zurück, sodass der Analysezeitraum ca. 10 Jahre umfasst
* ca. 2.800 Github-Issues seit 2013
* Issues können von allen Git-Nutzern erstellt werden

## Fragestellung
* In welche fachlichen Komponenten lässt sich der Quellcode der Anwendung für die weitere Analyse sinnvoll strukturieren?


## Datenquelle
* Java-Strukturen des Projekts mit jQAssistant gescannt und in Neo4j abfragbar

## Annahmen
* Fachliche Komponenten lassen sich durch die Subpackages von `org.springframework.data.mongodb` aufteilen.
* Das Haupt-Subpackage `core` kann nochmals in dessen Subpackages aufgeteilt werden.

## Validierung
* Grafische Übersicht über die existierenden fachlichen Komponenten und deren Anteile am Projekt

## Implementierung

In [49]:
%%cypher
// Alle Artefakte
MATCH (a:Main:Artifact) RETURN a.name AS ArtefactName, a.group AS GroupName

3 rows affected.


ArtefactName,GroupName
spring-data-mongodb-parent,org.springframework.data
spring-data-mongodb,org.springframework.data
spring-data-mongodb-distribution,org.springframework.data


In [50]:
%%cypher
// Java-Artefakte
MATCH (a:Java:Main:Artifact) RETURN a.name AS JavaArtefactName, a.group AS GroupName

1 rows affected.


JavaArtefactName,GroupName
spring-data-mongodb,org.springframework.data


* `spring-data-mongodb` ist das einzige Java-Artefakt, das auch den Anwendungscode enthält.
* `spring-data-mongodb-parent` ist das Wurzelverzeichnis, das hauptsächlich Konfigurationsdateien enthält.
* `spring-data-mongodb-distribution` enthält Anweisungen zum Bauen einer Distribution.

Von den drei Artefakten wird im Folgenden nur das Java-Artefakt `spring-data-mongodb` betrachtet. 

In [51]:
%%cypher
// Anzahl Java-Typen im Artefakt
MATCH (a:Java:Main:Artifact)-[:CONTAINS]->(type:Type:Java) 
WHERE a.name = "spring-data-mongodb"           
RETURN a.name AS  Artifact, count(type) AS JavaTypesInArtifact

1 rows affected.


Artifact,JavaTypesInArtifact
spring-data-mongodb,1281


In [52]:
%%cypher
// Markierung aller SpringDataMongoDb-Knoten 
// Added 1332 labels
MATCH (artifact:Main:Artifact{name: "spring-data-mongodb"})
SET artifact:SpringDataMongoDb
WITH artifact
MATCH (artifact)-[:CONTAINS]->(c)
SET c:SpringDataMongoDb

0 rows affected.


### Aufteilung in fachliche Komponenten
* Strukturierung soll nach Subpackages von `org.springframework.data.mongodb` sowie Subpackages von `org.springframework.data.mongodb.core` erfolgen, wobei Typen im `core`-Package nicht doppelt gezählt werden sollen.
* Die Zuordnung der Klassen (weiter unten) erfolgt daher für das `core`-Package separat nur auf der ersten Ebene.
* Anreicherung des Graphen um zusätzliche Knoten je fachlicher Komponente (`BoundedContext`)
* Zuordnung aller Typen in Packages mit dem Namen einer fachlichen Komponente zu eben diesem Bounded Context mit `[:CONTAINS]`

In [53]:
%%cypher
// Packages, die in mongodb und core enhalten sind
MATCH (p:Package:SpringDataMongoDb)-[:CONTAINS]->(bC:Package:SpringDataMongoDb)
WHERE p.fqn = "org.springframework.data.mongodb" OR p.fqn = "org.springframework.data.mongodb.core"
WITH p, collect(DISTINCT bC.name) AS boundedContexts
RETURN p.name AS PackageName, boundedContexts

2 rows affected.


PackageName,boundedContexts
mongodb,"['util', 'monitor', 'config', 'repository', 'gridfs', 'core']"
core,"['convert', 'aggregation', 'validation', 'schema', 'geo', 'index', 'spel', 'timeseries', 'mapreduce', 'script', 'messaging', 'query', 'mapping']"


In [54]:
%%cypher
// Anlegen eines Knoten je Fachlichkeit
// Added 19 labels, created 19 nodes, set 19 properties
MATCH    (p:Package:SpringDataMongoDb)-[:CONTAINS]->(bC:Package:SpringDataMongoDb)
WHERE    p.fqn = "org.springframework.data.mongodb" OR p.fqn = "org.springframework.data.mongodb.core"
WITH     collect(DISTINCT bC.name) AS boundedContexts
UNWIND   boundedContexts AS boundedContext
MERGE    (bC:BoundedContext {name: boundedContext})

0 rows affected.


In [55]:
%%cypher
// Zuordnen der Klassen zu den Bounded Contexts (inkl. Subpackages, ohne core-Package)
// Created 1024 relationships
MATCH    (bC:BoundedContext),
         (p:Package:SpringDataMongoDb)-[:CONTAINS*]->(t:Type:SpringDataMongoDb)
WHERE    p.name = bC.name AND bC.name <> "core"
MERGE    (bC)-[:CONTAINS]->(t)
RETURN   bC.name AS BoundedContext, count(t) AS Size
ORDER BY Size DESC

18 rows affected.


BoundedContext,Size
aggregation,370
convert,121
query,105
repository,93
mapping,59
index,49
config,37
schema,34
messaging,33
util,32


In [56]:
%%cypher
// Zuordnen der Klassen zu den Bounded Contexts (nur Wurzelebene des core-Packages)
// Created 279 relationships
MATCH    (bC:BoundedContext),
         (p:Package:SpringDataMongoDb)-[:CONTAINS*1..1]->(t:Type:SpringDataMongoDb)
WHERE    p.name = bC.name AND bC.name = "core"
MERGE    (bC)-[:CONTAINS]->(t)
RETURN   bC.name AS BoundedContext, count(t) AS Size
ORDER BY Size DESC

1 rows affected.


BoundedContext,Size
core,279


## Ergebnisse

In [57]:
%%cypher
// Prozentualer Anteil der zugeordneten Klassen in Prozent (97%)
MATCH (t:Type:SpringDataMongoDb)
WITH count(DISTINCT t) AS Total
MATCH (:BoundedContext)-[:CONTAINS]->(t:Type:SpringDataMongoDb)
RETURN 100 * count(DISTINCT t) / Total AS overage

1 rows affected.


overage
97


In [58]:
%%cypher
// Anzahl SpringDataMongoDb-Typen pro Package
MATCH (bC:BoundedContext)-[:CONTAINS*]->(t:Type:SpringDataMongoDb)                                           
RETURN bC.name AS  BoundedContext, count(DISTINCT t) AS ClassCount
ORDER BY ClassCount DESC

19 rows affected.


BoundedContext,ClassCount
aggregation,370
core,279
convert,121
query,105
repository,93
mapping,59
index,49
config,37
schema,34
messaging,33


BoundedContext `core` enthält nur die Typen im eigenen Wurzel-Package. Typen in Subpackages von `core` sind jeweils als eigener BoundedContext aufgeführt. 

In [60]:
subdomainSize = %cypher MATCH (bC:BoundedContext)-[:CONTAINS*]->(t:Type:SpringDataMongoDb) \
                        RETURN bC.name AS  BoundedContext, count(DISTINCT t) AS TypeCount

df = subdomainSize.get_dataframe()
fig = px.pie(df, values='TypeCount', names='BoundedContext', title='Größe der fachlichen Komponenten nach Anzahl enthaltener Typen')
fig.show()

19 rows affected.


## Nächste Schritte
* Experten-Analyse auf Grundlage der Git-Historie
* Experten-Analyse auf Grundlage der Github-Issues