In [53]:
import plotly.express as px
from string import Template
from IPython.core.display import display, HTML

%load_ext cypher
%config CypherMagic.uri='http://neo4j:neo@localhost:7474/db/data'

The cypher extension is already loaded. To reload it, use:
  %reload_ext cypher


# Intro zur Anwendung "Spring Data MongoDB"
* Programmierschnittstelle zur Anbindung einer dokumentenbasierten MongoDB-Datenbank an ein Java-Spring-Projekt

## Gründe für Wahl
* bekanntes Open Source Java Projekt, das zum Spring-Framework gehört
* Hosting auf GitHub (zur Analyse der GitHub-Issues)
* Verwendung von Maven als Build-Management-Tool (anstatt Gradle, das in vielen Spring-Projekten genutzt wird)
* nicht zu groß und nicht zu klein
* mehrere Hauptentwickler
* Git-Historie geht bis ins Jahr 2013 zurück, sodass eine Analysezeitraum mehrere Jahre umfasst
* ca. 2.800 Github-Issues seit 2013, davon rund 1.000 als "Bug" markiert
* Issues können von allen Git-Nutzern erstellt werden

# Strukturanalysen mit Software Analytics

## Fragestellung
* In welche fachlichen Komponenten lässt sich der Quellcode der Anwendung für die weitere Analyse sinnvoll strukturieren?


## Datenquelle
* Java-Strukturen des Projekts mit jQAssistant gescannt und in Neo4j abfragbar
* Github Issues des Projektes mit Github-Issue-Plugin von jQAssistant von Github API abgefragt und in Neo4j-Datenbank importiert

## Annahmen (TODO)
* Fachliche Komponenten prägen sich im Packge `core` (`org.springframework.data.mongodb.core.<Komponente>`) aus
   
* **(??)** Packages mit den gleichen Namen aber in anderen Parent-Packages gehören zur gleichen fachlichen Komponente

## Validierung (TODO)
* Grafische Übersicht über die exisitierenden fachlichen Komponenten und deren Abhängigkeiten
* Tabellarische Übersicht über Code, welcher nicht zu Komponenten zugeordnet werden konnten (für späteres Pot-Processing)


* Review der fachlichen Komponenten erfolgt nach Präsentation durch Domänenexperten
* Prüfung fachlicher Abhängigkeiten auf Korrektheit
* Im Falle von Fehlern: Evaluierung der Analyse/Refactoring im Code

## Implementierung
* Identifikation der fachlichen Komponenten über Sub-Packages in `org.springframework.data.mongodb.core`
   * Anreicherung des Graphs um zusätzliche Knoten je fachlicher Komponente (:BoundedContext)
   * Zuordnung aller Typen in Packages mit dem Namen einer fachlichen Komponente zu eben diesem Bounded Context [:CONTAINS]

In [55]:
%%cypher
// Main-Artefakte in der Anwednung (ohne Tests, Konfiguration, etc.)
MATCH (a:Main:Artifact) RETURN a.name AS ArtifactName, a.group AS GroupName

3 rows affected.


ArtifactName,GroupName
spring-data-mongodb-parent,org.springframework.data
spring-data-mongodb,org.springframework.data
spring-data-mongodb-distribution,org.springframework.data


In [56]:
%%cypher
// Einschränlung auf Java-Artefakte
MATCH (a:Java:Main:Artifact) RETURN a.name AS JavaArtefactName, a.group AS GroupName

1 rows affected.


JavaArtefactName,GroupName
spring-data-mongodb,org.springframework.data


* `spring-data-mongodb` ist das einzige Java-Artefakt, das auch den Anwendungscode enthält.
* `spring-data-mongodb-parent` ist das Wurzelverzeichnis, das hauptsächlich Konfigurationsdateien enthält.
* `spring-data-mongodb-distribution` enhält Anweisung zum Bauen einer Distribution.

Von den drei Artefakten wird im Folgenden nur das Java-Artefakt `spring-data-mongodb` weiter analysiert. 

In [57]:
%%cypher 
// Anzahl Java-Typen in Spring Data MongoDB
MATCH (type:Type:Java)
WHERE type.fqn STARTS WITH "org.springframework.data.mongodb"
RETURN count(DISTINCT type) AS TotalJavaTypes

1 rows affected.


TotalJavaTypes
3465


In [58]:
%%cypher
// Anzahl Java-Typen im Artefakt
MATCH (a:Java:Main:Artifact)-[:CONTAINS]->(type:Type:Java) 
WHERE a.name = "spring-data-mongodb"           
RETURN a.name AS  Artifact, count(type) AS JavaTypesInArtifact

1 rows affected.


Artifact,JavaTypesInArtifact
spring-data-mongodb,1281


#### Frage
* Warum sind nur weniger als halb so viele Java-Typen im `spring-data-mongodb`-Artefakt enhalten als in der Spring-Data-MongoDB-Anwendung insgesamt?

In [51]:
%%cypher
// Anzahl Java-Typen, die keine CONTAINS-Beziehung vom Artefakt `spring-data-mongodb` haben 
MATCH (type:Type:Java), (artifact:Java:Main:Artifact)
WHERE NOT (artifact)-[:CONTAINS]->(type) 
AND artifact.name = "spring-data-mongodb"
AND type.fqn STARTS WITH "org.springframework.data.mongodb"
RETURN artifact.name AS Artifact, count(DISTINCT type) AS JavaTypesNotInArtifact

1 rows affected.


Artifact,JavaTypesNotInArtifact
spring-data-mongodb,2184


In [52]:
%%cypher
// Anzahl Java-Typen, die keine CONTAINS-Beziehung vom Artefakt `spring-data-mongodb` haben und "Test" im Fully Qualified Name enthalten
MATCH (type:Type:Java)
WHERE NOT (:Java:Main:Artifact)-[:CONTAINS]->(type) 
AND type.fqn STARTS WITH "org.springframework.data.mongodb"
AND type.fqn CONTAINS "Test"
RETURN count(DISTINCT type)

1 rows affected.


count(DISTINCT type)
1991


#### Antwort
* Wenn man sich die Klassennamen anschaut, stellt man fest, dass es sich überwiegend um Test- und Konfigurationsklassen handelt (obwohl die Anfrage nicht auf Knoten mit Label `Main` eingeschränkt war.)
* 2184 (Anzahl der Typen, die mit dem Artefakt `spring-data-mongodb` verbunden sind), plus 1281 (Anzahl der Typen, die **nicht** mit dem Artefakt `spring-data-mongodb` verbunden sind) ergibt genau 3465 (Gesamtanzahl Java-Typen).

In [50]:
%%cypher
// Markierung aller SpringDataMongoDb-Knoten 
// Added 1332 labels
MATCH (artifact:Main:Artifact{name: "spring-data-mongodb"})
SET artifact:SpringDataMongoDb
WITH artifact
MATCH (artifact)-[:CONTAINS]->(c)
SET c:SpringDataMongoDb

1332 labels added.


In [59]:
%%cypher
MATCH (a:SpringDataMongoDb)-[:CONTAINS]->(b:SpringDataMongoDb)
RETURN a.name AS SpringDataMongoDbEntity, a.fqn AS FullyQualifiedName, COUNT(DISTINCT b) AS ContentCount
ORDER BY ContentCount DESC

31 rows affected.


SpringDataMongoDbEntity,FullyQualifiedName,ContentCount
spring-data-mongodb,org.springframework.data:spring-data-mongodb:jar:3.3.0-SNAPSHOT,1331
aggregation,org.springframework.data.mongodb.core.aggregation,370
core,org.springframework.data.mongodb.core,292
convert,org.springframework.data.mongodb.core.convert,121
query,org.springframework.data.mongodb.core.query,61
index,org.springframework.data.mongodb.core.index,49
query,org.springframework.data.mongodb.repository.query,44
config,org.springframework.data.mongodb.config,42
mongodb,org.springframework.data.mongodb,36
mapping,org.springframework.data.mongodb.core.mapping,36


### Aufteilung in fachliche Komponenten
* Sinnvoll wäre auf den ersten Blick die Strukturierung im `core`-Package zu übernehmen
* Zusätzlich sollten Packeages im `mongodb`-Wurzelverzeichnis als eine fachliche Komponente markiert werden
* **Problem**: `core` ist im Package `mongodb` enhalten, sodass Typen im `core`-Package bei Analyse eventuell doppelt gezählt werden
* **Lösung**: Die Zuordnung der Klassen (weiter unten) erfolgt für das `core`-Package separat nur auf der ersten Ebene.

In [60]:
%%cypher
// Packages, die in mongodb und core enhalten sind
MATCH (p:Package:SpringDataMongoDb)-[:CONTAINS]->(bC:Package:SpringDataMongoDb)
WHERE p.fqn = "org.springframework.data.mongodb" OR p.fqn = "org.springframework.data.mongodb.core"
WITH p, collect(DISTINCT bC.name) AS boundedContexts
RETURN p.name AS PackageName, boundedContexts

2 rows affected.


PackageName,boundedContexts
mongodb,"['util', 'monitor', 'config', 'repository', 'gridfs', 'core']"
core,"['convert', 'aggregation', 'validation', 'schema', 'geo', 'index', 'spel', 'timeseries', 'mapreduce', 'script', 'messaging', 'query', 'mapping']"


In [61]:
%%cypher
// Anlegen eines Knoten je Fachlichkeit
// Added 19 labels, created 19 nodes, set 19 properties
MATCH    (p:Package:SpringDataMongoDb)-[:CONTAINS]->(bC:Package:SpringDataMongoDb)
WHERE    p.fqn = "org.springframework.data.mongodb" OR p.fqn = "org.springframework.data.mongodb.core"
WITH     collect(DISTINCT bC.name) AS boundedContexts
UNWIND   boundedContexts AS boundedContext
MERGE    (bC:BoundedContext {name: boundedContext})

19 nodes created.
19 properties set.
19 labels added.


In [62]:
%%cypher
// Zuordnen der Klassen zu den Bounded Contexts (ohne core-Package)
// Created 1024 relationships
MATCH    (bC:BoundedContext),
         (p:Package:SpringDataMongoDb)-[:CONTAINS*]->(t:Type:SpringDataMongoDb)
WHERE    p.name = bC.name AND bC.name <> "core"
MERGE    (bC)-[:CONTAINS]->(t)
RETURN   bC.name AS BoundedContext, count(t) AS Size
ORDER BY Size DESC

1024 relationships created.


BoundedContext,Size
aggregation,370
convert,121
query,105
repository,93
mapping,59
index,49
config,37
schema,34
messaging,33
util,32


In [63]:
%%cypher
// Zuordnen der Klassen zu den Bounded Contexts (nur erste Ebene des core-Packages)
// Created 279 relationships
MATCH    (bC:BoundedContext),
         (p:Package:SpringDataMongoDb)-[:CONTAINS*1..1]->(t:Type:SpringDataMongoDb)
WHERE    p.name = bC.name AND bC.name = "core"
MERGE    (bC)-[:CONTAINS]->(t)
RETURN   bC.name AS BoundedContext, count(t) AS Size
ORDER BY Size DESC

279 relationships created.


BoundedContext,Size
core,279


Keine Anreicherung der Abhängigkeiten zwischen Bounded Contexts, da nicht Gegenstand der Analyse
 

## Ergebnisse

In [64]:
%%cypher
// Prozentualer Anteil der zugeordneten Klassen (97%)
MATCH (t:Type:SpringDataMongoDb)
WITH count(DISTINCT t) AS Total
MATCH (:BoundedContext)-[:CONTAINS]->(t:Type:SpringDataMongoDb)
RETURN 100 * count(DISTINCT t) / Total AS overage

1 rows affected.


overage
97


In [65]:
%%cypher
// Nicht zugeordnete Klassen
MATCH (p:Package)-[:CONTAINS*]->(t:Type:SpringDataMongoDb)
WHERE NOT EXISTS((:BoundedContext)-[:CONTAINS]->(t))
RETURN p.fqn AS Package, count(DISTINCT t) AS Count
ORDER BY Count DESC, Package ASC

4 rows affected.


Package,Count
org,30
org.springframework,30
org.springframework.data,30
org.springframework.data.mongodb,30


Nicht zugeordneten Klassen sind 30 Typen im Wurzel-Package `org.springframework.data.mongodb`.

**TODO**: Noch hinzufügen?

In [66]:
%%cypher
// Anzahl SpringDataMongoDb-Typen pro Package
MATCH (bC:BoundedContext)-[:CONTAINS*]->(t:Type:SpringDataMongoDb)                                           
RETURN bC.name AS  BoundedContext, count(DISTINCT t) AS ClassCount
ORDER BY ClassCount DESC

19 rows affected.


BoundedContext,ClassCount
aggregation,370
core,279
convert,121
query,105
repository,93
mapping,59
index,49
config,37
schema,34
messaging,33


BoundedContext `core` enthält nur die Typen im eigenen Wurzel-Package. Typen in Subpackages von `core` sind jeweils als eigener BoundedContext aufgeführt. 

In [67]:
subdomainSize = %cypher MATCH (bC:BoundedContext)-[:CONTAINS*]->(t:Type:SpringDataMongoDb) \
                        RETURN bC.name AS  BoundedContext, count(DISTINCT t) AS ClassCount

df = subdomainSize.get_dataframe()
fig = px.pie(df, values='ClassCount', names='BoundedContext', title='Größe der einzelnen Bounded Contexts')
fig.show()

19 rows affected.


## Nächste Schritte
* Experten-Analyse auf Grundlage der Git-Historie
* Experten-Analyse auf Grundlage der Github-Issues

In [54]:
from IPython.display import HTML, Javascript, display

def configure_d3():
    """Tell require where to get d3 from in `require(['d3'])`"""
    display(Javascript("""
    require.config({ 
      paths: {
        lodash: "https://cdnjs.cloudflare.com/ajax/libs/lodash.js/4.17.15/lodash.min",  
        d3: "https://d3js.org/d3.v4.min"
      }
    })"""))


configure_d3()

<IPython.core.display.Javascript object>

In [None]:
# Abhängigkeiten zwischen Bounded Contexts (Domain Layer)
bCRelations = %cypher MATCH (bC1:BoundedContext)-[d:DEPENDS_ON]->(bC2:BoundedContext) \
                      RETURN bC1.name AS Source, \
                             bC2.name AS Target, \
                             d.weight AS X_Count

bounded_context_connections = bCRelations.get_dataframe()

In [None]:
text = Template(open('vis/chord/chord-diagram.html', 'r').read().replace("\n","")).substitute({
    'chord_data': bounded_context_connections.to_csv(index = False).replace("\r\n","\\n").replace("\n","\\n"), 
    'container': 'bc-chord-diagram'})

HTML(text)