*Diese Folie ist absichtlich leer*


# Data Science on <br/> Software Data
<b>Markus Harrer</b>, Software Development Analyst
  
`@feststelltaste`


<small>Java Forum Stuttgart 2019, 04.07.2019</small>

<img src="../resources/innoq_logo.jpg" width=20% height="20%" align="right"/>

## Data Science

### Was ist Data Science?

"**Statistik** auf nem <b><span class="green">Mac</span></b>."
<br/>
<br/>
<div align="right"><small>Nach https://twitter.com/cdixon/status/428914681911070720</small></div>

### Meine Definition

#### Was bedeutet "**data**"?
"Without **data** you‘re just another person with an opinion."
<br/>
<div align="right"><small>W. Edwards Deming</small></div>

<b>=> Belastbare Erkenntnisse mittels <span class="green">Fakten</span> liefern</b>

#### Was bedeutet "**science**"?
  
  
"The aim of **science** is to seek the simplest explanations of complex facts."
<br/>
<div align="right"><small>Albert Einstein</small></div>

<b>=> Neue Erkenntnisse <span class="green">verständlich</span> herausarbeiten</b>

### Vorgehen
<small>Nach Roger Pengs "Stages of Data Analysis"</small><br/>
I. Fragestellung  
II. Datenbeschaffung  
III. Modellierung  
IV. Interpretation  
V. Kommunikation  
  



<b>=> von der <strong>Frage</strong> über die <span class="green">Daten</span> zur <span class="blue" style="background-color: #FFFF00">Erkenntnis</span>!</b>

# Was hat das mit Softwareentwicklung zu tun?

### Was ist ein Data Scientist?
"Jemand, der mehr Ahnung von **Statistik**<br/>
&nbsp;&nbsp;hat als ein <b><span class="green">Softwareentwickler</span></b><br/>
&nbsp;&nbsp;und mehr Ahnung von <b><span class="green">Softwareentwicklung</span></b><br/>
&nbsp;&nbsp;als ein **Statistiker**."
<br/>
<br/>
<div align="right"><small>Nach zu https://twitter.com/cdixon/status/428914681911070720</small></div>

<b>Data Science & Software Data:</b> **Perfect** <b><span class="green">match</span></b>!

## Software Data

### Was ist Software Data?

* Statisch
* Laufzeit
* Chronologisch
* Community

<b>=> Krass viel!</b>

### Beispiele für Analysen

* Performance-Bottlenecks
* Verborgene Teamkommunikation
* Modularisierungsschnitte
* Architektur-/Design-/Code-Smells
* ...

<b>=> Individuelle Analysen für individuelle Probleme!</b>

# Lösungsstrategie

## Grundprinzip

<code>
    (Intent + Code + Data + Results)
  * Logical Step
  + Automation
  = Literate Statistical Programming</code>

Implementierung: **Computational notebooks**

### Computational Notebooks
<br/>
  

<div align="center"><img src="../resources/notebook_approach.jpg"></div>

## Technik

### Technologie (1/2)
Klassischer Data-Science-Werkzeugkasten
* **Jupyter** (mit RISE)
* Python 3
* pandas
* matplotlib

### Technologie (2/2)
**Jupyter** funktioniert und integriert sich auch mit
* jQAssistant / Cypher / Neo4j 
* JVM-Sprachen über beakerx / Tablesaw
* bash
* ...

# Praktischer Teil

## Erstes Hands-On

### Fallbeispiel

#### IntelliJ IDEA

* IDE für die Java-Entwicklung
* Vieles in Java geschrieben
* Großes und lang entwickeltes Projekt

### I. Fragestellung (1/3)

* Offene Frage explizit niederschreiben
* Analyseidee verständlich darstellen


### I. Fragestellung (2/3)

<b>Frage</b>
* Welche Code ist besonders komplex und oft wird in letzter Zeit häufig geändert?


### I. Fragestellung (3/3)
#### Umsetzungsidee
* Werkzeuge: Jupyter, Python, pandas, matplotlib
* Heuristiken:
 * "komplex": Lines of Code 
 * "letzter Zeit": Letzte 3 Monate
 * "oft geändert": Anzahl Git commits


**Meta-Ziel:** Grundmechaniken kennenlernen.

### II. Datenbeschaffung
* Daten in Data-Science-Welt laden
* Rohdaten bereinigen und filtern

*Wir laden Git Log Daten eines Git Repos.*

In [None]:
import pandas as pd

log = pd.read_csv("../dataset/git_log_intellij.csv.gz")
log.head()

*Was haben wir hier eigentlich?*

In [None]:
log.info()

<b>1</b> **DataFrame** (~ programmierbares Excel-Arbeitsblatt), <b>6</b> **Series** (= Spalten), <b>1128819</b> **Rows** (= Einträge)

*Wir wandeln die Zeitstempel von Texte in Objekte um.*

In [None]:
log['timestamp'] = pd.to_datetime(log['timestamp'])
log.head()

*Wir sehen uns nur die jüngsten Änderungen an.*

In [None]:
recent_log = log[log['timestamp'] > pd.Timestamp('today') - pd.Timedelta('90 days')]
recent_log.head()

*Wir wollen nur Java-Code verwenden.*

In [None]:
java = recent_log[recent_log['filename'].str.endswith(".java")].copy()
java.head()

### III. Modellierung

* Neue Sichten schaffen
* Weitere Daten verschneiden


*Wir aggregieren die Zeilen sowie die Anzahl der Änderungen pro Datei.*

In [None]:
changes = java.groupby('filename')[['sha']].count()
changes.head()

*Wir holen Infos über die Code-Zeilen hinzu...*

In [None]:
cloc = pd.read_csv("../dataset/cloc_intellij.csv.gz", index_col="filename")
cloc.head()

*...und verschneiden diese mit den vorhandenen Daten.*

In [None]:
hotspots = cloc[['code']].join(changes, on="filename").dropna()
hotspots.head()

### VI. Interpretation
* Problem: Ergebnisse oft umfangreich
* Daher: Kernaussagen klar darstellen

*Wir zeigen die TOP 10 Hotspots an.*

In [None]:
top10_hotspots = hotspots.sort_values(by="sha", ascending=False).head(10)
top10_hotspots

### V. Kommunikation
* Ergebnisse managementtauglich darstellen
* Nächste Schritte lostreten

*Wir plotten die TOP 10 Liste als XY-Diagramm.*

In [None]:
top10_hotspots.plot.scatter('code', 'sha');

### Ende des ersten Hands-Ons

## Weitere Analysen

* Abhängigkeitsanalyse mit Daten von `jdeps` und Visualisierung mit `D3`.
* Analyse von Performance-Hotspots mit jQAssistant / Neo4j
* Priorisieren von Aufräumarbeiten mit Groovy / Tablesaw

## Zusammenfassung
**1.** <b>Analysen</b> mit Standard-Werkzeugen <b>einfach</b> möglich  
**2.** Wer mehr will bekommt auch <b>mehr</b>!  
**3.** Es gibt unglaublich <b>viele Quellen</b> für Daten in der Softwareentwicklung  

<b>=> von der <strong>Frage</strong> über die <span class="green">Daten</span> zur <span class="blue" style="background-color: #FFFF00">Erkenntnis</span>!</b>

## Literatur
* Adam Tornhill: Software Design X-Ray 
* Wes McKinney: Python For Data Analysis
* Leek, Jeff: The Elements of Data Analytic Style
* Tim Menzies, Laurie Williams, Thomas Zimmermann: Perspectives on Data Science for Software Engineering

# Vielen Dank! Fragen?

<b>Markus Harrer</b><br/>
innoQ Deutschland GmbH
  
markus.harrer@innoq.com 

`@feststelltaste`

<small>Demos & "Slides": https://github.com/feststelltaste/software-analytics => demos/20190704_JFS_2019/</small>
<img src="../resources/innoq_logo.jpg" width="20%" heigth="20%" align="right"/>