# Abstract

## Titel: Einführung in Software Analytics


## Beschreibung
In Unternehmen werden Datenanalysen intensiv genutzt, um aus Geschäftsdaten wertvolle Einsichten
zu gewinnen. Warum nutzen wir als Softwareentwickler Datenanalysen dann nicht auch für unsere eigenen Daten? 

In diesem Workshop stelle ich Vorgehen und Best Practices von Software Analytics vor. Wir sehen uns die dazugehörigen Open-Source-Werkzeuge an, mit denen sich Probleme in der Softwareentwicklung zielgerichtet analysieren und kommunizieren lassen. 

Im Praxisteil mit Jupyter, pandas, jQAssistant, Neo4j & Co. erarbeiten wir gemeinsam wertvolle Einsichten aus Datenquellen wie Git-Repositories, Performancedaten, Qualitätsberichten oder auch direkt aus dem Programmcode. Wir suchen nach besonders fehleranfälligem Code, erschließen No-Go-Areas in Altanwendungen und priorisieren Aufräumarbeiten entlang wichtiger Programmteile. 

Gerne kann bei diesem interaktiven Workshop direkt mitgearbeitet werden. Ein Notebook mit Internetzugang reicht hierfür völlig aus.

In [1]:
%matplotlib inline
import pandas as pd


# Einführung in<br/> Software Analytics
<b>Markus Harrer</b>, Software Development Analyst
  
`@feststelltaste`


<small>ML Summit 2019, 14. Oktober 2019</small>

<img src="../../demos/resources/innoq_logo.jpg" width=20% height="20%" align="right"/>

## Workshop-Aufbau

### 1. Teil: Theorie
* Einführung in das Thema "Software Analytics"
* Vorgehen für Datenanalysen in der Softwareentwicklung
* Werkzeuge für leichtgewichtiges Software Analytics

### 2. Teil: Praxis
* Gemeinsame Durchführung erster Analysen
* Bearbeitung einer Aufgabe in Kleingruppen
* Offene Fragen

## Über mich

<img src="../../demos/resources/ueber_mich.png" style="width:85%;" >

## Datenanalysen in der Softwareentwicklung?

#  ... ein typischer Projektverlauf

## ... ein typischer Projektverlauf
<img src="../../demos/resources/schuld1.png" style="width:95%;" align="center"/>

## ... ein typischer Projektverlauf
<img src="../../demos/resources/schuld2.png" style="width:95%;" align="center"/>

## ... ein typischer Projektverlauf
<img src="../../demos/resources/schuld3.png" style="width:95%;" align="center"/>

## ... ein typischer Projektverlauf
<img src="../../demos/resources/schuld4.png" style="width:95%;" align="center"/>

##  
##   "Die Definition von Wahnsinn ist, immer wieder das Gleiche zu tun und andere Ergebnisse zu erwarten."

<br/>
<div align="right">&ndash; Albert Einstein</div>

## Das (Tr|D)auerthema
<img src="../../demos/resources/kombar0.png" style="width:95%;" align="center"/>

## Das (Tr|D)auerthema
<img src="../../demos/resources/kombar4.png" style="width:95%;" align="center"/>

## "Software Analytics" als Retter?

### Definition "Software Analytics"
"Software Analytics is analytics on <b>software data</b> for **managers** and <b class="green">software engineers</b> with the aim of empowering software development individuals and teams to _gain and share insight from their data_ to <b>make better decisions</b>."
<br/>
<div align="right"><small>Tim Menzies and Thomas Zimmermann</small></div>

### Welche Arten von Softwaredaten?

Alles was aus der Entwicklung und dem Betrieb der Softwaresysteme so anfällt: 
* Statische Daten
* Laufzeitdaten
* Chronologische Daten
* Daten aus der Software-Community

### Welche Werkzeuge, Datenquellen und Daten?
<img src="../../demos/resources/softwaredaten.png" style="width:95%;" align="center"/>

# Sehr große Auswahl == sehr "große" Möglichkeiten?

## (M)ein Problem mit (klassischem) Software Analytics

### (M)ein Problem mit Software Analytics
<img src="../../demos/resources/freq1_en.png" style="width:80%;" align="center"/>

### (M)ein Problem mit Software Analytics
<img src="../../demos/resources/freq1_en.png" style="width:80%;" align="center"/>

### (M)ein Problem mit Software Analytics
<img src="../../demos/resources/freq2_en.png" style="width:80%;" align="center"/>

### (M)ein Problem mit Software Analytics
<img src="../../demos/resources/freq3_en.png" style="width:80%;" align="center"/>

### (M)ein Problem mit Software Analytics
<img src="../../demos/resources/freq4_en.png" style="width:80%;" align="center"/>

### (M)ein Problem mit Software Analytics
<img src="../../demos/resources/freq5_en.png" style="width:80%;" align="center"/>

### Andere sehen dieses Problem auch!

*Thomas Zimmermann in "One size does not fit all":*
<br/><br/>
<div style="font-size:70%;" align="center">
"The main lesson: There is no one size fits all model. Even if you find models that work for most, they will not work for everyone. There is much <strong>academic research</strong> into <strong>general models</strong>. In contrast, <b><span class="green">industrial practitioners</span></b> are often fine with <b><span class="green">models that just work for their data</span></b> if the model provides some insight or allows them to work more efficiently."<br/>
</div>

Aber: "... the methods typically are applicable on different datasets."<br/>
<b>=> Analyseideen sind wiederverwendbar!</b>

### "Es kommt drauf an!" aka Kontext

<div style="margin-left:160px;margin-top:80px;">
<img src="../../demos/resources/context.png" style="width:70%;" /></div>

<b>Individuelle Systeme == Individuelle Probleme => Individuelle Analysen => Individuelle Erkenntnisse!</b>

### Einige Beispiele aus der Praxis

* Vorhandenen Modularisierungsschnitt analysieren
* Performance-Probleme in verteilten Systemen identifizieren
* Potenzielle Wissensverluste ermitteln
* Eingesetzte Open-Source-Projekte bewerten
* ...

### Was sind Ihre Analysen aus der Praxis?
<img src="../../demos/resources/vorerfahrung.png" style="width:95%;" align="center"/>

# Wie Software Analytics dann umsetzen?

<br/><br/>
<div align="center">
    <h1><strong>Data Science</strong>
    <br/><br/></h1>
      <h2>  <i style="font-weight: normal;">Eine leichtgewichtige Umsetzung von </i><b><span class="blue">Software Analytics</span></b></h2>
</div>

## Data Science

### Was is Data Science?

"**Statistics** on a <b><span class="green">Mac</span></b>."
<br/>
<br/>
<div align="right"><small>https://twitter.com/cdixon/status/428914681911070720</small></div>

<b>Data Science Venn Diagram (Drew Conway)</b>

<img src="../../demos/resources/venn_diagram.png" style="width:50%;" >

### Meine Definition

#### Was bedeutet "**data**"?
"Without **data** you‘re just another person with an opinion."
<br/>
<div align="right"><small>W. Edwards Deming</small></div>

<b>=> Belastbare Erkenntnisse mittels <span class="green">Fakten</span> liefern</b>

#### Was bedeutet "**science**"?
  
  
"The aim of **science** is to seek the simplest explanations of complex facts."
<br/>
<div align="right"><small>Albert Einstein</small></div>

<b>=> Neue Erkenntnisse <span class="green">verständlich</span> herausarbeiten</b>

## Warum Data Science?

### Große (Online-)Community
* Kostenlose Online-Kurse, -Videos und Tutorials (z. B. DataCamp mit über 4,6 Mio. Mitgliedern)
* Direkte Hilfestellungen (z. B. Stack Overflow oder Blog-Artikel)
* Lernen und lernen von anderen durch Online-Wettbewerbe (e. g. Kaggle, )

### Freie und einfach zu nutzende Werkzeuge!
<br/>
<br/>
<img src="../../demos/resources/rvspy.png" style="width:95%;" >


### Data Science liegt immer noch im Trend!

"100" == max. Beliebtheit!

### Meine persönlichen Gründe: Not, Sinn & Gelassenheit

* Masterand: Schnelle Ergebnisse notwendig

* Enterprise Java-Entwickler: Abends noch was Richtiges zu Stande bekommen

* Berater: Weitere Standbeine "Data Science" und "Graphdatenbanken"

# Wie weit weg sind <span class="green">SoftwareentwicklerInnen</span></b><br/> von <strong>Data Science</strong>?

### Was ist ein Data Scientist?
"A data scientist is someone who<br/>
&nbsp;&nbsp;is better at **statistics**<br/>
&nbsp;&nbsp;than any <b><span class="green">software engineer</span></b><br/>
&nbsp;&nbsp;and better at <b><span class="green">software engineering</span></b><br/>
&nbsp;&nbsp;than any **statistician**."
<br/>
<br/>
<div align="right"><small>From https://twitter.com/cdixon/status/428914681911070720</small></div>

<b>Nicht so weit weg wie gedacht!</b>

# Wie <span class="blue">Software Analytics</span> mit <strong>Data Science</strong>  beginnen?

### Bewährte Ansätze nutzen
<small>Roger Pengs "Stages of Data Analysis"</small>  
I. Fragestellung  
II. Explorative Datenanalyse  
III. Formale Modellierung  
IV. Interpretation  
V. Kommunikation
  



<b>=> von der <strong>Frage</strong> über die <span class="green">Daten</span> zur <span class="blue" style="background-color: #FFFF00">Erkenntnis</span>!</b>

### Gedanken zur Analyse strukturieren
<br/>
<img src="../../demos/resources/canvas.png" style="width:95%;" >


### Immer dabei:  "Seven principles...
<small>...of inductive software engineering" (Tim Menzies)</small>
1. Human before algorithms
1. Plan for Scale
1. Get Early Feedback
1. Be Open Minded
1. Be Smart with Your Learning
1. Live with the Data You Have
1. Develop a Broad Skill Set That Uses a Big Toolkit

# Wie nachhaltig umsetzen?

### Verwende Literate Statistical Programming

`(Intent + Code + Data + Results)`<br />
`* Logical Step`<br />
`+ Automation`<br />
`= Literate Statistical Programming`

Vehikel: **Computational notebooks**

#### Beispiel "Computational Notebook"
<br/>
  

<div align="center"><img src="../../demos/resources/notebook_approach.jpg"></div>

### Nutze Data Science Standardwerkzeuge

#### z. B. einen der populärsten Stacks

* Jupyter Notebook
* Python 3
* pandas
* matplotlib

### Jupyter Notebook

**Interactive Notebook**
* Dokumentenorientierte Analysen
* Ausführbare Code-Blöcke
* Ergebnisse direkt ersichtlich
* Alles an einem Platz
* Jeder Analyseschritt sichtbar

<b><span class="green">=> Neue Erkenntnisse verständlich herausarbeiten!</span></b>



### Python 3

**Eine beliebte Programmiersprache im Data Science**
* Einfach
* Effektiv
* Schnell
* Spaß
* Automatisierung

<b><span class="green">=> Datenanalysen werden wiederholbar</span></b>

### pandas

**Pragmatisches Datenanalysewerkzeug**
* Tabellenartige Datenstrukturen ("programmierbares Excel-Arbeitsblatt")
* Sehr schnelle Berechnungen
* Flexibel 
* Ausdrucksstarke API

<b><span class="green">=> Guter Integrationspunkt für verschiedene Datenquellen!</span></b>

### matplotlib

**Progammierbare Visualisierungsbibliothek**

* Pragmatische Erstellung von Grafiken
* Diagramme wie Linien-, Balken-, XY-Diagramme und viele andere
* Gut integriert mit pandas

<b><span class="green">=> Direkte Visualisierung der Diagramme / Ergebnisse!</span></b>

### Das Python-Ökosystem
<br/>
<div class="row">
  <div class="column">
    <b>Data Analysis</b>
    <ul>
      <li>NumPy</li>
      <li>scikit-learn</li>
      <li>TensorFlow</li>
      <li>SciPy</li>
      <li>PySpark</li>
      <li>py2neo</li>
    </ul>
  </div>
  <div class="column">
    <b>Visualisierung und mehr</b>
    <ul>
      <li>pygal</li>
      <li>Bokeh</li>
      <li>python-pptx</li>
      <li>RISE</li>
      <li>Requests, xmldataset, Selenium, Flask...</li>
    </ul>
  </div>
</div> 

<b><span class="green">=> Bietet in ganz individuellen Situationen die notwendige Flexibilität!</span></b> 


### Andere Technologien
**Jupyter Notebook** arbeitet auch mit anderen Technologieplattformen zusammen, z. B. mit
* jQAssistant Scanner / Neo4j Graphdatenbank
* JVM-Sprachen via beakerx / Tablesaw
* bash

<b><span class="green">=> Spezielle Technologie? Wird (meist) unterstützt!</span></b>


### Anaconda 3

**Data Science Python Distribution**

* Kostenloses All-Inclusive-Paket
* Bringt alles mit, um loszulegen.
* Optimiert für eine schnelle Ausführung auf dem jeweiligen Betriebssystem.

<b><span class="green">=> Downloaden, installieren, loslegen!</span></b>

### Meine Empfehlungen für einen einfachen Einstieg

#### Meine TOP 5's*

https://www.feststelltaste.de/category/top5/
    
Kurse, Videos, Blogs, Bücher und mehr...


<small>**einige Seiten befinden sich noch in der Entwicklung*</small>

### Meine Buchempfehlungen
* Adam Tornhill: Software Design X-Ray 
* Wes McKinney: Python For Data Analysis
* Jeff Leek: The Elements of Data Analytic Style
* Tim Menzies, Laurie Williams, Thomas Zimmermann: Perspectives on Data Science for Software Engineering
* Mini-Tutorial unter `https://github.com/feststelltaste/software-analytics-workshop`

# Hands-On

## Programmierbeispiel

### Fallbeispiel

#### IntelliJ IDEA

* IDE für Java-Entwickler
* Fast komplett in Java geschrieben
* Großes und lang aktives Projekt

### I. Fragestellung (1/3)

* Schreibe die Frage explizit auf
* Erkläre die Anayseidee verständlich


### I. Fragestellung (2/3)

<b>Frage</b>
* Welche Quellcodedateien sind besonders komplex und änderten sich in letzter Zeit häufig?


### I. Fragestellung (3/3)
#### Umsetzungsideen
* Werkzeuge: Jupyter, Python, pandas, matplotlib
* Heuristiken:
 * "komplex": viele Quellcodezeilen
 * "ändert ... häufig": hohe Anzahl an Git-Commits
 * "in letzter Zeit": letzte 30 Tage


**Meta-Ziel:** Grundfunktionen anhand eines einfachen Use-Cases sehen.

### II. Explorative Datenanalyse
* Finde und lade mögliche Softwaredaten
* Bereinige und filtere die Rohdaten

*Wir laden einen Datenexport aus einem Git-Repository.*

*Wir sehen uns Basisinfos über den Datensatz an.*

<b>1</b> **DataFrame** (~ programmierbares Excel-Arbeitsblatt), <b>6</b> **Series** (= Spalten), <b>1128819</b> **entries** (= Reihen)

*Wir wandeln die Zeitstempel von Texte in Objekte um.*

*Wir sehen uns nur die jüngsten Änderungen an.*

*Wir wollen nur Java-Code verwenden.*

### III. Formale Modellierung

* Schaffe neue Sichten
* Verschneide weitere Daten

*We aggregate the rows by counting the number of changes per file.*

*Wir holen Infos über die Code-Zeilen hinzu...*

*...und verschneiden diese mit den vorhandenen Daten.*

### VI. Interpretation
* Erarbeite das Kernergebnis der Analyse heraus
* Mache die zentrale Botschaft / neuen Erkenntnisse deutlich

*Wir zeigen nur die TOP 10 Hotspots im Code an.*

### V. Kommunikation
* Transformiere die Erkenntnisse in eine verständliche Visualisierung
* Kommuniziere die nächsten Schritte nach der Analyse

*We plot the TOP 10 list as XY diagram.*

### Ende der Demo

## Weitere Analysebeispiele

* Analyse der CPU-Auslastung mit Daten von `vmstat`
* Abhängigkeitsanalyse mit Daten von `jdeps` und Visualisierung mit `D3`
* Identifizierung von Modularisierungsoptionen basierend auf reinen Codeänderungen in `Git`
* Analyse von Performance-Hotspots mit `jQAssistant` / `Neo4j`
* Automatisierte Prüfung der (Architektur-)Governance-Vorgaben mit `jQAssistant`

## Zusammenfassung
**1.** <b>Softwareanalysen</b> mit Data-Science-Werkzeugen sind möglich  
**2.** Wer mehr will bekommt auch <b>mehr</b>!  
**3.** Es gibt unglaublich <b>viele Quellen</b> für Daten in der Softwareentwicklung  

<b>=> von der <strong>Frage</strong> über die <span class="green">Daten</span> zur <span class="blue" style="background-color: #FFFF00">Erkenntnis</span>!</b>

# Danke!

<b>Markus Harrer</b><br/>
innoQ Deutschland GmbH
  
markus.harrer@innoq.com

`@feststelltaste`