# Grundlagen der KI - Gruppenprojekte


Für die Projekte stellen wir eine MongoDB Datenbank, die wir aktiv in der Forschung nutzen, zur Verfügung. Die Datenbank beinhaltet Informationen über Versionskontrollsysteme, Issuetracker, und Mailinglisten von Open Source Projekten. [Die Dokumentation der Datenbank finden Sie Online](https://smartshark2.informatik.uni-goettingen.de/documentation/).

## Die Aufgabe

Ihre Aufgabe ist es, einen automatisierten Ansatz zu entwickeln, welcher vorhersagt, ob ein Issue innerhalb von 6 Monaten behoben wird oder nicht. Darüber hinaus, sollte das Modell (oder auch ein zweites Modell) in der Lage sein, die erwartete Zeit für die Behebung und damit Schließung des Issues vorherzusagen.
Sie können dazu beliebige Informationen aus der Datenbank nutzen, wie z.B. Commits, andere Issues, Mails und Änderungen in den Dateien.
Sie müssen diese Problemstellung als Analyseproblem fassen um dann Modelle zur Lösung aufstellen zu können. Hierzu müssen Sie geeignete Analysemethoden auswählen und anschließend die Qualität der Ergebnisse evaluieren. 

## Präsentationen

**Alle Gruppen müssen ihre Ergebnisse in der letzten Vorlesung am 09.02. um 16:15 Uhr vorstellen.** Hierzu muss jede Gruppe eine kurze Präsentation halten. In dieser Präsentation sollten Sie kurz beschreiben wie Sie vorgegangen sind, wie Sie Features erstellt haben, welche Modelle Sie benutzt haben und was ihre wichtigsten Ergebnisse sind. Die Zeit für die Präsentation beträgt 9 (1) Minuten.

Im Anschluss an die Präsentation stimmen die Anwesenden über das beste Projekt ab. Jede Gruppe stimmt für das beste Projekt (3 Punkte), das zweitbeste (2 Punkte) und das drittbeste (1 Punkt). Das Projekt mit den meisten Punkten gewinnt einen Preis.

Die Präsentation wird in Präsenz stattfinden, wenn die aktuellen Regeln es zulassen (Prof. Herbold wird dabei per Video zugeschaltet sein; Raum wird noch bekannt gegeben). Da wir nur begrenzt Zeit haben, müssen alle Präsentationen vorab geschickt werden. Wir kombinieren diese dann in einer PDF um einen einfachen Wechsel zwischen den Präsentation der Gruppen zu erreichen. Die Mitglieder der Gruppe werden dann in der Reihenfolge des Gruppennames gebeten ihre Ergebnisse vorzustellen, d.h. wir beginnen mit Gruppe 1 und enden mit Gruppe 6.


## Abgabe der Präsentationen

Damit die Präsentation reibungslos ablaufen, müssen Sie ihre Präsentation im Vorfeld einsenden. **Schicken Sie Ihre Präsentationen bitte bis spätestens zum 08.02.23, 16 Uhr an Clemens Dierks via Email (clemens.dierks@tu-clausthal.de)**. Die Präsentation muss als PDF vorliegen.


## Mindestkriterien

Die folgenden Kriterien muss ein Projekt mindestens erfüllen, damit die Gruppenmitglieder an der Prüfung teilnehmen können.
- Es muss ein Modell für die automatisierte Vorhersage, ob ein Issue innerhalb von 6 Monaten gelöst wird, vorhanden sein.
- Es muss ein Modell für die automatisierte Vorhersage der estimated-time-to-fix von Issues vorhanden sein.
- Die Qualität des Modells muss bewertet werden.
- Sie müssen eine Empfehlung geben, ob und ggf. unter welchen Umständen, das Modell eingesetzt werden kann basierend auf der Evaluation der Qualität des Modells.
- Aufgrund Ihrer Empfehlung können Sie noch Verbesserungsmöglichkeiten vorstellen.
- Die Ergebnisse müssen in der Vorlesung am 09.02.23 vorgestellt werden.

## Datenbankzugriff

Unterhalb finden Sie ein Beispiel, wie Sie auf die Datenbank zugreifen. Die Datenbank befindet sich hinter einer Firewall und kann nur aus dem Netz der TU Clausthal erreicht werden. Wenn Sie Probleme haben die Datenbank zu erreichen, können Sie von jedem beliebigen Netzwerk aus in das Netz der TU Clausthal gelangen, in dem Sie sich mit dem [VPN](https://doku.tu-clausthal.de/doku.php?id=netzwerk_und_internet:vpn:start) verbinden.

**WARNUNG:
Wir benutzen die Datenbank aktiv in der Forschung. Es kann daher sein, das teilweise eine sehr hohe Last auf der Datenbank ist. Die Datenbank ist sehr groß und beinhaltet derzeit 4.8 Terabyte an Daten. Sie sollten daher nicht einfach starten Anfragen zu schreiben, sondern sich genau überlegen auf welche Informationen Sie zugreifen wollen. Wenn Sie zum Beispiel eine Anfrage stellen, in der Sie die komplette ```commit``` Collection herunterladen möchten, müssen Sie hierfür 158 Gigabyte an Daten runterladen. **

Sie können die Bibliothek [pycoSHARK](https://github.com/smartshark/pycoshark) zum Zugriff auf die Datenbank nutzen. Der pycoSHARK stellt einen ORM-Layer basierend auf der Bibliothek ```mongoengine``` zur Verfügung. Hierdurch können Sie die Datenbanktabellen wie Objekte behandeln. Alternativ können Sie die native MongoDB API der ```pymongo``` Bibliothek benutzen. 

Der Quelltext unten beinhaltet Ihre Zugangsdaten in zeigt wie man mit dem pycoSHARK auf die Datenbank zugreift.

In [8]:
# Installation des pycoSHARKs
import sys
# !{sys.executable} -m pip install pycoshark

In [9]:
from mongoengine import connect
from pycoshark.mongomodels import File, FileAction, Commit, Project, VCSSystem, IssueSystem
from pycoshark.utils import create_mongodb_uri_string
import pymongo
import pandas as pd

# Database credentials
user = 'grundlagenki2021'
password = '38BTGx71d'
host = '134.76.81.151'
port = '27017'
authentication_db = 'smartshark'
database = "smartshark"
ssl_enabled = None

# Establish connection
uri = create_mongodb_uri_string(user, password, host, port, authentication_db, ssl_enabled)

myclient = pymongo.MongoClient(uri)
mydb = myclient["smartshark"]


Event

In [10]:
mycol = mydb["event"]

mydoc = mycol.find().limit(100)
df =  pd.DataFrame(list(mydoc))
df.head(100)

Unnamed: 0,_id,external_id,issue_id,created_at,status,author_id,new_value,old_value
0,58bfc51f75da6d1bb61669e1,12608068%%0,58bfc51f75da6d1bb61669e0,2008-06-17 14:57:32.125,components,58b938adf04620b39bfccf95,java client,
1,58bfc52775da6d1bb6166a2d,12607831%%0,58bfc52775da6d1bb6166a25,2008-06-16 19:00:09.985,assignee_id,58b938adf04620b395fccf94,58bfc521e4f89451f55cdefb,58b938adf04620b395fccf94
2,58bfc53575da6d1bb6166a96,12607100%%0,58bfc53475da6d1bb6166a83,2008-06-12 15:14:25.613,Attachment,58b938acf04620b370fccf94,patch-le-polish,
3,58bfc53575da6d1bb6166a97,12607089%%0,58bfc53475da6d1bb6166a83,2008-06-12 14:14:39.710,assignee_id,58b938acf04620b370fccf94,58b938acf04620b370fccf94,
4,58bfca990ccb2667fe269e21,12607831%%0,58bfca990ccb2667fe269e19,2008-06-16 19:00:09.985,assignee_id,58b938adf04620b395fccf94,58bfc521e4f89451f55cdefb,58b938adf04620b395fccf94
...,...,...,...,...,...,...,...,...
95,58bfceed0ccb2667fe26fb32,13869772%%1,58bfccbc0ccb2667fe26c6e9,2013-10-02 00:10:46.810,fix_versions,58b938adf04620b395fccf94,,3.3.0
96,58bfceed0ccb2667fe26fb33,13869772%%2,58bfccbc0ccb2667fe26c6e9,2013-10-02 00:10:46.810,resolution,58b938adf04620b395fccf94,Not A Problem,
97,58bfcef00ccb2667fe26fb46,13870306%%0,58bfcef00ccb2667fe26fb45,2013-10-02 16:16:46.098,issue_links,58bfce8e02ca40f8bf147f10,"{'issue_id': 58bfcef00ccb2667fe26fb44, 'type':...",
98,58bfcef00ccb2667fe26fb47,13869982%%0,58bfcef00ccb2667fe26fb45,2013-10-02 09:58:43.016,status,58bfce8e02ca40f8bf147f10,Resolved,Reopened


Issue

In [11]:
mycol = mydb["issue"]

mydoc = mycol.find().limit(100)
df =  pd.DataFrame(list(mydoc))
df.head(100)

Unnamed: 0,_id,external_id,issue_system_id,title,desc,created_at,updated_at,creator_id,reporter_id,issue_type,...,affects_versions,components,labels,resolution,fix_versions,issue_links,assignee_id,environment,parent_issue_id,original_time_estimate
0,58bfcb5a0ccb2667fe26acb5,ZOOKEEPER-306,58bfca8e0ccb2667fe269dd0,Add BookKeeper documentation,Add detailed documentation about BookKeeper.,2009-02-09 16:59:21.140,2009-07-08 20:23:57.266,58b938acf04620b370fccf94,58b938acf04620b370fccf94,Improvement,...,[3.1.0],[contrib-bookkeeper],[],Duplicate,[3.2.0],[],,,,
1,58bfcf9f0ccb2667fe270f92,ZOOKEEPER-10,58bfca8e0ccb2667fe269dd0,Bad error message,Moved from SourceForge to Apache.\r\nhttp://so...,2008-06-10 21:09:10.268,2014-03-15 00:20:02.598,58b938adf04620b395fccf94,58b938adf04620b395fccf94,Bug,...,[],[server],[],Invalid,[3.5.0],[],58b938adf04620b395fccf94,,,
2,58bfcfa50ccb2667fe270fda,ZOOKEEPER-1263,58bfca8e0ccb2667fe269dd0,fix handling of min/max session timeout value ...,This task rolls up the changes in subtasks for...,2011-10-27 21:47:02.449,2015-07-20 10:54:16.593,58b938adf04620b395fccf94,58b938adf04620b395fccf94,Task,...,,[server],,Fixed,[3.5.0],"[{'effect': 'is related to', 'type': 'Referenc...",58bfccf502ca40f8bf147eb3,,,
3,58bfcfac0ccb2667fe271090,ZOOKEEPER-1807,58bfca8e0ccb2667fe269dd0,Observers spam each other creating connections...,"Hey [~shralex],\n\nI noticed today that my Obs...",2013-11-01 23:32:47.213,2018-05-10 20:01:29.813,5bbf0f5957674ee16743524a,5bbf0f5957674ee16743524a,Bug,...,,,,Fixed,"[3.5.3, 3.5.4, 3.6.0]","[{'effect': 'relates to', 'issue_id': 58bfd1cc...",5bbf0f3f57674ee167431f62,,,
4,58bfcfb30ccb2667fe27116f,ZOOKEEPER-1906,58bfca8e0ccb2667fe269dd0,zkpython: invalid data in GetData for empty node,In python if we ask {{zookeeper.get}} (which t...,2014-03-31 07:52:07.519,2014-04-02 11:10:38.206,58bfce1b02ca40f8bf147ee2,58bfce1b02ca40f8bf147ee2,Bug,...,"[3.4.6, 3.5.0]",[contrib-bindings],[],Fixed,"[3.5.0, 3.4.7]",[],58bfce1b02ca40f8bf147ee2,FreeBSD,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,58bfcb820ccb2667fe26af47,ZOOKEEPER-356,58bfca8e0ccb2667fe269dd0,Masking bookie failure during writes to a ledger,The idea of this jira is to work out the chang...,2009-03-27 12:18:30.698,2009-07-08 20:24:02.258,58b938acf04620b370fccf94,58b938acf04620b370fccf94,Improvement,...,[],[contrib-bookkeeper],[],Fixed,[3.2.0],[],58b938acf04620b370fccf94,,,
96,58bfcec40ccb2667fe26f803,ZOOKEEPER-369,58bfca8e0ccb2667fe269dd0,remove multiple configs in server/quorums.,currently we have mutliple configs serverconfi...,2009-04-06 22:17:41.731,2014-04-23 20:43:40.178,58bfc52602ca40f8bf147852,58bfc52602ca40f8bf147852,Improvement,...,"[3.0.1, 3.0.0, 3.1.0, 3.1.1]",,,,[3.6.0],"[{'effect': 'is related to', 'type': 'Referenc...",,,,
97,58bfcff40ccb2667fe271492,ZOOKEEPER-364,58bfca8e0ccb2667fe269dd0,command line interface for zookeeper.,currently we have a shell based interface for ...,2009-04-03 17:38:03.392,2014-04-23 20:34:59.615,58bfc52602ca40f8bf147852,58bfc52602ca40f8bf147852,New Feature,...,"[3.0.1, 3.0.0, 3.1.0, 3.1.1]",[],[],Invalid,[3.5.0],"[{'effect': 'is related to', 'type': 'Referenc...",58b938adf04620b395fccf94,,,
98,58bfcb4b0ccb2667fe26ab9c,HADOOP-3532,58bfca8e0ccb2667fe269dd0,,,NaT,NaT,,,,...,[],[],[],,[],[],,,,


issue comment

In [13]:
mycol = mydb["issue_comment"]

mydoc = mycol.find().limit(100)
df =  pd.DataFrame(list(mydoc))
df.head(100)

Unnamed: 0,_id,external_id,issue_id,created_at,author_id,comment
0,58bfce6f0ccb2667fe26f0a1,13539176,58bfce550ccb2667fe26ef38,2012-12-24 04:18:07.240,58bfce55e4f89451f55ce126,It was fixed in ZOOKEEPER-1560.
1,58bfce700ccb2667fe26f0a4,13539488,58bfce700ccb2667fe26f0a2,2012-12-26 07:10:11.985,58bfccc5e4f89451f55ce102,I will be out of office today\nPlease use the ...
2,58bfce710ccb2667fe26f0a8,13539874,58bfce710ccb2667fe26f0a5,2012-12-27 08:57:46.953,58b938acf04620b370fccf94,Sounds like someone playing with the keyboard....
3,58bfce720ccb2667fe26f0ae,13540445,58bfce720ccb2667fe26f0a9,2012-12-28 12:35:51.738,58bfce1802ca40f8bf147edf,Fixed with https://issues.apache.org/jira/brow...
4,58bfce720ccb2667fe26f0ba,13541026,58bfcc9a0ccb2667fe26c536,2012-12-29 23:47:28.647,58b938adf04620b393fccf94,"As Kapil pointed out, this functionality is im..."
...,...,...,...,...,...,...
95,58c1186d11e1802cacc26594,12407368,58c1186d11e1802cacc26584,2004-09-02 20:22:40.000,58c1150002ca40f8bfb1ef0d,Why does double[] getRow(int row) belong in th...
96,58bfd43c0ccb2667fe2784db,15900748,58bfd42e0ccb2667fe278278,2017-03-08 05:40:20.207,58bfd16d02ca40f8bf148410,"Hi Abe,\r\n\r\n{quote}\r\nbq. if I understand..."
97,58c1187411e1802cacc265c0,12404432,58c1187411e1802cacc265b6,2003-06-10 03:22:56.000,58bfd7aa3cff546cd9b42fc7,Created an attachment (id=6720)\nRandomDataImp...
98,58c1187411e1802cacc265c2,12404434,58c1187411e1802cacc265b6,2003-06-11 12:54:02.000,58bfd7aa3cff546cd9b42fc7,Oops. I summitted these things I hast. I'll ...


issue system

In [14]:
mycol = mydb["issue_system"]

mydoc = mycol.find().limit(100)
df =  pd.DataFrame(list(mydoc))
df.head(100)

Unnamed: 0,_id,project_id,url,last_updated
0,58bfca8e0ccb2667fe269dd0,5ca4c6b26bcebe2f4003c6e4,https://issues.apache.org/jira/rest/api/2/sear...,2018-10-11 10:51:59.605
1,58c8d8bb1cf3f06cf158fbd8,58c8979e0da3ef6363ccb8de,https://issues.apache.org/jira/rest/api/2/sear...,2018-02-14 10:21:01.946
2,58c1131c537f8c637a3d5529,58bfd5860da3ef7cef464c78,https://issues.apache.org/jira/rest/api/2/sear...,2018-02-15 16:03:36.502
3,58c8970ccba9df45732dbc5f,58c891b50da3ef6363ccb8dd,https://api.github.com/repos/openintents/safe/...,2018-02-14 10:36:58.429
4,59bc19b55c7d7959fe8f58d7,59bbc64e0da3ef6c6a5056b7,https://api.github.com/repos/junit-team/junit4...,2018-02-14 10:21:01.938
...,...,...,...,...
95,60fd7fc69b5e644f88818b01,60a24a6992d37bcecc65bf82,https://issues.apache.org/jira/rest/api/2/sear...,2021-07-25 17:14:14.303
96,60fd842d75ac9a34ac2ce726,60a24ac427ad48a9ceb48656,https://issues.apache.org/jira/rest/api/2/sear...,2021-07-25 17:33:01.512
97,6153127ebc841b72899c7d60,61093a618d56179891397c7b,https://issues.apache.org/jira/rest/api/2/sear...,2021-09-28 15:02:54.385
98,61531765061141410f0f92a5,610939f8a6eb327cba047eca,https://issues.apache.org/jira/rest/api/2/sear...,2021-09-28 15:23:49.811


Commit

In [18]:
mycol = mydb["pull_request_event"]

mydoc = mycol.find().limit(1000)
df =  pd.DataFrame(list(mydoc))
df.head(1000)

Unnamed: 0,_id,pull_request_id,external_id,created_at,author_id,commit_sha,commit_repo_url,event_type,additional_data,commit_id
0,5ff188713fba52c925be892a,5ff1886f3fba52c925be8927,3202397712,2020-04-05 12:24:20,59bc22dcf2a4565fe9cfa0a7,bb8cfa726cb93f8f77b59125e80e06cf2fc1b7f6,https://github.com/apache/ant-ivy,merged,{'performed_via_github_app': None},
1,5ff188713fba52c925be892b,5ff1886f3fba52c925be8927,3202397715,2020-04-05 12:24:20,59bc22dcf2a4565fe9cfa0a7,,,closed,{'performed_via_github_app': None},
2,5ff188733fba52c925be8932,5ff188723fba52c925be892c,2804807509,2019-11-16 14:43:29,5ff18872c26a57681e7b6d2b,,,head_ref_force_pushed,{'performed_via_github_app': None},
3,5ff188753fba52c925be893a,5ff188743fba52c925be8933,2793843800,2019-11-13 04:14:41,5ff18874c26a57681e7b6d50,,,renamed,{'rename': {'to': 'IVY-1615: implement retriev...,
4,5ff188753fba52c925be893b,5ff188743fba52c925be8933,2793871026,2019-11-13 04:34:34,5ff18874c26a57681e7b6d50,,,mentioned,{'performed_via_github_app': None},
...,...,...,...,...,...,...,...,...,...,...
995,5ff19d3ead38daddddf6108e,5ff19d3cad38daddddf61089,3580477515,2020-07-23 15:16:31,59bc208df2a4565fe9cf580f,edc2dfcebdbbb9711f05ef5b603acae15571f100,https://github.com/apache/commons-bcel,referenced,{'performed_via_github_app': None},
996,5ff19d3ead38daddddf6108f,5ff19d3cad38daddddf61089,3580477520,2020-07-23 15:16:31,59bc208df2a4565fe9cf580f,edc2dfcebdbbb9711f05ef5b603acae15571f100,https://github.com/apache/commons-bcel,merged,{'performed_via_github_app': None},
997,5ff19d3ead38daddddf61090,5ff19d3cad38daddddf61089,3580477525,2020-07-23 15:16:31,59bc208df2a4565fe9cf580f,,,closed,{'performed_via_github_app': None},
998,5ff19d3ead38daddddf61091,5ff19d3cad38daddddf61089,3580478292,2020-07-23 15:16:41,5ff191c8c26a57681e7b99d0,,,head_ref_deleted,{'performed_via_github_app': None},
