In [1]:
import numpy as np
import pandas as pd
import pymongo
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from config import config
from collections import defaultdict

def read_mongo(collection, query={}):
    """ Read from Mongo and Store into DataFrame """

    # Make a query to the specific DB and Collection
    cursor = collection.find(query)
    
    elements = []
    for doc in cursor:
        del doc['_id']
        elements.append(doc)
        
    # Expand the cursor and construct the DataFrame
    df =  pd.DataFrame(elements)
    
    return df

def gerarLinha(repo, modelo, numeroDeIssuesDaRecomendacao):
    return {'projeto': repo, 'modelo': modelo, 'numeroDeIssuesDaRecomendacao': numeroDeIssuesDaRecomendacao, 'numeroDeIssuesTestas': 0, 'nTestes': 0, 'nRecomendacaoDadas': 0, 'totalAcertos': 0, 'totalErros': 0}
    

In [2]:
mongoClient = pymongo.MongoClient(config['DATABASE']['CONNECTION_STRING'])
db = mongoClient[config['DATABASE']['NAME']]
table = []
for col in db.list_collections():
  if not col['name'].endswith('_results'):
    continue
  # projeto (feito)
  # modelo (feito)
  # numeroDeIssuesDaRecomendacao (feito)
  # numeroDeIssuesTestas (feito)
  # nTestes(qnts arquivos corrigidos de verdade) (feito)
  # nRecomendacaoDadas(nTotalDeArquivos)
  # totalAcertos
  # totalErros
  repo = col['name'].replace('_results', '')
  if repo == 'microsoft/vscode':
    continue
  
  linhas = [
    gerarLinha(repo, 'sbert', 3),
    gerarLinha(repo, 'sbert', 5),
    gerarLinha(repo, 'tfidf', 3),
    gerarLinha(repo, 'tfidf', 5),
    gerarLinha(repo, 'word2vec', 3),
    gerarLinha(repo, 'word2vec', 5),
  ]

  pos = {
    'sbert': 0,
    'tfidf': 2,
    'word2vec': 4
  }
  
  results = db[col['name']].find({'compare': 'title', 'filtros.goodFirstIssue': 1})
  for result in results:
    tecnica = result['tecnica']
    posicao = pos[tecnica] + 1 if result['topk'] == 5 else pos[tecnica]
    
    linhas[posicao]['numeroDeIssuesTestas'] += 1
    linhas[posicao]['nTestes'] += len(result['arquivos_resolvidos_de_verdade'])
    linhas[posicao]['nRecomendacaoDadas'] += len(result['arquivos_sugeridos'])
    linhas[posicao]['totalAcertos'] += result['acertos']
    linhas[posicao]['totalErros'] += result['erros']
  
  table.extend(linhas)
  
table = pd.DataFrame(table)
table
  

Unnamed: 0,projeto,modelo,numeroDeIssuesDaRecomendacao,numeroDeIssuesTestas,nTestes,nRecomendacaoDadas,totalAcertos,totalErros
0,facebook/react,sbert,3,0,0,0,0,0
1,facebook/react,sbert,5,0,0,0,0,0
2,facebook/react,tfidf,3,0,0,0,0,0
3,facebook/react,tfidf,5,0,0,0,0,0
4,facebook/react,word2vec,3,0,0,0,0,0
5,facebook/react,word2vec,5,0,0,0,0,0
6,jabref/jabref,sbert,3,211,1119,4828,203,4625
7,jabref/jabref,sbert,5,211,1119,7543,237,7306
8,jabref/jabref,tfidf,3,211,1119,4373,193,4180
9,jabref/jabref,tfidf,5,211,1119,7018,234,6784


In [3]:
mongoClient = pymongo.MongoClient(config['DATABASE']['CONNECTION_STRING'])
db = mongoClient[config['DATABASE']['NAME']]
table = []
for col in db.list_collections():
  if not col['name'].endswith('_results'):
    continue
  # projeto (feito)
  # modelo (feito)
  # numeroDeIssuesDaRecomendacao (feito)
  # numeroDeIssuesTestas (feito)
  # nTestes(qnts arquivos corrigidos de verdade) (feito)
  # nRecomendacaoDadas(nTotalDeArquivos)
  # totalAcertos
  # totalErros
  repo = col['name'].replace('_results', '')
  if repo == 'microsoft/vscode':
    continue
  
  linhas = [
    gerarLinha(repo, 'sbert', 3),
    gerarLinha(repo, 'sbert', 5),
    gerarLinha(repo, 'tfidf', 3),
    gerarLinha(repo, 'tfidf', 5),
    gerarLinha(repo, 'word2vec', 3),
    gerarLinha(repo, 'word2vec', 5),
  ]

  pos = {
    'sbert': 0,
    'tfidf': 2,
    'word2vec': 4
  }
  
  results = db[col['name']].find({'compare': 'title + body', 'filtros.goodFirstIssue': 1})
  for result in results:
    tecnica = result['tecnica']
    posicao = pos[tecnica] + 1 if result['topk'] == 5 else pos[tecnica]
    
    linhas[posicao]['numeroDeIssuesTestas'] += 1
    linhas[posicao]['nTestes'] += len(result['arquivos_resolvidos_de_verdade'])
    linhas[posicao]['nRecomendacaoDadas'] += len(result['arquivos_sugeridos'])
    linhas[posicao]['totalAcertos'] += result['acertos']
    linhas[posicao]['totalErros'] += result['erros']
  
  table.extend(linhas)
  
table = pd.DataFrame(table)
table
  

Unnamed: 0,projeto,modelo,numeroDeIssuesDaRecomendacao,numeroDeIssuesTestas,nTestes,nRecomendacaoDadas,totalAcertos,totalErros
0,facebook/react,sbert,3,9,32,86,4,82
1,facebook/react,sbert,5,9,32,118,8,110
2,facebook/react,tfidf,3,9,32,79,3,76
3,facebook/react,tfidf,5,9,32,130,3,127
4,facebook/react,word2vec,3,8,31,46,0,46
5,facebook/react,word2vec,5,9,32,118,0,118
6,jabref/jabref,sbert,3,211,1119,4090,193,3897
7,jabref/jabref,sbert,5,211,1119,6269,238,6031
8,jabref/jabref,tfidf,3,211,1119,4175,166,4009
9,jabref/jabref,tfidf,5,211,1119,6733,210,6523
