In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
def read_tsvs(*files):
    '''
    Receive a list of tsv files and joins then in a single pandas Dataframe.
    
    Args:
        files -> list of tsv files
    Returns:
        pandas Dataframe
    '''
    
    # new name of the columns
    cols = [
        'bib_key',
        'title',
        'year',
        'url',
        'discarted', 
        'avaliation_method', 
        'is_app_available',
        'apps_used',
        'app_category', 
        'used_testbed',
        'devices_used',
        'arch_type',
        'metrics'
    ]
    
    df_list = []
    for f in files:
        # reads the dataframe renaming the cols and loads the values
        # starting from col 'discarted'
        df = pd.read_csv(f, sep='\t', header=0, names=cols, usecols=cols[4:], lineterminator='\n')
        print('loaded file: ', f)
        
        df_list.append(df)
    
    # joina all df in onw
    df = pd.concat(df_list, axis=0)
    # remove rows where the value of 'discarted' col is NaN
    df = df.dropna(subset=['discarted']).reset_index(drop=True)
    
    return df

In [3]:
df = read_tsvs('p_01.tsv','p_02.tsv','p_03.tsv','p_04.tsv', 'p_05.tsv', 'p_06.tsv')

loaded file:  p_01.tsv
loaded file:  p_02.tsv
loaded file:  p_03.tsv
loaded file:  p_04.tsv
loaded file:  p_05.tsv
loaded file:  p_06.tsv


In [4]:
df.discarted = df.discarted.str.lower().str.replace('(\(|\,|\.|-|\*).*', '').str.strip().str.replace('(\ ).*', '')
df.discarted.value_counts()

sim         440
não         383
ver           2
?????         1
conteúdo      1
Name: discarted, dtype: int64

In [5]:
df.avaliation_method.str.lower().value_counts()

simulação                             119
-                                      65
aferição                               65
modelagem analítica                     9
aferiação                               9
modelos analíticos                      6
simulação e aferição                    6
simulação/aferição                      3
aferição/simulação                      1
simulação (mas não tá muito claro)      1
simulação (fogtorchpi)                  1
simulação?                              1
experimentação                          1
Name: avaliation_method, dtype: int64

In [6]:
df.is_app_available.str.lower().value_counts()

não                                                                        178
-                                                                           73
sim, open source. disponível no github.                                      6
sim. http://openbiometrics.org/ e https://developer.cisco.com/site/iox/      1
images processing                                                            1
sim!  https://github.com/rmtheis/android-ocr                                 1
sim (https://www.netlab.tkk.fi/tutkimus/dtn/theone/)                         1
não apresenta o link                                                         1
sim (https://www.cloudaware.com/)                                            1
sim (http://pros.unicam.it/mobica/)                                          1
sim (google play, apple store)                                               1
images processing face/eye detection                                         1
Name: is_app_available, dtype: int64

In [7]:
df.apps_used.str.lower().value_counts()

-                                                                                                                                                                                                                          80
não detalha                                                                                                                                                                                                                61
matlab                                                                                                                                                                                                                      8
benchimage                                                                                                                                                                                                                  6
nqueens, facedetection. não.                                                                                    

In [8]:
df.app_category.str.lower().str.strip().value_counts()

-                                                          85
não detalha                                                51
math                                                       43
imagetools                                                 30
streaming                                                  13
math, imagetools                                            7
sem detalhes                                                2
imagetools e streaming                                      1
imagetools e math                                           1
imagetools, math                                            1
image tools, math, game                                     1
imagetools/casual (?)                                       1
ar, math                                                    1
math, game, utility                                         1
nenhuma específica                                          1
realidade aumentada                                         1
math, ga

In [9]:
df.used_testbed.str.lower().str.strip().str.rstrip(',.').str.replace('.', ',').value_counts()

não                   130
-                      66
sim, real              23
não detalha            15
sim, virtual            5
equipamentos reais      2
não especifica          2
não informado           1
sim (planetlab)         1
não detlha              1
virtual                 1
Name: used_testbed, dtype: int64

In [10]:
# df[['used_testbed', 'devices_used']].dropna()

In [11]:
df.devices_used.str.lower().value_counts()

-                                                                                                                            68
não detalha                                                                                                                  47
2 computadores 2 smartphones em um teste e 20 smartphones em umm segundo teste                                                6
1 dispositivo móvel e 1 notebook, ambos reais                                                                                 6
100 (simulados, não detalha)                                                                                                  4
                                                                                                                             ..
6 base stations                                                                                                               1
1 smartphone, 1 server                                                                                  

In [12]:
df.arch_type.str.lower().value_counts()

-                                                                                                                       65
mec                                                                                                                     54
edge                                                                                                                    24
híbrido                                                                                                                 22
mcc                                                                                                                     17
single cloudlet                                                                                                         12
nuvem                                                                                                                    9
cloud                                                                                                                    9
cloudlet        

In [13]:
df.metrics.str.lower().str.strip().value_counts()

                                         566
-                                         65
energia                                   45
tempo                                     23
tempo e energia                           11
                                        ... 
latência                                   1
custo do sistema                           1
average utility, energia, total delay      1
não detalha                                1
total energy consumption                   1
Name: metrics, Length: 87, dtype: int64