## **Preparação de ambiente**

In [1]:
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from matplotlib.colors import LinearSegmentedColormap
from PIL import Image
from wordcloud import WordCloud, ImageColorGenerator

## **Funções auxiliares**

In [2]:
def tabula(atributo,total):
    tabela = atributo.value_counts()
    tabela_frequencia = pd.DataFrame({tabela.index.name: tabela.index})
    tabela_frequencia['F.A.'] = list(tabela)
    tabela_frequencia['F.R.'] = np.nan
    for registro in tabela_frequencia['F.R.']:
        tabela_frequencia['F.R.'] = (tabela_frequencia['F.A.']/total).round(3)
    return tabela_frequencia
    
def consolida_vies(geral, positivos, negativos, coluna, linha):
    #consolidado = geral
    consolidado = geral.copy()
    consolidado.rename(columns={'F.A.': 'Frequência absoluta (ni)', 'F.R.': 'Frequência relativa (fi)'}, inplace = True)
    positivos.rename(columns = {'F.A.': 'Positivos (ni)', 'F.R.': 'Positivos (fi)'}, inplace = True)
    negativos.rename(columns = {'F.A.': 'Negativos (ni)', 'F.R.': 'Negativos (fi)'}, inplace = True)
    consolidado = pd.merge(consolidado, positivos, on = coluna, how = 'left') 
    consolidado = pd.merge(consolidado, negativos, on = coluna, how = 'left')     
    valores = consolidado.iloc[:, 1:]
    totais = valores.sum(axis = 0)
    consolidado.loc[linha, coluna] = ('Total')
    consolidado.iloc[linha, 1:] = totais
    colunas_frequencia_absoluta = ['Frequência absoluta (ni)', 'Positivos (ni)', 'Negativos (ni)']
    for coluna in colunas_frequencia_absoluta:
        consolidado[coluna] = consolidado[coluna].fillna(0) # substitui NaN por 0
        consolidado[coluna] = consolidado[coluna].replace([np.inf, -np.inf], 0)  # substitui infinitos por 0
        consolidado[coluna] = consolidado[coluna].astype(int) # converte para inteiros
    consolidado = consolidado.fillna(0) # substitui NaN por 0   
    return consolidado
    
def cria_tabela_consolidada(df_geral, total_geral, df_positivo, df_negativo, coluna, linha):
    total_positivos = len(df_positivo.index)
    total_negativos = len(df_negativo.index)
    frequencia_geral = tabula(df_geral[coluna], total_geral)
    frequencia_positivos = tabula(df_positivo[coluna], total_positivos)
    frequencia_negativos = tabula(df_negativo[coluna], total_negativos)
    tabela_consolidada = consolida_vies(frequencia_geral,frequencia_positivos,frequencia_negativos, coluna, linha)
    return tabela_consolidada

def conta_registros(categoria):
  return categoria.sum()

def tabula_categorias(categorias, lista_frequencia, total):
    tabela_frequencia = pd.DataFrame({'Categoria': list(categorias)})
    tabela_frequencia['F.A.'] = lista_frequencia
    tabela_frequencia['F.R.'] = np.nan
    for registro in tabela_frequencia['F.R.']:
        tabela_frequencia['F.R.'] = (tabela_frequencia['F.A.']/total).round(3)
    return tabela_frequencia

def tabula_colunas(df_interesse, linhas, colunas, total):
    subconjunto = df_interesse.iloc[linhas, colunas].copy()
    frequencias = []
    for atributo in subconjunto:
        frequencias.append(conta_registros(subconjunto[atributo]))
    tabela_frequencias = tabula_categorias(subconjunto, frequencias, total)
    return tabela_frequencias
    
def agrupa_frequencias(subcategorias, tabela_frequencia, absoluta):
    fa_categoria = 0  
    for registro in subcategorias:
        fa_categoria +=  tabela_frequencia.at[registro, absoluta]        
    return fa_categoria

def tabula_macrocategorias(macrocategorias, absoluta, relativa):    
    agrupamento_itens = [4,5] # subcategorias da categoria "1.2. Agrupamento/Distinção de Itens"
    macrocategorias.at[3, absoluta] = agrupa_frequencias(agrupamento_itens, macrocategorias, absoluta)
    conducao = [2,3,6,7] # subcategorias da categoria "1. Condução"
    macrocategorias.at[1, absoluta] = agrupa_frequencias(conducao, macrocategorias, absoluta)
    brevidade = [10,11] # subcategorias da categoria "2.1. Brevidade"
    macrocategorias.at[9, absoluta] = agrupa_frequencias(brevidade, macrocategorias, absoluta)
    carga = [9,12] # subcategorias da categoria "2. Carga de Trabalho"
    macrocategorias.at[8, absoluta] = agrupa_frequencias(carga, macrocategorias, absoluta)
    controle = [14,15] # subcategorias da categoria "3. Controle Explícito"
    macrocategorias.at[13, absoluta] = agrupa_frequencias(controle, macrocategorias, absoluta)
    adaptabilidade = [17,18] # subcategorias da categoria "4. Adaptabilidade"
    macrocategorias.at[16, absoluta] = agrupa_frequencias(adaptabilidade, macrocategorias, absoluta)
    erros = [20,21,22] # subcategorias da categoria "5. Gestão de Erros"
    macrocategorias.at[19, absoluta] = agrupa_frequencias(erros, macrocategorias, absoluta)
    criterios_ergonomicos_usabilidade = [1,8,13,16,19,23,24,25] # macrocategorias dos "Critérios Ergonômicos de Usabilidade"
    macrocategorias.at[0, absoluta] = agrupa_frequencias(criterios_ergonomicos_usabilidade, macrocategorias, absoluta)
    qualidade_pragmatica = [28,29,30,31,32,33,34] # subcategorias da categoria "1. Qualidade Pragmática"
    macrocategorias.at[27, absoluta] = agrupa_frequencias(qualidade_pragmatica, macrocategorias, absoluta)
    identificacao = [37,38,39,40,41,42,43] # subcategorias da categoria "2.1. Identificação"
    macrocategorias.at[36, absoluta] = agrupa_frequencias(identificacao, macrocategorias, absoluta)
    estimulacao = [45,46,47,48,49,50,51] # subcategorias da categoria "2.2. Estimulação"
    macrocategorias.at[44, absoluta] = agrupa_frequencias(estimulacao, macrocategorias, absoluta)
    qualidade_hedonica = [36,44] # subcategorias da categoria "2. Qualidade Hedônica"
    macrocategorias.at[35, absoluta] = agrupa_frequencias(qualidade_hedonica, macrocategorias, absoluta)
    construtos_avaliativos = [53,54] # subcategorias da categoria "3. Construtos Avaliativos"
    macrocategorias.at[52, absoluta] = agrupa_frequencias(construtos_avaliativos, macrocategorias, absoluta)
    dimensoes_ux = [27,35,52] # macrocategorias das "Dimensões principais da user experience (UX)
    macrocategorias.at[26, absoluta] = agrupa_frequencias(dimensoes_ux, macrocategorias, absoluta)
    principios_ihd = [56,57,58] # macrocategorias dos "Princípios básicos da Interação Humano-Dados (IHD)"
    macrocategorias.at[55, absoluta] = agrupa_frequencias(principios_ihd, macrocategorias, absoluta)
    # totaliza as questões/problemas identificados a partir dos excertos/registos extraidos do teste de usabilidade
    metodos = [0,26,55]
    total_problemas = agrupa_frequencias(metodos, macrocategorias, absoluta)
    for registro in macrocategorias:
        macrocategorias[relativa] =  (macrocategorias[absoluta]/total_problemas).round(3)
    return total_problemas

def tabula_questoes(frequencia_geral, frequencia_positivos, frequencia_negativos, absoluta, relativa, coluna, linha_total):

    macrocategorias = frequencia_geral
    total_problemas = tabula_macrocategorias(macrocategorias, absoluta, relativa,)
    macrocategorias_positivos = frequencia_positivos
    total_problemas_positivos = tabula_macrocategorias(macrocategorias_positivos, absoluta, relativa,)
    macrocategorias_negativos = frequencia_negativos
    total_problemas_negativos = tabula_macrocategorias(macrocategorias_negativos, absoluta, relativa,)
    consolidado = consolida_vies(macrocategorias, macrocategorias_positivos, macrocategorias_negativos, coluna, linha_total)
    
    # corrige a totalização levando em consideração a hierarquia de categorias
    valores = [total_problemas, 1.0, total_problemas_positivos, 1.0, total_problemas_negativos, 1.0]
    consolidado.iloc[59, 1:] = valores
    return consolidado

def extratifica_tabela(tabela, indices, nome_coluna):
    consolidado_extratificado = pd.DataFrame()  
    consolidado_extratificado = tabela.loc[tabela.index.isin(indices)].copy()
    consolidado_extratificado.rename(columns={'Categoria': nome_coluna}, inplace = True)
    return consolidado_extratificado

def cria_esqueleto_arvore():
    colunas_arvore = ['Macrocategoria', 'ni', 'fi', 'Ni', 'Fi', 'Categoria','C (ni)', 'C (fi)', 'C (Ni)', 'C (Fi)', 'Subcategoria', 'S (ni)',
                      'S (fi)', 'S (Ni)', 'S (Fi)', 'Subtipo', 'Sb (ni)', 'Sb (fi)']
    arvore_indices = range(44)
    arvore_categorias = pd.DataFrame(columns = colunas_arvore, index = arvore_indices)
    arvore_categorias.loc[0:17,'Macrocategoria'] = ('Critérios Ergonômicos de Usabilidade')
    arvore_categorias.loc[0:4,'Categoria'] = ('1. Condução')
    arvore_categorias.loc[0, 'Subcategoria'] = ('1.1. Presteza')
    arvore_categorias.loc[1:2,'Subcategoria'] = ('1.2. Agrupamento/Distinção de Itens')
    arvore_categorias.loc[1,'Subtipo'] = ('1.2.1 Agrupamento de Itens - Localização')
    arvore_categorias.loc[2,'Subtipo'] = ('1.2.2 Agrupamento de Itens - Formato')
    arvore_categorias.loc[3,'Subcategoria'] = ('1.3. Feedback Imediato')
    arvore_categorias.loc[4,'Subcategoria'] = ('1.4. Legibilidade')
    arvore_categorias.loc[5:7,'Categoria'] = ('2. Carga de Trabalho')
    arvore_categorias.loc[5:6,'Subcategoria'] =('2.1. Brevidade')
    arvore_categorias.loc[5,'Subtipo'] =('2.1.1 Brevidade - Concisão')
    arvore_categorias.loc[6,'Subtipo'] =('2.1.1 Brevidade - Ações Mínimas')
    arvore_categorias.loc[7,'Subcategoria'] =('2.2. Densidade Informacional')
    arvore_categorias.loc[8:9,'Categoria'] = ('3. Controle Explícito')
    arvore_categorias.loc[8,'Subcategoria'] =('3.1. Ações Explícitas')
    arvore_categorias.loc[9,'Subcategoria'] =('3.2. Controle do Usuário')
    arvore_categorias.loc[10:11,'Categoria'] = ('4. Adaptabilidade')
    arvore_categorias.loc[10,'Subcategoria'] =('4.1. Flexibilidade')
    arvore_categorias.loc[11,'Subcategoria'] =('4.2. Experiência do Usuário')
    arvore_categorias.loc[12:14,'Categoria'] = ('5. Gestão de Erros')
    arvore_categorias.loc[12,'Subcategoria'] =('5.1. Proteção contra Erros')
    arvore_categorias.loc[13,'Subcategoria'] =('5.2. Qualidade das Mensagens de Erros')
    arvore_categorias.loc[14,'Subcategoria'] =('5.3. Correção Erros')
    arvore_categorias.loc[15,'Categoria'] = ('6. Coerência/Consistência (Homogeneidade)')
    arvore_categorias.loc[16,'Categoria'] = ('7. Significado dos Códigos e Denominações')
    arvore_categorias.loc[17,'Categoria'] = ('8. Compatibilidade')
    arvore_categorias.loc[18:41,'Macrocategoria'] = ('Dimensões principais da user experience (UX)')
    arvore_categorias.loc[18:24,'Categoria'] =('1. Qualidade pragmática')
    arvore_categorias.loc[18,'Subcategoria'] =('1.1. Humanidade')
    arvore_categorias.loc[19,'Subcategoria'] =('1.2. Simplicidade')
    arvore_categorias.loc[20,'Subcategoria'] =('1.3. Praticidade')
    arvore_categorias.loc[21,'Subcategoria'] =('1.4. Objetividade')
    arvore_categorias.loc[22,'Subcategoria'] =('1.5. Previsibilidade')
    arvore_categorias.loc[23,'Subcategoria'] =('1.6. Clareza')
    arvore_categorias.loc[24,'Subcategoria'] =('1.7. Controle')
    arvore_categorias.loc[25:38,'Categoria'] =('2. Qualidade hedônica')
    arvore_categorias.loc[25:31,'Subcategoria'] =('2.1. Identificação')
    arvore_categorias.loc[25,'Subtipo'] = ('2.1.1 Integração')
    arvore_categorias.loc[26,'Subtipo'] = ('2.1.2 Profissionalismo')
    arvore_categorias.loc[27,'Subtipo'] = ('2.1.3 Classe')
    arvore_categorias.loc[28,'Subtipo'] = ('2.1.4 Valor')
    arvore_categorias.loc[29,'Subtipo'] = ('2.1.5 Inclusão')
    arvore_categorias.loc[30,'Subtipo'] = ('2.1.6 Socialização')
    arvore_categorias.loc[31,'Subtipo'] = ('2.1.7 Apresentação')
    arvore_categorias.loc[32:38,'Subcategoria'] =('2.2 Estimulação')
    arvore_categorias.loc[32,'Subtipo'] = ('2.2.1 Originalidade')
    arvore_categorias.loc[33,'Subtipo'] = ('2.2.2 Criatividade')
    arvore_categorias.loc[34,'Subtipo'] = ('2.2.3 Coragem')
    arvore_categorias.loc[35,'Subtipo'] = ('2.2.4 Inovação')
    arvore_categorias.loc[36,'Subtipo'] = ('2.2.5 Excitação')
    arvore_categorias.loc[37,'Subtipo'] = ('2.2.6 Desafio')
    arvore_categorias.loc[38,'Subtipo'] = ('2.2.7 Novidade')
    arvore_categorias.loc[39:40,'Categoria'] =('3. Construtos avaliativos')
    arvore_categorias.loc[39,'Subcategoria'] =('3.1. Beleza')
    arvore_categorias.loc[40,'Subcategoria'] =('3.2. Goodness')
    arvore_categorias.loc[41:43,'Macrocategoria'] = ('Princípios básicos da Interação Humano-Dados (IHD)')
    arvore_categorias.loc[41,'Categoria'] =('1. Agência')
    arvore_categorias.loc[42,'Categoria'] =('2. Legibilidade')
    arvore_categorias.loc[43,'Categoria'] =('3. Negociabilidade')
    arvore_categorias.loc[44,'Macrocategoria'] = ('Total')
    arvore_categorias.loc[44,'Categoria'] = ('Subtotal')
    arvore_categorias.loc[44,'Subcategoria'] = ('Subtotal')
    arvore_categorias.loc[44,'Subtipo'] = ('Subtotal')
    colunas_frequencia_relativa = ['fi', 'Fi', 'C (fi)', 'C (Fi)', 'S (fi)', 'S (Fi)', 'Sb (fi)']
    for coluna in colunas_frequencia_relativa:
        arvore_categorias[coluna] = arvore_categorias[coluna].astype(float)
    return arvore_categorias

def aplica_mapeamento(mapeamento, coluna_destino, arvore, df_original, coluna_origem):
    for destino, origem in mapeamento.items():
        arvore.loc[destino, coluna_destino] = df_original.loc[origem, coluna_origem]
    return

def popula_frequencias_absolutas(arvore_categorias, df_original, coluna_origem):    
    # dicionário que mapeia índices de destino de subtipos em 'arvore' aos índices de origem em 'consolidado_macrocategorias'
    mapeamento_subtipos = {1: 4, 2: 5,
                           5: 10, 6: 11,
                           25: 37, 26: 38, 27: 39, 28: 40, 29: 41, 30: 42, 31: 43,
                           32: 45, 33: 46, 34: 47, 35: 48, 36: 49, 37: 50, 38: 51
                          }    
    # dicionário que mapeia índices de destino de subcategorias sem subtipos em 'arvore' aos índices de origem em 'consolidado_macrocategorias'
    mapeamento_subcategorias = {0: 2,
                                3: 6, 4: 7,
                                7: 12, 8: 14, 9: 15, 10: 17, 11: 18, 12: 20, 13: 21, 14: 22,
                                18: 28, 19: 29, 20: 30, 21: 31, 22: 32, 23: 33, 24: 34,
                                39: 53, 40: 54
                               }    
    # dicionário que mapeia índices de destino de categorias sem subcategorias em 'arvore' aos índices de origem em 'consolidado_macrocategorias'
    mapeamento_categorias = {15: 23, 16: 24, 17: 25,
                             41: 56, 42: 57, 43: 58
                            }
    # popula as colunas de frequência absoluta da árvore a partir dos mapeamentos
    aplica_mapeamento(mapeamento_subtipos, 'Sb (ni)', arvore_categorias, df_original, coluna_origem)
    aplica_mapeamento(mapeamento_subcategorias, 'S (ni)', arvore_categorias, df_original, coluna_origem)
    aplica_mapeamento(mapeamento_categorias, 'C (ni)', arvore_categorias, df_original, coluna_origem)
    return

def trata_nulos(arvore_categorias): 
    # lista de colunas nas quais o nulo será substituído por zero
    colunas_numericas = ['Sb (ni)', 'Sb (fi)', 'S (ni)', 'S (fi)', 'S (Ni)', 'S (Fi)', 'C (ni)', 'C (fi)', 'C (Ni)', 'C (Fi)',
                         'ni', 'fi', 'Ni', 'Fi']
    # trata nulos susbstindo NaN por zero
    arvore_categorias[colunas_numericas] = arvore_categorias[colunas_numericas].fillna(0)
    return
    
def replica_valores(linha):
    if linha['Sb (ni)'] != 0:
        linha['ni'] = linha['Sb (ni)']
        linha['C (ni)'] = linha['Sb (ni)']
        linha['S (ni)'] = linha['Sb (ni)']
    elif linha['S (ni)'] != 0:
        linha['C (ni)'] = linha['S (ni)']
        linha['ni'] = linha['S (ni)']
    else:
        linha['ni'] = linha['C (ni)']
    return linha

def calcula_totais(arvore_categorias):
    colunas_ni = ['ni', 'C (ni)', 'S (ni)', 'Sb (ni)']
    soma = 0
    for coluna in colunas_ni:
        soma = arvore_categorias[coluna].sum()
        arvore_categorias.loc[44, coluna] = soma
    return
    
def calcula_frequencias_relativas(arvore_categorias):
    for registro in arvore_categorias:
        arvore_categorias['fi'] = (arvore_categorias['ni']/arvore_categorias.loc[44,'ni']).round(3)
        arvore_categorias['C (fi)'] = (arvore_categorias['C (ni)']/arvore_categorias.loc[44,'C (ni)']).round(3)
        arvore_categorias['S (fi)'] = (arvore_categorias['S (ni)']/arvore_categorias.loc[44,'S (ni)']).round(3)
        arvore_categorias['Sb (fi)'] = (arvore_categorias['Sb (ni)']/arvore_categorias.loc[44,'Sb (ni)']).round(2)    
    return

def soma_frequencias_niveis(arvore_categorias, indices_finais, Ni, Fi):
    soma_ni = 0
    soma_fi = 0
    for indice in indices_finais:
        soma_ni += arvore_categorias.loc[indice, Ni]
        soma_fi += arvore_categorias.loc[indice, Fi]
    arvore_categorias.loc[44, Ni] = soma_ni
    arvore_categorias.loc[44, Fi] = soma_fi
    return
    
def calcula_frequencias_acumuladas(arvore_categorias):
    # indica índices iniciais das subcategorias, categorias e macrocategorias 
    iniciais_subcategorias = [0,1,3,4,5,7,8,9,10,11,12,13,14,18,19,20,21,22,23,24,25,32,39,40]
    iniciais_categorias = [0,5,8,10,12,15,16,17,18,25,39,41,42,43]
    iniciais_macrocategorias = [0,18,41]
    # popula valores iniciais de frequência acumulada (Ni) e frequência relativa acumulada (Fi)
    for indice in iniciais_subcategorias:
        arvore_categorias.loc[indice,'S (Ni)'] = arvore_categorias.loc[indice,'S (ni)']
        arvore_categorias.loc[indice,'S (Fi)'] = arvore_categorias.loc[indice,'S (fi)']  
    for indice in iniciais_categorias:
        arvore_categorias.loc[indice,'C (Ni)'] = arvore_categorias.loc[indice,'C (ni)']
        arvore_categorias.loc[indice,'C (Fi)'] = arvore_categorias.loc[indice,'C (fi)']        
    for indice in iniciais_macrocategorias:
        arvore_categorias.loc[indice,'Ni'] = arvore_categorias.loc[indice,'ni']
        arvore_categorias.loc[indice,'Fi'] = arvore_categorias.loc[indice,'fi']
    # dicionário com os intervalos para cada subcategoria
    intervalos_subcategorias = {1: [2],
                                2: [6],
                                3: list(range(26, 32)),
                                4: list(range(33, 39)),
                               }
    # dicionário com os intervalos para cada categoria
    intervalos_categorias = {1: list(range(1,5)),
                             2: list(range(6,8)),
                             3: [9],
                             4: [11],
                             5: list(range(13,15)),
                             6: list(range(19,25)),
                             7: list(range(26,39)),
                             8: [40]
                            }
    # dicionário com os intervalos para cada macrocategoria
    intervalos_macrocategorias = {1: list(range(1,18)),
                                  2: list(range(19,41)),
                                  3: list(range(42,44))
                                 }
    #  popula demais valores de frequência acumulada (Ni) e frequência relativa acumulada (Fi) considerando os níveis hierárquicos
    for subcategoria, intervalo in intervalos_subcategorias.items():
        for indice in intervalo:
            arvore_categorias.loc[indice, 'S (Ni)'] = arvore_categorias.loc[indice, 'S (ni)'] + arvore_categorias.loc[indice - 1, 'S (Ni)']
            arvore_categorias.loc[indice, 'S (Fi)'] = arvore_categorias.loc[indice, 'S (fi)'] + arvore_categorias.loc[indice - 1, 'S (Fi)']
    for categoria, intervalo in intervalos_categorias.items():
        for indice in intervalo:
            arvore_categorias.loc[indice, 'C (Ni)'] = arvore_categorias.loc[indice, 'C (ni)'] + arvore_categorias.loc[indice - 1, 'C (Ni)']
            arvore_categorias.loc[indice, 'C (Fi)'] = arvore_categorias.loc[indice, 'C (fi)'] + arvore_categorias.loc[indice - 1, 'C (Fi)']
    for macrocategoria, intervalo in intervalos_macrocategorias.items():
        for indice in intervalo:
            arvore_categorias.loc[indice, 'Ni'] = arvore_categorias.loc[indice, 'ni'] + arvore_categorias.loc[indice - 1, 'Ni']
            arvore_categorias.loc[indice, 'Fi'] = arvore_categorias.loc[indice, 'fi'] + arvore_categorias.loc[indice - 1, 'Fi']
    # indica índices finais das subcategorias, categorias e macrocategorias 
    finais_subcategorias = [0,2,3,4,6,7,8,9,10,11,12,13,14,18,19,20,21,22,23,24,31,38,39,40]
    finais_categorias = [4,7,9,11,14,15,16,17,24,38,40,41,42,43]
    finais_macrocategorias = [17,40,43]
    # calcula totais considerando os níveis hierárquicos
    soma_frequencias_niveis(arvore_categorias, finais_subcategorias, 'S (Ni)', 'S (Fi)')
    soma_frequencias_niveis(arvore_categorias, finais_categorias, 'C (Ni)', 'C (Fi)')
    soma_frequencias_niveis(arvore_categorias, finais_macrocategorias, 'Ni', 'Fi')        
    return

def cria_arvore(consolidado_macrocategorias, ni):  
    arvore = cria_esqueleto_arvore()
    # preenche frequências absolutas iniciais (nos nós folhas) da árvore
    popula_frequencias_absolutas(arvore, consolidado_macrocategorias, ni)
    # trata valores nulos
    trata_nulos(arvore)
    # replica valores de frequência para níveis superiores da árvore
    arvore = arvore.apply(replica_valores, axis = 1)
    # calcula total e subtotais das frequências absolutas
    calcula_totais(arvore)
    # calcula frequências relativas (fi) em relação ao nível categórico
    calcula_frequencias_relativas(arvore)
    # calcula frequências acumuladas absolutas (Ni) e relativas (Fi) considerando níveis categóricos
    calcula_frequencias_acumuladas(arvore)
    return arvore
    
def cria_nuvem(texto, lista_stopwords, mascara, cores):
    # define o gradiente de cores da nuvem de palavras
    gradiente = LinearSegmentedColormap.from_list("mycmap", cores)
    # inicializa a nuvem de palavras
    nuvem = WordCloud(stopwords = lista_stopwords,
                      mask = mascara, # imagem utilizada
                      background_color = 'white', # cor de fundo
                      width = 1500, # largura
                      height = 750, # altura
                      contour_width = 1, # espessura do contorno
                      contour_color = 'purple', # cor do contorno
                      colormap = gradiente
                     )
    # gera a nuvem de palavras a partir do texto
    nuvem.generate(texto)
    # cria visualização
    plt.figure(figsize = (20, 15), facecolor = 'k') # tamanho do gráfico
    plt.imshow(nuvem, interpolation = 'bilinear') # plotagem da nuvem de palavras
    plt.axis('off') # remove as bordas
    plt.show() # mostra a nuvem de palavras
    return

## **Leitura e preparação dos dados**

In [3]:
paineis_covid = pd.read_excel("/home/marisa/Documentos/acadêmico/UFPR/TCC/usabilidade_ux_paineis_covid/dados/experimento_paineis_covid.xlsx", engine = "openpyxl")

### **Criação de subconjuntos de dados**

In [4]:
# cria subconjuntos de registros positivos e negativos
positivos = paineis_covid.query("Viés == 'Positivo'")
negativos = paineis_covid.query("Viés == 'Negativo'")

# cria subconjuntos de registros relacionados ao painel Brasil.io (iniciativa voluntária)
brasil_io = paineis_covid.query("Painel == 'Brasil.io (iniciativa voluntária)'")
brasil_io_positivos = positivos.query("Painel == 'Brasil.io (iniciativa voluntária)'")
brasil_io_negativos = negativos.query("Painel == 'Brasil.io (iniciativa voluntária)'")

# cria subconjuntos de registros relacionados ao painel Coronavírus Brasil (Ministério da Saúde)
coronavirus_brasil = paineis_covid.query("Painel == 'Coronavírus Brasil (Ministério da Saúde)'")
coronavirus_brasil_positivos = positivos.query("Painel == 'Coronavírus Brasil (Ministério da Saúde)'")
coronavirus_brasil_negativos = negativos.query("Painel == 'Coronavírus Brasil (Ministério da Saúde)'")

# cria subconjuntos de registros relacionados ao painel MonitoraCovid-19 (Fiocruz)
monitora_covid = paineis_covid.query("Painel == 'MonitoraCovid-19 (Fiocruz)'")
monitora_covid_positivos = positivos.query("Painel == 'MonitoraCovid-19 (Fiocruz)'")
monitora_covid_negativos = negativos.query("Painel == 'MonitoraCovid-19 (Fiocruz)'")

# cria subconjuntos de registros relacionados ao painel Painel Nacional: Covid-19 (CONASS)
painel_nacional = paineis_covid.query("Painel == 'Painel Nacional: Covid-19 (CONASS)'")
painel_nacional_positivos = positivos.query("Painel == 'Painel Nacional: Covid-19 (CONASS)'")
painel_nacional_negativos = negativos.query("Painel == 'Painel Nacional: Covid-19 (CONASS)'")

## **Tabulação inicial**

### **Tabulação geral por registros analisados**

In [5]:
# registros analisados por viés
total_registros = len(paineis_covid.index)
frequencia_vies = tabula(paineis_covid["Viés"], total_registros)
display(frequencia_vies)

Unnamed: 0,Viés,F.A.,F.R.
0,Negativo,86,0.735
1,Positivo,31,0.265


In [6]:
# registros analisados por usuário e por viés
consolidado_usuarios = cria_tabela_consolidada(paineis_covid, total_registros, positivos, negativos, 'Usuário', 3)
display(consolidado_usuarios)

  consolidado.loc[linha, coluna] = ('Total')


Unnamed: 0,Usuário,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,3.0,57,0.487,17,0.548,40,0.465
1,1.0,33,0.282,7,0.226,26,0.302
2,2.0,27,0.231,7,0.226,20,0.233
3,Total,117,1.0,31,1.0,86,1.0


In [7]:
# registros analisados por painel e por viés
consolidado_paineis = cria_tabela_consolidada(paineis_covid, total_registros, positivos, negativos, 'Painel', 4)
display(consolidado_paineis)

Unnamed: 0,Painel,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,MonitoraCovid-19 (Fiocruz),34,0.291,15,0.484,19,0.221
1,Coronavírus Brasil (Ministério da Saúde),33,0.282,2,0.065,31,0.36
2,Brasil.io (iniciativa voluntária),31,0.265,6,0.194,25,0.291
3,Painel Nacional: Covid-19 (CONASS),19,0.162,8,0.258,11,0.128
4,Total,117,1.0,31,1.001,86,1.0


In [8]:
# registros analisados por fonte e por viés (OBS.: fazer mais uma função que conte apenas uma, duas, três  etc fontes e quais)
linhas_recorte = range(0,117)
colunas_fontes = range(5,8)
frequencia_fontes_registros = tabula_colunas(paineis_covid, linhas_recorte, colunas_fontes, total_registros)
display(frequencia_fontes_registros)

Unnamed: 0,Categoria,F.A.,F.R.
0,Thinking aloud,82,0.701
1,Registro escrito do teste,79,0.675
2,Observação,32,0.274


## **Tabulação categorias**

### **Tabulação geral das categorias por registros analisados**

In [9]:
# índices das categorias por nível hierárquico de classificação
indices_macrocategorias = [0,26,55,59]
indices_categorias = [1,8,13,16,19,23,24,25,27,35,52,56,57,58,59]
indices_subcategorias = [2,3,6,7,9,12,14,15,17,18,20,21,22,28,29,30,31,32,33,34,36,44,53,54]
indices_subtipos = [4,5,10,11,37,38,39,40,41,42,43,45,46,47,48,49,50,51]

In [10]:
# registros analisados por categoria
colunas_categorias = range(8, 67)
frequencia_categorias = tabula_colunas(paineis_covid, linhas_recorte, colunas_categorias, total_registros)
display(frequencia_categorias)

Unnamed: 0,Categoria,F.A.,F.R.
0,Critérios Ergonômicos de Usabilidade,110,0.94
1,1. Condução,27,0.231
2,1.1. Presteza,12,0.103
3,1.2. Agrupamento/Distinção de Itens,2,0.017
4,1.2.1 Agrupamento de Itens - localização,0,0.0
5,1.2.2 Agrupamento de Itens - formato,2,0.017
6,1.3. Feedback Imediato,9,0.077
7,1.4. Legibilidade,4,0.034
8,2. Carga de Trabalho,52,0.444
9,2.1. Brevidade,16,0.137


### **Tabulação geral das categorias por questões encontradas nos registros e categorizadas**

In [29]:
# registros analisados por viés, em dataframes intermediários, para construção da tabulação por questões encontradas
recorte_positivos = range(0,31)
recorte_negativos = range(0,86)
frequencia_categorias_positivos = tabula_colunas(positivos, recorte_positivos, colunas_categorias, total_registros)
frequencia_categorias_negativos = tabula_colunas(negativos, recorte_negativos, colunas_categorias, total_registros)
# tabulação das questões encontradas nos registros e categorizadas
# atenção: um registro pode ter sido categorizado em mais de uma questão e há quatro níveis hierárquicos de categorias
consolidado_macrocategorias = tabula_questoes(frequencia_categorias, frequencia_categorias_positivos, frequencia_categorias_negativos, 'F.A.', 'F.R.', 'Categoria', 59)
display(consolidado_macrocategorias)

Unnamed: 0,Categoria,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,Critérios Ergonômicos de Usabilidade,150,0.357,31,0.261,119,0.395
1,1. Condução,27,0.064,1,0.008,26,0.086
2,1.1. Presteza,12,0.029,1,0.008,11,0.037
3,1.2. Agrupamento/Distinção de Itens,2,0.005,0,0.0,2,0.007
4,1.2.1 Agrupamento de Itens - localização,0,0.0,0,0.0,0,0.0
5,1.2.2 Agrupamento de Itens - formato,2,0.005,0,0.0,2,0.007
6,1.3. Feedback Imediato,9,0.021,0,0.0,9,0.03
7,1.4. Legibilidade,4,0.01,0,0.0,4,0.013
8,2. Carga de Trabalho,52,0.124,16,0.134,36,0.12
9,2.1. Brevidade,16,0.038,3,0.025,13,0.043


In [30]:
# gera tabela resumida apenas com as macrocategorias/ métodos usados na análise
consolidado_metodos = extratifica_tabela(consolidado_macrocategorias, indices_macrocategorias, 'Método/ Macrocategoria')
# gera tabela resumida apenas com as categorias (segundo nível de classificação)
consolidado_categorias = extratifica_tabela(consolidado_macrocategorias, indices_categorias, 'Categoria')
# gera tabela resumida apenas com as subcategorias (terceiro nível de classificação)
consolidado_subcategorias = extratifica_tabela(consolidado_macrocategorias, indices_subcategorias, 'Subcategoria')
# gera tabela resumida apenas com os subtipos (quarto nível de classificação)
consolidado_subtipos = extratifica_tabela(consolidado_macrocategorias, indices_subtipos, 'Subtipo')

# exibe tabelas
display(consolidado_metodos)
display(consolidado_categorias)
display(consolidado_subcategorias)
display(consolidado_subtipos)

Unnamed: 0,Método/ Macrocategoria,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,Critérios Ergonômicos de Usabilidade,150,0.357,31,0.261,119,0.395
26,Dimensões principais da user experience (UX),185,0.44,64,0.538,121,0.402
55,Princípios básicos da Interação Humano-Dados (...,85,0.202,24,0.202,61,0.203
59,Total,420,1.0,119,1.0,301,1.0


Unnamed: 0,Categoria,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
1,1. Condução,27,0.064,1,0.008,26,0.086
8,2. Carga de Trabalho,52,0.124,16,0.134,36,0.12
13,3. Controle Explícito,6,0.014,1,0.008,5,0.017
16,4. Adaptabilidade,30,0.071,8,0.067,22,0.073
19,5. Gestão de Erros,12,0.029,0,0.0,12,0.04
23,6. Coerência/Consistência (Homogeneidade),3,0.007,0,0.0,3,0.01
24,7. Significado dos Códigos e Denominações,7,0.017,0,0.0,7,0.023
25,8. Compatibilidade,13,0.031,5,0.042,8,0.027
27,1. Qualidade pragmática,121,0.288,33,0.277,88,0.292
35,2. Qualidade hedônica,41,0.098,21,0.176,20,0.066


Unnamed: 0,Subcategoria,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
2,1.1. Presteza,12,0.029,1,0.008,11,0.037
3,1.2. Agrupamento/Distinção de Itens,2,0.005,0,0.0,2,0.007
6,1.3. Feedback Imediato,9,0.021,0,0.0,9,0.03
7,1.4. Legibilidade,4,0.01,0,0.0,4,0.013
9,2.1. Brevidade,16,0.038,3,0.025,13,0.043
12,2.2. Densidade Informacional,36,0.086,13,0.109,23,0.076
14,3.1. Ações Explícitas,0,0.0,0,0.0,0,0.0
15,3.2. Controle do Usuário,6,0.014,1,0.008,5,0.017
17,4.1. Flexibilidade,20,0.048,4,0.034,16,0.053
18,4.2. Experiência do Usuário,10,0.024,4,0.034,6,0.02


Unnamed: 0,Subtipo,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
4,1.2.1 Agrupamento de Itens - localização,0,0.0,0,0.0,0,0.0
5,1.2.2 Agrupamento de Itens - formato,2,0.005,0,0.0,2,0.007
10,2.1.1 Brevidade - Concisão,0,0.0,0,0.0,0,0.0
11,2.1.1 Brevidade - Ações Mínimas,16,0.038,3,0.025,13,0.043
37,2.1.1 Integração,1,0.002,1,0.008,0,0.0
38,2.1.2 Profissionalismo,13,0.031,5,0.042,8,0.027
39,2.1.3 Classe,2,0.005,0,0.0,2,0.007
40,2.1.4 Valor,1,0.002,1,0.008,0,0.0
41,2.1.5 Inclusão,0,0.0,0,0.0,0,0.0
42,2.1.6 Socialização,0,0.0,0,0.0,0,0.0


In [None]:
# cria árvore de categorias para facilitar visualização dos dados
arvore_geral = cria_arvore(consolidado_macrocategorias, 'Frequência absoluta (ni)')
display(arvore_geral)

### **Categorias - Brasil.io (iniciativa voluntária)**


#### **Tabulação geral por registros analisados**

In [14]:
# registros analisados por usuário e por viés
total_brasil_io = len(brasil_io.index)
consolidado_usuarios_brasil_io = cria_tabela_consolidada(brasil_io, total_brasil_io, brasil_io_positivos, brasil_io_negativos, 'Usuário', 3)
display(consolidado_usuarios_brasil_io)

  consolidado.loc[linha, coluna] = ('Total')


Unnamed: 0,Usuário,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,3.0,13,0.419,4,0.667,9,0.36
1,1.0,9,0.29,0,0.0,9,0.36
2,2.0,9,0.29,2,0.333,7,0.28
3,Total,31,0.999,6,1.0,25,1.0


In [15]:
# registros analisados por fonte e por viés (OBS.: fazer mais uma função que conte apenas uma, duas, três  etc fontes e quais)
linhas_recorte_brasil_io = range(0,31)
frequencia_fontes_registros_brasil_io = tabula_colunas(brasil_io, linhas_recorte_brasil_io, colunas_fontes, total_brasil_io)
display(frequencia_fontes_registros_brasil_io)

Unnamed: 0,Categoria,F.A.,F.R.
0,Thinking aloud,22,0.71
1,Registro escrito do teste,22,0.71
2,Observação,6,0.194


In [18]:
# registros analisados por categoria
frequencia_categorias_brasil_io = tabula_colunas(brasil_io, linhas_recorte_brasil_io, colunas_categorias, total_brasil_io)
display(frequencia_categorias_brasil_io)

Unnamed: 0,Categoria,F.A.,F.R.
0,Critérios Ergonômicos de Usabilidade,28,0.903
1,1. Condução,4,0.129
2,1.1. Presteza,1,0.032
3,1.2. Agrupamento/Distinção de Itens,0,0.0
4,1.2.1 Agrupamento de Itens - localização,0,0.0
5,1.2.2 Agrupamento de Itens - formato,0,0.0
6,1.3. Feedback Imediato,2,0.065
7,1.4. Legibilidade,1,0.032
8,2. Carga de Trabalho,16,0.516
9,2.1. Brevidade,9,0.29


In [37]:
# registros analisados por viés, em dataframes intermediários, para construção da tabulação por questões encontradas
recorte_positivos_brasil_io = range(0,6)
recorte_negativos_brasil_io = range(0,25)
frequencia_categorias_positivos_brasil_io = tabula_colunas(brasil_io_positivos, recorte_positivos_brasil_io, 
                                                           colunas_categorias, total_brasil_io)
frequencia_categorias_negativos_brasil_io = tabula_colunas(brasil_io_negativos, recorte_negativos_brasil_io, 
                                                           colunas_categorias, total_brasil_io)
# tabulação das questões encontradas nos registros e categorizadas
# atenção: um registro pode ter sido categorizado em mais de uma questão e há quatro níveis hierárquicos de categorias
consolidado_macrocategorias_brasil_io = tabula_questoes(frequencia_categorias_brasil_io, frequencia_categorias_positivos_brasil_io, 
                                                        frequencia_categorias_negativos_brasil_io, 'F.A.', 'F.R.', 'Categoria', 59)
display(consolidado_macrocategorias_brasil_io)

Unnamed: 0,Categoria,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,Critérios Ergonômicos de Usabilidade,39,0.351,6,0.261,33,0.375
1,1. Condução,4,0.036,1,0.043,3,0.034
2,1.1. Presteza,1,0.009,1,0.043,0,0.0
3,1.2. Agrupamento/Distinção de Itens,0,0.0,0,0.0,0,0.0
4,1.2.1 Agrupamento de Itens - localização,0,0.0,0,0.0,0,0.0
5,1.2.2 Agrupamento de Itens - formato,0,0.0,0,0.0,0,0.0
6,1.3. Feedback Imediato,2,0.018,0,0.0,2,0.023
7,1.4. Legibilidade,1,0.009,0,0.0,1,0.011
8,2. Carga de Trabalho,16,0.144,3,0.13,13,0.148
9,2.1. Brevidade,9,0.081,1,0.043,8,0.091


### **Categorias - Coronavírus Brasil (Ministério da Saúde)**

In [19]:
# registros analisados por usuário e por viés
total_coronavirus_brasil = len(coronavirus_brasil.index)
consolidado_usuarios_coronavirus_brasil = cria_tabela_consolidada(coronavirus_brasil, total_coronavirus_brasil, coronavirus_brasil_positivos, coronavirus_brasil_negativos, 'Usuário', 3)
display(consolidado_usuarios_coronavirus_brasil)

  consolidado.loc[linha, coluna] = ('Total')


Unnamed: 0,Usuário,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,3.0,20,0.606,1,0.5,19,0.613
1,2.0,7,0.212,1,0.5,6,0.194
2,1.0,6,0.182,0,0.0,6,0.194
3,Total,33,1.0,2,1.0,31,1.001


In [20]:
# registros analisados por fonte e por viés (OBS.: fazer mais uma função que conte apenas uma, duas, três  etc fontes e quais)
linhas_recorte_coronavirus_brasil = range(0,33)
frequencia_fontes_registros_coronavirus_brasil = tabula_colunas(coronavirus_brasil, linhas_recorte_coronavirus_brasil, colunas_fontes, total_coronavirus_brasil)
display(frequencia_fontes_registros_coronavirus_brasil)

Unnamed: 0,Categoria,F.A.,F.R.
0,Thinking aloud,23,0.697
1,Registro escrito do teste,20,0.606
2,Observação,10,0.303


In [22]:
# registros analisados por categoria
frequencia_categorias_coronavirus_brasil = tabula_colunas(coronavirus_brasil, linhas_recorte_coronavirus_brasil, colunas_categorias, total_coronavirus_brasil)
display(frequencia_categorias_coronavirus_brasil)

Unnamed: 0,Categoria,F.A.,F.R.
0,Critérios Ergonômicos de Usabilidade,32,0.97
1,1. Condução,9,0.273
2,1.1. Presteza,2,0.061
3,1.2. Agrupamento/Distinção de Itens,2,0.061
4,1.2.1 Agrupamento de Itens - localização,0,0.0
5,1.2.2 Agrupamento de Itens - formato,2,0.061
6,1.3. Feedback Imediato,2,0.061
7,1.4. Legibilidade,3,0.091
8,2. Carga de Trabalho,16,0.485
9,2.1. Brevidade,2,0.061


In [36]:
# registros analisados por viés, em dataframes intermediários, para construção da tabulação por questões encontradas
recorte_positivos_coronavirus_brasil = range(0,2)
recorte_negativos_coronavirus_brasil = range(0,31)
frequencia_categorias_positivos_coronavirus_brasil = tabula_colunas(coronavirus_brasil_positivos, 
                                                                    recorte_positivos_coronavirus_brasil, 
                                                                    colunas_categorias, total_coronavirus_brasil)
frequencia_categorias_negativos_coronavirus_brasil = tabula_colunas(coronavirus_brasil_negativos, 
                                                                    recorte_negativos_coronavirus_brasil, 
                                                                    colunas_categorias, total_coronavirus_brasil)
# tabulação das questões encontradas nos registros e categorizadas
# atenção: um registro pode ter sido categorizado em mais de uma questão e há quatro níveis hierárquicos de categorias
consolidado_macrocategorias_coronavirus_brasil = tabula_questoes(frequencia_categorias_coronavirus_brasil, 
                                                                 frequencia_categorias_positivos_coronavirus_brasil, 
                                                                 frequencia_categorias_negativos_coronavirus_brasil, 
                                                                 'F.A.', 'F.R.', 'Categoria', 59)
display(consolidado_macrocategorias_coronavirus_brasil)

Unnamed: 0,Categoria,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,Critérios Ergonômicos de Usabilidade,42,0.368,2,0.286,40,0.374
1,1. Condução,9,0.079,0,0.0,9,0.084
2,1.1. Presteza,2,0.018,0,0.0,2,0.019
3,1.2. Agrupamento/Distinção de Itens,2,0.018,0,0.0,2,0.019
4,1.2.1 Agrupamento de Itens - localização,0,0.0,0,0.0,0,0.0
5,1.2.2 Agrupamento de Itens - formato,2,0.018,0,0.0,2,0.019
6,1.3. Feedback Imediato,2,0.018,0,0.0,2,0.019
7,1.4. Legibilidade,3,0.026,0,0.0,3,0.028
8,2. Carga de Trabalho,16,0.14,2,0.286,14,0.131
9,2.1. Brevidade,2,0.018,0,0.0,2,0.019


### **Categorias - MonitoraCovid-19 (Fiocruz)**

In [23]:
# registros analisados por usuário e por viés
total_monitora_covid = len(monitora_covid.index)
consolidado_usuarios_monitora_covid = cria_tabela_consolidada(monitora_covid, total_monitora_covid, monitora_covid_positivos, monitora_covid_negativos, 'Usuário', 3)
display(consolidado_usuarios_monitora_covid)

  consolidado.loc[linha, coluna] = ('Total')


Unnamed: 0,Usuário,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,3.0,16,0.471,11,0.733,5,0.263
1,1.0,12,0.353,4,0.267,8,0.421
2,2.0,6,0.176,0,0.0,6,0.316
3,Total,34,1.0,15,1.0,19,1.0


In [24]:
# registros analisados por fonte e por viés (OBS.: fazer mais uma função que conte apenas uma, duas, três  etc fontes e quais)
linhas_recorte_monitora_covid = range(0,34)
frequencia_fontes_registros_monitora_covid = tabula_colunas(monitora_covid, linhas_recorte_monitora_covid, colunas_fontes, total_monitora_covid)
display(frequencia_fontes_registros_monitora_covid)

Unnamed: 0,Categoria,F.A.,F.R.
0,Thinking aloud,27,0.794
1,Registro escrito do teste,25,0.735
2,Observação,9,0.265


In [25]:
# registros analisados por categoria
frequencia_categorias_monitora_covid = tabula_colunas(monitora_covid, linhas_recorte_monitora_covid, colunas_categorias, total_monitora_covid)
display(frequencia_categorias_monitora_covid)

Unnamed: 0,Categoria,F.A.,F.R.
0,Critérios Ergonômicos de Usabilidade,31,0.912
1,1. Condução,8,0.235
2,1.1. Presteza,6,0.176
3,1.2. Agrupamento/Distinção de Itens,0,0.0
4,1.2.1 Agrupamento de Itens - localização,0,0.0
5,1.2.2 Agrupamento de Itens - formato,0,0.0
6,1.3. Feedback Imediato,2,0.059
7,1.4. Legibilidade,0,0.0
8,2. Carga de Trabalho,12,0.353
9,2.1. Brevidade,0,0.0


### **Categorias - Painel Nacional: Covid-19 (CONASS)**

In [26]:
# registros analisados por usuário e por viés
total_painel_nacional = len(painel_nacional.index)
consolidado_usuarios_painel_nacional = cria_tabela_consolidada(painel_nacional, total_painel_nacional, painel_nacional_positivos, painel_nacional_negativos, 'Usuário', 3)
display(consolidado_usuarios_painel_nacional)

  consolidado.loc[linha, coluna] = ('Total')


Unnamed: 0,Usuário,Frequência absoluta (ni),Frequência relativa (fi),Positivos (ni),Positivos (fi),Negativos (ni),Negativos (fi)
0,3.0,8,0.421,1,0.125,7,0.636
1,1.0,6,0.316,3,0.375,3,0.273
2,2.0,5,0.263,4,0.5,1,0.091
3,Total,19,1.0,8,1.0,11,1.0


In [27]:
# registros analisados por fonte e por viés (OBS.: fazer mais uma função que conte apenas uma, duas, três  etc fontes e quais)
linhas_recorte_painel_nacional = range(0,19)
frequencia_fontes_registros_painel_nacional = tabula_colunas(painel_nacional, linhas_recorte_painel_nacional, colunas_fontes, total_painel_nacional)
display(frequencia_fontes_registros_painel_nacional)

Unnamed: 0,Categoria,F.A.,F.R.
0,Thinking aloud,10,0.526
1,Registro escrito do teste,12,0.632
2,Observação,7,0.368


In [28]:
# registros analisados por categoria
frequencia_categorias_painel_nacional = tabula_colunas(painel_nacional, linhas_recorte_painel_nacional, colunas_categorias, total_painel_nacional)
display(frequencia_categorias_painel_nacional)

Unnamed: 0,Categoria,F.A.,F.R.
0,Critérios Ergonômicos de Usabilidade,19,1.0
1,1. Condução,6,0.316
2,1.1. Presteza,3,0.158
3,1.2. Agrupamento/Distinção de Itens,0,0.0
4,1.2.1 Agrupamento de Itens - localização,0,0.0
5,1.2.2 Agrupamento de Itens - formato,0,0.0
6,1.3. Feedback Imediato,3,0.158
7,1.4. Legibilidade,0,0.0
8,2. Carga de Trabalho,8,0.421
9,2.1. Brevidade,5,0.263


## **Nuvens de palavras**

**Passos iniciais**

In [None]:
# delimita as palavras dos comentários que devem ser eliminadas da nuvem de palavras
lista_stopwords = ['o','a','os','as','um','uma','uns','umas','de','da','do','das','dos','em','no','na','nos','nas','à','ao',
                   'para','pra','prá','pro','pras','prás','pros','neste','nesta','nestes','nestas','deste','desta','destes',
                   'destas','nesses','nessas','desse','dessa','desses','dessas','nisso','nisto','naquilo','disso','disto',
                   'daquilo','naquele','naquela','naqueles','naquelas','daquele','daquela','daqueles','daquelas','àquele',
                   'àquela','àqueles','àquelas','àquilo','ante','após','até','contra','desde','entre','perante','por','per',
                   'sob','sobre','trás','pelo','pela','pelos','pelas','outro','outra','outros','outras','eu','você','ele',
                   'ela','eles','elas','seu','sua','seus','suas','teu','tua','teus','tuas','dele','dela','deles','delas',
                   'nele','nela','neles','nelas','meu','me','comigo','consigo','contigo','isto','isso','aquilo','este','esta',
                   'estes','estas','esse','essa','esses','essas','aquele','aquela','aqueles','aquelas','todo','toda','todos',
                   'todas','cada','que','muitos','poucos','ser','sendo','é','foi','era','sou','somos','são','era','éramos',
                   'eram','fui','foi','fomos','foram','fora','fôramos','seja','sejamos','sejam','fosse','fôssemos','fossem',
                   'for','formos','forem','serei','será','seremos','serão','seria','seríamos','seriam','estar','está','estão',
                   'tá','tão','estando','estou','estamos','estive','esteve','estivemos','estiveram','estava','estávamos','estavam',
                   'estivera','estivéramos','esteja','estejamos','estejam','estivesse','estivéssemos','estivessem','estiver',
                   'estivermos','estiverem','ir','ía','ia','iria','fui','indo','vir','vai','vou','vindo','ficar','ficou','ficam',
                   'ficando','fiquei','fazer','faz', 'fez','feita', 'feito','e','ou','mas','também','se','nem','ai','aí','aqui',
                   'lá','ali','já','não','mais','menos','muito','pouco','assim','bem','mal','bastante','só','somente',
                   'onde','como', 'quando','quem','tudo','nada','com','sem', 'ID1','obs','.','duas','mil','painel','dados',
                   'primeiro', 'primeiros', 'primeira', 'primeiras', 'depois', 'qual', 'quais', 'qualquer', 'quaisquer'
                   #'dado','painéis','página','informação','informações','site','município','municípios','estado','estados','PR','letalidade',
                   ]


# fazer uma visão com 'dados' e 'painel' e as demais sem

# abre uma imagem e a transforma em um array do numpy
mascara_covid = np.array(Image.open('/home/marisa/Documentos/acadêmico/UFPR/TCC/usabilidade_ux_paineis_covid/imagens/covid_4.png'))

**Nuvens completas**

- Geral - todos os comentários de todos os painéis:

In [None]:
# define quais serão os textos analisados para formar a nuvem de palavras
comentarios = ' '.join(paineis_covid["Comentário"].tolist())

# define o gradiente de cores da nuvem de palavras
cores = ["#BF0A30", "#002868"]

# gera e exibe a visualização da nuvem de palavras
cria_nuvem(comentarios,lista_stopwords,mascara_covid,cores)

- Brasil.io (iniciativa voluntária) - todos os comentários referentes ao painel:

In [None]:
comentarios_brasil_io = ' '.join(brasil_io["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_brasil_io,lista_stopwords,mascara_covid,cores)

- Coronavírus Brasil (Ministério da Saúde) - todos os comentários referentes ao painel:

In [None]:
comentarios_coronavirus_brasil = ' '.join(coronavirus_brasil["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_coronavirus_brasil,lista_stopwords,mascara_covid,cores)

- MonitoraCovid-19 (Fiocruz) - todos os comentários referentes ao painel:

In [None]:
comentarios_monitora_covid = ' '.join(monitora_covid["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_monitora_covid,lista_stopwords,mascara_covid,cores)

- Painel Nacional: Covid-19 (CONASS) - todos os comentários referentes ao painel:

In [None]:
comentarios_painel_nacional = ' '.join(painel_nacional["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_painel_nacional,lista_stopwords,mascara_covid,cores)

**Nuvens registros positivos**

- Geral - comentários positivos de todos os painéis:

In [None]:
comentarios_positivos = ' '.join(positivos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_positivos,lista_stopwords,mascara_covid,cores)

- Brasil.io (iniciativa voluntária) - comentários positivos referentes ao painel:

In [None]:
comentarios_positivos_brasil_io = ' '.join(brasil_io_positivos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_positivos_brasil_io,lista_stopwords,mascara_covid,cores)

- Coronavírus Brasil (Ministério da Saúde) - comentários positivos referentes ao painel:

In [None]:
comentarios_positivos_coronavirus_brasil = ' '.join(coronavirus_brasil_positivos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_positivos_coronavirus_brasil,lista_stopwords,mascara_covid,cores)

- MonitoraCovid-19 (Fiocruz) - comentários positivos referentes ao painel:

In [None]:
comentarios_positivos_monitora_covid = ' '.join(monitora_covid_positivos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_positivos_monitora_covid,lista_stopwords,mascara_covid,cores)

- Painel Nacional: Covid-19 (CONASS) - comentários positivos referentes ao painel:

In [None]:
comentarios_positivos_painel_nacional = ' '.join(painel_nacional_positivos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_positivos_painel_nacional,lista_stopwords,mascara_covid,cores)

**Nuvens registros negativos**

- Geral - comentários negativos de todos os painéis:

In [None]:
comentarios_negativos = ' '.join(negativos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_negativos,lista_stopwords,mascara_covid,cores)

- Brasil.io (iniciativa voluntária) - comentários negativos referentes ao painel:

In [None]:
comentarios_negativos_brasil_io = ' '.join(brasil_io_negativos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_negativos_brasil_io,lista_stopwords,mascara_covid,cores)

- Coronavírus Brasil (Ministério da Saúde) - comentários negativos referentes ao painel:

In [None]:
comentarios_negativos_coronavirus_brasil = ' '.join(coronavirus_brasil_negativos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_negativos_coronavirus_brasil,lista_stopwords,mascara_covid,cores)

- MonitoraCovid-19 (Fiocruz) - comentários negativos referentes ao painel:

In [None]:
comentarios_negativos_monitora_covid = ' '.join(monitora_covid_negativos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_negativos_monitora_covid,lista_stopwords,mascara_covid,cores)

- Painel Nacional: Covid-19 (CONASS) - comentários negativos referentes ao painel:

In [None]:
comentarios_negativos_painel_nacional = ' '.join(painel_nacional_negativos["Comentário"].tolist())
cores = ["#BF0A30", "#002868"]
cria_nuvem(comentarios_negativos_painel_nacional,lista_stopwords,mascara_covid,cores)

**Tabulação usuário 1 - Ergonomia/Design**

In [None]:
usuario_1 = paineis_covid.query("Usuário == 1")
display(usuario_1)

In [None]:
total_usuario_1 = len(usuario_1.index)
frequencia_paineis_usuario_1 = tabula(usuario_1["Painel"], total_usuario_1)
display(frequencia_paineis_usuario_1)

In [None]:
frequencia_vies_usuario_1 = tabula(usuario_1["Viés"], total_usuario_1)
display(frequencia_vies_usuario_1)

In [None]:
categorias_usuario_1 = usuario_1.iloc[0:117, 5:61]
frequencias_usuario_1 = []

for atributo in categorias_usuario_1:
    frequencias_usuario_1.append(conta_registros(categorias_usuario_1[atributo]))

frequencia_categorias_usuario_1 = tabula_categorias(categorias_usuario_1, frequencias_usuario_1, total_usuario_1)
display(frequencia_categorias_usuario_1)

In [None]:
# define quais serão os textos analisados para formar a nuvem de palavras
comentarios_usuario_1 = ' '.join(usuario_1["Comentário"].tolist())

# define o gradiente de cores da nuvem de palavras
cores_1 = ["#FFA500", "#61088A"]
gradiente_cores_1 = LinearSegmentedColormap.from_list("mycmap", cores_1)

# inicializa a nuvem de palavras
nuvem_1 = WordCloud(stopwords = lista_stopwords,
                  mask = mascara_covid, # imagem utilizada
                  background_color = 'white', # cor de fundo
                  width = 1500, # largura
                  height = 750, # altura
                  contour_width = 1, # espessura do contorno
                  contour_color = 'purple', # cor do contorno
                  colormap = gradiente_cores_1
                 )

# gera a nuvem de palavras a partir do texto dos comentários do usuário 1
nuvem_1.generate(comentarios_usuario_1)

plt.figure(figsize = (20, 15), facecolor = 'k') # tamanho do gráfico
plt.imshow(nuvem_1, interpolation = 'bilinear') # plotagem da nuvem de palavras
plt.axis('off') # remove as bordas
plt.show() # mostra a nuvem de palavras

**Tabulação usuário 2 - Dados**

In [None]:
usuario_2 = paineis_covid.query("Usuário == 2")
display(usuario_2)

In [None]:
total_usuario_2 = len(usuario_2.index)
frequencia_paineis_usuario_2 = tabula(usuario_2["Painel"], total_usuario_2)
display(frequencia_paineis_usuario_2)

In [None]:
frequencia_vies_usuario_2 = tabula(usuario_2["Viés"], total_usuario_2)
display(frequencia_vies_usuario_2)

In [None]:
categorias_usuario_2 = usuario_2.iloc[0:117, 5:61]
frequencias_usuario_2 = []

for atributo in categorias_usuario_2:
    frequencias_usuario_2.append(conta_registros(categorias_usuario_2[atributo]))

frequencia_categorias_usuario_2 = tabula_categorias(categorias_usuario_2, frequencias_usuario_2, total_usuario_2)
display(frequencia_categorias_usuario_2)

In [None]:
# define quais serão os textos analisados para formar a nuvem de palavras
comentarios_usuario_2 = ' '.join(usuario_2["Comentário"].tolist())

# define o gradiente de cores da nuvem de palavras
cores_2 = ["#059E14", "#9904B0"]
gradiente_cores_2 = LinearSegmentedColormap.from_list("mycmap", cores_2)

# inicializa a nuvem de palavras
nuvem_2 = WordCloud(stopwords = lista_stopwords,
                  mask = mascara_covid, # imagem utilizada
                  background_color = 'white', # cor de fundo
                  width = 1500, # largura
                  height = 750, # altura
                  contour_width = 1, # espessura do contorno
                  contour_color = 'purple', # cor do contorno
                  colormap = gradiente_cores_2
                 )

# gera a nuvem de palavras a partir do texto dos comentários do usuário 2
nuvem_2.generate(comentarios_usuario_2)

plt.figure(figsize = (20, 15), facecolor = 'k') # tamanho do gráfico
plt.imshow(nuvem_2, interpolation = 'bilinear') # plotagem da nuvem de palavras
plt.axis('off') # remove as bordas
plt.show() # mostra a nuvem de palavras

**Tabulação usuário 3 - Saúde**

In [None]:
usuario_3 = paineis_covid.query("Usuário == 3")
display(usuario_3)

In [None]:
total_usuario_3 = len(usuario_3.index)
frequencia_paineis_usuario_3 = tabula(usuario_3["Painel"], total_usuario_3)
display(frequencia_paineis_usuario_3)

In [None]:
frequencia_vies_usuario_3 = tabula(usuario_3["Viés"], total_usuario_3)
display(frequencia_vies_usuario_3)

In [None]:
categorias_usuario_3 = usuario_3.iloc[0:117, 5:61]
frequencias_usuario_3 = []

for atributo in categorias_usuario_3:
    frequencias_usuario_3.append(conta_registros(categorias_usuario_3[atributo]))

frequencia_categorias_usuario_3 = tabula_categorias(categorias_usuario_3, frequencias_usuario_3, total_usuario_3)
display(frequencia_categorias_usuario_3)

In [None]:
# define quais serão os textos analisados para formar a nuvem de palavras
comentarios_usuario_3 = ' '.join(usuario_3["Comentário"].tolist())

# define o gradiente de cores da nuvem de palavras
cores_3 = ["#000AC4", "#DB047E"]
gradiente_cores_3 = LinearSegmentedColormap.from_list("mycmap", cores_3)

# inicializa a nuvem de palavras
nuvem_3 = WordCloud(stopwords = lista_stopwords,
                  mask = mascara_covid, # imagem utilizada
                  background_color = 'white', # cor de fundo
                  width = 1500, # largura
                  height = 750, # altura
                  contour_width = 1, # espessura do contorno
                  contour_color = 'purple', # cor do contorno
                  colormap = gradiente_cores_3
                 )

# gera a nuvem de palavras a partir do texto dos comentários do usuário 3
nuvem_3.generate(comentarios_usuario_3)

plt.figure(figsize = (20, 15), facecolor = 'k') # tamanho do gráfico
plt.imshow(nuvem_3, interpolation = 'bilinear') # plotagem da nuvem de palavras
plt.axis('off') # remove as bordas
plt.show() # mostra a nuvem de palavras