In [1]:
import numpy as np
import pandas as pd

# Descrevendo os arquivos CSV

## TermosUnicos_&lt;nome da coleção&gt;-Amostra.csv
  
  Na primeira versão do experimento, calculamos o tamanho da amostra necessário em função da média de caracteres de cada documento dentro das coleções (arquivos &lt;nome da coleção&gt;-Amostra). No entanto, como os radicalizadores são executados sobre palavras e não sobre caracteres, alteramos a versão 2 para o calcular a amostragem em função da média de termos únicos por documento.
  
  Como os arquivos possuem a mesma estrutura, utilizaremos os Acórdãos do Segundo Grau para facilitar a explicação.


In [2]:
amostra = pd.read_csv('../csv/TermosUnicos_SegundoGrauAcordaos-Amostra.csv')
amostra

Unnamed: 0,Media,Sigma,N,e,TamanhoDaAmostra
0,638.44896,322.149428,181994,16.107471,1524


Calculamos o tamanho da amostra utilizando a função:

\begin{equation}
n = \frac{z^2 . \sigma^2 . N}{e^2 . (N - 1) + z^2 . \sigma^2}
\end{equation}

Onde $z = 1,96$ (nível de confiança de 95%), $\sigma$ é o desvio-padrão da quantidade de termos únicos na coleção,
    N é o número de documentos que a coleção possui e erro amostral $e = 0,05\sigma$.
    
## &lt;nome da coleção&gt;-Sumario.csv

Esse arquivo registra o tamanho da amostra processada (Processados), o número de termos únicos da amostra (TUC) e o algoritmo de radicalização utilizado (Stemmer).
    

In [3]:
sumario = pd.read_csv('../csv/SegundoGrauAcordaos-Sumario.csv')
sumario

Unnamed: 0,Processados,TUC,Stemmer
0,1524,42141,NoStem
1,1524,23019,Porter
2,1524,20220,RSLP
3,1524,36976,RSLPS
4,1524,32007,UniNE


## &lt;nome da coleção&gt;-Termos.csv

Registra o número de vezes que cada termo apareceu na amostra depois que aplicamos o radicalizador.

In [4]:
termos = pd.read_csv('../csv/SegundoGrauAcordaos-Termos.csv', encoding='Latin-1')
termos.head()

Unnamed: 0,Termo,Quantidade,Stemmer
0,desditosa,1,NoStem
1,guarde,1,NoStem
2,titularizar,4,NoStem
3,espelhada,4,NoStem
4,3640,1,NoStem


## &lt;nome da coleção&gt;.csv

Para cada documento com id "Chave", registramos a quantidade de termos únicos após o uso da radicalização.


In [5]:
colecao = pd.read_csv('../csv/SegundoGrauAcordaos.csv')
colecao.head()

Unnamed: 0,Chave,TUD,Stemmer
0,201100200560443632531,576,NoStem
1,201100200560443632531,517,Porter
2,201100200560443632531,480,RSLP
3,201100200560443632531,540,RSLPS
4,201100200560443632531,535,UniNE


## &lt;nome da coleção&gt;&lowbar;&lt;nome do algoritmo&gt;&lowbar;&lt;nome da métrica&gt;.csv

Registra o valor da métrica obtido para cada uma das consultas disparadas contra o engine de busca.

In [6]:
metrica = pd.read_csv('../csv/asg_nostem_map.csv', header=None, index_col=0)
metrica.head()

Unnamed: 0_level_0,1
0,Unnamed: 1_level_1
1,0.947681
2,0.5
3,1.0
4,0.557677
5,1.0


**Vale ressaltar que não setamos a semente nas fases de randomização dos experimentos, portanto, os arquivos gerados a cada execução podem apresentar valores diferentes dos aqui expostos. Contudo, estatisticamente, é esperado que haja ratificação das hipóteses descritas na dissertação.**