# Trab#3 - Análise de Dados

Samir Braga - 513788

## Dataset Utilizado

Para a análise aqui apresentada e para os futuros trabalhos, foi escolhido o Dataset [Wikilinks](https://t.me/c/1590409185/12378). 

> 40 milhões de menções [à entidades] sem ambiguidade em mais de 10 milhões de páginas da web.

O dataset foi disponibilizado em 2013 e possui duas versões: uma contendo apenas os contextos das menções de cada entidade sobre as páginas exploradas e outra contendo, além disso, o texto completo do artigo e a estrutura do DOM (Document Object Model) dessas páginas. A escolhida aqui foi a primeira.

Esse conjunto escolhido possui em torno de 40 milhões de menções.

### Esquema dos Dados

Os dados são disponibilizados em 109 arquivos binários codificados no formato [Thrift](https://thrift.apache.org/). A especificicação do esquema está descrita abaixo:

```thrift
struct PageContentItem {
  // original download
  1: optional binary raw,
  // all visible text, e.g. from boilerpipe 1.2.0 KeepEverything
  2: optional string fullText, 
  // all visible text, e.g. from boilerpipe 1.2.0 Article text extractor
  3: optional string articleText, 
  // a correctly parsed and reformatted HTML version of raw with each
  // HTML tag on its own line
  4: optional string dom 
}

struct Context {
  1: string left,
  2: string right,
  3: string middle
}

struct Mention {
  1: string wiki_url,
  2: string anchor_text,
  3: i32 raw_text_offset,
  4: optional Context context,
  5: optional string freebase_id
}

struct RareWord {
  1: string word
  2: i32 offset
}

struct WikiLinkItem {
  // id from google release
  1: i32 doc_id, 
  // the original URL string obtain from some source
  2: string url, 
  // primary content
  3: PageContentItem content,   
  // rare words from google data
  4: list<RareWord> rare_words,
  // array of annotation objects for the document
  5: list<Mention> mentions
}

```

Os binários armazenam listas de `WikiLinkItem`. Como explicado, a versão utilizada aqui possui apenas o contexto das menções, por isso o atributo `content` de todos os items é nulo.


## Formatação

Como todos os dados foram armazenados codificados, foram criados scripts em Javascript para convertê-los em formatos mais amigáveis para se trabalhar. A ordem das transformações deu-se como segue:

1. Leitura dos dados, decodificação e conversão para json.
2. Extração das menções de cada item.
3. Remoção de menções vazias.
4. Conversão para CSV.

Com isso, foram gerados 109 CSVs contendo juntos o conjunto completo dos dados. Após isso, todos os CSVs foram carregados e unidos utilizando a biblioteca `pyspark`. O resultado dessa união foi exportado no formato `parquet`.

O processo completo reduziu o volume de dados de 13Gb para 4.7Gb e resultou em **23.141.168** menções. Os esquema final permaneceu igual ao presente no modelo `Mention` descrito acima.

## Análise e Pré-processamento

Aqui são utilizadas duas bibliotecas principais: o [Pyspark](http://spark.apache.org/docs/latest/api/python/) e o [Spark NLP](https://nlp.johnsnowlabs.com/). A primeira é motivada pelo grande volume dos dados, pois lida bem com isso devido a seu paradigma distribuído. Já a segunda integra-se com a primeira ao passo que já implementa diversas técnicas de processamento de linguagem natural no ambiente do Spark. Todas as importações podem ser vistas abaixo:

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession, SQLContext, DataFrame, functions as f, types as t, Window as w
from pyspark.ml.linalg import DenseVector, SparseVector
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml import Pipeline, Transformer
from pyspark.ml.feature import HashingTF, IDF, Tokenizer, CountVectorizer, NGram, VectorAssembler, Word2Vec, Word2VecModel, PCA
from pyspark.ml.linalg import VectorUDT, Vectors
from sparknlp.base import *
from sparknlp.annotator import *
from pyspark_dist_explore import Histogram, hist, distplot, pandas_histogram

Iniciando a seção do Spark e definindo as configurações do ambiente:

In [2]:
spark = SparkSession.builder \
  .master("spark://192.168.0.105:7077") \
  .config("spark.executor.memory","2g") \
  .config("spark.executor.cores","8") \
  .config("spark.driver.memory","4G") \
  .config("spark.driver.maxResultSize", "0") \
  .config("spark.kryoserializer.buffer.max", "2047M") \
  .config("spark.jars.packages", "com.johnsnowlabs.nlp:spark-nlp_2.12:3.3.2") \
  .getOrCreate()
spark.conf.set("spark.sql.inMemoryColumnarStorage.compressed", True)
spark.conf.set("spark.sql.inMemoryColumnarStorage.batchSize",10000)

In [4]:
DATA_BASE_PATH = '../mentions/'
BASE_PATH = '../'

Carregamento dos dados. Aqui são renomeadas algumas colunas apenas por conveniência. Além disso, são removidas duas colunas que não agregam no objetivo: `raw_text_offset` e `freebase_id`.

In [5]:
df = spark.read.parquet(BASE_PATH + "wikilinks-fulldata.parquet") \
    .withColumnRenamed('context.middle', 'context_middle') \
    .withColumnRenamed('context.left', 'context_left') \
    .withColumnRenamed('context.right', 'context_right') \
    .drop('raw_text_offset', 'freebase_id')

Total de dados, como mencionado acima:

In [6]:
df.count()

23141168

Aqui é importante aplicar um *lower case* à coluna `wiki_url`, pois apesar de trata-se de uma URL existem casos em que diferentes *cases* levam a mesma página. Por exemplo, o caso abaixo em que diferentes contagens são informadas para a mesma entidade. No entanto assume-se que não há o caso em que diferentes URLs (diferenciadas apenas por letras minúsculas e maiúsculas) levam a mesma entidade:

In [7]:
df.filter(f.col('wiki_url') == 'http://en.wikipedia.org/wiki/Fog_of_war').count()

63

In [8]:
df.filter(f.col('wiki_url') == 'http://en.wikipedia.org/wiki/Fog_of_War').count()

1

Aplicando a transformação:

In [9]:
df = df.withColumn('wiki_url', f.lower(f.col('wiki_url')))

Além disso, é verificada a existência de dados duplicados em relação às colunas textuais:

In [10]:
df = df.dropDuplicates(['context_left', 'context_middle', 'context_right'])

Quantidade após a remoção:

In [23]:
df.count()

17235143

### Objetivo

Cada menção representa um link presente em alguma página da web e que referencia uma página da Wikipedia. Essa página da Wikipedia pode ser interpretada como uma entidade, por exemplo, uma pessoa, um objeto, um conceito artístico, um movimento, etc. Sobre esse link tem-se um trecho do texto à esquerda e à direita do link, bem como o texto utilizado no próprio link.

A partir disso, pretende-se utilizar essas informações textuais para realizar a resolução dessas entidades, ou seja, identificar diferentes menções sobre a mesma entidade apenas a partir dos textos presentes na página.

### Análise e Estatísticas

Cada entidade é identificada pela URL da sua página na Wikipedia. É assim que será possível verificar se um conjunto de menções canditadas realmente tratam da mesma entidade e calcular alguma métrica de acurácia para a metodologia aplicada. O número total de entidades presentes no conjunto de dados é informado abaixo:

In [11]:
df.select('wiki_url').distinct().count()

1900928

Uma amostra dos dados:

In [12]:
df.limit(10).toPandas()

Unnamed: 0,wiki_url,anchor_text,context_left,context_middle,context_right
0,http://en.wikipedia.org/wiki/dario_franchitti,Dario Franchitti,,Dario Franchitti,Chip Ganassi Racing 6B Tony Kanaan Scott Dixon...
1,http://en.wikipedia.org/wiki/sphaerium,Sphaerium,,Sphaerium,", Physa Physa , Planorbis Planorbis , crayfish..."
2,http://en.wikipedia.org/wiki/weird_science_(film),Weird Science,,Weird Science,was particularly inspiring for geeks... two ne...
3,http://en.wikipedia.org/wiki/my_name_is_buddy#...,"""""""The original Cardboard Avenue Jaywalkers"""":...",Lefty Mouse (fiddle),"The Reverand Tom Toad (tambourine)""",3793
4,http://en.wikipedia.org/wiki/diablo_cody,"""DIABLO """"Ex~Stripper","OSCAR Winner AND Younger Than Me!"""" CODY""",28888,WHERE IN THE WORLD IS OSAMA BIN LADEN? My mone...
5,http://en.wikipedia.org/wiki/police_squad!#run...,"""""""Hello. My name is Lieutenant Frank Drebin","Police Squad.""""""",54526,"he should have been. Unless number 2, then he ..."
6,http://en.wikipedia.org/wiki/luther_bible#view...,"""Martin Luther had harsh words for this book o...","and Jude""",30474,churches of their pending destruction. This do...
7,http://en.wikipedia.org/wiki/martin_luther_kin...,"""""""In the end","but the silence of our friends."""" -Martin Lut...",239085,of the Gifted Child - The Search for the True ...
8,http://en.wikipedia.org/wiki/kassia,"""""""Smitten by Kassia's beauty",referring to the sin and suffering coming as ...,referring to the hope of salvation resulting ...,43006
9,http://en.wikipedia.org/wiki/bill_lee_(mlb_pit...,"""Bill """"Space Man"""" Lee",the knucklehead screwball pitcher,"crown prince of the """"Buffalo Heads"""" for the...",3102


Abaixo são contadas a quantidade de menções para cada entidades:

In [13]:
mentions_by_entities = df.select('wiki_url') \
    .groupBy('wiki_url') \
    .agg(f.count('wiki_url').alias('#mentions'))

Maior número de menções de uma entidade:

In [14]:
mentions_by_entities.select(f.max('#mentions')).show()

+--------------+
|max(#mentions)|
+--------------+
|         35515|
+--------------+



Calculando a distribuição de quantidade de menções por número entidades: 

In [15]:
entities_mentions_dist = mentions_by_entities.select('#mentions') \
    .groupBy('#mentions') \
    .agg(f.count('#mentions').alias('#entities'))

In [16]:
entities_count_df = entities_mentions_dist.toPandas().sort_values(by='#mentions')

Como pode ser observado abaixo, a medida que aumentam o número de menções diminui o número de entidade. Isso é natural, visto que é de se imaginar que mais entidades apareçam menos vezes entre os diferentes sites. Por exemplo, 799.847 entidades possuem apenas uma menção, 331.088 possuem apenas 2, 176.589 possuem apenas 3, e assim por diante. Da mesma forma, uma única entidade possui 54.754 menções, outra possui 26.606.

In [17]:
entities_count_df

Unnamed: 0,#mentions,#entities
284,1,866079
535,2,301343
443,3,157464
581,4,99768
283,5,69223
...,...,...
1222,13187,1
1139,13823,1
998,20863,1
1567,22764,1


Pode se imaginar que as entidades que possuem apenas uma menção não são úteis para o processo de Entity Resolution. No entanto, acredita que esses casos solitários podem servir como ruído para avaliar a competência da metodologia ao não associá-los com outra entidade candidata.

Além disso, é importante avaliar a capacidade de diferenciar contextos muito semelhantes mas com conceitos completamente distintos. Tomemos como exemplo as entidades `The Fog of war` e `Fog of War`. A primeira trata-se de um [documentário](https://en.wikipedia.org/wiki/The_Fog_of_War) sobre a vida do Secretário de Defesa dos Estados Unidos Robert McNamara e o título faz referência à segunda, que já está relacionada a dificuldade de tomar decisões em meio a conflitos durante a guerra.

### Tratamento dos Textos

A partir daqui serão aplicados processamentos relacionados aos textos, como tokenização e remoção de *stop words*.

In [19]:
def tokenize(df, string_cols):
  output = df
  for c in string_cols:
    output = output.withColumn('temp', f.coalesce(f.col(c), f.lit('')))
    documentAssembler = DocumentAssembler().setInputCol("temp").setOutputCol("document")
    tokenizer = RegexTokenizer().setInputCols('document').setOutputCol(c+"_tokens").setPattern("\\W")
    normalizer = Normalizer().setInputCols(c + "_tokens").setOutputCol(c + '_tokens_norm')
    remover = StopWordsCleaner().setInputCols(c + "_tokens_norm").setOutputCol(c + "_swRemoved_annotated")
    finisher = Finisher().setInputCols(c + "_swRemoved_annotated").setOutputCols(c + "_swRemoved")
    pipeline = Pipeline().setStages([documentAssembler, tokenizer, normalizer, remover, finisher])
    output = pipeline.fit(output).transform(output)
    output = output.drop('temp', 'document', c + "_tokens", c + "_tokens_norm")
    
  return output

In [20]:
tokenized_df = tokenize(df, ['context_right', 'context_left']).cache()

In [21]:
tokenized_df.limit(10).toPandas()

Unnamed: 0,wiki_url,anchor_text,context_left,context_middle,context_right,context_right_swRemoved,context_left_swRemoved
0,http://en.wikipedia.org/wiki/weird_science_(film),Weird Science,,Weird Science,was particularly inspiring for geeks... two ne...,"[particularly, inspiring, geeks, two, nerds, c...",[]
1,http://en.wikipedia.org/wiki/diablo_cody,"""DIABLO """"Ex~Stripper","OSCAR Winner AND Younger Than Me!"""" CODY""",28888,WHERE IN THE WORLD IS OSAMA BIN LADEN? My mone...,"[WORLD, OSAMA, BIN, LADEN, money, know, may, s...","[OSCAR, Winner, Younger, CODY]"
2,http://en.wikipedia.org/wiki/luther_bible#view...,"""Martin Luther had harsh words for this book o...","and Jude""",30474,churches of their pending destruction. This do...,"[churches, pending, destruction, fit, widespre...",[Jude]
3,http://en.wikipedia.org/wiki/kassia,"""""""Smitten by Kassia's beauty",referring to the sin and suffering coming as ...,referring to the hope of salvation resulting ...,43006,[],"[referring, sin, suffering, coming, result, Ev..."
4,http://en.wikipedia.org/wiki/stuttgart,Stuttgart,! ! About Soligor Gmbh *Soligor GmbH is a Germ...,Stuttgart,in 1968 as A.I.C. Phototechnik GmbH. The Compa...,"[C, Phototechnik, GmbH, Company, changed, offi...","[Soligor, Gmbh, Soligor, GmbH, German, Manufac..."
5,http://en.wikipedia.org/wiki/edelweiss_(song),Edelweiss,! Because of this name and Lilian blogged abou...,Edelweiss,", and this song is actually The Sound of Music...","[song, actually, Sound, Music, soundtrack, sun...","[name, Lilian, blogged, caught, attention, go,..."
6,http://en.wikipedia.org/wiki/philippines_natio...,Philippines national rugby league team - Wikip...,"! Cycle 5: 13th ! 13th: Taylor, Ebony ! Ebony ...",Philippines national rugby league team - Wikip...,Ashley Black; Fred Colina; William Dreves; Jas...,"[Ashley, Black, Fred, Colina, William, Dreves,...","[Cycle, th, th, Taylor, Ebony, Ebony, Taylor, ..."
7,http://en.wikipedia.org/wiki/lung_volumes,lung capacity,"! Other than this, I just rested and relaxed. ...",lung capacity,. I might as well write a bit about today as l...,"[might, well, write, bit, today, long, m, writ...","[rested, relaxed, want, dance, days, though, k..."
8,"http://en.wikipedia.org/wiki/alexander_city,_a...",Alex City,"! Wednesday, March 16, 2011 Alex City, Alabama...",Alex City,on Monday. Flagstone (1600') and retaining wal...,"[Monday, Flagstone, retaining, walls, Please, ...","[Wednesday, March, Alex, City, Alabama, Come, ..."
9,http://en.wikipedia.org/wiki/m%26ms,M&Ms,"! Yes, itâ€™s Hersheyâ€™s answer to the",M&Ms,", but there is one big differenceâ€Šthey are m...","[one, big, difference, much, BETTER, Well, Fir...","[Yes, Hershey, answer]"


In [22]:
tokenized_df = tokenized_df \
    .withColumn('context_right_count', f.size(f.col('context_right_swRemoved'))) \
    .withColumn('context_left_count', f.size(f.col('context_left_swRemoved')))

In [23]:
context_right_count = tokenized_df.select('context_right_count')
context_left_count = tokenized_df.select('context_left_count')

In [24]:
tokenized_df.limit(10).toPandas()

Unnamed: 0,wiki_url,anchor_text,context_left,context_middle,context_right,context_right_swRemoved,context_left_swRemoved,context_right_count,context_left_count
0,http://en.wikipedia.org/wiki/weird_science_(film),Weird Science,,Weird Science,was particularly inspiring for geeks... two ne...,"[particularly, inspiring, geeks, two, nerds, c...",[],16,0
1,http://en.wikipedia.org/wiki/diablo_cody,"""DIABLO """"Ex~Stripper","OSCAR Winner AND Younger Than Me!"""" CODY""",28888,WHERE IN THE WORLD IS OSAMA BIN LADEN? My mone...,"[WORLD, OSAMA, BIN, LADEN, money, know, may, s...","[OSCAR, Winner, Younger, CODY]",10,4
2,http://en.wikipedia.org/wiki/luther_bible#view...,"""Martin Luther had harsh words for this book o...","and Jude""",30474,churches of their pending destruction. This do...,"[churches, pending, destruction, fit, widespre...",[Jude],11,1
3,http://en.wikipedia.org/wiki/kassia,"""""""Smitten by Kassia's beauty",referring to the sin and suffering coming as ...,referring to the hope of salvation resulting ...,43006,[],"[referring, sin, suffering, coming, result, Ev...",0,16
4,http://en.wikipedia.org/wiki/stuttgart,Stuttgart,! ! About Soligor Gmbh *Soligor GmbH is a Germ...,Stuttgart,in 1968 as A.I.C. Phototechnik GmbH. The Compa...,"[C, Phototechnik, GmbH, Company, changed, offi...","[Soligor, Gmbh, Soligor, GmbH, German, Manufac...",15,16
5,http://en.wikipedia.org/wiki/edelweiss_(song),Edelweiss,! Because of this name and Lilian blogged abou...,Edelweiss,", and this song is actually The Sound of Music...","[song, actually, Sound, Music, soundtrack, sun...","[name, Lilian, blogged, caught, attention, go,...",12,9
6,http://en.wikipedia.org/wiki/philippines_natio...,Philippines national rugby league team - Wikip...,"! Cycle 5: 13th ! 13th: Taylor, Ebony ! Ebony ...",Philippines national rugby league team - Wikip...,Ashley Black; Fred Colina; William Dreves; Jas...,"[Ashley, Black, Fred, Colina, William, Dreves,...","[Cycle, th, th, Taylor, Ebony, Ebony, Taylor, ...",23,15
7,http://en.wikipedia.org/wiki/lung_volumes,lung capacity,"! Other than this, I just rested and relaxed. ...",lung capacity,. I might as well write a bit about today as l...,"[might, well, write, bit, today, long, m, writ...","[rested, relaxed, want, dance, days, though, k...",12,7
8,"http://en.wikipedia.org/wiki/alexander_city,_a...",Alex City,"! Wednesday, March 16, 2011 Alex City, Alabama...",Alex City,on Monday. Flagstone (1600') and retaining wal...,"[Monday, Flagstone, retaining, walls, Please, ...","[Wednesday, March, Alex, City, Alabama, Come, ...",13,13
9,http://en.wikipedia.org/wiki/m%26ms,M&Ms,"! Yes, itâ€™s Hersheyâ€™s answer to the",M&Ms,", but there is one big differenceâ€Šthey are m...","[one, big, difference, much, BETTER, Well, Fir...","[Yes, Hershey, answer]",10,3


In [25]:
tokenized_df.count()

KeyboardInterrupt: 

In [None]:
# tokenized_df.write.mode('overwrite').parquet("./tokenized_wiki_links.parquet")