# Projeto MegaDados

**Alunos:**
    
+ Rafael Almada
+ Warlen Cesar Rodrigues
    
**Professor:** Fábio Ayres

In [33]:
import pyspark
from math import log10

In [34]:
sc = pyspark.SparkContext(appName='Projeto e-sports')

In [35]:
sc

In [36]:
rdd = sc.sequenceFile('part-00000')
rdd

MapPartitionsRDD[2] at mapPartitions at SerDeUtil.scala:244

In [65]:
# result = rdd.take(10)
# result[0]

### Montando RDD para Valorant

In [102]:
#Pegar os documentos que possuem a palavra Valorant
def getValorantWord(item):
    if 'Valorant' in item[1]:
        return item
    
rdd_valorant = rdd.filter(getValorantWord)
rdd_valorant.count()

996

### Montando RDD para Counter Strike

In [103]:
#Pegar os documentos que possuem a palavra Counter Strike
def getCStWord(item):
    if 'Counter Strike' in item[1]:
        return item
    
rdd_csgo = rdd.filter(getCStWord)
rdd_csgo.count()

1207

### Operacionalização para Intersecção entre Valorant e Counter Strike

In [104]:
#Pegar somente os documentos que possuem as duas palavras    
rdd_valorant_csgo = rdd_valorant.intersection(rdd_csgo)
rdd_valorant_csgo.count()

487

#### Operacionalizando frequência de palavras (1 doc = 1 contagem)

In [105]:
def conta_palavras(item):
    url, conteudo = item
    palavras = conteudo.strip().split()
    return [(palavra, 1) for palavra in set(palavras)]

def junta_contagens(nova_contagem, contagem_atual):
    return nova_contagem + contagem_atual

rdd_valorant_csgo_doc_freq = rdd_valorant_csgo.flatMap(conta_palavras).reduceByKey(junta_contagens)

In [106]:
#Listando tuplas (palavra, qtde. de Docs) para intersecção de Valorant e CSGO
#Neste cenário, o valor máximo do value é a quantidade retornada por rdd_valorant_csgo.count()
result = rdd_valorant_csgo_doc_freq.collect() 
sorted(result, key=lambda x : -x[1])

[('de', 487),
 ('e', 486),
 ('da', 484),
 ('do', 484),
 ('a', 483),
 ('para', 481),
 ('o', 478),
 ('com', 476),
 ('Flamengo', 475),
 ('em', 473),
 ('é', 464),
 ('que', 464),
 ('por', 462),
 ('-', 462),
 ('São', 456),
 ('no', 452),
 ('A', 452),
 ('mais', 448),
 ('O', 446),
 ('na', 446),
 ('dos', 444),
 ('os', 442),
 ('Paulo', 442),
 ('das', 431),
 ('Vasco', 430),
 ('Brasil', 424),
 ('ao', 424),
 ('seu', 416),
 ('Botafogo', 406),
 ('não', 405),
 ('ou', 403),
 ('uma', 401),
 ('Fluminense', 400),
 ('Santos', 397),
 ('à', 395),
 ('como', 387),
 ('as', 384),
 ('um', 383),
 ('Palmeiras', 377),
 ('Mais', 372),
 ('Futebol', 372),
 ('1', 370),
 ('Cruzeiro', 366),
 ('Corinthians', 366),
 ('2020', 360),
 ('Os', 359),
 ('se', 355),
 ('tem', 354),
 ('contra', 354),
 ('Grêmio', 353),
 ('Por', 349),
 ('Bahia', 348),
 ('Todos', 345),
 ('Internacional', 343),
 ('Copa', 340),
 ('sobre', 338),
 ('Mundo', 337),
 ('Política', 336),
 ('Grande', 334),
 ('conteúdo', 333),
 ('direitos', 331),
 ('Goiás', 325),
 

#### Fazendo o recorte de palavras muito específicas ou muito comuns

In [107]:
DOC_COUNT_MIN = 0 # Isso deve mudar de amostra para amostra
DOC_COUNT_MAX = 10 # Isso deve mudar de amostra para amostra (0.7 * rdd.count())

def filtra_doc_freq(item):
    contagem = item[1]
    return (contagem < DOC_COUNT_MAX) & (contagem >= DOC_COUNT_MIN)

rdd_valorant_csgo_freq_filtrado = rdd_valorant_csgo_doc_freq.filter(filtra_doc_freq)

In [108]:
rdd_valorant_csgo_freq_filtrado.take(10)

[('Bloodline', 1),
 ('Among', 2),
 ('Immortals"', 1),
 ('fechado,', 2),
 ('"todo', 1),
 ('"Multiplayer', 1),
 ('cujos', 5),
 ('"League', 1),
 ('exigem', 8),
 ('personagens', 7)]

#### Calculo do IDF para as palavras encontradas em documentos que possuem Valorant E Counter Strike

In [109]:
def idf(item):
    palavra, contagem = item
    return (palavra, log10(N/contagem))

rdd_idf = rdd_valorant_csgo_freq_filtrado.map(idf)
result = rdd_idf.collect()
sorted(result, key=lambda x : x[1])[-100:]

[('equivocado.', 4.557904021057566),
 ('Carimba?', 4.557904021057566),
 ('admitisse', 4.557904021057566),
 ('sacando', 4.557904021057566),
 ('polpem', 4.557904021057566),
 ('robo', 4.557904021057566),
 ('Kk', 4.557904021057566),
 ('raciocinar', 4.557904021057566),
 ('balcânica', 4.557904021057566),
 ('06:55', 4.557904021057566),
 ('Slams?', 4.557904021057566),
 ('atp', 4.557904021057566),
 ('“barro”', 4.557904021057566),
 ('“isso”.', 4.557904021057566),
 ('2.0,taí,exatamente', 4.557904021057566),
 ('Philippoussis', 4.557904021057566),
 ('(rrsrs),', 4.557904021057566),
 ('08:44', 4.557904021057566),
 ('15:36', 4.557904021057566),
 ('fanaticas,', 4.557904021057566),
 ('06:51', 4.557904021057566),
 ('afogou?', 4.557904021057566),
 ('Chinês,', 4.557904021057566),
 ('NIMEROS', 4.557904021057566),
 ('irritou', 4.557904021057566),
 ('Reveillon,apostem', 4.557904021057566),
 ('quanto.', 4.557904021057566),
 ('alguns!', 4.557904021057566),
 ('impactava', 4.557904021057566),
 ('Moya', 4.55790402

#### Calculo da frequencia e relevância das palavras

In [110]:
def freq_palavra(item):
    palavra, contagem = item
    return (palavra, log10(1+contagem))

def relevancia(item):
    palavra, freq = item
    freq_calc = freq_palavra(item)
    idf_calc = idf(item)
    relev = freq_calc[1]*idf_calc[1]
    return (palavra, relev)

In [111]:
freq_filtrado_sort_by_key_rdd = rdd_valorant_csgo_freq_filtrado.sortByKey()
rdd_relevancia_ambas_palavras_mesmo_doc = freq_filtrado_sort_by_key_rdd.map(relevancia)
res = rdd_relevancia_ambas_palavras_mesmo_doc.collect()
sorted(res, key=lambda x : x[1])[-100:]

[('restaurantes', 3.6036615116182413),
 ('resultados,', 3.6036615116182413),
 ('retornar', 3.6036615116182413),
 ('revelar', 3.6036615116182413),
 ('revelação:', 3.6036615116182413),
 ('revisão', 3.6036615116182413),
 ('revés', 3.6036615116182413),
 ('ritmo', 3.6036615116182413),
 ('rodas', 3.6036615116182413),
 ('roubar', 3.6036615116182413),
 ('salarial', 3.6036615116182413),
 ('sancionam', 3.6036615116182413),
 ('santa', 3.6036615116182413),
 ('segunda,', 3.6036615116182413),
 ('segunda-feira.', 3.6036615116182413),
 ('seios', 3.6036615116182413),
 ('selecione', 3.6036615116182413),
 ('semelhante', 3.6036615116182413),
 ('senegal', 3.6036615116182413),
 ('sertanejo', 3.6036615116182413),
 ('sicas', 3.6036615116182413),
 ('sicos', 3.6036615116182413),
 ('sim,', 3.6036615116182413),
 ('sintomas', 3.6036615116182413),
 ('sobre:', 3.6036615116182413),
 ('sobretudo', 3.6036615116182413),
 ('sobreviver', 3.6036615116182413),
 ('soccer', 3.6036615116182413),
 ('sofrido', 3.6036615116182413

### Operacionalização para exclusão mútua entre Valorant e Counter Strike
### Counter Strike

#### Criando o RDD com documentos que possuem somente Counter Strike
#### Filtrando o RDD

In [115]:
rdd_csgo_only = rdd_csgo.subtract(rdd_valorant_csgo)
rdd_csgo_only_doc_freq = rdd_csgo_only.flatMap(conta_palavras).reduceByKey(junta_contagens)
rdd_csgo_only_doc_freq_filtrado = rdd_csgo_only_doc_freq.filter(filtra_doc_freq)
rdd_csgo_only_doc_freq_filtrado.take(10)

[('26)', 1),
 ('Quiz', 3),
 ('intraparto?', 1),
 ('Decision,', 1),
 ('American', 8),
 ('Pneumologia', 4),
 ('favorito', 8),
 ('25,00', 3),
 ('R$30', 3),
 ('avisado', 4)]

#### Calculando o IDF das palavras

In [116]:
rdd_csgo_only_idf = rdd_csgo_only_doc_freq_filtrado.map(idf)
result = rdd_csgo_only_idf.collect()
sorted(result, key=lambda x : x[1])[-100:]

[('(centro),', 4.557904021057566),
 ('26.jul.2012', 4.557904021057566),
 ('(PT-PE),', 4.557904021057566),
 ('constelação', 4.557904021057566),
 ('experimentou,', 4.557904021057566),
 ('conseguisse', 4.557904021057566),
 ('(Programação', 4.557904021057566),
 ('Itapicuru,', 4.557904021057566),
 ('Neurolingüística)PsicodramaPsicologia,', 4.557904021057566),
 ('Febrap', 4.557904021057566),
 ('Gestalt-terapia', 4.557904021057566),
 ('frames.', 4.557904021057566),
 ('Psicodramatista', 4.557904021057566),
 ('vedação', 4.557904021057566),
 ('Verani,', 4.557904021057566),
 ('pensamento)', 4.557904021057566),
 ('Elites', 4.557904021057566),
 ('Trial', 4.557904021057566),
 ('bug', 4.557904021057566),
 ('LOL', 4.557904021057566),
 ("12':", 4.557904021057566),
 ('trailer:', 4.557904021057566),
 ('escrúpulos', 4.557904021057566),
 ('“Zeitschrift', 4.557904021057566),
 ('Chopin', 4.557904021057566),
 ('Octavius', 4.557904021057566),
 ('Berthollet', 4.557904021057566),
 ('Sigmund', 4.557904021057566),

#### Calculando a relevância das palavras

In [117]:
csgo_filtrado_sort_by_key_rdd = rdd_csgo_only_doc_freq_filtrado.sortByKey()
rdd_relevancia_csgo_only = csgo_filtrado_sort_by_key_rdd.map(relevancia)
res = rdd_relevancia_csgo_only.collect()
sorted(res, key=lambda x : x[1])[-100:]

[('problemas.', 3.6036615116182413),
 ('procuram', 3.6036615116182413),
 ('produtiva', 3.6036615116182413),
 ('produtividade', 3.6036615116182413),
 ('produtora', 3.6036615116182413),
 ('profunda', 3.6036615116182413),
 ('promocional', 3.6036615116182413),
 ('provas', 3.6036615116182413),
 ('pública,', 3.6036615116182413),
 ('pública.', 3.6036615116182413),
 ('públicas,', 3.6036615116182413),
 ('públicos,', 3.6036615116182413),
 ('que:', 3.6036615116182413),
 ('razões', 3.6036615116182413),
 ('recebi', 3.6036615116182413),
 ('recebido', 3.6036615116182413),
 ('recomendação', 3.6036615116182413),
 ('referente', 3.6036615116182413),
 ('regionais', 3.6036615116182413),
 ('regularização', 3.6036615116182413),
 ('relevantes', 3.6036615116182413),
 ('relevância', 3.6036615116182413),
 ('religião', 3.6036615116182413),
 ('renovação', 3.6036615116182413),
 ('repercussão', 3.6036615116182413),
 ('residenciais', 3.6036615116182413),
 ('residencial', 3.6036615116182413),
 ('ressaltou', 3.60366151

### Valorant

#### Criando o RDD com documentos que possuem somente Counter Strike
#### Filtrando o RDD

In [118]:
rdd_valorant_only = rdd_valorant.subtract(rdd_valorant_csgo)
rdd_valorant_only_doc_freq = rdd_valorant_only.flatMap(conta_palavras).reduceByKey(junta_contagens)
rdd_valorant_only_doc_freq_filtrado = rdd_valorant_only_doc_freq.filter(filtra_doc_freq)
rdd_valorant_only_doc_freq_filtrado.take(10)

[('Sobrado', 5),
 ('Mariluz', 1),
 ('garopaba', 2),
 ('Atlântida,', 1),
 ('12:05', 7),
 ('litoral', 3),
 ('Varanda/Terraço', 4),
 ('04:34', 1),
 ('namoro', 7),
 ('Companhia', 8)]

#### Calculando o IDF das palavras

In [119]:
rdd_valorant_only_idf = rdd_valorant_only_doc_freq_filtrado.map(idf)
result = rdd_valorant_only_idf.collect()
sorted(result, key=lambda x : x[1])[-100:]

[('furto,', 4.557904021057566),
 ('Ontem23:39', 4.557904021057566),
 ('2.390', 4.557904021057566),
 ('1.300R$', 4.557904021057566),
 ('cod:01353.314', 4.557904021057566),
 ('Pelicanos', 4.557904021057566),
 ('3.850.000', 4.557904021057566),
 ('CT-Agronegócio', 4.557904021057566),
 ('FUNTTEL', 4.557904021057566),
 ('Geoestacionário', 4.557904021057566),
 ('montada', 4.557904021057566),
 ('MUNICÍPIO,', 4.557904021057566),
 ('royalties', 4.557904021057566),
 ('1º...', 4.557904021057566),
 ('Informativos', 4.557904021057566),
 ('Zero,', 4.557904021057566),
 ('gay.', 4.557904021057566),
 ('12,000.00', 4.557904021057566),
 ('Apocalipse', 4.557904021057566),
 ('estarrecer', 4.557904021057566),
 ('UFF', 4.557904021057566),
 ('Tautou', 4.557904021057566),
 ('3106-9995', 4.557904021057566),
 ('2596-7599', 4.557904021057566),
 ('Shimon', 4.557904021057566),
 ('estrelados', 4.557904021057566),
 ('Estudos,', 4.557904021057566),
 ("'fora,", 4.557904021057566),
 ('Cabanga', 4.557904021057566),
 ('Per

#### Calculando a relevância das palavras

In [125]:
valorant_filtrado_sort_by_key_rdd = rdd_valorant_only_doc_freq_filtrado.sortByKey()
rdd_relevancia_valorant_only = valorant_filtrado_sort_by_key_rdd.map(relevancia)
res = rdd_relevancia_valorant_only.collect()
sorted(res, key=lambda x : x[1])[-100:]

[('pedras', 3.6036615116182413),
 ('pessoas,', 3.6036615116182413),
 ('peça', 3.6036615116182413),
 ('pilota', 3.6036615116182413),
 ('pilotam', 3.6036615116182413),
 ('piso', 3.6036615116182413),
 ('positivos', 3.6036615116182413),
 ('postagem', 3.6036615116182413),
 ('postos', 3.6036615116182413),
 ('praticar', 3.6036615116182413),
 ('praça', 3.6036615116182413),
 ('precisou', 3.6036615116182413),
 ('preocupação', 3.6036615116182413),
 ('preservar', 3.6036615116182413),
 ('preto', 3.6036615116182413),
 ('privado', 3.6036615116182413),
 ('procedimentos', 3.6036615116182413),
 ('profissional,', 3.6036615116182413),
 ('proíbe', 3.6036615116182413),
 ('páginas', 3.6036615116182413),
 ('pênalti', 3.6036615116182413),
 ('pênaltis', 3.6036615116182413),
 ('pública,', 3.6036615116182413),
 ('quarta,', 3.6036615116182413),
 ('que...', 3.6036615116182413),
 ('quilômetros', 3.6036615116182413),
 ('rabino', 3.6036615116182413),
 ('rapaz', 3.6036615116182413),
 ('reality', 3.6036615116182413),
 (

In [32]:
sc.stop()