In [1]:
import pandas as pd
import math
from pyspark import SparkContext
from pyspark.sql import SparkSession

In [2]:
sc = SparkContext(appName="pedroramos")
sc

In [3]:
rdd = sc.sequenceFile("part-00000")
N_documentos = rdd.count()

In [4]:
DOC_COUNT_MIN = 10
DOC_COUNT_MAX = N_documentos * 0.7

In [6]:
def conta_documento(item):
    conteudo = item[1]
    palavras = conteudo.strip().split()
    return [(i.lower(), 1) for i in set(palavras)]

def calcula_idf(item):
    palavra, contagem = item
    idf = math.log10(N_documentos/contagem)
    return (palavra, idf)

def filtra_doc(item):
    contagem = item[1]
    return (contagem < DOC_COUNT_MAX) and (contagem > DOC_COUNT_MIN) 

rdd_idf = rdd \
            .flatMap(conta_documento) \
            .reduceByKey(lambda x,y: x+y) \
            .filter(filtra_doc) \
            .map(calcula_idf)

In [7]:
test = rdd_idf.collect()

In [14]:
def conta_palavra(item):
    conteudo = item[1]
    palavras = conteudo.strip().split()
    return [(i.lower(), 1) for i in palavras]

def calcula_freq(item):
    palavra, contagem = item
    freq = math.log10(1 + contagem)
    return (palavra, freq)

rdd_freq = rdd \
            .flatMap(conta_palavra) \
            .reduceByKey(lambda x,y: x+y) \
            .map(calcula_freq)

In [None]:
# def calcula_relevancia(item):
    

# rdd_relevancia

In [15]:
test_freq = rdd_freq.collect()

In [16]:
df_f = pd.DataFrame({
    'palavra': [i[0] for i in test_freq],
    'freq': [i[1] for i in test_freq]
})

df_f

Unnamed: 0,palavra,freq
0,login,11306
1,senha,8876
2,no,208400
3,e-mail,24013
4,esqueci,1585
...,...,...
1437163,ポータブルpa,1
1437164,全9色,1
1437165,dw00100253[,1
1437166,adiassem,1


In [8]:
df = pd.DataFrame({
    'palavra': [i[0] for i in test],
    'idf': [i[1] for i in test]
})

df