In [1]:
from pyspark import SparkConf, SparkContext
from operator import add

In [2]:
configuracao = (SparkConf().setMaster("local").setAppName("Solucao")
                .set("spark.executor.memory", "5g"))

In [3]:
sc = SparkContext(conf = configuracao)

In [4]:
julho = sc.textFile('/home/leonardo/Documentos/access_log_Jul95')
agosto = sc.textFile('/home/leonardo/Documentos/access_log_Aug95')

In [5]:
julho = julho.cache()
agosto = agosto.cache()

In [6]:
# Numero de hosts distintos no mes de Julho
contagem_julho = julho.flatMap(lambda line: line.split(' ')[0]).distinct().count()
print("Numero de hosts distintos no mes de Julho:", contagem_julho)

Numero de hosts distintos no mes de Julho: 55


In [7]:
# Numero de hosts distintos no mes de Agosto
contagem_agosto = agosto.flatMap(lambda line: line.split(' ')[0]).distinct().count()
print("Numero de hosts distintos no mes de Agosto:", contagem_agosto)

Numero de hosts distintos no mes de Agosto: 53


In [8]:
# Funcao para verificar se em uma linha existe um codigohttp igual a 404
def codigo404(linha):
    try:
        codigohttp = linha.split(' ')[-2]
        if codigohttp == '404':
            return True
    except:
        pass
    return False

In [9]:
erros404_julho = julho.filter(codigo404).cache()
erros404_agosto = agosto.filter(lambda linha: linha.split(' ')[-2] == '404').cache()

In [10]:
print('Erros 404 em Julho: %s' % erros404_julho.count())

Erros 404 em Julho: 10845


In [11]:
print('Erros 404 em Agosto: %s' % erros404_agosto.count())

Erros 404 em Agosto: 10056


In [12]:
# Funcao para retornar os top5 urls com mais erros 404
def top5_hosts404(rdd):
    hosts = rdd.map(lambda linha: linha.split('"')[1].split(' ')[1])
    counts = hosts.map(lambda hosts: (hosts, 1)).reduceByKey(add)
    top5 = counts.sortBy(lambda par: -par[1]).take(5)
    
    print('\nTop 5 urls:')
    for hosts, count in top5:
        print(hosts, count)
        
    return top5

In [13]:
top5_hosts404(erros404_julho)


Top 5 urls:
/pub/winvn/readme.txt 667
/pub/winvn/release.txt 547
/history/apollo/apollo-13.html 286
/shuttle/resources/orbiters/atlantis.gif 232
/history/apollo/a-001/a-001-patch-small.gif 230


[('/pub/winvn/readme.txt', 667),
 ('/pub/winvn/release.txt', 547),
 ('/history/apollo/apollo-13.html', 286),
 ('/shuttle/resources/orbiters/atlantis.gif', 232),
 ('/history/apollo/a-001/a-001-patch-small.gif', 230)]

In [14]:
top5_hosts404(erros404_agosto)


Top 5 urls:
/pub/winvn/readme.txt 1337
/pub/winvn/release.txt 1185
/shuttle/missions/STS-69/mission-STS-69.html 683
/images/nasa-logo.gif 319
/shuttle/missions/sts-68/ksc-upclose.gif 253


[('/pub/winvn/readme.txt', 1337),
 ('/pub/winvn/release.txt', 1185),
 ('/shuttle/missions/STS-69/mission-STS-69.html', 683),
 ('/images/nasa-logo.gif', 319),
 ('/shuttle/missions/sts-68/ksc-upclose.gif', 253)]

In [15]:
# Quantidade de erros 404 por dia
def contador_dias_404(rdd):
    dias = rdd.map(lambda linha: linha.split('[')[1].split(':')[0])
    counts = dias.map(lambda dia: (dia, 1)).reduceByKey(add).collect()
    return counts

In [16]:
contador_dias_404(erros404_julho)

[('13/Jul/1995', 532),
 ('21/Jul/1995', 334),
 ('25/Jul/1995', 461),
 ('09/Jul/1995', 348),
 ('15/Jul/1995', 254),
 ('16/Jul/1995', 257),
 ('18/Jul/1995', 465),
 ('17/Jul/1995', 406),
 ('07/Jul/1995', 570),
 ('12/Jul/1995', 471),
 ('19/Jul/1995', 639),
 ('22/Jul/1995', 192),
 ('23/Jul/1995', 233),
 ('03/Jul/1995', 474),
 ('05/Jul/1995', 497),
 ('10/Jul/1995', 398),
 ('14/Jul/1995', 413),
 ('01/Jul/1995', 316),
 ('02/Jul/1995', 291),
 ('04/Jul/1995', 359),
 ('06/Jul/1995', 640),
 ('08/Jul/1995', 302),
 ('11/Jul/1995', 471),
 ('20/Jul/1995', 428),
 ('24/Jul/1995', 328),
 ('26/Jul/1995', 336),
 ('27/Jul/1995', 336),
 ('28/Jul/1995', 94)]

In [17]:
contador_dias_404(erros404_agosto)

[('01/Aug/1995', 243),
 ('07/Aug/1995', 537),
 ('09/Aug/1995', 279),
 ('10/Aug/1995', 315),
 ('21/Aug/1995', 305),
 ('27/Aug/1995', 370),
 ('30/Aug/1995', 571),
 ('03/Aug/1995', 304),
 ('06/Aug/1995', 373),
 ('08/Aug/1995', 391),
 ('16/Aug/1995', 259),
 ('20/Aug/1995', 312),
 ('05/Aug/1995', 236),
 ('11/Aug/1995', 263),
 ('12/Aug/1995', 196),
 ('13/Aug/1995', 216),
 ('15/Aug/1995', 327),
 ('17/Aug/1995', 271),
 ('22/Aug/1995', 288),
 ('23/Aug/1995', 345),
 ('24/Aug/1995', 420),
 ('26/Aug/1995', 366),
 ('28/Aug/1995', 410),
 ('14/Aug/1995', 287),
 ('18/Aug/1995', 256),
 ('19/Aug/1995', 209),
 ('31/Aug/1995', 526),
 ('04/Aug/1995', 346),
 ('25/Aug/1995', 415),
 ('29/Aug/1995', 420)]

In [18]:
# Quantidade de bytes acumulados 
def quantidade_bytes_acumulados(rdd):
    def contador(linha):
        try:
            count = int(linha.split(" ")[-1])
            if count < 0:
                raise ValueError()
            return count
        except:
            return 0
        
    count = rdd.map(contador).reduce(add)
    return count

In [19]:
print('Quantidade de bytes total em Julho: %s' % quantidade_bytes_acumulados(julho))

Quantidade de bytes total em Julho: 38695973491


In [20]:
print('Quantidade de bytes total em Agosto: %s' % quantidade_bytes_acumulados(agosto))

Quantidade de bytes total em Agosto: 26828341424


In [21]:
sc.stop()