In [1]:
# Importação dos Pacotes:

In [2]:
import shlex
import pandas as pd
from datetime import datetime 

In [3]:
# Extração de dados a partir de um arquivo ".log":

In [4]:
def extrair_dados_arquivo(nome_arquivo):
    # Lógica de leitura dos dados do arquivo de Logs:
    with open(nome_arquivo,mode="r",encoding="utf-8",newline="\r\n") as f:
        result = f.readlines()
        
    # Remove linhas em branco:
    for i in result:
        if i == '\r\n':
            result.remove('\r\n')
        
    return result

In [5]:
# Tramento dos dados de entrada extraídos do arquivo de log:

In [6]:
def tratar_dados(result):
    listaLog = []
    
    for i in range(len(result)):
        lista, user_agent_lista= [], []

        try:
            # Separando o conteudo dentro de cada item da lista:
            aux = shlex.split(result[i], posix=False)

            # Lógica para percorrer as 9 primeiras colunas, inserindo na lista:
            for f in range(10):
                # Removendo caracter:
                aux[f] = aux[f].replace('"','')

                # Lógica para remover a coluna '-':
                if f != 1 and f != 3:
                    
                    # Lógica para incluir duas novas colunas (DATE e TIME):
                    if f == 4: 
                        aux[f] = aux[f].replace('[','').replace(']','')
                        lista.append(datetime.strptime(aux[f],'%Y-%m-%dT%H:%M:%SZ').strftime('%Y-%m-%d %H:%M:%S'))
                        
                    elif f == 5:
                        # Pegamos apenas primeiro conteúdo da lista criada a partir 'aux' após separarmos:
                        lista.append(aux[f].split(' ')[0])

                        # Pegamos somente o valor de endpoint:
                        lista.append('/'.join(aux[5].split(' ')[1].split('/')[0:2]))
                        
                    elif f == 9:
                        # Remove caracteres indesejados da coluna:
                        aux[f] = aux[f].replace('\r\n','')
                        lista.append(aux[f].split(' ')[0])
                        lista.append(aux[f])
                        
                    else:
                        lista.append(aux[f])

            # Incluímos os valores tratados da lista em uma sublista:
            listaLog.append(lista)
            
            # Excluímos as listas carregadas da memória para desalocar espaço:
            del lista
            del user_agent_lista

        except:
            print('Erro: A lista contém valores que não são esperados na linha - '+ str(i))
    
    return listaLog

---

In [7]:
result_data = extrair_dados_arquivo("apacheLogTest.log")

In [8]:
lista_result_log = tratar_dados(result_data)

In [9]:
# Criação de um DataSet a partir dos dados extraídos do arquivo:

In [164]:
# Definindo uma lista com as Colunas do DataFrame:
labels = ['IP_ADDRESS','USER','DATETIME','METHOD','ENDPOINT','STATUS_CODE','SIZE_OBJECT','REFER','BROWSER','USER_AGENT']

In [165]:
# Criação do DataFrame a partir da lista de Logs:
dfLog = pd.DataFrame(lista_result_log,columns=labels)

In [166]:
#dfLog.head(5)

---

In [167]:
#for index, val in top10_browser.iteritems():
#    print(index, val)

In [293]:
pd.options.mode.chained_assignment = None

In [294]:
# os 5 (cinco) logins que mais efetuaram requisições;

In [295]:
top5_user = dfLog['USER'].sort_values(ascending=False).value_counts().head(5)
top5_user = list(dict(top5_user).keys())

In [296]:
# os 10 (dez) browsers mais utilizados;

In [297]:
top10_browser = dfLog['BROWSER'].value_counts().head(10)
top10_browser = list(dict(top10_browser).keys())

In [298]:
# os endereços de rede (classe C) com maior quantidade de requisições;

In [299]:
top10_end_req = dfLog['IP_ADDRESS'][(pd.to_numeric(dfLog['IP_ADDRESS'].str.split('.').str[0]) >= 192) & \
                                    (pd.to_numeric(dfLog['IP_ADDRESS'].str.split('.').str[0]) <= 223)].value_counts().head(10)

top10_end_req = list(dict(top10_end_req).keys())

In [300]:
# Selecionando somente as colunas que serão utilizadas:
dfbymin = dfLog.iloc[:,1:8]

In [301]:
# Convertendo as colunas para os formatos desejaveis:

dfbymin["HORA"] = pd.to_datetime(dfbymin.loc[:,"DATETIME"]).dt.hour 
dfbymin["MINUTE"] = pd.to_datetime(dfbymin.loc[:,"DATETIME"]).dt.minute
dfbymin["SIZE_OBJECT"] = pd.to_numeric(dfLog["SIZE_OBJECT"])
dfbymin["STATUS_CODE"] = pd.to_numeric(dfLog["STATUS_CODE"])

In [302]:
# a hora com mais acesso no dia;

In [303]:
# maior_hora = pd.to_datetime(dfLog["DATETIME"]).dt.hour.value_counts().idxmax()
hora_sucesso = dfbymin.iloc[:,[7]]["HORA"].value_counts().idxmax()

In [304]:
# a hora com a maior quantidade de bytes;

In [305]:
maior_hora_byte = dfbymin.groupby("HORA").agg("SIZE_OBJECT").mean().sort_values(ascending=False).idxmax()

In [306]:
# o endpoint com maior consumo de bytes

In [307]:
endpoint_maior_byte = dfbymin.groupby("ENDPOINT").agg("SIZE_OBJECT").mean().sort_values(ascending=False).idxmax()

In [308]:
# a quantidade de bytes por minuto;

In [318]:
qtd_byte_min = dict(dfbymin.groupby("MINUTE").agg("SIZE_OBJECT").mean())

In [255]:
# a quantidade de bytes por hora;

In [320]:
qtd_byte_hora = dict(dfbymin.groupby('HORA').agg('SIZE_OBJECT').mean())

In [257]:
# a quantidade de usuários por minuto;

In [258]:
dfqtd_min = dfbymin.iloc[:,[0,8]].drop_duplicates()
qtd_user_min = dict(dfqtd_min.groupby(["MINUTE"]).size())

In [259]:
# a quantidade de usuários por hora;

In [260]:
dfqtd_hora = dfbymin.iloc[:,[0,7]].drop_duplicates()
qtd_user_hora = dict(dfqtd_hora.groupby(["HORA"]).size())

In [261]:
# a quantidade de requisições que tiveram erro de cliente, agrupadas por erro;

In [262]:
df_error = dfbymin.iloc[:,[0,4]][(dfbymin["STATUS_CODE"]>= 400) & (dfbymin["STATUS_CODE"]<= 499)]\
.groupby(["STATUS_CODE"]).size().sort_values(ascending=False)

req_cliente = dict(df_error)

In [263]:
# a quantidade de requisições que tiveram sucesso;

In [400]:
qtd_sucesso = list(dfbymin.iloc[:,[4]][(dfbymin["STATUS_CODE"]>= 200) & (dfbymin["STATUS_CODE"]<= 226)].count().values)

In [265]:
# a quantidade de requisições que foram redirecionadas;

In [398]:
qtd_redirecionado = list(dfbymin.iloc[:,[4]][(dfbymin["STATUS_CODE"]>= 300) & (dfbymin["STATUS_CODE"]<= 308)].count())

---

In [411]:
lista_resultado = [top5_user,top10_browser,top10_end_req,hora_sucesso,maior_hora_byte,endpoint_maior_byte,\
                   qtd_byte_min,qtd_user_min,qtd_user_hora,req_cliente,qtd_sucesso,qtd_redirecionado]