# Projeto de Técnicas de Programação em Python - Transformação de Logs

<div align="center">
<img style="display: block; margin:auto; width: 50%;" src="assets/banco_log.png">
</div>

O projeto tem como premissa trabalhar com logs de servidor web em formato comum Apache. Para isso, foi consultada uma base de dados no kaggle por meio deste [link](https://www.kaggle.com/datasets/eliasdabbas/web-server-access-logs/data). 

A ideia é extrair os dados de interesse dos logs, transforma-los pelo Numpy e Pandas para depois tirar alguns insights.

# Indice

# 1. Bibliotecas

# 2. Corte do arquivo

Como o arquivo original access.log possui 3.8GB, foi preciso selecionar uma quantidade de linhas para trabalhar mais facilmente. Por isso, fizemos a abertura do arquivo, lemos 1000 linhas e salvamos outro log.

**OBS**: Essa operação foi feita apenas para facilitar o processo. O arquivo original se encontra no site deste [link](https://www.kaggle.com/datasets/eliasdabbas/web-server-access-logs/data).

In [None]:
# with open("./../projeto/logs/access.log", "r") as file:
#     linhas_lidas = file.readlines()[:1000]

In [None]:
# with open("logs/access.log", "w") as file:
#     file.writelines(linhas_lidas)

# 3. Tranformação dos Logs

## 3.1 Compreensão da estrutura do Log

Primeiro, mostrarei como o log está estruturado.

In [19]:
with open("logs/access.log", "r") as file:
    teste = file.readline()
    print(teste)

54.36.149.41 - - [22/Jan/2019:03:56:14 +0330] "GET /filter/27|13%20%D9%85%DA%AF%D8%A7%D9%BE%DB%8C%DA%A9%D8%B3%D9%84,27|%DA%A9%D9%85%D8%AA%D8%B1%20%D8%A7%D8%B2%205%20%D9%85%DA%AF%D8%A7%D9%BE%DB%8C%DA%A9%D8%B3%D9%84,p53 HTTP/1.1" 200 30577 "-" "Mozilla/5.0 (compatible; AhrefsBot/6.1; +http://ahrefs.com/robot/)" "-"



Em resumo, essas são as informações de interesse no geral:

- IP do Cliente: Endereço IP do cliente solicitante
- Data/Hora: Data, Hora e UTC da solicitação 
- Método HTTP: Qual método foi utilizado (GET, POST...)
- Pasta/Arquivo : Pasta e arquivo que foi acessado, ou se foi feito um Search
- Protocolo HTTP : Qual protocolo HTTP foi utilizado
- Código de Resposta: Indicação se a solicitação foi bem-sucedida ou não
- Tamanho da Resposta: Quantos bytes foram usados para aquisição da resposta
- User-Agent: Informações do navegador ou bot

## 3.2. Transformação dos logs

In [97]:
with open("logs/access.log", "r") as file:
    data = file.readlines()

In [102]:
documento = []

for linha in data:

    for e in ["[", "]", "(", ")", "{", "}", ";", '"', ","]:
        linha = linha.replace(e,"")

    i = linha.split(" ")
    
    ip = i[0]
    data_hora = f"{i[3]} {i[4]}"
    metodo = i[5]

    pasta = i[6].split("/")[1]
    if "?" in pasta:
        pasta = pasta.split("?")[0]

    http = i[7]
    resposta = i[8]
    tamanho_bytes = i[9]

    if len(i) > 14:
        if i[12] == "compatible":
            user_agent = i[13]
        else:
            user_agent = f"{i[12]}-{i[13]}/{i[14]}"
    else:
        user_agent = {i[11]}


    registro = [ip,data_hora,metodo,pasta,http,resposta,tamanho_bytes, user_agent]
    documento.append(registro) 

Cada log ficará assim no fim desse processo:

In [104]:
documento[0]

['54.36.149.41',
 '22/Jan/2019:03:56:14 +0330',
 'GET',
 'filter',
 'HTTP/1.1',
 '200',
 '30577',
 'AhrefsBot/6.1']

# 4. Conversão para Numpy

# 5. Dataset com os Logs