In [1]:
import re # Importa o módulo 're', que fornece suporte para expressões regulares em Python

# Compila uma expressão regular para analisar (parsear) linhas de um arquivo de log de servidor web
format_pat= re.compile(
    r"(?P<host>[\d\.]+)\s"   # Grupo nomeado 'host' que corresponde a um endereço IP (uma ou mais sequências de dígitos e pontos)
    r"(?P<identity>\S*)\s"   # Grupo nomeado 'identity' que corresponde a qualquer sequência de caracteres não brancos (pode estar vazio)
    r"(?P<user>\S*)\s"       # Grupo nomeado 'user' que corresponde a qualquer sequência de caracteres não brancos (pode estar vazio)
    r"\[(?P<time>.*?)\]\s"   # Grupo nomeado 'time' que corresponde a qualquer sequência entre colchetes (captura a data e hora) 
    r'"(?P<request>.*?)"\s'  # Grupo nomeado 'request' que corresponde a qualquer sequência entre aspas duplas (captura a requisição HTTP) 
    r"(?P<status>\d+)\s"     # Grupo nomeado 'status' que corresponde a um ou mais dígitos (o código de status HTTP)
    r"(?P<bytes>\S*)\s"      # Grupo nomeado 'bytes' que corresponde a qualquer sequência de caracteres não brancos (o tamanho da resposta em bytes)
    r'"(?P<referer>.*?)"\s'  # Grupo nomeado 'referer' que corresponde a qualquer sequência entre aspas duplas (captura o referer HTTP) 
    r'"(?P<user_agent>.*?)"\s*'  # Grupo nomeado 'user_agent' que corresponde a qualquer sequência entre aspas duplas (captura o user agent)
)


In [2]:
# Define uma variável chamada 'logPath' que contém o caminho para um arquivo de log
logPath = "C:/Card10/access_log.txt"

# 'logPath' é uma string que especifica o caminho do arquivo 'access_log.txt' localizado no diretório 'C:/Card10'.
# Esse caminho é usado para abrir, ler, escrever ou processar o arquivo de log em um script Python.


In [None]:
URLCounts = {}  # Dicionario para armazenar a contagem de acessos a cada URL

with open(logPath, "r") as f:  # Abre o arquivo de logPath para leitura
    for line in (l.rstrip() for l in f):  # passa por cada linha do arquivo, removendo espaços em branco a direita
        match = format_pat.match(line)  # verifica se a linha corresponde ao padrao definido 
        if match:  # Se a linha corresponde ao padrão
            access = match.groupdict()  # extrai os grupos nomeados do padrao como um dicionario
            request = access['request']  # Obtem o campo 'request' do dicionário
            
            # Verifica se o formato do campo 'request' esta correto antes de desempacotar
            parts = request.split()  # Divide a string 'request' em partes separadas por espaço
            if len(parts) == 3:  # Verifica se ha exatamente 3 partes (metodo, URL, protocolo)
                action, URL, protocol = parts  # Desempacota as partes em variaveis
                # Atualiza a contagem de acessos para a URL
                if URL in URLCounts:  # Se a URL ja esta no dicionário
                    URLCounts[URL] = URLCounts[URL] + 1  # Incrementa a contagem
                else:  # Caso contrario
                    URLCounts[URL] = 1  # adiciona a URL com uma contagem inicial de 1
            else:  # Se o formato do 'request' não é esperado
                print(f"Formato inesperado: {request}")  # tratamento de erro com o request

# Ordena as URLs por contagem de acessos em ordem decrescente
results = sorted(URLCounts, key=lambda i: int(URLCounts[i]), reverse=True)

# Exibe as 20 URLs mais acessadas com suas contagens
for result in results[:20]:  # Itera sobre as 20 primeiras URLs ordenadas
    print(result + ": " + str(URLCounts[result]))  # Exibe a URL e sua contagem de acessos


In [None]:
URLCounts = {}  # Inicializa um dicionário para armazenar a contagem de acessos a cada URL

with open(logPath, "r") as f:  # Abre o arquivo no caminho especificado em 'logPath' para leitura
    for line in (l.rstrip() for l in f):  # Itera sobre cada linha do arquivo, removendo espaços em branco à direita
        match = format_pat.match(line)  # Verifica se a linha corresponde ao padrão definido pela expressão regular 'format_pat'
        if match:  # Se a linha corresponde ao padrão
            access = match.groupdict()  # Converte a correspondência em um dicionário
            request = access['request']  # Extrai a parte da requisição da linha do log
            fields = request.split()  # Divide a requisição em campos separados por espaços

            # Imprime uma mensagem se o número de campos for diferente de 3
            if len(fields) != 3:
                print(f"Formato inesperado na linha: {line}")
                print(f"Campos extraídos: {fields}")

            # Se os campos forem válidos (3 itens), prossegue com o processamento
            if len(fields) == 3:
                action, URL, protocol = fields  # Atribui cada campo a uma variável específica
                print(f"Ação: {action}, URL: {URL}, Protocolo: {protocol}")  # Imprime a ação, URL e protocolo da requisição


In [None]:
#os 2 primeiros mais acessados fazia parte de um dado malicioso

URLCounts = {}  

with open(logPath, "r") as f:  
    for line in (l.rstrip() for l in f): 
        match = format_pat.match(line)  #
        if match:  #
            access = match.groupdict()  
            request = access['request']  # pega a string da solicitação 
            fields = request.split()  # Divide a string em uma lista com base em espaços
            if len(fields) == 3:  # Verifica se a solicitação contém exatamente 3 partes
                URL = fields[1]  # Extrai a URL (o segundo campo da solicitação)
                if URL in URLCounts:  #verifica se a URL ja esta no dicionario
                    URLCounts[URL] = URLCounts[URL] + 1  # Incrementa a contagem da URL
                else:
                    URLCounts[URL] = 1  # Adiciona a URL ao dicionario com contagem inicial de 1

# Ordena as URLs com base na contagem de acessos (em ordem decrescente)
results = sorted(URLCounts, key=lambda i: int(URLCounts[i]), reverse=True)

for result in results[:20]:  # Itera sobre as 20 URLs mais acessadas
    print(result + ": " + str(URLCounts[result]))  # Exibe a URL e sua contagem de acessos


In [None]:
# Inicializa um dicionário para armazenar a contagem de acessos a cada URL
URLCounts = {}  

# Abre o arquivo no caminho especificado em 'logPath' para leitura
with open(logPath, "r") as f:  
    # Itera sobre cada linha do arquivo, removendo espaços em branco à direita
    for line in (l.rstrip() for l in f):  
        # Verifica se a linha corresponde ao padrão definido pela expressão regular 'format_pat'
        match = format_pat.match(line) 
        if match:  # Se a linha corresponde ao padrão
            access = match.groupdict()  # Converte a correspondência em um dicionário
            request = access['request']  # Obtém o valor da chave 'request' que contém a solicitação
            fields = request.split()  # Divide a solicitação em campos separados por espaços

            # Verifica se a solicitação tem exatamente 3 partes
            if len(fields) == 3:  
                # Desempacota a solicitação para obter ação, URL e protocolo
                action, URL, protocol = fields  
                
                # Verifica se a ação da solicitação é 'GET'
                if action == 'GET':  
                    if URL in URLCounts:  
                        # Incrementa o contador para a URL
                        URLCounts[URL] += 1  
                    else:
                        # Se não estiver, adiciona a URL ao dicionário com contador 1
                        URLCounts[URL] = 1  

# Ordena as URLs com base na contagem, em ordem decrescente
results = sorted(URLCounts, key=lambda i: int(URLCounts[i]), reverse=True)

# Exibe as 20 URLs mais acessadas
for result in results[:20]:  # Itera pelas 20 URLs mais acessadas
    print(result + ": " + str(URLCounts[result]))  # Exibe a URL e a contagem de acessos


In [None]:
#suspeito pois, os primeiros nao contem um formato de navegador comum, e sim de uma suposta invasao

UserAgents = {}

with open(logPath, "r") as f:
    for line in (l.rstrip() for l in f): 
        match = format_pat.match(line)  # Tenta casar a linha com o formato de regex
        if match:  # Se a linha deu match
            access = match.groupdict()  #extrai os grupos nomeados da linha
            agent = access['user_agent']  # Extrai o user_agent do acesso
            if agent in UserAgents:  # Se o agente já foi registrado
                UserAgents[agent] = UserAgents[agent] + 1  #incrementa o contador de acessos
            else:
                UserAgents[agent] = 1  # Se for a primeira vez, inicializa o contador com 1

#ordena o dicionário UserAgents baseado nos valores de contagem
results = sorted(UserAgents.items(), key=lambda x: x[1], reverse=True)

# Exibe os 20 User-Agents mais acessados
for result in results[:20]:  # Limita a exibição aos 20 primeiros
    print(result[0] + ": " + str(result[1]))  # Exibe o User-Agent e a contagem de acessos


In [None]:
# Inicializa um dicionário para armazenar a contagem de acessos a cada URL
URLCounts = {}

# Abre o arquivo no caminho especificado em 'logPath' para leitura
with open(logPath, "r") as f:
    # Itera sobre cada linha do arquivo, removendo espaços em branco à direita
    for line in (l.rstrip() for l in f):
        # Verifica se a linha corresponde ao padrão definido pela expressão regular 'format_pat'
        match = format_pat.match(line)
        if match:
            # Converte a correspondência em um dicionário
            access = match.groupdict()
            # Obtém o valor da chave 'user_agent' que contém o agente do usuário (navegador, bot, etc.)
            agent = access['user_agent']
            
            # Ignora bots, spiders e outros agentes irrelevantes
            if (not ('bot' in agent or 'spider' in agent or
                     'Bot' in agent or 'Spider' in agent or
                     'W3 Total Cache' in agent or agent == '-')):
                
                # Obtém o valor da chave 'request' que contém a solicitação
                request = access['request']
                # Divide a solicitação em campos separados por espaços
                fields = request.split()
                # Verifica se a solicitação tem exatamente 3 partes
                if len(fields) == 3:
                    # Desempacota a solicitação para obter ação, URL e protocolo
                    action, URL, protocol = fields
                    # Verifica se a ação da solicitação é 'GET'
                    if action == 'GET':
                        if URL in URLCounts:
                            # Incrementa a contagem de acessos para a URL


In [None]:
# Após verificar se a URL termina com "/", conseguimos resultados mais sólidos, mais filtrados
URLCounts = {}  # Inicializa um dicionário para armazenar a contagem de acessos a cada URL

# Abre o arquivo no caminho especificado em 'logPath' para leitura
with open(logPath, "r") as f:
    # Itera sobre cada linha do arquivo, removendo espaços em branco à direita
    for line in (l.rstrip() for l in f):
        # Verifica se a linha corresponde ao padrão definido pela expressão regular 'format_pat'
        match = format_pat.match(line)
        if match:
            # Converte a correspondência em um dicionário
            access = match.groupdict()
            # Obtém o valor da chave 'user_agent' que contém o agente do usuário (navegador, bot, etc.)
            agent = access['user_agent']
            
            # Ignora bots, spiders e outros agentes irrelevantes
            if not ('bot' in agent or 'spider' in agent or 
                    'Bot' in agent or 'Spider' in agent or
                    'W3 Total Cache' in agent or agent == '-'):
                
                # Obtém o valor da chave 'request' que contém a solicitação
                request = access['request']
                # Divide a solicitação em campos separados por espaços
                fields = request.split()
                
                # Verifica se a solicitação tem exatamente 3 partes
                if len(fields) == 3:
                    # Desempacota a solicitação para obter ação, URL e protocolo
                    action, URL, protocol = fields
                    
                    # Verifica se a URL termina com "/"
                    if URL.endswith("/"):
                        # Verifica se a ação da solicitação é 'GET'
                        if action == 'GET':
                            if URL in URLCounts:
                                # Incrementa a contagem de acessos para a URL
                                URLCounts[URL] += 1
                            else:
                                # Inicializa a contagem para a URL
                                URLCounts[URL] = 1

# Ordena as URLs com base na contagem de acessos, em ordem decrescente
results = sorted(URLCounts.items(), key=lambda x: x[1], reverse=True)

# Exibe as 20 URLs mais acessadas
for result in results[:20]:
    # Exibe a URL e a contagem de acessos
    print(result[0] + ": " + str(result[1]))


In [None]:
#Código 1: Conta todas as requisições GET sem considerar o agente de usuário ou o formato da URL.

#Código 2: Ignora acessos de bots, spiders e outros agentes irrelevantes, garantindo contagens mais precisas das requisições GET legítimas.

#Código 3: Além de ignorar bots e spiders, também verifica se a URL termina com "/", o que pode ajudar a padronizar as URLs contadas.

Activity

Processa um arquivo de log de acessos, conta o número de acessos por URL, e separa e analisa entradas específicas que contêm "/feed". Em seguida, exibe as 20 URLs mais acessadas e as primeiras 10 entradas relacionadas a "/feed".


In [1]:
#armazenando cagora com o feed, conseguimos visualizacoes mais precisas e da para visualizar de onde
#esta vindo as visualizacoes 

URLCounts = {}
FeedRequests = []  # Lista para armazenar linhas do log com "/feed" para análise

with open(logPath, "r") as f:
    for line in (l.rstrip() for l in f):  # Lê o arquivo linha por linha, removendo espaços em branco à direita
        match = format_pat.match(line)  # Verifica se a linha corresponde ao padrão esperado
        if match:
            access = match.groupdict()  # Extrai os campos nomeados do padrão
            request = access['request']  # Obtém o campo 'request'
            fields = request.split()  # Divide a string 'request' em partes

            # Verifica se o formato do request é válido e igual a 3 partes
            if len(fields) == 3:
                action, URL, protocol = fields  # Desempacota as partes em variáveis

                # Filtra URLs que contenham "/feed"
                if "/feed" in URL:
                    FeedRequests.append(line)  # Adiciona a linha do log à lista para análise
                    continue  # Pula a contagem para essas URLs
                
                # Apenas conta requests do tipo GET
                if action == "GET":
                    if URL in URLCounts:
                        URLCounts[URL] += 1  # Incrementa a contagem para a URL ja existente
                    else:
                        URLCounts[URL] = 1  # Inicializa a contagem para uma nova URL

# Ordena os resultados com base na contagem das URLs
results = sorted(URLCounts, key=lambda i: URLCounts[i], reverse=True)

# Exibe as 20 URLs mais acessadas
print("Top 20 URLs:")
for result in results[:20]:
    print(result + ": " + str(URLCounts[result]))

# Analisa as entradas relacionadas a "/feed"
print("\nEntradas do log para '/feed':")
for feed_request in FeedRequests[:10]:  # Exibe as primeiras 10 entradas para análise
    print(feed_request)


NameError: name 'logPath' is not defined