# HTTP 1.0 & HTTP 1.1 Header Parser

O objetivo do automato finito é fazer a validação dos cabeçalhos de requisição do protocolo HTTP nas versões 1.0 e 1.1 conforme especicado nas RFC's [1945](https://www.rfc-editor.org/rfc/rfc1945) e [2616](https://www.rfc-editor.org/rfc/rfc2616) respectivamente.

Importante destacar que a RFC define as práticas ideais que os serviços Web devem aderir para poder trabalhar com esses protocolos, porém cada implementação pode não seguir todos as especificações. Um exemplo é o carriage return `\r`, a RFC define que cada nova linha deve ser definida com a seguência de caracteres `\r\n`, porém na implementação dos principais servidores Web (Apache, Nginx, etc.) a presença do caracter `\r` é facultativo.

Dessa forma, o automato irá implementar o definido nas RFC's, contudo em testes práticos em servidores web podem haver divergências.

## Objetivo

Uma requisição HTTP pode passar diversos cabeçalhos. Por exemplo, ao acessar o site da [UFABC](https://www.ufabc.edu.br) são enviados os seguintes cabeçalhos:

```
GET / HTTP/1.1
Host: www.ufabc.edu.br
User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/115.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8
Accept-Language: pt-BR,pt;q=0.8,en-US;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate, br
Referer: https://www.google.com/
Connection: keep-alive
Cookie: _ga=GA1.1.320516510.1625328328; _ga_C810D482LG=GS1.1.1707175485.6.1.1707176104.60.0.0; _ga_21H450NGNH=GS1.3.1695872057.4.0.1695872057.0.0.0
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: cross-site
Sec-Fetch-User: ?1
Pragma: no-cache
Cache-Control: no-cache
```

Porém os dados que são obrigatórios na requisição `HTTP/1.0` é apenas o o método da requisição, o local de destino e a versão do protocolo. Por exemplo:
```
GET /my-path HTTP/1.0
```

Já na versão `HTTP/1.1` passa a ser obrigatório também o cabeçalho `Host`. No caso do primeiro exemplo:
```
GET / HTTP/1.1
Host: www.ufabc.edu.br
```

## Dependências

Inicialmente devemos instalar as dependências do projeto que será implementado utilizando `python 3`.

A biblioteca `automathon` deve ser instalado utilizando o comando `pip`

In [1]:
!pip install automathon --upgrade

  from cryptography.utils import int_from_bytes
  from cryptography.utils import int_from_bytes
Defaulting to user installation because normal site-packages is not writeable
Collecting automathon
  Downloading automathon-0.0.13.tar.gz (20 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting graphviz==0.16
  Downloading graphviz-0.16-py2.py3-none-any.whl (19 kB)
Building wheels for collected packages: automathon
  Building wheel for automathon (setup.py) ... [?25ldone
[?25h  Created wheel for automathon: filename=automathon-0.0.13-py3-none-any.whl size=18929 sha256=b8ee4854975fa8f3146a6db85fd0b7244c90d98c7b3ecf2570672074a637f4b1
  Stored in directory: /home/felipe/.cache/pip/wheels/fd/42/c6/2b218ac52d99327eb9b31775b61befc69bbf070190516fea5e
Successfully built automathon
Installing collected packages: graphviz, automathon
Successfully installed automathon-0.0.13 graphviz-0.16
[0m

Caso o projeto esteja sendo executado localmente e a visualização do automato não esteja sendo possível de ser apresentada, pode ser necessário instalar `graphviz`. No caso de sistemas Linux baseados em pacotes `.deb` isso pode ser feito executando no terminal.

```bash
sudo apt install graphviz
```

## Automato

Inicialmente definimos um automato finito não determinístico, de estado inicial `q1` e estado final `qf`.

A quantidade de estados definidos na variável `q` será acrescida conforme forem apresentadas as lógicas de cada transição para um melhor entendimento.

O alfabeto `sigma` do automato é o conjunto de caracteres alfanuméricos e os carecteres `-`, ` `, `\r`, `\n`, `.`, `:`, `-`, `/`

As transições de estados `delta` será complemetada conforme a lógica for explicada, assim como os estados `q`.

In [26]:
from automathon import NFA

# Criação da estrutura set em python de forma mais prática
alphanumeric = set("0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ")
special_symbols = set("-\r\n.:/*") 

# Dessa maneira concatenamos as duas estruturas set no nosso alfabeto sigma
sigma = alphanumeric.union(special_symbols)

Q = {'q0', 'qf'}
delta = {}
initial_state = 'q0'
f = {'qf'}

print("Alfabeto: {}".format(sigma))

Alfabeto: {'P', 'Y', 'h', 'a', 'H', 'o', '1', 'z', 'B', 'G', 'W', '5', 'x', '\r', 'J', 'b', 'w', 'e', 'U', '-', 'E', 't', '\n', '.', '3', '4', '9', 'c', 'u', '/', '7', 'S', '6', 'F', 'C', 'g', 'K', 'D', '2', 'O', 'f', 'Z', 'N', 'y', 'L', 'i', 'l', 'v', 'I', ':', 'r', 'M', '0', 'q', 'A', 'n', 'm', 'R', 'Q', '*', '8', 'X', 'V', 'j', 'k', 'p', 's', 'T', 'd'}


Primeira etapa é definir as transações dos métodos HTTP.

Os métodos são: `OPTIONS`, `GET`, `HEAD`, `POST`, `PUT`, `TRACE`, `DELETE`

![image.png](attachment:image.png)

In [27]:
delta['q0'] = {
    'O':{'q12'},
    'G':{'q1'},
    'H':{'q8'},
    'P':{'q2','q19'},
    'T':{'q28'},
    'D':{'q22'}
}

print(delta)

{'q0': {'O': {'q12'}, 'G': {'q1'}, 'H': {'q8'}, 'P': {'q19', 'q2'}, 'T': {'q28'}, 'D': {'q22'}}}


In [28]:
# Itera sobre todas as transições para adicionar os estados no set Q

for state, transitions in delta.items():
    if state not in Q:
        Q.add(state)
    
    for symbol, next_states in transitions.items():
        for next_state in next_states:
            if next_state.startswith('q') and next_state not in Q:
                Q.add(next_state)

automata = NFA(Q, sigma, delta, initial_state, f)

if automata.is_valid():
    print("O automato é válido")
    
    automata.view("http-headers-validator")

    from IPython.display import Image
    Image(filename='http-headers-validator.gv.png')


{'O': {'q12'}, 'G': {'q1'}, 'H': {'q8'}, 'P': {'q19', 'q2'}, 'T': {'q28'}, 'D': {'q22'}}
q12
q1
q8
q19
q2
q28
q22
{'q19', 'q12', 'q0', 'q2', 'q8', 'q22', 'q1', 'qf', 'q28'}
O automato é válido


### Implementação

Para fazer um teste prático do automato um cenário real será proposto.

De um lado um servidor Web que só aceitará chamadas em `HTTP/1.0` ou `HTTP/1.1` e que aceitará os métodos `HEAD` e `GET`.

Haverá um `client` que irá montar uma requisição `HTTP` manualmente seguindo o definido nas RFC's e validado pelo automato implementado e posteriormente irá realizar a requisição no servidor Web.

É esperado que caso o a requisição seja aceita pelo automato, também seja aceita pelo servidor Web que irá fazer o retorno da requisição.

**Obs.** Caso tenha problemas em executar o código utilizando o `Google Collab` recomendamos executar o código no `Jupyter` localmente, e, caso tenha algum problema com "Portas já em uso", trocar o número das portas em ambos seguintes códigos ou fazer o `restart` do Kernel do Jupyter.

In [1]:
# Código do servidor Web

from http.server import HTTPServer, BaseHTTPRequestHandler
import threading

class MyHTTPRequestHandler(BaseHTTPRequestHandler):
    def do_GET(self):
        # Check if the HTTP version is supported
        if self.protocol_version not in ['HTTP/1.0', 'HTTP/1.1']:
            self.send_error(505, "HTTP Version Not Supported")
            return
        
        # Send response with 200 OK
        self.send_response(200)
        self.end_headers()
        self.wfile.write(b"[Linguagens Formais e Automata]\nServidor Web Funcionando!")

# Set up the HTTP server
server_address = ('', 8003)  # Use any available interface on port 8000
httpd = HTTPServer(server_address, MyHTTPRequestHandler)
# Start the server in a separate thread

server_thread = threading.Thread(target=httpd.serve_forever)
server_thread.daemon = True
server_thread.start()

print('HTTP server running on port 8003...')

HTTP server running on port 8003...


In [2]:
import socket

# Define the HTTP request for HTTP/1.0
request_http_1_0 = (
    "GET / HTTP/1.0\r\n"
    "Host: localhost:8003\r\n"
    "Connection: close\r\n"
    "\r\n"
)

# Define the HTTP request for HTTP/1.1
request_http_1_1 = (
    "GET / HTTP/1.1\r\n"
    "Host: localhost:8003\r\n"
    "Connection: close\r\n"
    "\r\n"
)

# Send HTTP/1.0 request
with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
    s.connect(('localhost', 8003))
    s.sendall(request_http_1_0.encode())
    response = s.recv(1024)
    print('Response from HTTP/1.0 request:')
    print(response.decode())

# Send HTTP/1.1 request
with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
    s.connect(('localhost', 8003))
    s.sendall(request_http_1_1.encode())
    response = s.recv(1024)
    print('Response from HTTP/1.1 request:')
    print(response.decode())



ION
Response from HTTP/1.0 request:
HTTP/1.0 200 OK
Server: BaseHTTP/0.6 Python/3.7.3
Date: Sun, 24 Mar 2024 17:51:26 GMT


Response from HTTP/1.1 request:
HTTP/1.0 200 OK
Server: BaseHTTP/0.6 Python/3.7.3
Date: Sun, 24 Mar 2024 17:51:26 GMT

[Linguagens Formais e Automata]
Servidor Web Funcionando!
BLAAa


127.0.0.1 - - [24/Mar/2024 14:51:26] "GET / HTTP/1.0" 200 -
127.0.0.1 - - [24/Mar/2024 14:51:26] "GET / HTTP/1.1" 200 -
