# Trabalho 1 LF - Análise Lexica
Trio Show foda

Cria classe

In [None]:
class Dfa:
  """
    Uma classe usada para representar um autômato finito determinístico

    Attributes
    ----------
    s0 : int
      Um número inteiro representando a posição do estado inicial na lista de estados
    sf: list
      Uma lista contendo todos os estados finais do autômato
    q: list
      Uma lista contendo todos os estados do autômato
    alpha: list
      Uma lista contendo o alfabeto do autômato
    delta: list
      Uma matriz contendo todas as transições do autômato

    Methods
    -------
    trans(self, state, ch)
        Função que executa uma transição
  """
  def __init__(self, s0, sf, q, alpha, delta):
    """
    Parameters
    ----------
    s0 : int
      Um número inteiro representando a posição do estado inicial na lista de estados
    sf: list
      Uma lista contendo todos os estados finais do autômato
    q: list
      Uma lista contendo todos os estados do autômato
    alpha: list
      Uma lista contendo o alfabeto do autômato
    delta: list
      Uma matriz contendo todas as transições do autômato
  """
    self.s0 = s0
    self.sf = sf
    self.q = q
    self.alpha = alpha
    self.delta = delta

  def trans(self, state, ch):
    """ Executa uma transição

     Dado um estado e um símbolo retorna um estado correspondente à transição do autômato ou um erro caso nenhuma transição não exista 
     
     Parameters
     ----------
        state : int
            Um número inteiro representando a posição do estado na lista de estados
        ch: str
            Um símbolo
     Raises
     ------
        ValueError
           Se a transição com o estado e símbolo passado não exista
     Returns
     -------
     int
         Um número inteiro representando a posição do estado correspondente a transição na lista de estados

    """
    try:
      return self.delta[self.q.index(state)][self.alpha.index(ch)]
    except ValueError:
      return None

## Análise Lexica de uma palavra
A análise léxica consiste em, dada uma palavra e um autômato, separar as maiores subpalavras e determina a qual token elas pertencem. Isso é útil para compilação de código, pois assim é possível converter o texto escrito pela pessoa desenvolvedora a uma série de tokens mais fáceis de serem manipulados nos passos futuros.

A ideia de separar a maior subpalavra vem naturalmente para quem já sabe programar, pois "prin" e "printa" são consideradas variáveis, enquanto "print" é o comando para escrever algo na tela.

In [None]:
"""
Dada uma palavra e um automato, retorna se há uma subpalavra a partir do início que faça parte da linguagem

word: Palavra string (ou lista de elementos) a ser verificado 
dfa: Automato finito deterministico da linguagem

Retorna a maior subpalavra aceita a partir do início ou Exception caso não haja uma palavra
"""

def word_rec(word, dfa: Dfa):
  # Inicializa o estado inicial, lexema e pilha
  state = dfa.s0
  lexema = ""
  stack = []
  
  # Para cada elemento da palavra
  for ch in word:
    # Adiciona na subpalavra
    lexema += ch
    # Se chegou a um estado final limpa a pilha
    if(state in dfa.sf):
      stack = []
    # Adiciona o estado na pilha
    stack.append(state)
    # Transiciona para o próximo estado 
    state = dfa.trans(state, ch)
    # Se deu erro, para a leitura
    if(state == None): break
  
  # Enquanto não chegou ao final e há elementos na pilha, volta até um estado final 
  while(state not in dfa.sf and len(stack) != 0):
    state = stack.pop()
    lexema = lexema[:-1]
  
  # Se chegou a um estado final, retorna a subpalavra
  if(state in dfa.sf):
    return lexema
  
  # Senao retorna erro
  raise Exception("Invalid word")

Mostra exemplos

Palavras que começam com ", qualquer caracter, terminam com "

In [None]:
#@title Entre com a palavra
s0 = 1
sf = [4]
q = [1, 2, 3, 4]
alpha = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z','A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z','0','1','2','3','4','5','6','7','8','9','"']
delta = [
  [None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,None,2],
  [3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4],
  [3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4],
  [3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4]
]

dfa = Dfa(s0, sf, q, alpha, delta)

word = "\"\"\"a" #@param {type:"string"}

word_rec(word, dfa)

'"""'

In [None]:
#@title Entre com a palavra
s0 = 1
sf = [10]
q = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
alpha = ['0','1','2','3','4','5','6','7','8','9']
delta = [
  [None, None, None, None, None, None, None, None, None, 2],
  [3, 3, 3, 3, 3, 3, 3, 3, 3, 3],
  [4, 4, 4, 4, 4, 4, 4, 4, 4, 4],
  [5, 5, 5, 5, 5, 5, 5, 5, 5, 5],
  [6, 6, 6, 6, 6, 6, 6, 6, 6, 6],
  [7, 7, 7, 7, 7, 7, 7, 7, 7, 7],
  [8, 8, 8, 8, 8, 8, 8, 8, 8, 8],
  [9, 9, 9, 9, 9, 9, 9, 9, 9, 9],
  [10, 10, 10, 10, 10, 10, 10, 10, 10, 10],
  [None, None, None, None, None, None, None, None, None, None]
]

dfa = Dfa(s0, sf, q, alpha, delta)

word = "912345678a4534" #@param {type:"string"}

word_rec(word, dfa)

'912345678'