In [42]:
import pandas as pd
from collections import OrderedDict as od
import string

In [43]:
def reserved_words_and_counts(csv_df):
    """
    Analisa um DataFrame contendo strings e extrai palavras reservadas, juntamente com suas contagens de caracteres.

    Parâmetros:
    - csv_df (pandas.DataFrame): O DataFrame contendo strings a serem analisadas.

    Retorna:
    lista: Uma lista de dicionários, cada um contendo informações sobre uma palavra reservada, incluindo a própria palavra
        e a contagem de caracteres. O formato do dicionário é o seguinte:
        [
            {"word": str, "size": int},
            {"word": str, "size": int},
            ...
        ]

    Nota:
    - Palavras reservadas são identificadas como strings em minúsculas, excluindo o caractere '<'.
    - A função calcula o tamanho (contagem de caracteres) de cada palavra reservada.
    - A lista retornada contém dicionários com informações sobre cada palavra reservada e seu tamanho.
    """
    reserved_words = [row for row in csv_df.values for char in row if char.islower() and char != "<"]         
    size = [len(c) for word in reserved_words for c in word]
    
    json_data = []
    for word, size in zip(reserved_words, size):
        json = {
            "word": word,
            "size": size
        }
        json_data.append(json)
    
    return json_data


In [44]:
def extract_terminals(csv_df):
    """
    Extrai as letras terminais das palavras reservadas obtidas ao analisar um DataFrame contendo strings.

    Parâmetros:
    - csv_df (pandas.DataFrame): O DataFrame contendo strings a serem analisadas.

    Retorna:
    lista: Uma lista de letras terminais individuais obtidas das palavras reservadas.

    Nota:
    - Esta função depende da função 'reserved_words_and_counts' para identificar palavras reservadas e suas contagens.
    - A função extrai letras individuais das palavras reservadas para criar uma lista de letras terminais.
    """
    reserved_words = [row["word"] for row in reserved_words_and_counts(csv_df)]
    
    terminal_letters = [c for word in reserved_words for char in word for c in char]
    return terminal_letters

In [45]:
def unique_terminal_letters(csv_df):
    """
    Extrai letras terminais únicas de um DataFrame contendo strings.

    Parâmetros:
    - csv_df (pandas.DataFrame): O DataFrame contendo strings a serem analisadas.

    Retorna:
    lista: Uma lista de letras terminais únicas encontradas nas strings.

    Nota:
    - A função ignora letras maiúsculas, 'ε' (épsilon) e caracteres não alfabéticos.
    - Utiliza o 'collections.OrderedDict' para preservar a ordem das letras terminais únicas.
    """
    terminal_letters = list(od.fromkeys((c for row in csv_df.values for char in row for c in char if c.islower() and c != 'ε')))
    return terminal_letters

In [46]:
def create_afnd_skeleton(csv_df):
    """
    Cria o esqueleto de um AFND (Autômato Finito Não Determinístico) representado como um DataFrame.

    Parâmetros:
    - csv_df (pandas.DataFrame): O DataFrame contendo strings a serem analisadas.

    Retorna:
    pandas.DataFrame: O esqueleto do AFND representado como um DataFrame com cabeçalhos de coluna apropriados.

    Nota:
    - O DataFrame inclui colunas para o alfabeto ('sigma') e letras terminais.
    - As linhas representam estados no AFND.
    - A primeira linha é o estado inicial ('S'), e as linhas subsequentes representam estados rotulados com letras maiúsculas.
    - Células vazias indicam transições que não estão definidas.
    """
    terminal_letters = unique_terminal_letters(csv_df)
    afnd_skeleton_df = pd.DataFrame(columns=['sigma'] + [str(c) for c in terminal_letters])
    afnd_skeleton_df.at[0, 'sigma'] = 'S'
    
    alphabet = list(string.ascii_uppercase)
    size = len(extract_terminals(csv_df))
    
    symbols = [symbol for letters in alphabet[:size] for symbol in letters]
    for i, symbol in enumerate(symbols):
        afnd_skeleton_df.at[i+1, "sigma"] = symbol
    
    afnd_skeleton_df = afnd_skeleton_df.fillna('')
    
    return afnd_skeleton_df

In [47]:
import re

def extract_variables_df(csv_df):
    """
    Extrai informações sobre variáveis de um DataFrame contendo strings.

    Parâmetros:
    - csv_df (pandas.DataFrame): O DataFrame contendo strings a serem analisadas.

    Retorna:
    lista: Uma lista de dicionários, cada um contendo informações sobre uma variável, incluindo o símbolo,
        terminais associados e variáveis associadas. O formato do dicionário é o seguinte:
        [
            {"symbol": str, "terminals": list, "variables": list},
            {"symbol": str, "terminals": list, "variables": list},
            ...
        ]

    Nota:
    - A função utiliza expressões regulares para encontrar padrões de símbolos e variáveis nas strings do DataFrame.
    - O resultado é uma lista de dicionários contendo informações sobre cada variável encontrada.
    """
    
    symbol_pattern = r'<[A-Z]> ::='
    variable_pattern = r'([a-z])<([A-Z])>'
    
    lines = [str(row) for row in csv_df.values if re.search(symbol_pattern, str(row)) for char in row]
    
    rg = []
    
    for line in lines:       
        symbol = [match[1] for match in re.findall(symbol_pattern, line) if re.search(variable_pattern, line)]
        terminals = [match[0] for match in re.findall(variable_pattern, line)]
        variables = [match[1] for match in re.findall(variable_pattern, line)]
        
        json = {
            "symbol": symbol,
            "terminals": terminals,
            "variables": variables
        }
        rg.append(json)
    return rg

In [48]:
import re

def extract_variables_list(words):
    """
    Extrai informações sobre variáveis de uma lista de palavras.

    Parâmetros:
    - words (list): A lista de palavras a serem analisadas.

    Retorna:
    lista: Uma lista de dicionários, cada um contendo informações sobre uma variável, incluindo o símbolo,
        terminais associados e variáveis associadas. O formato do dicionário é o seguinte:
        [
            {"symbol": str, "terminals": list, "variables": list},
            {"symbol": str, "terminals": list, "variables": list},
            ...
        ]

    Nota:
    - A função utiliza expressões regulares para encontrar padrões de símbolos e variáveis na lista de palavras.
    - Os símbolos são identificados com base nos valores adjacentes à ocorrência do "::=" na lista.
    - Os resultados são organizados em uma lista de dicionários, cada um representando uma variável.
    """
    
    variable_pattern = r'([a-z])<([A-Z])>'
    
    symbols = [re.sub(r'[^a-zA-Z]', '', words[i - 1]) for i, value in enumerate(words) if value == '::=']
    
    result_lists = []
    current_list = []
    collect_values = False

    # Iterate through the input list
    for item in words:
        # Check if "[" is found, and stop collecting values if so
        if "[" in item:
            if current_list:
                result_lists.append(current_list)
                current_list = []
            collect_values = False
        # If collect_values is True and the item is not at index 0 or 1, remove "[" and "]" and add the item to the current_list
        if collect_values and words.index(item) not in [0, 1]:
            item = item.strip("[]")
            current_list.append(item)
        # Check if item is at index 1, and start collecting values if so
        if item == "::=":
            collect_values = True

    # Append the last current_list if it is not empty
    if current_list:
        result_lists.append(current_list)

    rg = []
    
    for i, symbol in enumerate(symbols):
        terminals = []
        variables = []
        for j, word in enumerate(result_lists[i]):
            if re.search(variable_pattern, word) is None:
                continue
            terminals.append([match[0] for match in re.findall(variable_pattern, word) if re.search(variable_pattern, word) is not None])
            variables.append([match[1] for match in re.findall(variable_pattern, word) if re.search(variable_pattern, word) is not None])
            (variables)
            
        json = {
            "symbol": symbol,
            "terminals": terminals,
            "variables": variables
        }
        rg.append(json)   
    return rg

In [49]:
import re

def replace_variables(afnd_df, csv_df, last_state):
    """
    Substitui as variáveis em um AFND (Autômato Finito Não Determinístico) representado como um DataFrame.

    Parâmetros:
    - afnd_df (pandas.DataFrame): O DataFrame representando o AFND.
    - csv_df (pandas.DataFrame): O DataFrame contendo strings com definições de variáveis.
    - last_state (str): O último estado no AFND antes da substituição.

    Retorna:
    tuple: Uma tupla contendo o DataFrame atualizado do AFND e uma lista de palavras modificadas.

    Nota:
    - A função substitui as variáveis nos estados do AFND com novos símbolos, começando após o último estado original.
    - Os novos símbolos são gerados com base nas letras do alfabeto em ordem.
    - A função preserva a estrutura original das palavras, substituindo as variáveis correspondentes.
    - A lista de palavras modificadas é retornada junto com o DataFrame atualizado.
    """
    
    alphabet = list(string.ascii_uppercase)
    variable_pattern = r'([a-z])<([A-Z])>'
    
    old_variables = list(od.fromkeys(variable for line in extract_variables_df(csv_df) for variable in line["variables"]))
    new_states_count = len(old_variables)
    index_last_state = alphabet.index(last_state) + 1
    total = new_states_count + index_last_state
    symbols = [symbol for letters in alphabet[index_last_state:total] for symbol in letters]

    # Update the "sigma" column in afnd_df starting from the end
    for i, symbol in enumerate(symbols, start=index_last_state):
        afnd_df.at[i+1, "sigma"] = symbol

    lines = [str(row) for row in csv_df.values if re.search(variable_pattern, str(row)) for char in row]
    words_original = [word for sentence in lines for word in sentence.split()]
    words = words_original.copy()

    new_variables = []

    for i in range(new_states_count):
        for j, word in enumerate(words):
            match = re.search(variable_pattern, word)
             
            if match is None:
                continue
                
            if match.group(2) == old_variables[i]:
                words[j] = f"{match[1]}<{symbols[i]}>"
                json_data = {
                    "old_variable": old_variables[i],
                    "new_variable": symbols[i]
                }
                new_variables.append(json_data)
    
    
    def generate_same_structure(original_structure, new_structure):
        result_structure = []

        for orig, new in zip(original_structure, new_structure):
            if isinstance(orig, list):
                result_structure.append(generate_same_structure(orig, new))
            else:
                # Preserve the original square brackets
                result_structure.append(orig[0] + new[1:-1] + orig[-1])

        return result_structure
    
    words = generate_same_structure(words_original, words)
    words = [word.replace('||', '|') for word in words]
    for data in new_variables:
        words = [word.replace(f'<{data["old_variable"]}>', f'<{data["new_variable"]}>') for word in words]
                
    new_variables = [dict(t) for t in {tuple(d.items()) for d in new_variables}]
    new_variables = sorted(new_variables, key=lambda k: k['new_variable'])
    
    afnd_df = afnd_df.fillna('')
    
    return afnd_df, words

In [50]:
def populate_variables(afnd_df, words):
    """
    Preenche o AFND (Autômato Finito Não Determinístico) com informações sobre variáveis.

    Parâmetros:
    - afnd_df (pandas.DataFrame): O DataFrame representando o AFND.
    - words (list): A lista de palavras contendo informações sobre variáveis.

    Retorna:
    pandas.DataFrame: O DataFrame do AFND atualizado com informações sobre variáveis.

    Nota:
    - A função extrai informações sobre variáveis a partir da lista de palavras e popula as células correspondentes no AFND.
    - Os dados são preenchidos nas células do AFND de acordo com as informações sobre variáveis encontradas.
    """
    new_variables = extract_variables_list(words)
    
    for new_variable in new_variables:
        for i, terminals, variables in zip(range(len(new_variable["terminals"])), new_variable["terminals"], new_variable["variables"]):
            for terminal, variable in zip(terminals, variables):
                if afnd_df.loc[afnd_df['sigma'] == new_variable["symbol"], terminal].isna().all(): # Se a 
                    afnd_df.loc[afnd_df['sigma'] == new_variable["symbol"], terminal] = variable
                    continue
                afnd_df.loc[afnd_df['sigma'] == new_variable["symbol"], terminal] += f"{',' if afnd_df.loc[afnd_df['sigma'] == new_variable['symbol'], terminal].any() else ''}{variable}"
    return afnd_df

In [51]:
def create_afnd(csv_df):
    """
    Cria um AFND (Autômato Finito Não Determinístico) representado como um DataFrame.

    Parâmetros:
    - csv_df (pandas.DataFrame): O DataFrame contendo strings a serem analisadas.

    Retorna:
    pandas.DataFrame: O DataFrame representando o AFND gerado.

    Nota:
    - A função cria o esqueleto do AFND utilizando a função 'create_afnd_skeleton'.
    - Em seguida, preenche o AFND com transições com base nas palavras reservadas e variáveis do DataFrame de entrada.
    """

    afnd_df = create_afnd_skeleton(csv_df) 
    
    reserved_counts = reserved_words_and_counts(csv_df)  
    alphabet = list(string.ascii_uppercase)
    last_state = 'S'
    final_state = []
    flag = False
    
    for row in reserved_counts: 
        
        initial_state = 'S'
        
        word = [c for char in row["word"] for c in char]
        
        for index, char in enumerate(word): 
            if not final_state: # Se estiver vazio
                if not flag: 
                    afnd_df.loc[afnd_df['sigma'] == initial_state, char] = alphabet[index]
                    last_state = alphabet[index] 
                    flag = True
                    continue 
                  
                if flag and last_state == alphabet[0]:
                    afnd_df.loc[afnd_df['sigma'] == last_state, char] = alphabet[1]   
                    last_state = alphabet[1]           
            else:      
                if last_state[-1] in (final_state):
                    if not afnd_df.loc[afnd_df['sigma'] == last_state, char].isna().all():
                        afnd_df.loc[afnd_df['sigma'] == initial_state, char] += f"{',' if afnd_df.loc[afnd_df['sigma'] == initial_state, char].any() else ''}{alphabet[alphabet.index(last_state) + 1]}"
                        last_state = alphabet[((alphabet.index(last_state) + 1))]
                    continue
                
                afnd_df.loc[afnd_df['sigma'] == last_state, char] = alphabet[((alphabet.index(last_state) + 1))]   
                last_state = alphabet[((alphabet.index(last_state) + 1))] 
                      
        final_state.append(last_state)
    afnd_df, words = replace_variables(afnd_df, csv_df, last_state)
    
    afnd_df = populate_variables(afnd_df, words)
    return afnd_df

csv_df = pd.read_csv('./entrada.csv',  header=None)
csv_df

afnd_df = create_afnd(csv_df)
afnd_df

Unnamed: 0,sigma,s,e,n,t,a,o,i,u
0,S,"A,H","C,M",,,M,M,M,
1,A,,B,,,,,,
2,B,,,,,,,,
3,C,,,D,,,,,
4,D,,,,E,,,,
5,E,,,,,F,,,
6,F,,,,,,G,,
7,G,,,,,,,,
8,H,,I,,,,,,
9,I,,,J,,,,,


In [52]:
def determinize_afnd(afnd_df):
    """
    Determiniza um AFND (Autômato Finito Não Determinístico) representado como um DataFrame.

    Parâmetros:
    - afnd_df (pandas.DataFrame): O DataFrame representando o AFND.

    Retorna:
    pandas.DataFrame: O DataFrame representando o AFD (Autômato Finito Determinístico) determinizado.

    Nota:
    - A função cria uma cópia do DataFrame de AFND e realiza o processo de determinização.
    - A determinização é feita combinando transições não determinísticas e criando novos estados no AFD.
    """
    afd_df = afnd_df.copy() # Cria uma cópia do DataFrame de AFND
    states_to_process = [0] # Inicializa a lista de estados a serem processados
    processed_states = set() # Conjunto para manter controle dos estados já processados
    indeterminisms = {}
    
    while states_to_process: # Processa os estados até que a lista esteja vazia
        # Pega o próximo estado a ser processado
        current_state_idx = states_to_process.pop(0)
        current_state = afd_df.iloc[current_state_idx, 0]

        if current_state in processed_states: # Verifica se o estado já foi processado
            continue

        processed_states.add(current_state) # Adiciona o estado atual ao conjunto de estados processados

        for symbol in afd_df.columns[1:]: # Itera sobre os símbolos do alfabeto (terminais)
            if symbol != 'sigma':
                combined_transitions = []

                for state in current_state.split(','):
                    transitions = afnd_df.loc[afnd_df['sigma'] == state, symbol].values[0]
                    combined_transitions.extend(transitions.split(',') if pd.notna(transitions) else [])

                if len(combined_transitions) > 1:
                    combined_transitions = sorted(combined_transitions)
                    new_value = f"[{''.join(combined_transitions)}]" if len(combined_transitions) > 1 else ''.join(
                        combined_transitions)

                    afd_df.at[current_state_idx, symbol] = new_value  # Atualiza a transição na tabela AFD

                    indeterminisms.setdefault(new_value, set()).update(combined_transitions) # Adiciona os valores ao dicionário de indeterminismos (Ex: {'[AH]': {'A', 'H'}, '[CM]': {'M', 'C'}})

                    # Se o novo estado não foi processado, adiciona-o para processamento
                    if new_value not in processed_states:
                        indices = afd_df.index[afd_df['sigma'] == new_value]
                        states_to_process.extend(indices)
                        
        for new_value, combined_transitions in indeterminisms.items(): 
            combined_transitions = sorted(combined_transitions)
            new_row = pd.Series([new_value] + [''] * (afd_df.shape[1] - 1), index=afd_df.columns)
            afd_df = pd.concat([afd_df, new_row.to_frame().T], ignore_index=True)
            
            for state in combined_transitions: 
                state_row = afnd_df.loc[afnd_df['sigma'] == state].iloc[0]
                afd_df.loc[afd_df['sigma'] == new_value, afnd_df.columns[1:]] += state_row[afnd_df.columns[1:]]

    return afd_df

afd_df = determinize_afnd(afnd_df)
afd_df

Unnamed: 0,sigma,s,e,n,t,a,o,i,u
0,S,[AH],[CM],,,M,M,M,
1,A,,B,,,,,,
2,B,,,,,,,,
3,C,,,D,,,,,
4,D,,,,E,,,,
5,E,,,,,F,,,
6,F,,,,,,G,,
7,G,,,,,,,,
8,H,,I,,,,,,
9,I,,,J,,,,,
