<a href="https://colab.research.google.com/github/ramonparaiba/regex-notebook/blob/main/Lista_Exercicios_Regex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import re

In [None]:
#Questão 1: Expressões Regulares - Reconhecimento de Identificadores

^[a-zA-Z][a-zA-Z0-9_]{1,14}$

# ^: Início da string.
# [a-zA-Z]: O primeiro caractere deve ser uma letra (maiúscula ou minúscula).
# [a-zA-Z0-9_]: Os caracteres seguintes podem ser letras, dígitos ou sublinhado.
# {1,14}: O identificador deve ter de 2 a 15 caracteres no total (já contando o primeiro).
# $: Fim da string.

In [8]:
#Exemplo

identificadores = ["variavel1", "_invalido", "a123", "muitoLongoIdentificadorQueNaoDeveSerValido", "x", "outro_valido"]

regex_identificador = re.compile(r'^[a-zA-Z][a-zA-Z0-9_]{1,14}$')


for identificador in identificadores:
  if regex_identificador.findall(identificador):
    print(f'{identificador} ----- é um identificador válido')
  else:
    print(f'{identificador} ----- NÃO é um identificador válido')


variavel1 ----- é um identificador válido
_invalido ----- NÃO é um identificador válido
a123 ----- é um identificador válido
muitoLongoIdentificadorQueNaoDeveSerValido ----- NÃO é um identificador válido
x ----- NÃO é um identificador válido
outro_valido ----- é um identificador válido


In [None]:
#Questão 2: Expressões Regulares - Números Inteiros e Reais

#Números inteiros (positivos ou negativos):

^-?[0-9]+$

# ^-?: O número pode ter um sinal negativo opcional (-).
# [0-9]+: Deve conter ao menos um dígito.

#Números reais:

^-?[0-9]+(\.[0-9]+)?$

# ^-?: O número pode ser negativo.
# [0-9]+: Parte inteira.
# (\.[0-9]+)?: Parte fracionária opcional, com ponto decimal seguido de pelo menos um dígito.

In [9]:
#Exemplo

# Expressões regulares para números inteiros e reais
regex_inteiro = re.compile(r'^-?[0-9]+$')
regex_real = re.compile(r'^-?[0-9]+(\.[0-9]+)?$')

# Exemplos de números
numeros = ["123", "-45", "3.14", "0.5", "-.9", "-10.0", "abc", "12."]

# Verificar quais são números inteiros e reais
for numero in numeros:
    if regex_inteiro.findall(numero):
        print(f"'{numero}' ---- é um número inteiro.")
    elif regex_real.findall(numero):
        print(f"'{numero}' ---- é um número real.")
    else:
        print(f"'{numero}' ---- não é um número válido.")


'123' ---- é um número inteiro.
'-45' ---- é um número inteiro.
'3.14' ---- é um número real.
'0.5' ---- é um número real.
'-.9' ---- não é um número válido.
'-10.0' ---- é um número real.
'abc' ---- não é um número válido.
'12.' ---- não é um número válido.


In [None]:
#Questão 3: Expressões Regulares - Strings Literais

"([^"\n\\]|\\.)*"

# ": A string começa com uma aspa dupla.
# ([^"\n\\]|\\.)*: Aceita qualquer caractere, exceto aspas duplas, novas linhas (\n) ou barra invertida (\), a menos que sejam escapados com \\.
# ": A string termina com uma aspa dupla.

In [10]:
#Exemplo

# Expressão regular para strings literais
regex_string = re.compile(r'"([^"\n\\]|\\.)*"')

# Exemplos de strings
strings = ['"Hello, World!"', '"Linha\ninvalida"', '"Escaped \\"Quote\\""', '"Unterminated string', '""']

# Verificar quais são strings literais válidas
for string in strings:
    if regex_string.findall(string):
        print(f"'{string}' ----- é uma string literal válida.")
    else:
        print(f"'{string}' ----- não é uma string literal válida.")

'"Hello, World!"' ----- é uma string literal válida.
'"Linha
invalida"' ----- não é uma string literal válida.
'"Escaped \"Quote\""' ----- é uma string literal válida.
'"Unterminated string' ----- não é uma string literal válida.
'""' ----- é uma string literal válida.


In [None]:
#Questão 4: Tokens e Categorias - Analisador Léxico Simples

Código:
int valor = 10;
se (valor > 5) {
  escreva("Valor maior que 5");
}

# int --------- Palavra-chave
# valor --------- Identificador
# = --------- Operador de atribuição
# 10 --------- Constante numérica
# ; --------- Símbolo
# se --------- Palavra-chave
# ( --------- Símbolo
# valor --------- Identificador
# > --------- Operador relacional
# 5 --------- Constante numérica
# ) --------- Símbolo
# { --------- Símbolo
# escreva --------- Palavra-chave
# ( --------- Símbolo
# "Valor maior que 5" --------- String literal
# ) --------- Símbolo
# } --------- Símbolo

**Questão 5: Geração de Tokens via Expressão Regular**

In [None]:
#a) Palavra-chave (exemplo: int, se, escreva):

\b(int|se|escreva)\b

#\b: Define uma borda de palavra para garantir que seja um token isolado.

In [None]:
#b) Operador de Atribuição (exemplo: =):

\b = \b

In [None]:
#c) Operadores Relacionais (exemplo: >, <, ==):

(>|<|==|!=)

In [None]:
#d) Constante Numérica Inteira:

-?\b[0-9]+\b

In [None]:
#e) String Literal:

"([^"\n\\]|\\.)*"

In [13]:
#Exemplo

# Expressões regulares para diferentes tokens
regex_palavra_chave = re.compile(r'\b(int|se|escreva)\b')
regex_operador_atribuicao = re.compile(r'\b = \b')
regex_operador_relacional = re.compile(r'(>|<|==|!=)')
regex_constante_numerica = re.compile(r'(?<!")\b-?\d+(?:\.\d+)?\b(?!")')
regex_string_literal = re.compile(r'"([^"\\]*(\\.[^"\\]*)*)"')

# Exemplo de código fictício
codigo = '''
int valor = 10;
se (valor > 5) {
  escreva("Valor maior que 5");
}
'''

# Encontrar tokens no código usando regex
palavras_chave = regex_palavra_chave.findall(codigo)
operadores_atribuicao = regex_operador_atribuicao.findall(codigo)
operadores_relacionais = regex_operador_relacional.findall(codigo)
constantes_numericas = regex_constante_numerica.findall(codigo)
strings_literais = regex_string_literal.findall(codigo)

# Exibir os tokens encontrados
print("Palavras-chave:", palavras_chave)
print("Operadores de atribuição:", operadores_atribuicao)
print("Operadores relacionais:", operadores_relacionais)
print("Constantes numéricas:", constantes_numericas)
print("Strings literais:", strings_literais)

Palavras-chave: ['int', 'se', 'escreva']
Operadores de atribuição: [' = ']
Operadores relacionais: ['==']
Constantes numéricas: ['10', '5']
Strings literais: [('Valor maior que 5', '')]
