# Expresiones Regulares y Autómatas Finitos
Notas de clase sobre Teoría de la Compilación

**Juan David Velásquez Henao**   
jdvelasq@unal.edu.co  
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia  

[Licencia](https://github.com/jdvelasq/teoria-de-la-compilacion/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/teoria-de-la-compilacion/blob/master/readme.md)

**Software utilizado**.

> Este es un documento interactivo escrito como un notebook de [Jupyter](http://jupyter.org), en el cual se presenta una introducción al diseño de lectores, generadores, traductores, interpretes y compiladores. Los notebooks de Jupyter permiten incoporar simultáneamente código, texto, gráficos y ecuaciones. El código presentado en este notebook puede ejecutarse en los sistemas operativos Windows, Linux y OS X.

> Haga click [aquí](https://github.com/jdvelasq/guias-de-instalacion) para obtener instrucciones detalladas sobre como instalar Jupyter en Windows y Mac OS X.

> Haga clic [aquí](http://nbviewer.jupyter.org/github/jdvelasq/teoria-de-la-compilacion/blob/master/tcc-03-expreg-y-automatas.ipynb) para ver la última versión de este documento en nbviewer.

> Descargue la última versión de este documento, los archivos de datos y los programas en Python a su disco duro; luego, carguelos y ejecutelos en línea en [Try Jupyter!](https://try.jupyter.org)

#### Contenido

> * [Introducción](#Introducción)
    * [Definiciones](#Definiciones)
    * [Proceso de reconocimiento](#Proceso-de-reconocimiento)
* [Expresiones Regulares](#Expresiones-Regulares)
    * [Expresión regular](#Expresión-regular)
    * [Operaciones](#Operaciones)
    * [Ejemplo](#Ejemplo)
* [`grep.py` - Búsqueda usando expresiones regulares](#grep.py---Búsqueda-usando-expresiones-regulares)
    * [Operadores](#Operadores)
    * [Ejemplos](#Ejemplos)
* [Autómatas Finitos](#Autómatas-Finitos)
    * [Autómata Finito Determinista (AFD)](#Autómata-Finito-Determinista)
    * [Autómata Finito no Determinista (AFN)  ](#Autómata-Finito-no-Determinista)
    * [Construcción de un AFD a partir de un AFN](#Construcción-de-un-AFD-a-partir-de-un-AFN)
* [`resplit.py` - Reconocimiento usando autómatas finitos](#resplit.py---Reconocimiento-usando-autómatas-finitos)

# Introducción

[Contenido](#Contenido)

## Definiciones

[Contenido](#Contenido)

<big>**Análisis Léxico**</big>  
Proceso que clasifica el código fuente en sus distintas partes constitutivas.

<big>**Token**</big>  
Tipo (clase) a la que pertenece una cadena de caracteres.

<big>**Lexema**</big>   
Cadena de texto (instancia del token).

<big>**Tipos comunes de tokens**</big>  
*	Palabras reservadas: `if`, `while`, `for`, `repeat`, ...
*	Números: enteros, flotantes, binarios, ...
*	Identificadores.
*	Operadores: `+`, `-`, `*`, `/`, `<`, `>=`, ...
*	Comentarios: `#`, `/* ... */`, `//`, ...
*	Otros: `;` `,` `:` ...

## Proceso de reconocimiento

[Contenido](#Contenido)

* Lectura del código fuente de izquierda a derecha y de arriba hacia abajo.  

* Identificación del lexema.  

* Clasificación del lexema en una de las clases de tokens.  

* Almacenamiento de propiedades de cada lexema.  

```
#
# 004 var n:num, i:num, j:num;
#
VAR
ID, name = n
:
DATATYPE: num
,
ID, name = i
:
DATATYPE: num
,
ID, name = j
:
DATATYPE: num
;
```

# Expresiones Regulares

[Contenido](#Contenido)

## Expresión regular

[Contenido](#Contenido)

Patrón que representa un conjunto de cadenas de caracteres (representa tokens).

* El carácter $a \in \sum$ es una expresión regular simple.  $\sum$ es el alfabeto. 

* El carácter $\epsilon$ representa la cadena vacia.

* El símbolo $\phi$ representa el conjunto vacio.

* El operador $L(\dot)$ representa las cadenas de caracteres que se obtienen a partir de una expresión regular. Ejemplo: $L(a) = \{a\},  L(\epsilon) = \{\epsilon\},  L(\phi) = \{ \}$

## Operaciones

[Contenido](#Contenido)

Sea el alfabeto $\sum = \{a, b\}$:

* Concatenación: $L(ab) = \{ ab \}$ 

* Unión: $L(a|b) = \{a, b\}$

* Repetición:  
    + $L(a^*) = \{\epsilon, a, aa, aaa, \dots\}$
    + $L(a^+) = \{a, aa, aaa, \dots\}$  

## Ejemplo

[Contenido](#Contenido)

* Sea el alfabeto $\Sigma = \{a, b, c\}$. Describa verbalmente el conjunto de cadenas generadas por las siguientes expresiones regulares:

  <br>

  * `(a|c)*b(a|c)*`

  <br>

  * `(a|c)* | (a|c)*b(a|c)*`

  <br>

  * `(a|c)* | (b(a|c)*)*`

* Sea el alfabeto $\Sigma = \{0, 1\}$. Liste las cadenas generadas por la expresión regular 
 `(0|1) 1 (0|1)` 

# `grep.py` - Búsqueda usando expresiones regulares

[Contenido](#Contenido)

## Operadores

**`.`** -- Indica cualquier carácter.  

**`^a`** -- ‘a’ cuando está al principio de la línea.  

**`a$`** -- ‘a’ cuando está al final de la línea.  

**`a*`** --	cero o más ocurrencias del carácter ‘a’.  

**`^$`** -- la línea vacía.  

In [1]:
%%sh
pygmentize -O linenos=1 -g grep.py

0001: [37m###< 2016-08-28 17:04:40.187160 >###[39;49;00m
0002: 
0003: [37m##[39;49;00m
0004: [37m##  grep.py (grep en python)[39;49;00m
0005: [37m##[39;49;00m
0006: [37m##    implementacion de grep (basico) en python[39;49;00m
0007: [37m##    (Adaptacion del codigo de Kernighan y Pike[39;49;00m
0008: [37m##    publicado en Dr Dobbs).[39;49;00m
0009: [37m##[39;49;00m
0010: 
0011: 
0012: [37m## librería para leer los argumentos de la línea de comandos[39;49;00m
0013: [34mimport[39;49;00m [04m[36msys[39;49;00m
0014: 
0015: 
0016: [37m## la búsqueda se realiza sobre la línea actual de texto[39;49;00m
0017: [34mdef[39;49;00m [32mmatch_here[39;49;00m(re, text):
0018:     [33m'''[39;49;00m
0019: [33m    Busca la cadena re al principio de la cadena text[39;49;00m
0020: [33m    por eliminación de los caracteres iguales en re y text[39;49;00m
0021: [33m[39;49;00m
0022: [33m    Ejemplo 1:[39;49;00m
0023: [33m       matchhere( ‘mundo’, ‘mundo feliz’)  # llam

## Ejemplos

[Contenido](#Contenido)

Busca la cadena de texto `def` en los archivos `yylex.py` y `yyparse.py`

In [2]:
%%sh
python grep.py def yylex.py  yyparse.py

yylex.py:def yylex(filename, quiet=False):
yylex.py:    def yyputtoken(token, lexeme, lineno):
yyparse.py:def yyparse(filename, quiet = False):
yyparse.py:    def yytext(offset=0):
yyparse.py:    def yytoken(offset=0):
yyparse.py:    def yymatch(token, offset=0):
yyparse.py:    def yyadvance(offset=1):
yyparse.py:    def yylineno():
yyparse.py:    def yyaccept(token, advance=True):
yyparse.py:    def yynewnode(kind, datatype=None, value=None, scope=None):
yyparse.py:    def program():
yyparse.py:    def var_decl():
yyparse.py:    def function_decl():
yyparse.py:    def main_prog():
yyparse.py:    def stmt_block():
yyparse.py:    def stmt():
yyparse.py:    def lexpr():
yyparse.py:    def nexpr():
yyparse.py:    def rexpr():
yyparse.py:    def simple_expr():
yyparse.py:    def term():
yyparse.py:    def factor():


Busca la cadena de texto `def` al principio de la línea en el archivo `yylex.py`.

In [3]:
%%sh
python grep.py ^def yylex.py

def yylex(filename, quiet=False):


In [4]:
%%sh
python grep.py 'msg +=' yylex.py

                msg += 'Unexpected symbol <{}>'.format(lex1)
                # msg += '--> ' + sourceCode[lineno]


Genera un archivo de texto.

In [5]:
%%bash
cat > out.txt <<EOF
00010 09001 40010 0011A
01000 010B1 011A0 0111A
19010 10A01 16010 10110
A1B80 11819 17110 1111B
00031 11015 11910 11114
11090 11041 11130 00003
EOF

Todas las líneas que contengan `000`.

In [6]:
%%sh 
python grep.py 000 out.txt

00010 09001 40010 0011A
01000 010B1 011A0 0111A
00031 11015 11910 11114
11090 11041 11130 00003


Todas las líneas que contengan un `11` al principio de la línea.

In [7]:
%%sh
python grep.py ^11 out.txt

11090 11041 11130 00003


Todas las líneas que terminen en `A`.

In [8]:
%%sh
python grep.py A$ out.txt

00010 09001 40010 0011A
01000 010B1 011A0 0111A


Todas las líneas que empiecen por `01` y terminen en `A`.

In [9]:
%%sh
python grep.py ^01.*A$ out.txt

01000 010B1 011A0 0111A


# Autómatas Finitos

[Contenido](#Contenido)

## Autómata Finito Determinista

[Contenido](#Contenido)

Un autómata finito determinista $M$ esta conformado por:

* Un alfabeto de símbolos $\Sigma$.

* Un conjunto de estados $S$.

* Una función de transición $T:S \times \Sigma \to S$.  

* Un estado inicial $S_0 \in S$

* Un conjunto de estados de aceptación $A \subset S$.

* El lenguaje aceptado por el autómata $M$ está definido por las cadenas de caracteres $c_1$, $c_2$, ..., $c_n$ que llevan el autómata $M$ desde el estado inicial hasta un estado de aceptación.

**Ejercicio**  
Indique las expresiones regulares que reconocen las mismas cadenas de texto que los siguientes autómatas finitos deterministas.

![alt text](images/tcc-03-1-automatas.tiff)  

**Ejercicio**  
Indique los lexemas en que los siguientes autómatas finitos deterministas dividen la cadena de texto presentada.

![alt text](images/tcc-03-2-automatas.tiff)  

## Autómata Finito no Determinista

[Contenido](#Contenido)

Contiene transiciones $\epsilon$.  

**Algoritmo para construir AFNs a partir de expresiones regulares**

![alt text](images/tcc-03-3-thompson.tiff)  

**Ejemplo**  
Sea el alfabeto $\sum = \{a, b, c\}$. Dibuje el autómata regular equivalente para cada una de las siguientes expresiones regulares:

*	`(a|c)*b(a|c)*`

*	`(a|c)* | (a|c)*b(a|c)*`

*	`(a|c)* | (b(a|c)*)*`  

## Construcción de un AFD a partir de un AFN

[Contenido](#Contenido)

Clausura-$\epsilon$: estados alcanzables desde el estado actual mediante una transición $\epsilon$.

![alt text](images/tcc-03-4-thompson.tiff)  

**<u>1</u>** = {1,2,4}  

**<u>2</u>** = {2}  

**<u>3</u>** = {2, 3, 4}  

**<u>4</u>** = {4}  

**Ejercicio**  
Encuentre el AFD equivalente a la expresión regular `abc | ab*d`.


# resplit.py - Reconocimiento usando autómatas finitos

[Contenido](#Contenido)

Dibuje un autómata finito determinista que reconozca las siguientes expresiones regulares.

*	`b+ | ac+ | ab`

*	`ab | cab+`

*	`bbc* | bac*`

**Ejercicio.--** Dibuje los autómatas regulares representados como (cada diccionario representa un estado):

* `[ {'a':2, 'b':1},  {'b':1} , {'b':4, 'c': 3}, {'c':3}, {} ]`  
   Estados de aceptación: [1, 3, 4]
   

*  `[ {'a':1, 'c':3}, {'b':2}, {'b':2}, {'a':1}]`  
   Estados de aceptación: [2]

* `[ {'b':1}, {'a':3, 'b':2}, {'c':2}, {'c':3}]`  
  Estados de aceptación: [2, 3]

En este caso se escibirá un módulo en python llamado `resplit.py` que contiene las funciones.

In [10]:
%%sh
pygmentize -O linenos=1 -g resplit.py

0001: [37m###< 2016-08-28 17:04:40.187647 >###[39;49;00m
0002: 
0003: [37m#[39;49;00m
0004: [37m#  resplit.py (split text using regular expresions)[39;49;00m
0005: [37m#    esta funcion permite dividir una cadena de texto[39;49;00m
0006: [37m#    en lexemas usando expresiones regulares (re)[39;49;00m
0007: [37m#[39;49;00m
0008: [37m#    ejemplo: resplit('abb*', 'ababbabbb') devuelve 'ab/abb/abbb'[39;49;00m
0009: [37m# [39;49;00m
0010: 
0011:  
0012: [34mimport[39;49;00m [04m[36msys[39;49;00m
0013: 
0014: dfa = []
0015: accept_states = []
0016: 
0017: [37m# agrega c[39;49;00m
0018: [34mdef[39;49;00m [32maddch[39;49;00m(state, c):
0019:     next_state = [36mlen[39;49;00m(dfa)
0020:     dfa.append([36mdict[39;49;00m())
0021:     dfa[state][c] = next_state
0022:     [34mreturn[39;49;00m next_state
0023: 
0024: 
0025: [37m# agrega c*[39;49;00m
0026: [34mdef[39;49;00m [32maddch_star[39;49;00m(state, c):
0027:     dfa[state][c] = state
0028:     [34mret

In [11]:
import resplit

In [12]:
resplit.resplit('abc', 'abcabcabc')

'abc/abc/abc'

In [13]:
resplit.resplit('a.c', 'a0ca1ca2c')

'a0c/a1c/a2c'

In [14]:
resplit.resplit('ab*c', 'acabcabbcabbbc')

'ac/abc/abbc/abbbc'

In [15]:
resplit.resplit('ab0', 'abcabcabc') 

'FAIL'

---

[Contenido](#Contenido)