# Introducción a los Lenguajes Formales
---

## Lenguaje Formal ($L$)

* Esta formado por PALABRAS que son cadenas constituídas por SÍMBOLOS de un ALFABETO
* Son lenguajes definidos sobre un alfabeto $\Sigma$

## Símbolo ($\sigma$)

* Es el elemento constructivo básico; es la entidad fundamental, indivisible (atómica)
* Ejemplos:

| $\sigma$           |                                                                                |
| --                 | --                                                                             |
| **a**              | forma parte del alfabeto español, inglés, etc.                                 |
| **>, =, +**        | son elementos del alfabeto de los operadores de los lenguajes Pascal y ANSI C  |
| **IF, ELSE, THEN** | para construir una sentencia condicional simple en un lenguaje de programación |

## Alfabeto ($\Sigma$)

* Es un conjunto no vacío y finito de símbolos indivisibles
* Con sus símbolos se construyen las palabras de un lenguaje

| $\Sigma$                                              |                                                                                |
| --                                                    | --                                                                             |
| $\Sigma_1 = \{0, 1\}$                                 | proporciona los símbolos utilizados en la construcción de los números binarios |
| $\Sigma_2 = \{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, -, +\}$   | proporciona los números enteros con signo en base 10                           |
| $\Sigma_3 = \{na, pa, la, bra\}$                      | alfabeto formado por cuatro símbolos                                           |
| $\Sigma_4 = \{a, b, ab\}$                             | no son símbolos indivisibles ab se forma con a y b. Es un alfabeto AMBIGUO     |

## Palabra ($w$)

* Es una secuencia finita de símbolos tomados de cierto alfabeto y colocados uno a continuación de otro (concatenación/yuxtaposición)
* Una secuencia es una colección enumerada de objetos en la cual las repeticiones están permitidas y el orden importa
* $w = \sigma_1 \sigma_2 ... \sigma_n$  donde $\sigma_i \in \Sigma$, para $1 ≤ i ≤ n$

| w                    | se lee                      |                                                                  |
| --                   | --                          | --                                                               |
| **abac**             | "a-b-a-c"                   | es una palabra formada con símbolos del alfabeto $\{a, b, c\}$   |
| **101110**           | "uno-cero-uno-uno-uno-cero" | es una palabra construida con símbolos del alfabeto $\{0, 1\}$   |
| **abc, abb, aaaaaa** |                             | son palabras construidas con símbolos del alfabeto $\{a, b, c\}$ |

### Longitud de una palabra ($\mid w \mid$)

* Es la cantidad de símbolos del alfabeto que la componen
* Formalmente $\mid w \mid: \Sigma^* \to Nat \cup \{0\}$

| $w$         | $\mid w \mid$ | $\Sigma$                 |
| --          | --            | --                       |
| **palabra** | 7             | $\{a, b, c, d, ..., z\}$ |
| **palabra** | 3             | $\{na, pa, la, bra\}$    |
| **abac**    | 4             | $\{a, b, c\}$            |
| **b**       | 1             | $\{a, b\}$               |

### Palabra vacía ($\lambda$)

* Es la palabra que no tiene símbolos, es decir, $\mid \lambda \mid = 0$
* $\lambda$ no forma parte de ningún alfabeto

### Potenciación de un símbolo

* $\sigma^n$ representa la repetición del símbolo $\sigma$, $n$ veces, donde $n \in Nat$ 
* Simplifica la escritura de palabras

| w                |          |
| --               | --       |
| **aaaaabbbbbbb** | $a^5b^7$ |
| **aaaabbbb**     | $a^4b^4$ |

### Concatenación de dos palabras

* Operación aplicada a palabras ($w_1w_2$) y produce una nueva palabra formada por los símbolos de la primera palabra seguidos inmediatamente por los símbolos de la segunda palabra
* Formalmente: $\Sigma^* \times \Sigma^* \to \Sigma^*$
* No es conmutativa, es decir, $w_1 w_2 \neq w_2 w_1$
* $\lambda$ es la identidad para la concatenación, es decir, $w \lambda = \lambda w = w$

| $w_1$ | $w_2$ | $w_1w_2$     |
| --    | --    | --           |
| aab   | ba    | **aabba**    |
| abc   | aaaaa | **abcaaaaa** |

### Potenciación de una palabra

* Si $w$ es una palabra, entonces $w^n$ (con $n ≥ 1$ y entero) representa la palabra que resulta de concatenar la palabra $w$, consigo misma, $n-1$ veces
* $w^n = w.w.w ... w$ $(n-veces)$

| $w$    | $w^0$     | $w^2$ | $w^3$  |
| --     | --        | --    | --     |
| **ab** | $\lambda$ | abab  | ababab |
| **a**  | $\lambda$ | aa    | aaa    |

### Igualdad de palabras

* Si $w_1$ es una palabra $(w_1 = a_1a_2 ... a_n)$ y $w_2$ es otra palabra ($w_2 = b_1b_2 ... b_m)$, $(w_1, w_2 \in \Sigma^*)$, entonces $w_1 = w_2$ si se cumple que:
  * $|w_1| = |w_2|$  y
  * $(\forall i: 1 ≤ i ≤ n: a_i = b_i)$
* Ejemplos:
  * $abc = abc$
  * $abc \neq ac$

### Reflexión o reversa de una palabra

* Si $w$ es una palabra $(w = σ_1σ_2 ... σ_n)$, entonces $w^{-1}$ o $w^R$ representa la palabra que resulta de invertir el orden de los símbolos en la palabra
* $w^{-1} = σ_n ... σ_2σ_1$

| $w$       | $w^{-1}$  |
| --        | --        |
| **ab**    | **ba**    |
| **abc**   | **cba**   |
| **aaaab** | **baaaa** |

### Prefijo, sufijo e infijo de una palabra

|             |    | Ejemplo para $w = abcd$ |
| --          | -- | -- |
| **Prefijo** | secuencia de 0 ó + símbolos iniciales de esa palabra | $\lambda, a, ab, abc, abcd$ |
| **Sufijo**  | secuencia de 0 ó + símbolos finales de esa palabra   | $\lambda, d, cd, bcd, abcd$ |
| **Infijo**  | secuencia de símbolos que se obtiene eliminando 0 ó + símbolos iniciales y 0 ó + símbolos finales de esa cadena | $abcd, bcd, cd, d, abc, ab, a, bc, b, c, \lambda$ |

## Lenguaje Natural vs Lenguaje Formal

|              | Lenguaje Natural                                           | Lenguaje Formal |
| --           | --                                                         | --              |
| Definición   | hablado y/o escrito por los seres humanos para comunicarse | abstracto       |
| Foco         | Semántica (significado de las palabras)                    | Sintaxis        |
| Evolucionan? | SI, incorporando nuevos términos y reglas gramaticales     | NO              |
| Reglas       | después del lenguaje                                       | antes           |  
| Ambigüedad?  | admite (ejemplo: En el cerro hay una llama)                | no admite       |

### Definición de un lenguaje formal

|                             |                                          |
| --                          | --                                       |
| **Enumeración (extensión)** | $\{aa, aaaa, aaaaaa, aaaaaaaa, ... \}$   |
| **Comprensión coloquial**   | $\{$palabras con cantidad par de aes$\}$ |
| **Comprensión simbólica**   | $\{a^{2n} / n >= 1\}$                    |

### Cardinalidad de un lenguaje formal

* Es la cantidad de palabras que lo componen

| $L(\Sigma), \Sigma = \{a, b\}$  | Cardinalidad |
| --                              | --           |
| $L = \{a, ab, aab\}$            | **3**        |
| $L = \{λ\}$                     | **1**        |

### Sublenguaje

* Dado que un lenguaje formal es un conjunto, un SUBLENGUAJE es un subconjunto de un lenguaje dado
* Ejemplo: Sea $L_1 = \{a, ab, aab\}$. Entonces, $L_2 = \{ab, aab\}$ es un sublenguaje de $L_1$, mientras que $L_3 = \{ \}$ es el sublenguaje vacío de $L_1$

### Tipos de Lenguajes formales según cardinalidad

* **Lenguajes formales finitos**: lenguajes con un número finito de palabras

| $L$                    |                                                    |
| --                     | --                                                 |
| $L = \{\} = \emptyset$ | Lenguaje finito vacío                              |
| $L = \{\lambda\}$      | Lenguaje finito que contiene sólo la palabra vacía |
| $L = \{a, ab, aab\}$   | Lenguaje finito que contiene sólo tres palabras    |

* **Lenguajes formales infinitos**: lenguajes con un número infinito de palabras

| $L$                              |                                                                      |
| --                               | --                                                                   |
| $L = \{a^n / n ≥ 1\}$            | Lenguaje infinito (no existe límite superior para el supra índice n) |
| $L = \{a^{2n+1} b^n / n > 1\}$   | Lenguaje infinito                                                    |
| $L = \{a^{2n+1} b^m / n,m > 1\}$ | Lenguaje infinito                                                    |

### Lenguaje Universal ($\Sigma^*$ - clausura sobre un alfabeto)

* Es un lenguaje infinito que contiene todas las palabras que se pueden formar con símbolos del alfabeto $\Sigma$, más la palabra vacía, ya que pertenece a todos los universos
* Es cerrado bajo concatenación, es decir, la concatenación de dos palabras cualesquiera de este lenguaje producirá siempre otra palabra del lenguaje

* $\Sigma^* = \bigcup_{i = 0}^{n} \Sigma^i$
* $\Sigma^i$ es el conjunto de todas las palabras de longitud i sobre $\Sigma$

| Si $\Sigma = \{a, b, c\}$, entonces                                                |
| --                                                                                 |
| $\Sigma^0 = \{λ\}$                                                                 |
| $\Sigma^1 = \{a, b, c\}$                                                           |
| $\Sigma^2 = \{a, b, c\} \{a, b, c\} = \{aa, ab, ac, ba, bb, bc, ca, cb, cc\}$      |
| $\Sigma^* = \{λ, a, b, aa, ab, ba, bb, aaa, aab, aba, abb, ..., aabaabbbab, ...\}$ |

### Lenguaje sobre un alfabeto ($L(\Sigma)$)

* Es todo subconjunto de $\Sigma^*$, entonces $L \subseteq \Sigma^*$
* Como el universo asociado a un alfabeto es infinito, hay infinitos lenguajes asociados a un alfabeto
* Ejemplos:
  * Si $\Sigma = \{na, pa, la, bra\}$, dos posibles lenguajes de $\Sigma$ serían:
    * $L_1(\Sigma) = \{nana, napa, lana\}$, y
    * $L_2(\Sigma) = \{\lambda, nana, pana, palabra, papa, pala\}$
  * Si  $\Sigma = \{a, b, c\}$, $\Sigma^* = \{\lambda, a, b, c, aa, ab, ac, ba, bb, bc, ca, cb, cc, aaa, aab, aac, ...\}$
    * $L_1(\Sigma) = \{\}$
    * $L_2(\Sigma) = \{\lambda\}$
    * $L_3(\Sigma) = \{a, b, aa, bb, ab, ba\}$
    * $L_4(\Sigma) = \{a, aa, aaa, aaaa, ...\} = \{a^n / n ≥ 1\}$
    * $L_5(\Sigma) = \{a^n b^n / n ≥ 1\} = \{ab, aabb, aaabbb, ...\}$

### Operaciones con lenguajes

* Sea $L_1 = \{nana, napa, lana\}$, $L_2 = \{\lambda, nana, pana, palabra, papa, pala\}$, $L_3 = \{0, 1\}$, $L_4 = \{0, 10\}$

| Operación | Definición | Ejemplo |
| -- | -- | -- |
| **Unión**        | $L_1 \cup L_2  = \{w \in \Sigma^* : w \in L_1 \vee  w \in L_2\}$     | $\{\lambda, nana, napa, lana, pana, palabra, papa, pala\}$ |
| **Intersección** | $L_1 \cap L_2  = \{w \in \Sigma^* : w \in L_1 \wedge w \in L_2\}$    | $\{nana\}$                                                 |
| **Complemento**  | $\overline{L_1} = \{w \in \Sigma^* : w \notin L_1\}$                 | $\{\lambda, nanana, palana, ...\}$                         |
| **Diferencia**   | $L_1 - L_2 = L_1 \cap \overline{L_2}$                                | $\{napa, lana\}$                                           |
| **Producto**     | $L_1 L_2 = \{w_1w_2 \in \Sigma^* : w_1 \in L_1 \wedge w_2 \in L_2\}$ | $\{nana, napa, lana, nananana, napanana, ...\}$            |
| **Potencia**     | $L^n = \{ \{\lambda\}$ si $n=0 \vee LL^{n-1}$ si $n>0\}$             | $L_3^2 = \{00, 01, 10, 11\}$                               |
| **Reflexión**    | $L^{-1} = \{w^{-1} : w \in L\}$                                      | $L_4^{-1} = \{0, 01\}$                                     |
| **Cierre estrella (Kleene)** | $L^* = \bigcup_{i ≥ 0} L^i$                              | $L_3^* = \{\lambda, 0, 1, 00, 01, 10, 11, 000, 001, ...\}$ |
| **Cierre positivo**          | $L^+ = \bigcup_{i > 0} L^i$                              | $L_3^+ = \{0, 1, 00, 01, 10, 11, 000, 001, ...\}$          |

### Propiedades de los lenguajes

| Propiedad                                      |                                                             |
| --                                             | --                                                          |
| **Concatenación es asociativa**                | $(L_1 L_2) L_3 = L_1 (L_2 L_3)$                             |
| **Concatenación no es conmutativa**            | $L_1 L_2 ≠ L_2 L_1$                                         |
| **Distributiva respecto a la unión**           | $L_1 (L_2 \cup L_3) = L_1L_2 \cup L_1L_3$                   |
| **No distributiva respecto a la intersección** | $L_1 (L_2 \cap L_3) ≠ L_1L_2  \cap L_1L_3$                  |
| **Potencia del lenguaje**                      | $L^0 = \{\lambda\}, L^1 = L, L^2 = LL, ..., L^k = LL^{k-1}$ |
| **Clausura del Lenguaje**                      | $L^* = L^0 \cup L^1 \cup L^2 \cup L^3 \cup ...$             |
| **Reversa del Lenguaje**                       | $L^R = L^{-1} = \{w^R \in \Sigma^* / w \in L\}$             |

### Equivalencias

* $L^* = \{\lambda\} \cup L^+$
* $L^+ = L^*  \leftrightarrow \lambda \in L \leftrightarrow \lambda \in L^+$
* $L^*L = LL^* = L^+L^* = L^*L^+ = L^+$
* $L^*L^* = L^*$ pero $L^+L^+ = L^2L^*$
* $(L^*)^* = (L^+)^* = (L^*)^+ = L^*$
* $(L^+)^+ = L^+$

## Jerarquía de Chomsky

* En 1956 y 1959, el lingüista norteamericano Noam Chomsky publicó dos trabajos sobre los Lenguajes Naturales que, aplicados al área de los Lenguajes Formales, produjeron lo que se conoce como Jerarquía de Chomsky
* Su idea: modelar los lenguajes naturales, con miras a la traducción automática
* Establece una clasificación (según las restricciones que se imponen a sus producciones) de cuatro tipos de gramáticas formales que, a su vez, generan cuatro tipos diferentes de lenguajes formales

![Jerarquía de Chomsky](img/jerarquia.png)

![Jerarquía de Chomsky](img/chomsky.jpg)

## En resumen

![Resumen LF](img/lf.jpg)