# Lenguajes formales

Desde el nacimiento estamos expuestos a *lenguajes naturales*; estos son
lenguajes escritos y hablados por los seres humanos, como el español, el
japonés, el griego, etc.
Estos lenguajes han evolucionado a través de los siglos como especies vivientes,
y los lingüistas los estudian como tales.
Aunque los lenguajes naturales tienen reglas de sintaxis y semántica, estas
reglas son muy complejas, contienen muchas excepciones, y cada dialecto tiene
sus propias variantes.
Véase esta canción sobre lo [difícil que es hablar el español][1] (nótese que la
letra es explícita).

Los *lenguajes artificiales* son aquellos que han sido creados por los seres
humanos para aplicaciones específicas.
Por ejemplo, el esperanto es un lenguaje diseñado para la comunicación entre
naciones de diferentes lenguas europeas, el Klingon es un lenguaje inventado
para la serie de televisión Star Trek, y J. R. Tolkien creó varios lenguajes
para sus novelas de fantasía.

Los *lenguajes formales* son una forma de lenguaje artificial definido con
reglas de sintaxis y semántica muy precisas... matemáticamente precisas, de
hecho.
En efecto, el propio lenguaje matemático, con sus símbolos de operaciones y
relaciones, es una especie de lenguaje formal; también las fórmulas químicas
están definidas por un lenguaje formal.
Finalmente, dentro de esta categoría están todos los *lenguajes de
programación*, diseñados concretamente para expresar algoritmos.

[1]: https://www.youtube.com/watch?v=eyGFz-zIjHE

## 1. Describir un lenguaje de programación

En lingüística, un lenguaje se describe en tres niveles:
- *Gramática*: Definida por un alfabeto, léxico, y reglas de sintaxis, 
  responde la pregunta "¿qué es una oración válida en este lenguaje?".
- *Semántica*: Atribuye un significado a las oraciones válidas, responde la
  pregunta "¿qué significa esta oración?".
- *Pragmática*: Define el uso del lenguaje, responde la pregunta "¿cómo usamos
  este enunciado significativo?". Diferentes enunciados con el mismo significado
  pueden ser usados de formas distintas por diferentes personas y en diferentes
  contextos.

**Ejemplo** Consideremos un lenguaje natural usado para describir recetas de
cocina en español.
La gramática de este lenguaje está definida por el alfabeto español, el léxico
se conforma de palabras que se usan en recetas, como "mezclar", "batir",
"leche", "huevos", etc.
La semántica de este lenguaje está dada por el significado de las palabras, por
ejemplo, "mezclar" significa combinar dos o más ingredientes en un recipiente.
Finalmente, la pragmática le indica al lector cómo usar las instrucciones de la
receta para preparar el platillo.

En el caso de los lenguajes de programación podemos agregar la *implementación*,
que responde la pregunta "¿cómo se realiza este enunciado de forma que respete
el significado?".
Continuando el ejemplo anterior, la implementación de una receta la realiza un
cocinero, siguiendo las instrucciones de la receta y definiendo de manera
precisa (a veces sin darse cuenta) los pasos a seguir para preparar el platillo.
Así, "sal al gusto" puede significar "agrega sal hasta que el sabor sea de tu
agrado", y la implementación de esta instrucción depende de la experiencia del
cocinero.

**Actividad** Explorar la [Referencia del Lenguaje Python][1] su definición
gramatical, semántica y pragmática.

[1]: https://docs.python.org/es/3/reference/index.html

## 2. Gramáticas y lenguajes formales
Para describir un lenguaje formal, se requieren conceptos de teoría de lenguajes
formales, que son el estudio de la *Teoría de la Computación*.
En esta sección se presentan los conceptos básicos de esta teoría, y se
presentan las *gramáticas libres de contexto*, que son las que se usan para
definir los lenguajes de programación.

### 2.1 Conceptos de cadenas y lenguajes

Un **alfabeto** es un conjunto finito de *símbolos*.
La naturaleza de los símbolos nos es irrelevante para la teoría de lenguajes,
pero se entiende que son elementos claramente distinguibles entre sí.
Usamos las letras griegas mayúsculas como $\Sigma$ y $\Gamma$ para denotar
alfabetos, y letras de tipo `monoespaciado` para denotar cadenas de símbolos.

El alfabeto más usado por las computadoras es el **alfabeto binario**:
$$\Sigma = \{\texttt{0}, \texttt{1}\}$$
pero en general se puede usar cualquier alfabeto, por ejemplo, el alfabeto
español:
$$\Sigma = \{\texttt{a}, \texttt{b}, \texttt{c}, \ldots, \texttt{z}\}$$


In [1]:
# Python contiene una biblioteca llamada string que contiene el alfabeto de
# caracteres imprimibles en ASCII.
import string

for simbolo in string.printable:
    print(simbolo, end=" ")

0 1 2 3 4 5 6 7 8 9 a b c d e f g h i j k l m n o p q r s t u v w x y z A B C D E F G H I J K L M N O P Q R S T U V W X Y Z ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~   	 
   

Una cadena (usualmente denotada con la letra $w$) es una secuencia finita de
símbolos de un alfabeto $\Sigma$; se denota con los símbolos yuxtapuestos, sin
comas entre sus elementos, por ejemplo:
$$w = \texttt{hola}$$
$$w = \texttt{010101}$$

La **lognitud** de una cadena $w$ se denota con $\left|w\right|$, y es el número de
símbolos que contiene:
$$\left|\texttt{hola}\right| = 4$$

In [2]:
# En Python, las cadenas se pueden definir con comillas simples o dobles.
w = "hola"
w

'hola'

In [3]:
# La longitud de una cadena se puede obtener con la función len.
len(w)

4

Decimos que una cadena $z$ es una **subcadena** de otra cadena $w$ si los
símbolos de $z$ aparecen consecutivamente en cualquier parte de $w$.
Por ejemplo, `cara`, `cola` y `araco` son algunas de las subcadenas de
`caracola`.


In [4]:
# En Python, podemos determinar si una cadena es subcadena de otra con
# el operador "in".
w = "caracola"
print("cara" in w)
print("cola" in w)
print("araco" in w)
print("maraca" in w)

True
True
True
False


Dado que tenemos dos cadenas $x$ y $y$, podemos **concatenarlas** para formar
una nueva cadena $xy$.
En matemáticas esta se denota simplemente yuxtaponiendo las cadenas, de la misma
manera que la multiplicación en álgebra.
En cambio, los lenguajes de programación suelen usar operadores como `+` o `&`.

In [5]:
# En Python la concatenación de cadenas se realiza con el operador +.
"col" + "chones"

'colchones'

Si la multiplicación repetida es la potenciación, entonces la concatenación
repetida es la **potenciación de cadenas**.
Por ejemplo, si $w = \texttt{na}$, entonces $w^3 = \texttt{nanana}$, de manera
que $\texttt{ba}{(\texttt{na})}^2 = \texttt{banana}$.

In [6]:
# En Python la repetición de cadenas se realiza con el operador *.
"ba" + 2 * "na"

'banana'

El **orden lexicográfico** es el orden que se usa para ordenar las palabras en
un diccionario.

In [20]:
# En Python las cadenas están ordenadas lexicográficamente.

cadenas = ["col", "Col", "itacate", "zapote", "calabaza", "panal", "pan", "jitomate"]
cadenas.sort()
cadenas

['Col', 'calabaza', 'col', 'itacate', 'jitomate', 'pan', 'panal', 'zapote']

In [8]:
ord("a")

97

In [9]:
ord("o")

111

In [18]:
"Orden" < "orden"

True

In [19]:
print(ord("O"))
print(ord("o"))

79
111


In [10]:
"akldfblaba" < "wkefj123"

True

Usualmente preferimos usar otro orden de manera que las palabras más pequeñas
aparezcan primero, este es el orden **shortléxico**, o simplemente **orden
de cadenas**.

In [11]:
def cmp_shortlex(cadena_1: str, cadena_2: str) -> int:
    """Compara dos cadenas en orden shortlex."""
    if cadena_1 == cadena_2:
        return 0  # cadena_1 es igual a cadena_2
    if len(cadena_1) < len(cadena_2):
        return -1  # cadena_1 va antes que cadena_2
    elif len(cadena_1) > len(cadena_2):
        return 1  # cadena_1 va después que cadena_2

    assert len(cadena_1) == len(cadena_2) and cadena_1 != cadena_2
    return -1 if cadena_1 < cadena_2 else 1  # Usamos orden lexicográfico

In [12]:
cmp_shortlex("col", "cal")

1

In [13]:
cmp_shortlex("xilófono", "antropomorfo")

-1

In [21]:
from functools import cmp_to_key

cadenas.sort(key=cmp_to_key(cmp_shortlex))
cadenas

['Col', 'col', 'pan', 'panal', 'zapote', 'itacate', 'calabaza', 'jitomate']

Un **lenguaje** es un conjunto (finito o infinito) de cadenas.

In [15]:
print("Este es un lenguaje:")
print(cadenas)

Este es un lenguaje:
['col', 'pan', 'panal', 'zapote', 'itacate', 'calabaza', 'jitomate']


In [59]:
def puntos_cardinales():
    yield "este"
    yield "oeste"
    yield "norte"
    yield "sur"

In [60]:
it = iter(puntos_cardinales())
it

<generator object puntos_cardinales at 0x7f1d7567a820>

In [61]:
next(it)

'este'

In [62]:
next(it)

'oeste'

In [63]:
next(it)

'norte'

In [64]:
next(it)

'sur'

In [65]:
next(it)

StopIteration: 

In [22]:
# A veces podemos definir un lenguaje escribiendo un algoritmo que
# genere todos sus elementos. A este tipo de algoritmos se les conoce
# como enumeradores.

def enumerar_pares():
    num = 0
    while True:
        yield str(num)
        num += 2

In [32]:
it = iter(enumerar_pares())
next(it)

'0'

In [33]:
next(it)

'2'

In [34]:
next(it)

'4'

In [68]:
from typing import Any
from collections.abc import Iterable


def listar_primeros(iterable: Iterable[Any], n: int) -> list[Any]:
    resultado = []
    for w, _ in zip(iterable, range(n)):
        resultado.append(w)
    return resultado

In [69]:
listar_primeros(enumerar_pares(), 10)

['0', '2', '4', '6', '8', '10', '12', '14', '16', '18']

In [24]:
def potencias_de_2():
    num = 1  # 2 a la 0
    while True:
         yield str(num)
         num *= 2  # Equivale a num = num * 2

In [70]:
listar_primeros(potencias_de_2(), 20)

['1',
 '2',
 '4',
 '8',
 '16',
 '32',
 '64',
 '128',
 '256',
 '512',
 '1024',
 '2048',
 '4096',
 '8192',
 '16384',
 '32768',
 '65536',
 '131072',
 '262144',
 '524288']

**Ejemplo**: El lenguaje de todas las cadenas sobre $\{\texttt{a}, \texttt{b}\}$.

In [30]:
simbolos = ["a", "b", "a"]
"".join(simbolos)

'aba'

In [41]:
def enumerar_ab_estrella():
    def encontrar_ultima_a():
        resultado = -1
        for i, sim in enumerate(simbolos):
            if sim == "a":
                resultado = i
        return resultado

    simbolos = []
    while True:
        yield "".join(simbolos)
        # Índice de la posición de la última a:
        ind = encontrar_ultima_a() 
        if ind == -1:  # No hay a?
            # Cambia todos los símbolos por a y agrega una a al final
            simbolos = ["a"] * (len(simbolos) + 1)
        else:
            simbolos[ind] = "b"  # Cambia la última a por b
            # Cambia el resto de los símbolos por a 
            simbolos[ind + 1:] = ["a"] * (len(simbolos[ind + 1:]))


In [55]:
for cadena, _ in zip(enumerar_ab_estrella(), range(20)):
    print(cadena)


a
b
aa
ab
ba
bb
aaa
aab
aba
abb
baa
bab
bba
bbb
aaaa
aaab
aaba
aabb
abaa


**Definición** Si $\Sigma$ es un alfabeto, denotamos con $\Sigma^*$ (*Sigma estrella*) al lenguaje de todas las cadenas que se pueden formar sobre dicho alfabeto.

**Ejemplo**: El conjunto de cadenas sobre $\{\texttt{a}, \texttt{b}\}$ que tienen la misma cantidad de `a` que de `b`:

In [52]:
def enumerar_ab_misma_a_que_b():
    for palabra in enumerar_ab_estrella():
        if palabra.count("a") == palabra.count("b"):
            yield palabra

In [54]:
for palabra, _ in zip(enumerar_ab_misma_a_que_b(), range(20)):
    print(palabra)



ab
ba
aabb
abab
abba
baab
baba
bbaa
aaabbb
aababb
aabbab
aabbba
abaabb
ababab
ababba
abbaab
abbaba
abbbaa
baaabb


In [66]:
from typing import Iterator

def lenguaje_estrella(alfabeto: str) -> Iterator[str]:
    def buscar_ultimo_simbolo_modificable():
        r = -1
        for i, simbolo in enumerate(simbolos):
            if simbolo != alfabeto[-1]:
                r = i
        return r
    
    def siguiente_letra(ind):
        letra = simbolos[ind]
        i = alfabeto.index(letra)
        return alfabeto[i + 1]
    
    simbolos = []
    while True:
        yield "".join(simbolos)
        ind = buscar_ultimo_simbolo_modificable()
        if ind == -1:
            simbolos = [alfabeto[0]] * (len(simbolos) + 1)
        else:
            simbolos[ind] = siguiente_letra(ind)
            simbolos[ind + 1:] = [alfabeto[0]] * (len(simbolos[ind + 1:]))


In [67]:
lenguaje_estrella("abc")

<generator object lenguaje_estrella at 0x7f1d86c4a640>

In [17]:
# A veces conviene especificar un lenguaje mediante una relación de
# pertenencia (función booleana). A este tipo de algoritmos se les
# conoce como decididores.
def empieza_con_vocal(cadena: str) -> bool:
    """Determina si una cadena empieza con una vocal."""
    return cadena.casefold().startswith(tuple("aeiou"))


for cadena in filter(empieza_con_vocal, cadenas):
    print(cadena)

itacate


### 2.2 Gramáticas libres de contexto