# <center> Lenguajes y Autómatas II</center>
## <center>Tema: Análisis Léxico </center>

### Analisis Léxico

Un **analizador léxico** o analizador lexicográfico (en inglés *scanner*) es la primera fase de un compilador consistente en un programa que recibe como **entrada el código fuente** de otro programa (secuencia de caracteres) y produce una **salida compuesta de tokens (componentes léxicos) o símbolos**. Estos **tokens** sirven para una posterior etapa del proceso de traducción, siendo la entrada para el analizador sintáctico (en inglés *parser*).

La especificación de un lenguaje de programación a menudo incluye un **conjunto de reglas** que definen el léxico. Estas reglas consisten comúnmente en **expresiones regulares** que indican el conjunto de posibles secuencias de caracteres que definen un *token ó lexema*. En algunos lenguajes de programación es necesario establecer patrones para caracteres especiales (como el espacio en blanco) que la gramática pueda reconocer sin que constituya un token en sí.


![scanner.png](attachment:scanner.png)



### Desarrollar una analizador léxico 

Cómo un analizador léxico tiene que leer el código fuente y  reconocer patrones llamados tokens,  que no son mas que un conjunto de caracteres que definen componentes léxicos del lenguaje que estamos utilizando, por ejemplo en C : la palabra reservada **printf()**.  Entonces, si queremos desarrollar un analizador léxico debemos primeramente saber manipular cadenas de caracteres.



In [1]:
from IPython.display import HTML


HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/S_f2qV2_U00?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')
HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/idnS9MTwfOU" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')



### Manipular cadenas de caracteres en python

Si has estado expuesto antes a otro lenguaje de programación, sabrás que necesitas declarar o escribir variables antes de que puedas almacenar cualquier cosa en ellas. Esto no es necesario cuando trabajas con cadenas de caracteres en Python. Podemos crear una cadena de caracteres simplemente encerrando contenido entre comillas después de un signo de igual (=).

ejemplo :
```python
          mensaje = "Hola a Todos"
 ```   


In [2]:
# Definimos una variable tipo string
mensaje = "Hola Mundo desde el Analizador Léxico"
print(mensaje)

Hola Mundo desde el Analizador Léxico


### Operadores de cadenas de caracteres: adición y multiplicación
Una cadena de caracteres es un objeto que consiste precisamente en una serie de signos o caracteres. Python sabe cómo tratar un número de representaciones poderosas y de propósito general, incluidas las cadenas de caracteres. Una forma de manipular cadenas de caracteres es utilizar operadores de cadenas de caracteres. Dichos operadores se representan con símbolos que asociamos a las matemáticas, como +, -, *, / y =. Estos signos realizan acciones similares a sus contrapartes matemáticas cuando se usan con las cadenas de carateres, aunque no iguales.

#### Concatenar
Este término significa juntar cadenas de caracteres. El proceso de concatenación se realiza mediante el operador de suma (+). Ten en cuenta que debes marcar explícitamente dónde quieres los espacios en blanco y colocarlos entre comillas. En este ejemplo, la cadena de caracteres “mensaje” tiene el contenido “Hola Mundo desde el Anaizador Léxico”

In [3]:
# Ejemplo de concatenación de cadenas
mensaje = "Hola Mundo" + " " + "desde el "+"Analizador Léxico"
print(mensaje)

Hola Mundo desde el Analizador Léxico


#### Multiplicar
Si quieres varias copias de una cadena de caracteres utiliza el operador de multiplicación (*). En este ejemplo, la cadena de caracteres mensaje lleva el contenido “Hola” tres veces, mientras que la cadena de caracteres mensaje2 tiene el contenido “Mundo”. Ordenemos imprimir las dos cadenas.

In [4]:
# Ejemplo de multiplicación de cadenas
mensaje = "Hola " * 3
mensaje2 = "Mundo"
print(mensaje + mensaje2)

Hola Hola Hola Mundo


#### Añadir
¿Qué pasa si quieres añadir strings de manera sucesiva al final de una cadena de caracteres? El operador especial para ello es compuesto **(+=)**.

In [5]:
mensaje3 = 'Hola'
mensaje3 += ' '
mensaje3 += 'Mundo'
print(mensaje3)

Hola Mundo


#### Métodos para cadenas de caracteres: buscar, cambiar
En adición a los operadores, Python trae preinstalado docenas de métodos que te permiten hacer cosas con las cadenas de
caracteres. Solos o en combinación, los métodos pueden hacer casi todo lo que te imagines con las cadenas de caracteres. 
Puedes usar como referencia la lista de métodos de cadenas de caracteres (String Methods) en el sitio web de Python, 
que incluye información de cómo utilizar correctamente cada uno. Para asegurar que tengas una comprensión básica de
métodos para cadenas de caracteres, lo que sigue es una breve descripción de los utilizados más comúnmente.

**Extensión**
Puedes determinar el número de caracteres en una cadena utilizando el método _len_. Acuérdate que los espacios en blanco cuentan como un carácter.

```python
mensaje = 'hola' + ' ' + 'mundo'
print(len(mensaje))
```
-> 10


**Encontrar**
Puedes buscar una sub-cadena en una cadena de caracteres utilizando el método _find_ y tu programa te indicará el índice de inicio de la misma. Esto es muy útil para procesos que veremos más adelante. Ten en mente que los índices están numerados de izquierda a derecha y que el número en el que se comienza a contar la posición es el 0, no el 1.

```python
mensaje5 = "Hola Mundo"
mensaje5a = mensaje5.find("Mundo")
print(mensaje5a)
```
-> 5

**Minúsculas**
A veces es útil convertir una cadena de caracteres a minúsculas. Para ello se utiliza el método _lower_. Por ejemplo, al uniformar los caracteres permitimos que la computadora reconozca fácilmente que “Algunas Veces” y “algunas veces” son la misma frase.

```python
mensaje7 = "HOLA MUNDO"
mensaje7a = mensaje7.lower()
print(mensaje7a)
```
-> hola mundo

Convertir las minúsculas en mayúsculas se logra cambiando  *.lower()* por *.upper()*. 


**Reemplazar**
Si necesitas cambiar una sub-cadena de una cadena se puede utilizar el método *replace*.
```python
mensaje8 = "HOLA MUNDO"
mensaje8a = mensaje7.replace("L", "pizza")
print(mensaje8a)
```
-> HOpizzaA MUNDO

**Cortar**
Si quieres cortar partes que no quieras del principio o del final de la cadena de caracteres, lo puedes hacer creando una sub-cadena. El mismo tipo de técnica te permite separar una cadena muy larga en componentes más manejables.

```python
mensaje9 = "Hola Mundo"
mensaje9a = mensaje9[1:8]
print(mensaje9a)
```
-> ola Mun


**División en trozos**
Supongamos que tenemos una cadena que contiene una fecha, en formato día/mes/año. Podemos obtener fácilmente cada trozo de la cadena (cada dato de la fecha) utilizando el método *split*. Este método divide a la cadena en trozos, cortando cada trozo en cada ocurrencia de un separador, que se pasa como argumento.

```python
fecha = '17/05/2012'
datos = fecha.split('/') # separamos la cadena por /
print(datos)
```
-> ['17', '05', '2012'] 

###### Si no le damos a split un separador, la cadena será separada por espacios. Esto puede servir para obtener todas las palabras de una oración.


**Ejercicio # 1.** Escriba un programa en Python que permita capturar una cadena de caracteres que signifiquen un comando de  impresion  en lenguaje Ansi C. Ejemplo:  printf("hola mundo"); , print(velocidad); , etc.
La salida debe ser el análisis léxico de esta cadena. 
<ol>
    <li>La palabra reservada **printf**</li>
    <li>El paréntesis de apertura **(**</li>
    <li>La cadena de caracteres ó el identificador </li>
    <li>El paréntesis de cierre **)**</li>
    <li>El símbolo **;** de fin de sentencia </li>
</ol>


In [None]:
# script para analizar léxicmente la sentencia printf en ansi c
#autor:
#fecha
def lexico(inst):
    f=inst[0:6]
    print("la palabra reselvada:", f)
    d=inst[6]
    print("el parentesis de apertura: ", d)
    e=inst.find(")")
    a=inst[e]
    t=inst[7:e]
    print("la cadena de caracteres: ", t)  
    print("El parentesis d cierre: ", a)   
    i=inst.find(";")
    j=inst[i]
    print("El simbolo de fin de sentencia: ", j)
    
def main():
    print("análisi léxico de la sentaci printf--")
    sentencia=input("introduce la sentencia con printf")
    lexico(sentencia)
    #esprecion regular 
    #sentencia = pr parentesisApertura String | id parentesisCerradura sfin
    #pr= printf
    #parentesisApertura= (
    #String ="+caracter"
    #caracter= a|b|c..A|B|C..|*|+|0,1,2,3..9|space
    #id=identificador ó varible 
    #parentesisCerradura=)
    #sfin=;
    
if __name__ =="__main__":
    main()

### Expresiones regulares
En cómputo teórico y teoría de lenguajes formales una expresión regular, también conocida como regex, regexp o expresión racional, es una secuencia de caracteres que forma un patrón de búsqueda, principalmente utilizada para la búsqueda de patrones de cadenas de caracteres u operaciones de sustituciones.[Wikipedia,2019]

En informática, las expresiones regulares proporcionan una manera muy flexible de buscar o reconocer cadenas de texto.

### Ejercicios:
$$ a=10 $$
<h5>Ejercicio 1. Dado el alfabeto {a,b}, escriba los siguientes lenguajes por medio de expresiones regulares.</h5>
<li>1. Cadenas de a's y b's que inician con a </li>

<center>
<h4> Expresión Regular </h4></center>
$$aa^{*}b^{*}$$

<center>
<h4> Automata </h4></center>

![ej1.png](attachment:ej1.png)

<center>
<h4> Tabla de transiciones </h4></center>

|  Estado  |      a     |   b    |
|----------|:----------:|-------:|
|     q0   |      q1    |   -    |
|     q1   |      q1    |   q1   |



<li>2. Cadenas de a's y b's compuestas por un número par de a's</li>


<center>
<h4> Expresión Regular </h4></center>
$$b^{*}ab^{*}a$$

<center>
<h4> Automata </h4></center>

![ej2.png](attachment:ej2.png)

<center>
<h4> Tabla de transiciones </h4></center>

|  Estado  |      a     |   b    |
|----------|:----------:|-------:|
|     q0   |      q1    |   q0   |
|     q1   |      q0    |   q1   |

<li>3.Cadenas que finalicen en ab y que sean al menos de cuatro caracteres de longitud</li>

<center>
<h4> Expresión Regular </h4></center>
$$(a|b)^{+}(a|b)^{+}ab$$

<center>
<h4> Automata </h4></center>

![ej3.png](attachment:ej3.png)

<li>4. Palíndromas de a's y b's </li>

<li>5. Para el siguiente programa escrito en un subconjunto de Ada, encuentre y clasifique todos los tokens </li>

~~~
BEGIN 
    A := B3;
    Xyz := A + B + C - P/Q;
    A := Xyz * (P+Q);
    P := A - Xyz - P;
END;
~~~

<li>Tabla de Tokens </li>

|   Token   |    Lexema   |
|----------|:----------:|
|Variables| A,B,C,Xyz,P,Q,B3|
|Operadores Aritméticos|+,-,*,|
|Fin de Instrucción | ;|
|Asignación|:=|
|Inicio de procedimiento|BEGIN|
|Fin de procedimiento|END|



### Operaciones labda
