# <center> Lenguajes y Autómatas II</center>
## <center>Tema: Análisis Léxico </center>

### Analisis Léxico

Un **analizador léxico** o analizador lexicográfico (en inglés *scanner*) es la primera fase de un compilador consistente en un programa que recibe como **entrada el código fuente** de otro programa (secuencia de caracteres) y produce una **salida compuesta de tokens (componentes léxicos) o símbolos**. Estos **tokens** sirven para una posterior etapa del proceso de traducción, siendo la entrada para el analizador sintáctico (en inglés *parser*).

La especificación de un lenguaje de programación a menudo incluye un **conjunto de reglas** que definen el léxico. Estas reglas consisten comúnmente en **expresiones regulares** que indican el conjunto de posibles secuencias de caracteres que definen un *token ó lexema*. En algunos lenguajes de programación es necesario establecer patrones para caracteres especiales (como el espacio en blanco) que la gramática pueda reconocer sin que constituya un token en sí.


![scanner.png](attachment:scanner.png)



### Desarrollar una analizador léxico 

Cómo un analizador léxico tiene que leer el código fuente y  reconocer patrones llamados tokens,  que no son mas que un conjunto de caracteres que definen componentes léxicos del lenguaje que estamos utilizando, por ejemplo en C : la palabra reservada **printf()**.  Entonces, si queremos desarrollar un analizador léxico debemos primeramente saber manipular cadenas de caracteres.



In [1]:
from IPython.display import HTML


HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/S_f2qV2_U00?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')
HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/idnS9MTwfOU" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')



### Manipular cadenas de caracteres en python

Si has estado expuesto antes a otro lenguaje de programación, sabrás que necesitas declarar o escribir variables antes de que puedas almacenar cualquier cosa en ellas. Esto no es necesario cuando trabajas con cadenas de caracteres en Python. Podemos crear una cadena de caracteres simplemente encerrando contenido entre comillas después de un signo de igual (=).

ejemplo :
```python
          mensaje = "Hola a Todos"
 ```   


In [10]:
# Definimos una variable tipo string
mensaje = "Hola Mundo desde el Analizador Léxico"
print(mensaje)

Hola Mundo desde el Analizador Léxico


### Operadores de cadenas de caracteres: adición y multiplicación
Una cadena de caracteres es un objeto que consiste precisamente en una serie de signos o caracteres. Python sabe cómo tratar un número de representaciones poderosas y de propósito general, incluidas las cadenas de caracteres. Una forma de manipular cadenas de caracteres es utilizar operadores de cadenas de caracteres. Dichos operadores se representan con símbolos que asociamos a las matemáticas, como +, -, *, / y =. Estos signos realizan acciones similares a sus contrapartes matemáticas cuando se usan con las cadenas de carateres, aunque no iguales.

#### Concatenar
Este término significa juntar cadenas de caracteres. El proceso de concatenación se realiza mediante el operador de suma (+). Ten en cuenta que debes marcar explícitamente dónde quieres los espacios en blanco y colocarlos entre comillas. En este ejemplo, la cadena de caracteres “mensaje” tiene el contenido “Hola Mundo desde el Anaizador Léxico”

In [3]:
# Ejemplo de concatenación de cadenas
mensaje = "Hola Mundo" + " " + "desde el "+"Analizador Léxico"
print(mensaje)

Hola Mundo desde el Analizador Léxico


#### Multiplicar
Si quieres varias copias de una cadena de caracteres utiliza el operador de multiplicación (*). En este ejemplo, la cadena de caracteres mensaje lleva el contenido “Hola” tres veces, mientras que la cadena de caracteres mensaje2 tiene el contenido “Mundo”. Ordenemos imprimir las dos cadenas.

In [4]:
# Ejemplo de multiplicación de cadenas
mensaje = "Hola " * 3
mensaje2 = "Mundo"
print(mensaje + mensaje2)

Hola Hola Hola Mundo


#### Añadir
¿Qué pasa si quieres añadir strings de manera sucesiva al final de una cadena de caracteres? El operador especial para ello es compuesto **(+=)**.

In [5]:
mensaje3 = 'Hola'
mensaje3 += ' '
mensaje3 += 'Mundo'
print(mensaje3)

Hola Mundo


#### Métodos para cadenas de caracteres: buscar, cambiar
En adición a los operadores, Python trae preinstalado docenas de métodos que te permiten hacer cosas con las cadenas de
caracteres. Solos o en combinación, los métodos pueden hacer casi todo lo que te imagines con las cadenas de caracteres. 
Puedes usar como referencia la lista de métodos de cadenas de caracteres (String Methods) en el sitio web de Python, 
que incluye información de cómo utilizar correctamente cada uno. Para asegurar que tengas una comprensión básica de
métodos para cadenas de caracteres, lo que sigue es una breve descripción de los utilizados más comúnmente.

**Extensión**
Puedes determinar el número de caracteres en una cadena utilizando el método _len_. Acuérdate que los espacios en blanco cuentan como un carácter.

```python
mensaje = 'hola' + ' ' + 'mundo'
print(len(mensaje))
```
-> 10


**Encontrar**
Puedes buscar una sub-cadena en una cadena de caracteres utilizando el método _find_ y tu programa te indicará el índice de inicio de la misma. Esto es muy útil para procesos que veremos más adelante. Ten en mente que los índices están numerados de izquierda a derecha y que el número en el que se comienza a contar la posición es el 0, no el 1.

```python
mensaje5 = "Hola Mundo"
mensaje5a = mensaje5.find("Mundo")
print(mensaje5a)
```
-> 5

**Minúsculas**
A veces es útil convertir una cadena de caracteres a minúsculas. Para ello se utiliza el método _lower_. Por ejemplo, al uniformar los caracteres permitimos que la computadora reconozca fácilmente que “Algunas Veces” y “algunas veces” son la misma frase.

```python
mensaje7 = "HOLA MUNDO"
mensaje7a = mensaje7.lower()
print(mensaje7a)
```
-> hola mundo

Convertir las minúsculas en mayúsculas se logra cambiando  *.lower()* por *.upper()*. 


**Reemplazar**
Si necesitas cambiar una sub-cadena de una cadena se puede utilizar el método *replace*.
```python
mensaje8 = "HOLA MUNDO"
mensaje8a = mensaje7.replace("L", "pizza")
print(mensaje8a)
```
-> HOpizzaA MUNDO

**Cortar**
Si quieres cortar partes que no quieras del principio o del final de la cadena de caracteres, lo puedes hacer creando una sub-cadena. El mismo tipo de técnica te permite separar una cadena muy larga en componentes más manejables.

```python
mensaje9 = "Hola Mundo"
mensaje9a = mensaje9[1:8]
print(mensaje9a)
```
-> ola Mun


**División en trozos**
Supongamos que tenemos una cadena que contiene una fecha, en formato día/mes/año. Podemos obtener fácilmente cada trozo de la cadena (cada dato de la fecha) utilizando el método *split*. Este método divide a la cadena en trozos, cortando cada trozo en cada ocurrencia de un separador, que se pasa como argumento.

```python
fecha = '17/05/2012'
datos = fecha.split('/') # separamos la cadena por /
print(datos)
```
-> ['17', '05', '2012'] 

###### Si no le damos a split un separador, la cadena será separada por espacios. Esto puede servir para obtener todas las palabras de una oración.


**Ejercicio # 1.** Escriba un programa en Python que permita capturar una cadena de caracteres que signifiquen un comando de  impresion  en lenguaje Ansi C. Ejemplo:  printf("hola mundo"); , print(velocidad); , etc.
La salida debe ser el análisis léxico de esta cadena. 
<ol>
    <li>La palabra reservada **printf**</li>
    <li>El paréntesis de apertura **(**</li>
    <li>La cadena de caracteres ó el identificador </li>
    <li>El paréntesis de cierre **)**</li>
    <li>El símbolo **;** de fin de sentencia </li>
</ol>


In [11]:
#Programa para analizar lexicamente la sentencia printf en Ansi C

def lexico(inst):
    f=inst[0:6]
    print ("la palabra reservada: ", f)
    d=inst[6]
    print ("el parentesis de apertura: ", d)
    e=inst.find(")")
    a=inst[e]
    t=inst[7:e]
    print("la cadena de caracteres: ",t)
    print("el parentesis d cierre: ",a)
    i=inst.find(";")
    j=inst[i]
    print("el simbolode fin de sentencia: ", j)
    
    
def main():
    print("-- Analisis lexico de la sentencia printf --")
    sentencia=input("Introduce la sentencia printf()")
    lexico(sentencia)
    
    #Expresion reglar
    #sentencia = pr parentesisApertura String|id parentesisCerrado sfin
    #pr = printf
    #parentesisApertura = (
    #String = "+caracter"
    #caracter = a|b|c...A|B|C|*|+|0,1,2,3...9|space
    #id = identificador o variable
    #perentesisCerradura = )
    #sfin = ;
    

    
    
if __name__ == "__main__": 
    main()

-- Analisis lexico de la sentencia printf --
Introduce la sentencia printf()printf("hola mundo");
la palabra reservada:  printf
el parentesis de apertura:  (
la cadena de caracteres:  "hola mundo"
el parentesis d cierre:  )
el simbolode fin de sentencia:  ;


In [None]:
"""
Autor: Fernanda Montoro
Fecha: 04/07/19
"""

#script para analizar lexicamente la sentencia printf en Ansi c

def lexico(c):
    printf = c.find('printf')
    if printf == 0:
        parI = c.find('(')
        if parI == 6 or parI == 7:
            comI = c.find('\'')
            if comI == 7 or comI == 8:
                parF = c.find(')')
                if parF == -1:
                    print('Falta \')\'')
                else:
                    parF = parF - 1
                    if c[parF] == '\'':
                        comI = comI + 1
                        mensaje = c[comI:parF]
                        pyc = c.find(';')
                        if len(c) - 1 == pyc:
                            print('printf: Inicio de sentencia')
                            print('(: PArentesis de apertura')
                            print('\': Comilla de apertura')
                            print(mensaje, ': Mensaje')
                            print('\': Comilla de cierre')
                            print('): Parentesis de cierre')
                            print(';: Fin de sentencia')
                        else:
                            print('falta ;')
                        
                    else:
                        print('Falta \'\'\' de cierre')
            else:
                print('Falta \'\'\' de apertura')
        else:
            print('Falta \'(\'')
    else:
        print(printf)
        print('Falta printf')

def main():
    print('-- Analisis lexico de la sentencia printfn --')
    cadena = input('Cadena: ')
    lexico(cadena)

if __name__ == '__main__':
    main()

# Expresiones Regulares 
Las expresiones regulares son una serie de carácteres que forman un patrón, normalmente representativo de otro grupo de carácteres mayor, de tal forma que podemos comparar el patrón con otro conjunto de carácteres para ver las coincidencias. 

Las expresiones regulares estan disponibles en casi cualquier lenguaje de programación, pero aunque su sintaxis es relativamente uniforme, cada lenguaje usa su propio dialecto. [DesarrolloWeb.com,2019]



# Función Lambda en Python
Funciones lambda en Python. Una función lambda es cuando enviamos a una función de orden superior directamente una función anónima. Es más común enviar una expresión lambda en lugar de enviar la referencia de una función como vimos en el concepto anterior. [tutorialesprogramacionya.com,2019]

#### Ejercicios: 
<h5>Ejercicio 1. Dado el alfabeto{a b} escriba los siguientes lenguajes por medio de espresiones regulares</h5>
<ol>
<li>Cadena a's y b's que inicie con a</li>
<li>Cadena a's y b's compuestas por un numero par de a's </li>
<li>Cadena que finalicen en ab y que sean al menos de cuadro caracteres de longitud </li>
<li>Palindromas de a's y b's </li>
<li>Para el siguiente programa escrito en subconjunto de Ada, encuentre y clasifique todos los tokens </li>
</ol>

# Ejercicio 1                   <center>  Expresion: a a* b* </center>

<IMG SRC="ii1.png">
    
| Alfabto | q1 | q2 |
| :-------|:--:| -: |
|    a    | q2 | q2 |
|    b    |    | q2 |
    

# Ejercicio 2                   <center>  Expresion: b* a b* a </center>

<IMG SRC="ii2.png">
    
| Alfabto | q1 | q2 |
| :-------|:--:| -: |
|    a    | q2 | q1 |
|    b    | q1 | q2 |
    

# Ejercicio 3                   <center>  Expresion: (a(b)* (a|b)* ab </center>

<IMG SRC="ii3.png">
    
| Alfabto | q1 |   q2   |  q3 |  q4 |
| :-------|:--:|   -:   |     |     |
|    a    | q2 | q2,q3  |     |     |
|    b    | q2 |   q2   |  q4 |     |

# Ejercicio 5                
<center>BEGIN</center>

    
| Simbolo |Significado                  |   
| :-------|---------------------------: |   
|  BEGIN  |Sentencia de inicio de bloque | 



<center>A := B3;</center>

| Simbolo |  Significado          |   
| :-------| -------------------:  |   
|   A     | Identificador         | 
|  :=     | Sinbolo de asignacion | 
|   B3    | Identificador         | 
|   i     | Fin de sentencia      | 


<center>Xyz := A + B + C - P/Q;</center>

| Simbolo |  Significado          |   
| :-------| -------------------:  |   
|   Xyz   | Identificador         | 
|  :=     | Sinbolo de asignacion | 
|   A     | Identificador         | 
|   +     | Simbolo de adicion    | 
|   B     | Identificador         | 
|   C     | Identificador         | 
|   -     | Simbolo de sustraccion| 
|   P     | Identificador         | 
|   /     | Simbolo de cociente   | 
|   Q     | Identificador         |

<center> P := A - Xyz * (P+Q); </center>

| Simbolo |  Significado          |   
| :-------| -------------------:  |   
|   P     | Identificador         | 
|  :=     | Sinbolo de asignacion | 
|   A     | Identificador         | 
|   -     | Simbolo de sustraccion| 
|   Xyz   | Identificador         | 
|   *     | Simbolo de producto   | 
|   (     | Parentesis de inicio  | 
|   P     | Identificador         | 
|   +     | Simbolo de adicion    | 
|   Q     | Identificador         |
|   )     | Parentesis de fin     | 

<center> END; </center>

| Simbolo |  Significado               |   
| :-------| -------------------:       |   
|   END   | Sentencia de fin de bloque | 