### Analisis Léxico

Un **analizador léxico** o analizador lexicográfico (en inglés *scanner*) es la primera fase de un compilador consistente en un programa que recibe como **entrada el código fuente** de otro programa (secuencia de caracteres) y produce una **salida compuesta de tokens (componentes léxicos) o símbolos**. Estos **tokens** sirven para una posterior etapa del proceso de traducción, siendo la entrada para el analizador sintáctico (en inglés *parser*).

La especificación de un lenguaje de programación a menudo incluye un **conjunto de reglas** que definen el léxico. Estas reglas consisten comúnmente en **expresiones regulares** que indican el conjunto de posibles secuencias de caracteres que definen un *token ó lexema*. En algunos lenguajes de programación es necesario establecer patrones para caracteres especiales (como el espacio en blanco) que la gramática pueda reconocer sin que constituya un token en sí.


![scanner.png](attachment:scanner.png)



### Desarrollar una analizador léxico 

Cómo un analizador léxico tiene que leer el código fuente y  reconocer patrones llamados tokens,  que no son mas que un conjunto de caracteres que definen componentes léxicos del lenguaje que estamos utilizando, por ejemplo en C : la palabra reservada **printf()**.  Entonces, si queremos desarrollar un analizador léxico debemos primeramente saber manipular cadenas de caracteres.



# <center> Lenguajes y Autómatas II</center>
## <center>Tema: Análisis Léxico </center>

In [1]:
from IPython.display import HTML


HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/S_f2qV2_U00?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')
HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/idnS9MTwfOU" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')



### Manipular cadenas de caracteres en python

Si has estado expuesto antes a otro lenguaje de programación, sabrás que necesitas declarar o escribir variables antes de que puedas almacenar cualquier cosa en ellas. Esto no es necesario cuando trabajas con cadenas de caracteres en Python. Podemos crear una cadena de caracteres simplemente encerrando contenido entre comillas después de un signo de igual (=).

ejemplo :
```python
          mensaje = "Hola a Todos"
 ```   


In [2]:
# Definimos una variable tipo string
mensaje = "Hola Mundo desde el Analizador Léxico"
print(mensaje)

Hola Mundo desde el Analizador Léxico


### Operadores de cadenas de caracteres: adición y multiplicación
Una cadena de caracteres es un objeto que consiste precisamente en una serie de signos o caracteres. Python sabe cómo tratar un número de representaciones poderosas y de propósito general, incluidas las cadenas de caracteres. Una forma de manipular cadenas de caracteres es utilizar operadores de cadenas de caracteres. Dichos operadores se representan con símbolos que asociamos a las matemáticas, como +, -, *, / y =. Estos signos realizan acciones similares a sus contrapartes matemáticas cuando se usan con las cadenas de carateres, aunque no iguales.

#### Concatenar
Este término significa juntar cadenas de caracteres. El proceso de concatenación se realiza mediante el operador de suma (+). Ten en cuenta que debes marcar explícitamente dónde quieres los espacios en blanco y colocarlos entre comillas. En este ejemplo, la cadena de caracteres “mensaje” tiene el contenido “Hola Mundo desde el Anaizador Léxico”

In [3]:
# Ejemplo de concatenación de cadenas
mensaje = "Hola Mundo" + " " + "desde el "+"Analizador Léxico"
print(mensaje)

Hola Mundo desde el Analizador Léxico


#### Multiplicar
Si quieres varias copias de una cadena de caracteres utiliza el operador de multiplicación (*). En este ejemplo, la cadena de caracteres mensaje lleva el contenido “Hola” tres veces, mientras que la cadena de caracteres mensaje2 tiene el contenido “Mundo”. Ordenemos imprimir las dos cadenas.

In [4]:
# Ejemplo de multiplicación de cadenas
mensaje = "Hola " * 3
mensaje2 = "Mundo"
print(mensaje + mensaje2)

Hola Hola Hola Mundo


#### Añadir
¿Qué pasa si quieres añadir strings de manera sucesiva al final de una cadena de caracteres? El operador especial para ello es compuesto **(+=)**.

In [5]:
mensaje3 = 'Hola'
mensaje3 += ' '
mensaje3 += 'Mundo'
print(mensaje3)

Hola Mundo


#### Métodos para cadenas de caracteres: buscar, cambiar
En adición a los operadores, Python trae preinstalado docenas de métodos que te permiten hacer cosas con las cadenas de
caracteres. Solos o en combinación, los métodos pueden hacer casi todo lo que te imagines con las cadenas de caracteres. 
Puedes usar como referencia la lista de métodos de cadenas de caracteres (String Methods) en el sitio web de Python, 
que incluye información de cómo utilizar correctamente cada uno. Para asegurar que tengas una comprensión básica de
métodos para cadenas de caracteres, lo que sigue es una breve descripción de los utilizados más comúnmente.

**Extensión**
Puedes determinar el número de caracteres en una cadena utilizando el método _len_. Acuérdate que los espacios en blanco cuentan como un carácter.

```python
mensaje = 'hola' + ' ' + 'mundo'
print(len(mensaje))
```
-> 10


**Encontrar**
Puedes buscar una sub-cadena en una cadena de caracteres utilizando el método _find_ y tu programa te indicará el índice de inicio de la misma. Esto es muy útil para procesos que veremos más adelante. Ten en mente que los índices están numerados de izquierda a derecha y que el número en el que se comienza a contar la posición es el 0, no el 1.

```python
mensaje5 = "Hola Mundo"
mensaje5a = mensaje5.find("Mundo")
print(mensaje5a)
```
-> 5

**Minúsculas**
A veces es útil convertir una cadena de caracteres a minúsculas. Para ello se utiliza el método _lower_. Por ejemplo, al uniformar los caracteres permitimos que la computadora reconozca fácilmente que “Algunas Veces” y “algunas veces” son la misma frase.

```python
mensaje7 = "HOLA MUNDO"
mensaje7a = mensaje7.lower()
print(mensaje7a)
```
-> hola mundo

Convertir las minúsculas en mayúsculas se logra cambiando  *.lower()* por *.upper()*. 


**Reemplazar**
Si necesitas cambiar una sub-cadena de una cadena se puede utilizar el método *replace*.
```python
mensaje8 = "HOLA MUNDO"
mensaje8a = mensaje7.replace("L", "pizza")
print(mensaje8a)
```
-> HOpizzaA MUNDO

**Cortar**
Si quieres cortar partes que no quieras del principio o del final de la cadena de caracteres, lo puedes hacer creando una sub-cadena. El mismo tipo de técnica te permite separar una cadena muy larga en componentes más manejables.

```python
    mensaje9 = "Hola Mundo"
    mensaje9a = mensaje9[1:8]
    print(mensaje9a)
```
-> ola Mun


**División en trozos**
Supongamos que tenemos una cadena que contiene una fecha, en formato día/mes/año. Podemos obtener fácilmente cada trozo de la cadena (cada dato de la fecha) utilizando el método *split*. Este método divide a la cadena en trozos, cortando cada trozo en cada ocurrencia de un separador, que se pasa como argumento.

```python
fecha = '17/05/2012'
datos = fecha.split('/') # separamos la cadena por /
print(datos)
```
-> ['17', '05', '2012'] 

###### Si no le damos a split un separador, la cadena será separada por espacios. Esto puede servir para obtener todas las palabras de una oración.


**Ejercicio # 1.** Escriba un programa en Python que permita capturar una cadena de caracteres que signifiquen un comando de  impresion  en lenguaje Ansi C. Ejemplo:  printf("hola mundo"); , print(velocidad); , etc.
La salida debe ser el análisis léxico de esta cadena. 
<ol>
    <li>La palabra reservada **printf**</li>
    <li>El paréntesis de apertura **(**</li>
    <li>La cadena de caracteres ó el identificador </li>
    <li>El paréntesis de cierre **)**</li>
    <li>El símbolo **;** de fin de sentencia </li>
</ol>


In [2]:
mensaje8 = "HOLA MUNDO"
mensaje8a = mensaje8.replace("O", "pizza")
print(mensaje8a)

HpizzaLA MUNDpizza


In [None]:
    mensaje9 = "Hola Mundo"
    mensaje9a = mensaje9[1:8]
    print(mensaje9a)

In [None]:
#Script para analizar lexicamente una sentencia printf en Ansi C
#Autor: Guillermo Eduardo Granados Davalos
#fecha: 6 de julio del 2019

import ply.lex as lex

# resultado del analisis
resultado_lexema = []

reservada = (
    # Palabras Reservadas
    'INCLUDE',
    'USING',
    'NAMESPACE',
    'STD',
    'COUT',
    'CIN',
   'GET',
   'CADENA',
  'RETURN',
   'VOID',
    'INT',
    'ENDL',
)
tokens = reservada + (
    'IDENTIFICADOR',
    'ENTERO',
    'ASIGNAR',

    'SUMA',
    'RESTA',
    'MULT',
    'DIV',
    'POTENCIA',
    'MODULO',

   'MINUSMINUS',
   'PLUSPLUS',

    #Condiones
   'SI',
    'SINO',
    #Ciclos
   'MIENTRAS',
   'PARA',
    #logica
    'AND',
    'OR',
    'NOT',
    'MENORQUE',
    'MENORIGUAL',
    'MAYORQUE',
    'MAYORIGUAL',
    'IGUAL',
    'DISTINTO',
    # Symbolos
    'NUMERAL',

    'PARIZQ',
    'PARDER',
    'CORIZQ',
    'CORDER',
    'LLAIZQ',
    'LLADER',
    
    # Otros
    'PUNTOCOMA',
    'COMA',
    'COMDOB',
    'MAYORDER', #>>
    'MAYORIZQ', #<<
)

# Reglas de Expresiones Regualres para token de Contexto simple

t_SUMA = r'\+'
t_RESTA = r'-'
t_MINUSMINUS = r'\-\-'
# t_PUNTO = r'\.'
t_MULT = r'\*'
t_DIV = r'/'
t_MODULO = r'\%'
t_POTENCIA = r'(\*{2} | \^)'

t_ASIGNAR = r'='
# Expresiones Logicas
t_AND = r'\&\&'
t_OR = r'\|{2}'
t_NOT = r'\!'
t_MENORQUE = r'<'
t_MAYORQUE = r'>'
t_PUNTOCOMA = ';'
t_COMA = r','
t_PARIZQ = r'\('
t_PARDER = r'\)'
t_CORIZQ = r'\['
t_CORDER = r'\]'
t_LLAIZQ = r'{'
t_LLADER = r'}'
t_COMDOB = r'\"'



def t_INCLUDE(t):
    r'include'
    return t

def t_USING(t):
    r'using'
    return t

def t_NAMESPACE(t):
    r'namespace'
    return t

def t_STD(t):
    r'std'
    return t

def t_COUT(t):
    r'cout'
    return t

def t_CIN(t):
    r'cin'
    return t

def t_GET(t):
    r'get'
    return t

def t_ENDL(t):
    r'endl'
    return t

def t_SINO(t):
    r'else'
    return t

def t_SI(t):
    r'if'
    return t

def t_RETURN(t):
   r'return'
   return t

def t_VOID(t):
   r'void'
   return t

def t_MIENTRAS(t):
    r'while'
    return t

def t_PARA(t):
    r'for'
    return t

def t_ENTERO(t):
    r'\d+'
    t.value = int(t.value)
    return t

def t_IDENTIFICADOR(t):
    r'\w+(_\d\w)*'
    return t

def t_CADENA(t):
   r'\"?(\w+ \ *\w*\d* \ *)\"?'
   return t

def t_NUMERAL(t):
    r'\#'
    return t

def t_PLUSPLUS(t):
    r'\+\+'
    return t

def t_MENORIGUAL(t):
    r'<='
    return t

def t_MAYORIGUAL(t):
    r'>='
    return t

def t_IGUAL(t):
    r'=='
    return t

def t_MAYORDER(t):
    r'<<'
    return t

def t_MAYORIZQ(t):
    r'>>'
    return t

def t_DISTINTO(t):
    r'!='
    return t

def t_newline(t):
    r'\n+'
    t.lexer.lineno += len(t.value)

def t_comments(t):
    r'/\*(.|\n)*?\*/'
    t.lexer.lineno += t.value.count('\n')
    print("Comentario de multiple linea")

def t_comments_ONELine(t):
     r'\/\/(.)*\n'
     t.lexer.lineno += 1
     print("Comentario de una linea")
t_ignore =' \t'

def t_error( t):
    global resultado_lexema
    estado = "** Token no valido en la Linea {:4} Valor {:16} Posicion {:4}".format(str(t.lineno), str(t.value),
                                                                      str(t.lexpos))
    resultado_lexema.append(estado)
    t.lexer.skip(1)

# Prueba de ingreso
def prueba(data):
    global resultado_lexema

    analizador = lex.lex()
    analizador.input(data)

    resultado_lexema.clear()
    while True:
        tok = analizador.token()
        if not tok:
            break
        # print("lexema de "+tok.type+" valor "+tok.value+" linea "tok.lineno)
        estado = "Linea {:4} Tipo {:16} Valor {:16} Posicion {:4}".format(str(tok.lineno),str(tok.type) ,str(tok.value), str(tok.lexpos) )
        resultado_lexema.append(estado)
    return resultado_lexema

 # instanciamos el analizador lexico
analizador = lex.lex()

if __name__ == '__main__':
    while True:
        data = input("ingrese: ")
        prueba(data)
print(resultado_lexema)

### EXPRESIONES REGULARES 
En cómputo teórico y teoría de lenguajes formales una expresión regular, también conocida como regex, regexp1​ o expresión racional,2​3​ es una secuencia de caracteres que forma un patrón de búsqueda, principalmente utilizada para la búsqueda de patrones de cadenas de caracteres u operaciones de sustituciones. Por ejemplo, el grupo formado por las cadenas Handel, Händel y Haendel se describe con el patrón "H(a|ä|ae)ndel". La mayoría de las formalizaciones proporcionan los siguientes constructores: una expresión regular es una forma de representar los lenguajes regulares (finitos o infinitos) y se construye utilizando caracteres del alfabeto sobre el cual se define el lenguaje. [Wikipedia, 2019]

En informática, las expresiones regulares proporcionan una manera muy flexible de buscar o reconocer cadenas de texto.
### Ejercicios

<h4> Ejercicios1:Dado el alfabeto {a b}, escriba los siguientes lenguaes por medio de expresiones regulares</h4>
<li>1.cadenas a's y b's que inician con a</li>

![ejericio1.PNG](attachment:ejericio1.PNG)


<li>2. cadenas de a's y b's compuestas por un numero par de a´s </li>

![ejercicio2.PNG](attachment:ejercicio2.PNG)

<li>3. cadenas que finalicen en ab y que sean al menos de cuatro caracteres de longitud </li>

![ejercicio3.PNG](attachment:ejercicio3.PNG)

<li>4. Palindromas de a's y b's </li>

<li>5. para el siguiente programa escrito en un subconjunto de Ada, encuentre y clasifique todos los tokens </li>

~~~ 
   BEGIN
   A :=B3;
   Xyz := A + B + C - P/1;
   A : Xyz * (P + Q):
   
~~~ 

|ESTADOS|     a     | b |
|-------|-----------|---:|
|0      |     1     | $1600|
|1      |  centered | $1600|
|2      |     1     | $1600|


### EXPRSIONES LAMBDA
Una función lambda es cuando enviamos a una función de orden superior directamente una función anónima.

Es más común enviar una expresión lambda en lugar de enviar la referencia de una función como vimos en el concepto anterior.
###Problema 1
Definir una función de orden superior llamada operar. Llegan como parámetro dos enteros y una función. En el bloque de la función llamar a la función que llega como parámetro y enviar los dos primeros parámetros.

Desde el bloque principal llamar a operar y enviar distintas expresiones lambdas que permitan sumar, restar, multiplicar y dividir .

def operar(v1,v2,fn):
    return fn(v1,v2)

resu1=operar(10,3,lambda x1,x2: x1+x2)
print(resu1)

resu2=operar(10,3,lambda x1,x2: x1-x2)
print(resu2)

print(operar(30,10,lambda x1,x2: x1*x2))

print(operar(10,2,lambda x1,x2: x1/x2))