- Al inicio del Jupyter Notebook debe haber una cleda de markdown con la matrícula y el nombre de los integrantes del equipo, así como una breve descripción del proyecto.
- Cada función de Clojure definida en su programa debe contar con una celda de markdown (inmediatamente arriba de la celda de código correspondiente) documentando en un breve enunciado su intención.
- El código con la implementación de la solución del problema debe seguir las convenciones de estilo y codificación de Clojure.


# Resaltador de texto secuencial para python 3.9.5

## Autores:
* Luis Ignacio Ferro Salinas A01378248
* Omar Rodrigo SorchiniPuente A01749389

Se realiza un resaltador de texto para el lenguaje Python, usando sus especificaciones de léxico más recientes descritas en: [Python lexical analysis]
Las categorías que escogimos para resaltar son las siguientes.

* Comentarios.
* Keywords.
* Identifiers.
* Strings.
* Bytes.
* Integers.
* Floats.
* Imaginaries.
* Operators.
* Delimiters.

[Python lexical analysis]: <https://docs.python.org/3/reference/lexical_analysis.htmlhttps://docs.python.org/3/reference/lexical_analysis.html>

### Comentarios
Los comentarios en python, según la especificación léxica, comienzan con un #, y son comentarios de línea.

In [191]:
(def regex-comment  #"\#.*"); The . exlcudes the \n character by default.

#'user/regex-comment

In [192]:
(re-seq regex-comment "# This is a comment in python.\n")

("# This is a comment in python.")

### Keywords
Los keywords en python son palabras especiales que no pueden ser utilizadas como identificadores porque pueden tienen propósitos específicos.
Son las siguientes:
- False
- True
- None
- and
- as
- assert
- async
- await
- break
- class
- continue
- def
- del
- elif
- else
- except
- finally
- for
- from
- global
- if
- import
- in
- is
- lambda
- nonlocal
- not
- or
- pass
- raise
- return
- try
- while
- with
- yield

In [193]:
(def regex-keyword #"\bFalse\b|\bTrue\b|\bNone\b|\band\b|\bas\b|\bassert\b|\basync\b|\bawait\b|\bbreak\b|\bclass\b|\bcontinue\b|\bdef\b|\bdel\b|\belif\b|\belse\b|\bexcept\b|\bfinally\b|\bfor\b|\bfrom\b|\bglobal\b|\bif\b|\bimport\b|\bin\b|\bis\b|\blambda\b|\bnonlocal\b|\bnot|\bor\b|\bpass\b|\braise\b|\breturn\b|\btry\b|\bwhile\b|\bwith\b|\byield\b")


#'user/regex-keyword

In [194]:
(re-seq regex-keyword "\nif True:
        print()")

("if" "True")

### Identifiers
En python, los identificadores se definen por una normalización NFLK, pero sin considerarla, la especificación nos da una expresión regular:
````
id_start id_continue*
````
En id_start se puede usar el guión bajo, y pueden estar las siguientes categorías de unicode:
- Lu
- Ll
- Lt
- Lm
- Lo
- Nl


En id_continue, se permite todo lo que se permite en id_start, y además pueden estar las siguientes categorías:
- Mn
- Mc
- Nd
- Pc

Las categorías tienen los siguientes significados:
- Lu(uppercase)
- Ll(lowercase)
- Lt(titlecase)
- Lm(modifier)
- Lo(other)
- Nl(letter numbers)
- Mn(nonspacing marks)
- Mc(spacing combining marks)
- Nd(decimal numbers)
- Pc(connector punctuations)


In [195]:
(def regex-identifiers #"\b(?:_|\p{L}|\p{Nl})(?:_|\p{L}|\p{Nl}|\p{Mn}|\p{Mc}|\p{Nd}|\p{Pc})*\b")


#'user/regex-identifiers

In [196]:
(re-seq regex-identifiers "my_number = 365")

("my_number")

### Strings
Los strings en python tienen un prefijio opcional. Después pueden ser shortstrings delimitados por ' o por ".
También pueden ser longstrings que pueden ocupar múltiples líneas y están delimitados por ''' o por """.
Las secuencias de escape que requieren estados son:
- Hasta 3 dígitos octales: \ooo
- Exactamente 2 dígitos hexadecimales: \xhh
- Un caracter unicode con 16 bits con exactamente 4 dígitos hexadecimales: \uxxxx
- Un caracter unicode con 32 bits con exactamente 8 dígitos hexadecimales: \Uxxxxxxxx
- Un caracter de unicode por su nombre: \N{name} (Se considera para este ejercicio que es cualquier subconjunto de la categoría unicode de letras)

In [197]:
(def regex-string #"(?xm)
  (?:[rRuUfF]|fr|fR|FR|Fr|rf|rF|RF|Rf)? 
    (?:
      (?:'''
        (?:[^\\]
         | \\
          (?:[abfnrtv'\"\\]
           | newline
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}
           | u[a-fA-F0-9]{4}
           | U[a-fA-F0-9]{8}
           | N\{\p{L}*\}))*''')
    | (?:\"\"\"
        (?:[^\\]
         | \\
          (?:[abfnrtv\'\"\\]
           | newline
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}
           | u[a-fA-F0-9]{4}
           | U[a-fA-F0-9]{8}
           | N\{\p{L}*\}))*\"\"\")
    | (?:'
        (?:[^\n\'\\]
         | \\
          (?:[abfnrtv\'\"\\]
           | newline
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}
           | u[a-fA-F0-9]{4}
           | U[a-fA-F0-9]{8}
           | N\{\p{L}*\}))*')
    | (?:\"
        (?:[^\n\"\\]
         | \\
          (?:[abfnrtv\'\"\\]
           | newline
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}
           | u[a-fA-F0-9]{4}
           | U[a-fA-F0-9]{8}
           | N\{\p{L}*\}))*\"))")


#'user/regex-string

In [198]:
(re-seq regex-string "''' In python, \\newline \\N{one} function of the multiline strings
                          is to \\0 \\01 \\02 wrap the documentation strings to the limit
                          \\\\ characters. \\xAF \\uAFaf \\UaBcDeFaB '''")

("''' In python, \\newline \\N{one} function of the multiline strings\n                          is to \\0 \\01 \\02 wrap the documentation strings to the limit\n                          \\\\ characters. \\xAF \\uAFaf \\UaBcDeFaB '''")

### Bytes
Los bytes en python siempre tienen un prefijo, pueden ser con comillas simples o dobles, y pueden ser de línea o de bloque usando una comilla o tres respectivamente para encapsular.

Pueden escapar un subconjunto de las secuencias de escape que pueden escapar los strings:
- Hasta 3 dígitos octales: \ooo
- Excatamente 2 dígitos hexadecimales: \xhh

In [199]:
(def regex-byte #"(?xm)
  (?:b|B|br|bR|Br|BR|rb|rB|Rb|RB)
    (?:
      (?:'''
        (?:[^\\]
         | \\
          (?:[abfnrt\'\"\\]
           | newline
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}))*''')
    | (?:\"\"\"
        (?:[^\\]
         | \\
          (?:[abfnrt\'\"\\]
           | newline
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}))*\"\"\")
    | (?:'
        (?:[^\n\'\\]
         | \\
          (?:[abfnrt\'\"\\]
           | newline
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}))*')
    | (?:\"
        (?:[^\n\"\\]
         | \\
          (?:[abfnrt\'\"\\]
            | newline
            | [0-7]{1,3}
            | x[a-fA-F0-9]{2}))*\"))")


#'user/regex-byte

In [200]:
(re-seq regex-byte "B\"\"\" This is a byte in python \\123 \\\\ \\newline
                    \\x12\"\"\"")

("B\"\"\" This is a byte in python \\123 \\\\ \\newline\n                    \\x12\"\"\"")

### Integers

Los enteros en python son meramente un número que puede ser tanto negativo como positivo con una cantidad ilimitada en su longitud.

Pueden tener el signo correspondientes antes de los digitos o puede no tener ninguno para hacer referencia al campo de los positivos.

In [2]:
(def regex-integer #"([+-]?\d+)")

#'user/regex-integer

In [4]:
(re-seq regex-integer "123 -123 +123")

(["123" "123"] ["-123" "-123"] ["+123" "+123"])

### Floats

Los flotantes o números de punto flotante en python son números que pueden ser tanto negativos como positivos conteniendo uno o más decimales.

Pueden tener el signo correspondientes antes de los digitos o puede no tener ninguno para hacer referencia al campo de los positivos.

Es indispensable que contengan un punto o un exponencial representado por la letra "e" para que se considere como flotante.

In [6]:
(def regex-floats #"(([-+]?(\d+[.]|[.]\d+)\d*([eE][-+]?\d+)?)|([-+]?\d+[eE][-+]?\d+))")

#'user/regex-floats

In [7]:
(re-seq regex-floats "-5.4e+56")

(["-5.4e+56" "-5.4e+56" "-5.4e+56" "5." "e+56" nil])

### Complex

Los números complejos o imaginarios en python son escritos con una "j" que representa la parte imaginaria de la expresión.

Pueden contener la parte real representada por un número entero o flotante, pero será indispensable que contengan la parte imaginaria para que se considere como número complejo, el cual puede llegar a representarse como entero o flotante.

In [8]:
(def regex-complex #"(([-+]?(\d+[.]|[.]\d+)?\d*([eE][-+]?\d+)?([-+]?(\d+[.]|[.]\d+)?\d*([eE][-+]?\d+)?[j]))|([-+]?\d+[eE][-+]?\d+[j]))")

#'user/regex-complex

In [9]:
(re-seq regex-complex "-89.45e+65-56.e-45j")

(["-89.45e+65-56.e-45j" "-89.45e+65-56.e-45j" "-89.45e+65-56.e-45j" "89." "e+65" "-56.e-45j" "56." "e-45" nil])

## Operators

Los operadores en python son símbolos reservados para la realización de operaciones sobre los elementos a aplicar, de entre estos se encuentran variables o valores.

Se pueden encontrar operadores aritméticos, comparativos, lógicos, de identidad, de afiliación y de bit a bit.

In [11]:
(def regex-operators #"(\+|\-|\*\*?|\/\/?|\%|\@|\<(\<|\=)?|\>(\>|\=)?|\||\^|\~|(\=|\!)\=|\&|is(\snot)?|not(\sin)?|or|and)")

#'user/regex-operators

In [13]:
(re-seq regex-operators "5%2//2+5")

(["%" "%" nil nil nil nil nil] ["//" "//" nil nil nil nil nil] ["+" "+" nil nil nil nil nil])

## Delimiters

Los delimitadores en python son caracteres utilizados para delimitar, separar o representar expresiones en el léxico.

A pesar de que se contengan operadores de asignación aumentada se listan de esta manera porque no requieren de espacios en blanco en el código fuente.

Véase: [Python delimeters]

[Python delimeters]: 
<https://stackoverflow.com/questions/24126468/why-in-python-and-are-considered-as-delimiters>

In [14]:
(def regex-delimeters #"(\'|\"|\#|\\|\(|\)|\[|\]|\{|\}|\,|\:|\.|\;|\=|->|[-+%&|^]\=|(\/\/?|\*\*?|\<\<?|\<\<?|\>\>?)\=|\@\=?)")

#'user/regex-delimeters

In [17]:
(re-seq regex-delimeters "print('Hola Mundo'))")

(["(" "(" nil] ["'" "'" nil] ["'" "'" nil] [")" ")" nil] [")" ")" nil])

## Expresión con grupos de captura

In [18]:
(def regex-python #"(?xm)
  (\#.*)
| (\bFalse\b|\bTrue\b|\bNone\b|\band\b|\bas\b|\bassert\b|\basync\b|\bawait\b|\bbreak\b|\bclass\b|\bcontinue\b|\bdef\b|\bdel\b|\belif\b|\belse\b|\bexcept\b|\bfinally\b|\bfor\b|\bfrom\b|\bglobal\b|\bif\b|\bimport\b|\bin\b|\bis\b|\blambda\b|\bnonlocal\b|\bnot|\bor\b|\bpass\b|\braise\b|\breturn\b|\btry\b|\bwhile\b|\bwith\b|\byield\b)
| ((?:b|B|br|bR|Br|BR|rb|rB|Rb|RB)
    (?:
      (?:'''
        (?:[^\\]
         | \\
          (?:[abfnrt\'\"]
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}))*''')
    | (?:\"\"\"
        (?:[^\\]
         | \\
          (?:[abfnrt\'\"]
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}))*\"\"\")
    | (?:'
        (?:[^\n\'\\]
         | \\
          (?:[abfnrt\'\"]
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}))*')
    | (?:\"
        (?:[^\n\"\\]
         | \\
          (?:[abfnrt\'\"]
            | [0-7]{1,3}
            | x[a-fA-F0-9]{2}))*\"))) 
| ((?:[rRuUfF]|fr|fR|FR|Fr|rf|rF|RF|Rf)? 
    (?:
      (?:'''
        (?:[^\\]
         | \\
          (?:[abfnrt'\"]
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}
           | u[a-fA-F0-9]{4}
           | U[a-fA-F0-9]{8}
           | N\{[LMNPSCZ]\}))*''')
    | (?:\"\"\"
        (?:[^\\]
         | \\
          (?:[abfnrt\'\"]
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}
           | u[a-fA-F0-9]{4}
           | U[a-fA-F0-9]{8}
           | N\{[LMNPSCZ]\}))*\"\"\")
    | (?:'
        (?:[^\n\'\\]
         | \\
          (?:[abfnrt\'\"]
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}
           | u[a-fA-F0-9]{4}
           | U[a-fA-F0-9]{8}
           | N\{[LMNPSCZ]\}))*')
    | (?:\"
        (?:[^\n\"\\]
         | \\
          (?:[abfnrt\'\"]
           | [0-7]{1,3}
           | x[a-fA-F0-9]{2}
           | u[a-fA-F0-9]{4}
           | U[a-fA-F0-9]{8}
           | N\{[LMNPSCZ]\}))*\")))
| (\b(?:_|\p{L}|\p{Nl})(?:_|\p{L}|\p{Nl}|\p{Mn}|\p{Mc}|\p{Nd}|\p{Pc})*\b)
| (([-+]?(\d+[.]|[.]\d+)?\d*([eE][-+]?\d+)?([-+]?(\d+[.]|[.]\d+)?\d*([eE][-+]?\d+)?[j]))
    |([-+]?\d+[eE][-+]?\d+[j]))
| (([-+]?(\d+[.]|[.]\d+)\d*([eE][-+]?\d+)?)|
   ([-+]?\d+[eE][-+]?\d+))
| ([+-]?\d+)
| (\'|\"|\#|\\|\(|\)|\[|\]|\{|\}|\,|\:|\.|\;|\=|->|[-+%&|^]\=|(\/\/?|\*\*?|\<\<?|\<\<?|\>\>?)\=|\@\=?)
| (\+|\-|\*\*?|\/\/?|\%|\@|\<(\<|\=)?|\>(\>|\=)?|\||\^|\~|(\=|\!)\=|\&|is(\snot)?|not(\sin)?|or|and)")


#'user/regex-python

### strings-indices-spans
Esta función toma un vector donde cada elemento es un vector que generaría re-match (matching-string grupos...) y genera otro vector donde cada elemento es un vector que contiene el matching-string, el índice en donde se encontró y el matching-string encapsulado de spans para su uso en html.

In [205]:
(defn strings-indices-spans
  [matches]
  (map (fn [match] ; Expression returned by cond is vector with full matching string, index and the category string.
         (cond 
           (match 1) [(match 0) (last match) (str "<span style='color:darkblue'>" (match 0) "</span>")]
           (match 2) [(match 0) (last match) (str "<span style='color:blueviolet'>" (match 0) "</span>")]
           (match 3) [(match 0) (last match) (str "<span style='color:chocolate'>" (match 0) "</span>")]
           (match 4) [(match 0) (last match) (str "<span style='color:crimson'>" (match 0) "</span>")]
           (match 5) [(match 0) (last match) (str "<span style='color:darkgreen'>" (match 0) "</span>")]))
       matches))

#'user/strings-indices-spans

### replace-strings-by-spans

La función un vector como el que genera la función anterior strings-indices-matches con todos los strings que deben ser sustituidos y un temporal-string que se refiere al string inicial que va a ser transformado a un html.
Se actualiza el temporal-string con ayuda del índice, y el matching-string del string-index-span, que es un elemento de strings-indices-matches que se va actualizando. Después se actualiza el vector strings-indices-spans que contiene todos los strings que deben ser sustituidos. Finalmente se actualiza el elemento string-index-span. Esto ocurre para todos los elementos de strings-indices-spans, sustituyendo los strings matcheados por sus contrapartes con código de html.


In [206]:
(defn replace-strings-by-spans
  [strings-indices-spans-arg temporal-string-arg]
  (loop [temporal-string temporal-string-arg
         strings-indices-spans strings-indices-spans-arg
         string-index-span (first strings-indices-spans-arg)]
  ;(print strings-indices-spans)
  ;(print "\n")
  ;(print string-index-span)
  ;(print "\n")
  ;(print temporal-string)
  ;(print "\n")
  (if (= (count strings-indices-spans) 0)
    temporal-string
    (recur (if (and (first string-index-span) (second string-index-span) (last string-index-span)); string√index√span√
             (str (subs temporal-string 
                                         0 
                                         (second string-index-span)); 1 before the string begins
                                   (last string-index-span)
                                   (subs temporal-string 
                                         (+ (second string-index-span) 
                                            (count (first string-index-span)))))
           temporal-string)
           (let 
             [extra-letters (- (count (last string-index-span)) (count (first string-index-span)))]
             (map (fn
                  [string-index-span-map]
                  [(first string-index-span-map) 
                   (+ (second string-index-span-map)
                      extra-letters)
                   (last string-index-span-map)])
                (rest strings-indices-spans)))
           (let 
             [extra-letters (- (count (last string-index-span)) (count (first string-index-span)))]
             (first (map (fn
                  [string-index-span-map]
                  [(first string-index-span-map) 
                   (+ (second string-index-span-map) 
                      extra-letters)
                   (last string-index-span-map)])
                (rest strings-indices-spans))))))))

#'user/replace-strings-by-spans

### generate-matches
La solución de usar el índice del match para reemplazar los strings, se pensó para que no hubiera ambiguedad sobre qué string dentro del documento se debe reemplazar. Por ejemplo, si una string "my_variable" está dentro de un comentario en python y además como un identificador, no sería correcto encapsular la que está dentro del comentario con spans. Esta función recibe un objeto creado con re-matcher, y ejecuta re-find repetidamente para encontrar todos los matches de la expresión regular del matcher en la string del matcher, pero agrega el índice del match al final de cada re-find, la única diferencia contra re-seq.

In [207]:
(defn generate-matches 
  [matcher] 
  (loop [matches []
         match (re-find matcher)]
    (if (not (first match))
      matches
      (recur (conj matches 
                   (conj match 
                         (.start matcher))) 
             (re-find matcher)))))

#'user/generate-matches

### big-guy
Toma un nombre de un archivo, y una expresión regular que tiene grupos de captura y utiliza las funciones anteriores para generar un archivo html
de mismo nombre y con las strings que hagan match con los distintos grupos de captura mostrando distintos colores.

In [208]:
(defn big-guy
  [file-name language-regex]
  (spit (clojure.string/replace file-name ".py" ".html")
        (let [split-html (clojure.string/split (slurp "starting_html.html") #"\<pre\>")]
          (reduce str "" [(split-html 0)
                          "<pre>"
                          (replace-strings-by-spans (strings-indices-spans (generate-matches (re-matcher language-regex 
                                                                                                         (slurp file-name))))
                                                    (slurp file-name))
                          (split-html 1)]))))


#'user/big-guy

In [209]:
(big-guy "python-file.py" regex-python)

nil

Ciertos caracteres en el archivo de entrada deben ser reemplazados en el documento de salida por sus correspondientes secuencias de escape de HTML:
< (menor que)   ➔   &lt;
> (mayor que)   ➔   &gt;
& (ampersand)   ➔   &amp;