- Al inicio del Jupyter Notebook debe haber una cleda de markdown con la matrícula y el nombre de los integrantes del equipo, así como una breve descripción del proyecto.
- Cada función de Clojure definida en su programa debe contar con una celda de markdown (inmediatamente arriba de la celda de código correspondiente) documentando en un breve enunciado su intención.
- El código con la implementación de la solución del problema debe seguir las convenciones de estilo y codificación de Clojure.


# Resaltador de texto secuencial para python 3.9.5

## Autores:
* Luis Ignacio Ferro Salinas A01378248

Se realiza un resaltador de texto para el lenguaje Python, usando sus especificaciones de léxico más recientes descritas en: [Python lexical analysis]
Las categorías que se escogimos para resaltar son las siguientes.

* Comentarios.
* Keywords.
* Identifiers.
* Strings.
* Bytes.
* Integers.
* Floats.
* Imaginaries.
* Operators.
* Delimiters.

[Python lexical analysis]: <https://docs.python.org/3/reference/lexical_analysis.htmlhttps://docs.python.org/3/reference/lexical_analysis.html>

### Comentarios
Los comentarios en python, según la especificación léxica, comienzan con un #, y son comentarios de línea.

In [21]:
(def regex-comment  #"\#.*")

#'user/regex-comment

In [22]:
(re-seq regex-comment "# lol.\n# Primer comentario serio.")

("# lol." "# Primer comentario serio.")

### Keywords
Los keywords en python son palabras especiales que no pueden ser utilizadas como identificadores porque pueden tienen propósitos específicos.
Son las siguientes:
- False
- True
- None
- and
- as
- assert
- async
- await
- break
- class
- continue
- def
- del
- elif
- else
- except
- finally
- for
- from
- global
- if
- import
- in
- is
- lambda
- nonlocal
- not
- or
- pass
- raise
- return
- try
- while
- with
- yield

In [23]:
(def regex-keyword #"\bFalse\b|\bTrue\b|\bNone\b|\band\b|\bas\b|\bassert\b|\basync\b|\bawait\b|\bbreak\b|\bclass\b|\bcontinue\b|\bdef\b|\bdel\b|\belif\b|\belse\b|\bexcept\b|\bfinally\b|\bfor\b|\bfrom\b|\bglobal\b|\bif\b|\bimport\b|\bin\b|\bis\b|\blambda\b|\bnonlocal\b|\bnot|\bor\b|\bpass\b|\braise\b|\breturn\b|\btry\b|\bwhile\b|\bwith\b|\byield\b")



#'user/regex-keyword

In [24]:
(re-seq regex-keyword "\nif True:
        print()")

("if" "True")

### Identifiers
En python, los identificadores se definen por una normalización NFLK, pero sin considerarla, la especificación nos da una expresión regular:
````
id_start id_continue*
````
En id_start se puede usar el guión bajo, y pueden estar las siguientes categorías:
- Lu
- Ll
- Lt
- Lm
- Lo
- Nl


En id_continue, se permite todo lo que se permite en id_start, y además pueden estar las siguientes categorías:
- Mn
- Mc
- Nd
- Pc

Las categorías tienen los siguientes significados:
- Lu(uppercase)
- Ll(lowercase)
- Lt(titlecase)
- Lm(modifier)
- Lo(other)
- Nl(letter numbers)
- Mn(nonspacing marks)
- Mc(spacing combining marks)
- Nd(decimal numbers)
- Pc(connector punctuations)


In [25]:
(def regex-identifiers #"\s[_\p{L}\p{Nl}][_\p{L}\p{Nl}\p{Mn}\p{Mc}\p{Nd}\p{Pc}]*\s")


#'user/regex-identifiers

In [26]:
(re-seq regex-identifiers "print('buenas tardes')")

nil

### Strings
Los strings en python tienen un prefijio opcional. Después pueden ser shortstrings delimitados por ' o por ".
También pueden ser longstrings que pueden ocupar múltiples líneas y están delimitados por ''' o por """.
Las secuencias de escape que requieren estados son:
- Hasta 3 dígitos octales: \ooo
- Exactamente 2 dígitos hexadecimales: \xhh
- Un caracter unicode con 16 bits con 4 dígitos hexadecimales: \uxxxx
- Un caracter unicode con 32 bits con 8 dígitos hexadecimales: \Uxxxxxxxx
- Un caracter de unicode por su nombre: \N{name}

In [27]:
(def regex-string #"(?xm)
  (?:[rRuUfF]|fr|fR|FR|Fr|rf|rF|RF|Rf)? 
  '''
  (?:[^\\]
   | \\
       (?:[abfnrt'\"]
        | [0-7]{1,3}
        | x[a-fA-F0-9]{2}
        | u[a-fA-F0-9]{4}
        | U[a-fA-F0-9]{8}
        | N\{[LMNPSCZ]\}))*'''
| \"\"\"
  (?:[^\\]
   | \\
       (?:[abfnrt\'\"]
        | [0-7]{1,3}
        | x[a-fA-F0-9]{2}
        | u[a-fA-F0-9]{4}
        | U[a-fA-F0-9]{8}
        | N\{[LMNPSCZ]\}))*\"\"\"
| '
  (?:[^\n\'\\]
   | \\
       (?:[abfnrt\'\"]
        | [0-7]{1,3}
        | x[a-fA-F0-9]{2}
        | u[a-fA-F0-9]{4}
        | U[a-fA-F0-9]{8}
        | N\{[LMNPSCZ]\}))*'
| \"
  (?:[^\n\"\\]
   | \\
       (?:[abfnrt\'\"]
        | [0-7]{1,3}
        | x[a-fA-F0-9]{2}
        | u[a-fA-F0-9]{4}
        | U[a-fA-F0-9]{8}
        | N\{[LMNPSCZ]\}))*\"")


#'user/regex-string

In [28]:
(re-seq regex-string "\"\"\"buenas\"\"\"")

("\"\"\"buenas\"\"\"")

In [29]:
(def texto-ejemplo (slurp "texto_ejemplo.txt"))

#'user/texto-ejemplo

In [30]:
texto-ejemplo

"# This is a comment.\nvariable = 10\n# This is another comment.\nmy_string = \"this is a string\"\n\nmy_second_string = 'this is another string'\nmy_third_string = \"\"\" This string goes for multiple lines\n\t\t      weird\"\"\"\nmy_fourth_string = f'''A formatted string that goes for\n \t\t       multiple lines'''\n"

In [31]:
(re-seq regex-string texto-ejemplo)

("\"this is a string\"" "'this is another string'" "\"\"\" This string goes for multiple lines\n\t\t      weird\"\"\"" "f'''A formatted string that goes for\n \t\t       multiple lines'''")

In [32]:
(def matches (re-seq regex-comment (slurp "texto_ejemplo.txt")))
matches

("# This is a comment." "# This is another comment.")

### Bytes
Los bytes en python siempre tienen un prefijo, pueden ser con comillas simples o dobles, y pueden ser de línea o de bloque usando una comilla o tres respectivamente para encapsular.

Pueden escapar un subconjunto de las secuencias de escape que pueden escapar los strings:
- Hasta 3 dígitos octales: \ooo
- Excatamente 2 dígitos hexadecimales: \xhh

In [33]:
(def regex-byte #"(?xm)
  (?:[bB]|br|bR|Br|BR|rb|rB|Rb|RB) 
  '''
  (?:[^\\]
   | \\
       (?:[abfnrt\'\"]
        | [0-7]{1,3}
        | x[a-fA-F0-9]{2}))*'''
| \"\"\"
  (?:[^\\]
   | \\
       (?:[abfnrt\'\"]
        | [0-7]{1,3}
        | x[a-fA-F0-9]{2}))*\"\"\"
| '
  (?:[^\n\'\\]
   | \\
       (?:[abfnrt\'\"]
        | [0-7]{1,3}
        | x[a-fA-F0-9]{2}))*'
| \"
  (?:[^\n\"\\]
   | \\
       (?:[abfnrt\'\"]
        | [0-7]{1,3}
        | x[a-fA-F0-9]{2}))*\"")


#'user/regex-byte

In [34]:
(re-seq regex-byte "my-variable")

nil

### Expresión con grupos de captura que regresa para cada match un vector con el string matcheado y los grupos de captura

In [35]:
(def regex-python #"(?xm)
  (\#.*)
| (\bFalse\b|\bTrue\b|\bNone\b|\band\b|\bas\b|\bassert\b|\basync\b|\bawait\b|\bbreak\b|\bclass\b|\bcontinue\b|\bdef\b|\bdel\b|\belif\b|\belse\b|\bexcept\b|\bfinally\b|\bfor\b|\bfrom\b|\bglobal\b|\bif\b|\bimport\b|\bin\b|\bis\b|\blambda\b|\bnonlocal\b|\bnot|\bor\b|\bpass\b|\braise\b|\breturn\b|\btry\b|\bwhile\b|\bwith\b|\byield\b)
| ((?:[bB]|br|bR|Br|BR|rb|rB|Rb|RB) 
                                    '''
                                    (?:[^\\]
                                     | \\
                                         (?:[abfnrt\'\"]
                                          | [0-7]{1,3}
                                          | x[a-fA-F0-9]{2}))*'''
                                  | \"\"\"
                                    (?:[^\\]
                                     | \\
                                         (?:[abfnrt\'\"]
                                          | [0-7]{1,3}
                                          | x[a-fA-F0-9]{2}))*\"\"\"
                                  | '
                                    (?:[^\n\'\\]
                                     | \\
                                         (?:[abfnrt\'\"]
                                          | [0-7]{1,3}
                                          | x[a-fA-F0-9]{2}))*'
                                  | \"
                                    (?:[^\n\"\\]
                                     | \\
                                         (?:[abfnrt\'\"]
                                          | [0-7]{1,3}
                                          | x[a-fA-F0-9]{2}))*\")
| ((?:[rRuUfF]|fr|fR|FR|Fr|rf|rF|RF|Rf)? 
                                        '''
                                        (?:[^\\]
                                         | \\
                                             (?:[abfnrt'\"]
                                              | [0-7]{1,3}
                                              | x[a-fA-F0-9]{2}
                                              | u[a-fA-F0-9]{4}
                                              | U[a-fA-F0-9]{8}
                                              | N\{[LMNPSCZ]\}))*'''
                                      | \"\"\"
                                        (?:[^\\]
                                         | \\
                                             (?:[abfnrt\'\"]
                                              | [0-7]{1,3}
                                              | x[a-fA-F0-9]{2}
                                              | u[a-fA-F0-9]{4}
                                              | U[a-fA-F0-9]{8}
                                              | N\{[LMNPSCZ]\}))*\"\"\"
                                      | '
                                        (?:[^\n\'\\]
                                         | \\
                                             (?:[abfnrt\'\"]
                                              | [0-7]{1,3}
                                              | x[a-fA-F0-9]{2}
                                              | u[a-fA-F0-9]{4}
                                              | U[a-fA-F0-9]{8}
                                              | N\{[LMNPSCZ]\}))*'
                                      | \"
                                        (?:[^\n\"\\]
                                         | \\
                                             (?:[abfnrt\'\"]
                                              | [0-7]{1,3}
                                              | x[a-fA-F0-9]{2}
                                              | u[a-fA-F0-9]{4}
                                              | U[a-fA-F0-9]{8}
                                              | N\{[LMNPSCZ]\}))*\")
| (\s[_\p{L}\p{Nl}][_\p{L}\p{Nl}\p{Mn}\p{Mc}\p{Nd}\p{Pc}]*\s)")


#'user/regex-python

In [36]:
(defn strings-spans
  [matches]
  (map (fn [match] ; Expression returned by cond is vector with full matching string and the category string.
         (cond 
           (match 1) [(match 0) (str "<span class='comment'>" (match 0) "</span>")]
           (match 2) [(match 0) (str "<span class='keyword'>" (match 0) "</span>")]
           (match 3) [(match 0) (str "<span class='byte'>" (match 0) "</span>")]
           (match 4) [(match 0)(str "<span class='string'>" (match 0) "</span>")]
           (match 5) [(match 0) (str "<span class='identifier'>" (match 0) "</span>")]))
       matches))

#'user/strings-spans

In [37]:
(defn replace-strings-by-spans
  [strings-spans temporal-string]
  (loop [strings-spans strings-spans
         temporal-string temporal-string
         string-span (first strings-spans)]
  (if (= (count strings-spans) 0)
    temporal-string
    (recur (rest strings-spans)
           (if (and (first string-span) (second string-span))
             (clojure.string/replace temporal-string 
                                     (first string-span) 
                                     (second string-span))
           temporal-string)
         (first strings-spans)))))

#'user/replace-strings-by-spans

In [38]:
(defn big-guy
  [file-name]
  (spit (clojure.string/replace file-name 
                                ".py" 
                                ".html")
        (replace-strings-by-spans (strings-spans (re-seq regex-python 
                                                         (slurp file-name)))
                                  (slurp file-name))))


#'user/big-guy

In [39]:
(big-guy "python-file.py")

nil

In [40]:
(take (clojure.string/index-of (slurp "starting-html.html") "<pre>") (slurp "starting-html.html"))

Execution error (FileNotFoundException) at java.io.FileInputStream/open0 (FileInputStream.java:-2).
starting-html.html (No such file or directory)


class java.io.FileNotFoundException: 

In [42]:
(slurp "starting-html.html")

Execution error (FileNotFoundException) at java.io.FileInputStream/open0 (FileInputStream.java:-2).
starting-html.html (No such file or directory)


class java.io.FileNotFoundException: 