Introducción Perl
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/bash-for-analytics/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/bash-for-analytics/tree/master/) para explorar el repositorio usando `nbviewer`. 

# Descripción

Perl es un lenguaje de programación interpretado que se especializa en el procesamiento de texto y programación web. Se destaca por ser breve, efectivo y dinámico, lo que permite que la codificación sea más sencilla para los programadores.

En el área de analítica, su función se enfoca en la extracción, limpieza y procesamiento  de archivos de texto teniendo como ventaja la fácil conexión a bases de datos relacionales.

# Distribuciones


* Strawberry Perl (http://strawberryperl.com)


* ActiveSite (https://www.activestate.com/activeperl)


* DWIM Perl (http://dwimperl.szabgab.com)



# Ejecución 


* Ejecución con Jupyter a través de magic cells con Python.


* Desde Padre utilizando DWIN Perl o Strawberry Perl


* Ejecución interactiva a través de scripts

# Introducción

In [14]:
perl -e 'print "Hola $Mundo"'

Hola 

El contenido que se encuentre entre comillas simples `''` se toma como literal mientras que el que se encuentra entre comillas dobles `""` es interpretable, es decir puede incluir variables.
Observe que en el resultado anterior solo se imprime `Hola` ya que `$Mundo` representa una variable vacía.

Perl cuenta con modulos, homologos a los paquetes de Python y R, que permiten obtener ciertas funciones que facilitan la codificación. Entre los escenciales se encuentra el uso de `strict`.

`use strict:` Encuentra errores de sintaxis no reconocidos por Perl como detectar variables sin declarar y el uso del mismo nombre para varias estructuras y subrutinas, luego detiene la compilación. Es ampliamente utilizado por programadores avanzados para correr aplicaciones eficientemente.

`use warnings:` Revela indicaciones sobre los errores de código. 


---

# Filtros y procesamiento

Sea el siguiente archivo:

In [1]:
cat > out.1 <<EOF
Mirar el río hecho de tiempo y agua
Y recordar que el tiempo es otro río
Saber que nos perdemos como el río
Y que los rostros pasan como el agua
EOF

Para imprimir una fila en particular se utiliza el siguiente comando:

In [43]:
perl -ne 'print if $.==4' out.1

Y que los rostros pasan como el agua


De la misma forma se pueden imprimir conjuntos de registros.

In [45]:
perl -ne 'print if 1..3' out.1

Mirar el río hecho de tiempo y agua
Y recordar que el tiempo es otro río
Saber que nos perdemos como el río


Para imprimir en pantalla todas las líneas que contienen `Y` se usa el comando: 

In [23]:
perl -ne 'print if /Y/i' out.1

Mirar el río hecho de tiempo y agua
Y recordar que el tiempo es otro río
Y que los rostros pasan como el agua


In [28]:
perl -ne 'print if m#y#' out.1 

Mirar el río hecho de tiempo y agua


Observe que la sintaxis anterior permite buscar de forma literal elementos dentro del texto mientras que en la primera la letra`y` se interpreta como mayúscula o minúscula.

El siguiente comando imprime todas las líneas que contienen `Y` al inicio de la frase:

In [24]:
perl -ne 'print if /^[Y]/' out.1

Y recordar que el tiempo es otro río
Y que los rostros pasan como el agua


El siguiente comando imprime todas las líneas que contienen `río` al final de la frase:

In [25]:
perl -ne 'print if /[río]$/' out.1

Y recordar que el tiempo es otro río
Saber que nos perdemos como el río


Para obtener la concatenación de dos condiciones se utiliza el simbolo `&&` y para obtener el complemento de la busqueda el simbolo `!`.

In [26]:
perl -ne 'print if /tiempo/ && !/agua/' out.1

Y recordar que el tiempo es otro río


Es posible obtener un filtro de los elementos que contienen mas de una expresión a través de la función `index`.

In [42]:
s='Y recordar' perl -ne 'print if index($_, $ENV{s})==0' out.1

Y recordar que el tiempo es otro río


En el caso anterior, se buscó la expresión `Y recordar` al principio de la frase (`==0`).


In [46]:
#Es posible indexar sobre los elementos de una expresión
#reconociendo los espacios como separadores por defecto.
perl -lane 'print $F[0]' out.1

Mirar
Y
Saber
Y


Para realizar comparaciones entre texto se utiliza `eq` como `==` y `ne` como `!=`, e igualmente para la impresión del resultado es posible establecer el separador deseado.

In [48]:
perl -lane 'print $F[3] if $F[0] eq "Y"' out.1

el
rostros


In [55]:
perl -lane '$,="-"; print $F[2],$F[3] if $F[0] ne "Y"' out.1

río-hecho
nos-perdemos


In [74]:
perl -ne 'BEGIN{$\="----\n"} print' out.1

Mirar el río hecho de tiempo y agua
----
Y recordar que el tiempo es otro río
----
Saber que nos perdemos como el río
----
Y que los rostros pasan como el agua
----


---

# Expresiones regulares

Existen expresiones que facilitan la busquedas de patrones especificos. Algunas de ellas son:

* `*`  -     Conincide 0 o mas veces
* `+`  - Conincide 1 o mas veces
* `?`   - Conincide 0 o 1 vez

* `\d` - Elementos numéricos (o \D para el complemento de la busqueda)
* `\w` - Cualquier caracter de una palabra (o \W ara el complemento de la busqueda)
* `$&`  -Parar referirse a todos los elementos que detectados
* `{n,}` -  Conincide por lo menos n veces

Sea el siguiente archivo:

In [227]:
cat > out.2 <<EOF
1980-JAN-1+1:0:1.134
1980-JAN-5+1:0:1.12
1982-JAN-13+10:12:42.33
EOF

Se desea formatear la fecha y la hora, es decir, la primera línea:

```
1980-JAN-1+1:0:1.134
```

debe cambiarse por:

```
1980-JAN-01 01:00:01
```


Las expresiones regulares siguen una estructura similar a las de sed, teniendo un patrón a identificar y una expresión con la cual reemplazar o editar el elemtno anterior. 

`s/patrón/reemplazo`

Consulte la guía de usuario de las expresiones regulares en Perl [aquí](https://perldoc.perl.org/perlre.html#Regular-Expressions)

In [228]:
perl -pe 's/\+/ /' out.2 > out.3
cat out.3

1980-JAN-1 1:0:1.134
1980-JAN-5 1:0:1.12
1982-JAN-13 10:12:42.33


In [229]:
perl -pe 's/-(\w+)-(\d)\b/-$1-0$2/g' out.3 > out.4
cat out.4

1980-JAN-01 1:0:1.134
1980-JAN-05 1:0:1.12
1982-JAN-13 10:12:42.33


La explicación del comando anterior es la siguiente. El patrón de entrada está conformado por los siguientes elementos:
* El caracter `-`.
* Una palabra `\w+`. Las secuencias `(` y `)` especifican que el dígito reconocido debe recordarse. Pueden existir varias cadenas a recordar; la primera cadena es `$1`, la segunda cadena es `$2` y así sucesivamente. `(?1)` se utiliza para recordar una expresión regular anterior.
* Un dígito `\d`.
* Un espacio `\b`.

El patrón de salida indica que:
* Se imprime el caracter `-`.
* Luego `JAN`.
* A continuación el caracter `-` seguido de `0` y  del dígito reconocido de `$2`.


In [230]:
perl -pe 's/ (\d):(\d):/ 0$1:0$2:/g' out.4 > out.5
cat out.5

1980-JAN-01 01:00:1.134
1980-JAN-05 01:00:1.12
1982-JAN-13 10:12:42.33


In [231]:
perl -pe 's/:(\d*)\.(\d)+/:$1/g' out.5 > out.6
cat out.6

1980-JAN-01 01:00:1
1980-JAN-05 01:00:1
1982-JAN-13 10:12:42


In [232]:
perl -pe 's/:(\d)\b/:0$1/g' out.6 > out.7
cat out.7

1980-JAN-01 01:00:01
1980-JAN-05 01:00:01
1982-JAN-13 10:12:42


In [233]:
rm out.*

---

Sea el siguiente archivo:

In [265]:
cat > out.3 <<EOF
Cuentan que Ulises, harto de prodigios 
lloró de amor al divisar su Itaca 
verde y humilde. El arte es esa Itaca 
de verde eternidad, no de prodigios 
EOF

Es posible utilizar algunos comandos especiales para editar los registros en cuanto a su composición.

In [266]:
#Detecta la información entre un elemento y otro 
perl -pe 's/Cuentan.*harto//' out.3

 de prodigios 
lloró de amor al divisar su Itaca 
verde y humilde. El arte es esa Itaca 
de verde eternidad, no de prodigios 


In [267]:
#Permite filtrar elementos de una expresión de acuerdo a su tipo
perl -pe 's/\w{1}//' out.3

uentan que Ulises, harto de prodigios 
loró de amor al divisar su Itaca 
erde y humilde. El arte es esa Itaca 
e verde eternidad, no de prodigios 


In [268]:
perl -lane 'print "@F[-1]"' out.3

prodigios
Itaca
Itaca
prodigios


In [271]:
#Es posible contar los elementos de una frase a través de $.
perl -lne 'print reverse split//' out.3

 soigidorp ed otrah ,sesilU euq natneuC
 acatI us rasivid la roma ed ��roll
 acatI ase se etra lE .edlimuh y edrev
 soigidorp ed on ,dadinrete edrev ed


### Borrado de los archivos temporales creados

In [None]:
rm out.*

Introducción Perl
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/bash-for-analytics/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/bash-for-analytics/tree/master/) para explorar el repositorio usando `nbviewer`. 