El procesamiento de texto refiere a la creación y manipulación de texto en formato electronico de manera automatizada, entendiendo el texto no solo como el conjunto de caracteres alfanuméricos sino como el conjunto de cualquier caracter codificado.  

Linux viene acompañado por defecto con un extenso grupo de [utilidades](http://tldp.org/LDP/abs/html/textproc.html) para el procesamiento de texto (debido a la fuerte dependencia de archivos de texto para su configuración). Lenguajes como python vienen con [modulos de procesamiento de texto básicos](https://docs.python.org/3/library/text.html) incluidos en su núcleo.  

Acciones comprendidas como procesamiento de texto son:  

+ Búsqueda de texto.  
+ Reemplazo de texto.  
+ Filtrado de texto.  
+ Generación de texto.  
+ Formateo de texto.  

Nos enfocaremos en lo básico de las utilidades de linux, y se invita al estudiante a realizar la exploración del modulo de python.  

# Codificación de caracteres

## ASCII

Corresponde a la codificación estandar definida para la representación de caracteres, basada en el uso de 7 bits inicialmente y luego presentada en versión extendida a 8 bits (ISO 8859, ampliamente extendido el 8859-1) para la inclusión de caracteres adicionales de lenguas diferentes al inglés.  

A continuación se presenta una imagen con la codificación asociada al ISO 8859-1.  

![Código ASCII Extendido](http://www.haghish.com/statistics/stata-blog/stata-programming/images/ascii.png "Código ASCII Extendido")

## UTF8

Posee compatibilidad con el código ASCII y usa representación de hasta cuatro códigos de 8 bits (ASCII extendido es un código de 8 bits). Esta ampliación permite el soporte de una gran diversidad de caracteres sin la necesidad de una indicación particular para su soporta, sin embargo esto requiere un mayor consumo de memoria en algunos lenguajes o presentar problemas de compatibilidad con codificaciones especificas anteriores. Actualmente su uso se ha generalizado superando por mucho a la codificación ASCII.  

# Expresiones regulares

El primer acercamiento necesario para el procesamiento de texto se relaciona con las expresiones regulares, que corresponden a secuencias de caracteres que definen un patrón de búsqueda. Lo primero para entender este acercamiento es distinguir entre metacaracteres y caracteres literales.  

+ Metacaracteres: Son caracteres especiales dentro del _minilenguaje_ especificado en las expresiones regulares usados para definir secuencias de patrones: `^ $ . [ ] { } - ? * + ( ) | \`.  
+ Literales: Son caracteres que se interpretan tal cual son (todos los demás caracteres que no son metacaracteres). Si se desea usar un metacaracter como elemento exacto de coincidencia es necesario usar el caracter de escape `\` precediendolo.  

Para la prueba de las expresiones regulares crearemos inicialmente un archivo con datos para su búsqueda.  

In [1]:
%%bash
ls /bin > test_regexp
ls /usr/bin >> test_regexp
ls /sbin >> test_regexp
ls /usr/sbin >> test_regexp
more test_regexp

::::::::::::::
test_regexp
::::::::::::::
bash
bunzip2
busybox
bzcat
bzcmp
bzdiff
bzegrep
bzexe
bzfgrep
bzgrep
bzip2
bzip2recover
bzless
bzmore
cat
chacl
chgrp
chmod
chown
chvt
cp
cpio
dash
date
dd
df
dir
dmesg
dnsdomainname
domainname
dumpkeys
echo
ed
efibootmgr
egrep
false
fgconsole
fgrep
findmnt
fuser
fusermount
getfacl
grep
gunzip
gzexe
gzip
hciconfig
hostname
ip
journalctl
kbd_mode
kill
kmod
less
lessecho
lessfile
lesskey
lesspipe
ln
loadkeys
login
loginctl
lowntfs-3g
ls
lsblk
lsmod
mkdir
mknod
mktemp
more
mount
mountpoint
mt
mt-gnu
mv
nano
nc
nc.openbsd
netcat
netstat
networkctl
nisdomainname
ntfs-3g
ntfs-3g.probe
ntfs-3g.secaudit
ntfs-3g.usermap
ntfscat
ntfscluster
ntfscmp
ntfsfallocate
ntfsfix
ntfsinfo
ntfsls
ntfsmove
ntfstruncate
ntfswipe
open
openvt
pidof
ping
ping6
plymouth
ps
pwd
rbash
readlink
red
rm
rmdir
rnano
run-parts
sed
setfacl
setfont
setupcon
sh
sh.distrib
sleep
ss
static-sh
stty
su
sync
systemctl
systemd
systemd-ask-password
systemd-escape
systemd-hwdb
systemd-inh

## Uso de metacaracteres

Se usará `<sec>` para indicar una secuencia arbitraria, la cual puede ser compuesta de caracteres literales o 
metacaracteres.  

Las expresiones regulares se dividen en un conjunto BRE (_Basic Regular Expression_) y ERE (_Extended Regular Expression_) acorde al soporte definido de los metacaracteres. El primero es soportado acorde al estandar POSIX y se ilustra en el siguiente cuadro.  

| Metacaracter | Descripción |  
|:---:|:---:|  
| `.` | Permite la sustitución por cualquier caracter |  
| `^<sec>` | Indica que la secuencia que precede se ubica al inicio. |  
| `<sec>$` | Indica que la secuencia precedente se ubica al final. |  
| `[<sec>]` | Indica que los elementos definidos en los corchetes basta con la coincidencia de uno de ellos |  
| `[^<sec>]` | Indica que los elementos definidos en los corchetes porteriores a `^` deben estar ausentes |  
| `[<chr>-<chr>]` | Siendo los caracteres pertenecientes a un subconjunto de caracteres (clase), representa a todos los caracteres contenidos entre ellos |  

En el estandar POSIX se definen un conjunto de clases para simplificar los rangos cuando se usa todo el subconjunto, y es supremamente conveniente su uso para expresiones que requieren rangos donde se difiere del orden diccionario (principalmente por motivos de codificación acorde al soporte de algunas aplicaciones para las expresiones regulares).  

![Clases de caracteres POSIX.](https://www.gadgetdaily.xyz/wp-content/uploads/2014/04/char-ranges1.png "Clases de caracteres POSIX.")  

Dado que corresponden a rangos, estos deben estar a su vez en medio de otros corchetes.  

In [2]:
%%bash
echo ":: non-meta <sec> ::"
grep 'zip' test_regexp
echo ":: meta .<sec> ::"
grep '.zip' test_regexp
echo ":: meta ^<sec> ::"
grep '^zip' test_regexp
echo ":: meta <sec>$ ::"
grep 'zip$' test_regexp
echo ":: meta ^<sec>$ ::"
grep '^zip$' test_regexp
echo ":: meta [<sec>] ::"
grep '[bg]zip' test_regexp
echo ":: meta [^<sec>] ::"
grep '[^bg]zip' test_regexp
echo ":: meta [<chr>-<chr>] ::"
grep '^[A-Z][a-z]' test_regexp
echo ":: meta [[:<class>:]] ::"
grep '^[[:upper:]][[:lower:]]' test_regexp

:: non-meta <sec> ::
bunzip2
bzip2
bzip2recover
gunzip
gzip
funzip
gpg-zip
mzip
preunzip
prezip
prezip-bin
unzip
unzipsfx
zip
zipcloak
zipdetails
zipgrep
zipinfo
zipnote
zipsplit
:: meta .<sec> ::
bunzip2
bzip2
bzip2recover
gunzip
gzip
funzip
gpg-zip
mzip
preunzip
prezip
prezip-bin
unzip
unzipsfx
:: meta ^<sec> ::
zip
zipcloak
zipdetails
zipgrep
zipinfo
zipnote
zipsplit
:: meta <sec>$ ::
gunzip
gzip
funzip
gpg-zip
mzip
preunzip
prezip
unzip
zip
:: meta ^<sec>$ ::
zip
:: meta [<sec>] ::
bzip2
bzip2recover
gzip
:: meta [^<sec>] ::
bunzip2
gunzip
funzip
gpg-zip
mzip
preunzip
prezip
prezip-bin
unzip
unzipsfx
:: meta [<chr>-<chr>] ::
ElmerFront
ElmerGrid
ElmerMesh2D
ElmerParam
ElmerPost
ElmerSolver
ElmerSolver_mpi
GebhardtFactors
Mesh2D
QueryGLXExt
Rscript
ViewFactors
Xorg
ModemManager
NetworkManager
:: meta [[:<class>:]] ::
ElmerFront
ElmerGrid
ElmerMesh2D
ElmerParam
ElmerPost
ElmerSolver
ElmerSolver_mpi
GebhardtFactors
Mesh2D
QueryGLXExt
Rscript
ViewFactors
Xorg
ModemManager
NetworkManage

Para los metacaracteres ERE se tiene el siguiente comportamiento.  

| Metacaracter | Descripción |
|:---:|:---:|
|<code>sec&#124;sec</code>| Alternación Coincidencia con alguno de los patrones |
|`<sec>?`| Elemento precedente opcional (cero o una vez) |
|`<sec>*`| Elemento precedente opcional (cero o multiples veces) |
|`<sec>+`| Elemento precedente con repetición opcional (una o multiples veces) |
| `<sec>{n,m}` | Coincidencia del precedente mínimo $n$ veces y máximo $m$ veces. Si se usa uno de los dos con la presencia de la `,` aplica como solo mínimo o máximo según corresponda, y si es uno solo sin la `,` es las coincidencias exactas |

Para multiples aplicaciones el soporte de ERE debe indicarse de forma explicita, así por ejemplo para la utilidad con la cual hemos ejemplificado, debe usarse `grep -E`, siendo el argumento `-E` la indicación del soporte extendido. Igualmente hay utilidades con el soporte incluido, en este caso la alternativa es `egrep`.  

In [3]:
%%bash
echo ":: meta <sec>|<sec> ::"
grep -E '^2|.zip$' test_regexp
echo ":: meta <sec>? ::"
grep -E '^[a-z]?zip.' test_regexp
echo ":: meta <sec>* ::"
grep -E '^[a-z]*zip.' test_regexp
echo ":: meta <sec>+ ::"
grep -E '^[a-z]+zip.' test_regexp
echo ":: meta <sec>{n,m} ::"
grep -E '^[a-z]{1,z}zip.' test_regexp

:: meta <sec>|<sec> ::
gunzip
gzip
2to3
2to3-2.7
2to3-3.5
funzip
gpg-zip
mzip
preunzip
prezip
unzip
:: meta <sec>? ::
bzip2
bzip2recover
zipcloak
zipdetails
zipgrep
zipinfo
zipnote
zipsplit
:: meta <sec>* ::
bunzip2
bzip2
bzip2recover
prezip-bin
unzipsfx
zipcloak
zipdetails
zipgrep
zipinfo
zipnote
zipsplit
:: meta <sec>+ ::
bunzip2
bzip2
bzip2recover
prezip-bin
unzipsfx
:: meta <sec>{n,m} ::


Otras utilidades para habilitar sus expresiones regulares requieren indicación explicita incluso para el soporte POSIX. Ejemplo `locate --regex '<regex>'`. En `less` y `vim` una vez visualizamos el archivo, habilitamos la búsqueda de expresiones regulares con `/`.  

# Manipulación de texto

## Concatenación de archivos

Para la concatenación de archivos en linux podemos usar la utilidad `cat`. Permite la unión de archivos y redirige su unión a la salida estandar.  

In [4]:
%%bash
printf "hola\nesto\nes\nuna\nprueba.\n" > prueba1
a=1
echo $a > prueba2
while [ $a -lt 5 ]; do
    let a=a+1
    echo $a >> prueba2
done
cat prueba1 prueba2 > prueba3
more prueba3

::::::::::::::
prueba3
::::::::::::::
hola
esto
es
una
prueba.
1
2
3
4
5


## Ordenamiento
Es posible ordenar lineas de archivos con los valores definidos en ASCII con la instrucción `sort`.  

In [5]:
!sort prueba3

1
2
3
4
5
es
esto
hola
prueba.
una


## Unicidad
Es posible remover los elementos repetidos de un conjunto con utilidades de linux. Para esto, primero debe ordenarse la lista de elemento (`sort`) y aplicar `uniq`.  

In [6]:
%%bash
cat prueba3 prueba1 prueba2 prueba3 > repetido
cat repetido
echo ":: uniq sin sort ::"
uniq repetido
echo ":: uniq con sort ::"
sort repetido | uniq

hola
esto
es
una
prueba.
1
2
3
4
5
hola
esto
es
una
prueba.
1
2
3
4
5
hola
esto
es
una
prueba.
1
2
3
4
5
:: uniq sin sort ::
hola
esto
es
una
prueba.
1
2
3
4
5
hola
esto
es
una
prueba.
1
2
3
4
5
hola
esto
es
una
prueba.
1
2
3
4
5
:: uniq con sort ::
1
2
3
4
5
es
esto
hola
prueba.
una


## Cortar
Para extraer secciones especificas de lineas de los archivos usamos la instrucción `cut`.  

In [7]:
%%bash
ls -oh
ls -oh | grep -Ev '[[:alpha:]]+ [[:alnum:]]+\.ipynb|total' | grep -Ev '[a-z]{3}  ' > cortar
echo ":: archivo cortar seleccionando lineas ::"
cat cortar
echo ":: Horas enteras de los archivos ::"
cut -d " " -f 7 cortar | cut -c 1-2 > horas
cut -d " " -f 7 cortar | cut -c 4-5 > minutos
echo ":: Horas ::"
cat horas
echo ":: Minutos ::"
cat minutos

total 900K
-rw-rw-r-- 1 cosmoscalibur  31K sep  1 07:52 algebra_computacional.ipynb
-rw-rw-r-- 1 cosmoscalibur  569 sep 21 19:08 cortar
-rw-rw-r-- 1 cosmoscalibur 8,0K ago 31 00:39 datos_abiertos.md
-rw-rw-r-- 1 cosmoscalibur  165 sep 21 19:24 diferencia
-rw-rw-r-- 1 cosmoscalibur  27K ago 22 19:52 Git.ipynb
-rw-rw-r-- 1 cosmoscalibur 1,6K sep 21 05:09 historial_talleres.md
-rw-rw-r-- 1 cosmoscalibur 3,8K ago 22 21:02 hoja_de_ruta.md
-rw-rw-r-- 1 cosmoscalibur   27 sep 21 19:08 horas
-rw-rw-r-- 1 cosmoscalibur  24K ago 30 21:05 Jupyter Notebook Basico.ipynb
-rw-rw-r-- 1 cosmoscalibur 5,6K ago  7 19:27 Jupyter Notebook Intermedio.ipynb
-rw-rw-r-- 1 cosmoscalibur  13K ago  7 18:35 jupyter.png
-rw-rw-r-- 1 cosmoscalibur 182K ago 22 20:09 LaTeX_basico.pdf
-rw-rw-r-- 1 cosmoscalibur  18K ago 22 20:09 LaTeX_basico.tex
-rw-rw-r-- 1 cosmoscalibur 1,1K ago  9 11:19 LICENSE
-rw-rw-r-- 1 cosmoscalibur  17K sep 21 18:14 Linux Bash.ipynb
-rw-rw-r-- 1 cosmoscalibur  36K ago 22 19:44 Linux Basico.ipy

## Pegado
Para pegar columnas usamos la instrucción `paste`.  

In [8]:
%%bash
paste horas minutos

00	39
05	09
21	02
20	09
08	03
12	12
19	39
18	33
15	09
11	46


## Comparación de archivos

Es posible comparar archivos con las instrucciones `comm` y `diff`. La primera requiere que los archivos sean ordenados. Usando la diferencia de los archivos es posible generar la actualización del archivo base con `patch`.  

In [9]:
%%bash
printf "a\nb\nf\nh" > ordenado1
printf "a\nc\nd\ng\nh" > ordenado2
echo ":: comm ::"
comm ordenado1 ordenado2
echo ":: diff ::"
diff ordenado1 ordenado2
echo ":: patch ::"
diff -Naur ordenado1 ordenado2 > diferencia
cat diferencia
patch < diferencia
cat ordenado1

:: comm ::
		a
b
	c
	d
f
	g
		h
:: diff ::
2,3c2,4
< b
< f
---
> c
> d
> g
:: patch ::
--- ordenado1	2016-09-21 19:40:17.600420389 -0500
+++ ordenado2	2016-09-21 19:40:17.600420389 -0500
@@ -1,4 +1,5 @@
 a
-b
-f
+c
+d
+g
 h
\ No newline at end of file
patching file ordenado1
a
c
d
g
h

## Edición

Es posible hacer "traducciones" con la consola con la instrucción `tr`. Esto corresponde a substituciones basadas en expresiones regulares.  

In [10]:
%%bash
echo "EsCrItUrA TeRrIbLe" | tr [:upper:] [:lower:]

escritura terrible


Una forma más avanzada es posible con `sed`.  

In [11]:
%%bash
echo "escritura terrible" | sed 'y/esib/3516/'
echo "escritura terrible" | sed 's/terrible/hermosa/'

35cr1tura t3rr16l3
escritura hermosa


# Adicional

Se recomienda la exploración por parte del estudiante de las herramientas de [Pandoc](http://pandoc.org/) y [NLTK](http://www.nltk.org/), como dos ejemplos de bastante interes en el procesamiento de texto y que pueden ser de gran utilidad en su proceso.  

A nivel de utilidades linux complementarias, se sugiere la exploración de [awk y sed](http://tldp.org/LDP/abs/html/sedawk.html#SEDREF).  

Las expresiones regulares son una herramienta poderosa, sin embargo su uso no es recomendable para toda ocasión. Otras estrategias para la manipulación de texto recurren al recorrido de los caracteres para establecer las estructuras mediante la separación y clasificación de elementos mientras son concatenados. Esta resulta ser una estrategia básica bastante útil para muchos casos.  

# Actividad sugerida

1. Identifique por medio de procesamiento de texto los enlaces de las imagenes ubicadas en este documento, y de forma automatica descarguelas y reemplace los enlaces originales por las versiones locales. Ademas, agreguelos como bibliografía conservando el estilo markdown con fecha de consulta igual a la fecha del `commit` en los cuales fueron agregados en la sección de bibliografía (se debe generar una copia del notebook para este fin de forma automatica).  
1. La extracción de datos de internet puede tener herramientas especificas para la búsqueda en la estructura especifica de una web, pero una forma básica puede ser usar la descarga tradicional con instrucciones como `wget` de un sitio estatico. Haga una celda que obtenga una página html con tablas, y extraiga la información de la tabla web a una lista de listas de python de forma automatica, la cual sea convertida posteriormente a una tabla markdown que se visualice adecuadamente.  
1. Extraiga automaticamente todos los enlaces de este notebook, y genere la instrucción equivalente de enlace para LaTeX (no URL sino enlace). Presente las equivalencias como salida de texto convencional.  
1. Use filtros pandoc con la extensión para python para realizar los últimos dos puntos.  

# Bibliografía  

1. [Text processing](https://en.wikipedia.org/wiki/Text_processing). Wikipedia. Consultado el 18 de septiembre de 2016.  
1. [Advanced Bash-Scripting Guide: External Filters, Programs and Commands](http://tldp.org/LDP/abs/html/textproc.html). Consultado el 18 de septiembre de 2016.  
1. [The Python Standard Library: Text Processing Services](https://docs.python.org/3/library/text.html). Consultado el 18 de septiembre de 2016.  
1. The Linux Command Line (Capitulos 19 a 22). William Shotts. 2012.  
1. [Awk - A tutorial and introduction](http://www.grymoire.com/Unix/Awk.html). Consultado el 13 de octubre.  