# 1. Introducción
## Comandos básicos para utilizar el Notebook

En esta sección se explica cómo funciona el Notebook para la construcción semi automática de un corpus.

Se usarán algunas librerías de **SHELL** que se ejecutan a través de líneas de comandos (*terminal*) para optimizar el proceso.

Asimismo, se conocerán algunos de los [comandos básicos de Shell](https://es.wikibooks.org/wiki/Manual_de_consola_Bash_de_Linux) para el procesamiento de datos.

In [None]:
pwd #comando para identificar la ruta en la que estamos trabajando

In [None]:
ls #comando para listar la información que está en la ruta de trabajo

In [None]:
mkdir experimentos #mkdir FOLDER crear un carpeta en la ruta de trabajo

In [None]:
ls

In [None]:
cd experimentos/

In [None]:
ls #cd FOLDER ingresa a un carpeta, cd .. sale de la carpeta

In [None]:
!touch documentación.txt #touch FILE crea archivo vacío

In [None]:
ls

In [None]:
rm documentación.txt #rm FILE borra archivo, rm -rf FOLDER borra carpeta y archivos en carpeta

# 2. Preparación de Notebook para construcción de corpus
## 2.1 Instalación de librerías para recuperación de información de la web y para procesamiento de documentos.

En esta sección se instalarán las librerías necesarias para hacer el proceso de construcción de corpus de forma automática (**wget**).
Asimismo, se insltalarán las librerías para hacer el procesamiento de los documentos descargados (**poppler, texlive, pdftotext**) de forma que al final del proceso se tenga un conjunto de documentos en formato TXT, los cuales serán nuestro corpus de trabajo.

In [None]:
!sudo apt update #comando para revisar las actualizaciones disponibles de la máquina virtual

In [None]:
!sudo apt upgrade #comando para actualizar las librerías de la máquina virtual

In [None]:
!sudo apt install build-essential libpoppler-cpp-dev pkg-config python3-dev

In [None]:
!sudo apt install texlive-extra-utils

In [None]:
!sudo pip install pdftotext #el comando de instalación es diferente aquí porque viene de otro lenguaje

In [None]:
!sudo apt install poppler-utils

## 2.2 Prueba de que las librerías se instalaron correctamente

Vamos a descargar un documento científico de un repositorio alojado en este sitio de la [UNAM](https://www.revistaingenieria.unam.mx/es/numeros-anteriores.php).

En este proceso, además de verificar que las librerías funcionan bien, hay que hacer un trabajo de reconocimiento de patrones para automatizar la descarga de información.

In [None]:
!wget https://www.revistaingenieria.unam.mx/numeros/2022/v23n1-01.pdf #wget URL para descargar el documento

In [None]:
ls

## 2.3 El reconicimiento de patrones

Los documentos alojados en el sitio tienen una estructura que nos permite hacer un proceso que tienda hacia la automatización. Veamos:

https://www.revistaingenieria.unam.mx/numeros/2022/v23n1-01.pdf

https://www.revistaingenieria.unam.mx/numeros/2022/v23n1-02.pdf

https://www.revistaingenieria.unam.mx/numeros/2022/v23n1-07.pdf

Mediante la exploración de URLs se puede apreciar que el patrón es recurrente y que podemos hacer inferencias acerca de cómo están registrados los números de otros años. Hágamos una prueba:

1. Modifiquen el año en la URL y vean si se descarga algún documento.

In [None]:
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v23n1-01.pdf

No se descargó nada. Eso implica que el patrón no funcionó o que hay que adecuarlo.

Si entramos a la página, veremos que cometimos un error: modificamos el año, pero nos faltó modificar el volumen.

https://www.revistaingenieria.unam.mx/numeros/2018/v23n1-01.pdf

https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-01.pdf

1. Hagan la prueba con el patrón modificado e iteren sobre el nuevo patrón para descargar más números del año 2018.

In [None]:
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-01.pdf

In [None]:
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-01.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-02.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-03.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-04.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-05.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-06.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-07.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-08.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-09.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n1-10.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n2-01.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n2-02.pdf
!wget https://www.revistaingenieria.unam.mx/numeros/2018/v19n2-03.pdf

## 2.4 Procesamiento de datos
Los documentos están en un formato que no nos permite sacar toda la información. Hay que convertirlos a formato TXT. Para ello, vamos a probar la librería PDFTOTEXT.

Adicionalmente, veremos cómo hacer este proceso de forma iterativa.

In [None]:
!pdftotext v19n1-01.pdf

In [None]:
ls

In [None]:
ls -lh

## 2.5 Variables (y deixis)

Vamos a introducir comandos que implican el trabajo itarativo (**FOR**). Para ello, es muy importante controlar las variables que usaremos, de forma que los procesos no tengan errores y, sobre todo, se realice un trabajo secuencial sin tener que estar repitiéndolo todo manualmente.

El comando que usaremos será algo así como lo que viene a continuación:

**for VARIABLE in CATEGORÍA; do ACCIÓN; TERMINA**



In [None]:
!for i in *.pdf; do pdftotext $i; done

In [None]:
ls -lh

### 2.5.1 Cómo funciona el FOR y las variables: anáforas y catáforas

El proceso que estamos realizando puede explicarse en términos de anáforas y catafóras. Las variables serán los elementos deícticos y las categrías serán los referentes. Como en el caso del lenguaje natural, es necesario tener muy contralados estos elementos para eliminar la ambigüedad.

Veamos un ejemplo con lenguaje natural para entender mejor el proceso:

1. No **lo_i** trajeron, dijo asombrado el profesor cuando se dio cuenta de que nadie trajo el **reporte_i**. Los alumnos, avergonzados, prometieron traer**los_i** para la próxima sesión.

2. FOR *i* in ***.PDF**; do **PDFTOTEXT** **$i**; DONE


Noten la importancia de la sintaxis, tanto en el lenguaje natural como en el artificial, para que la acción sea clara.

3. No **lo_i** trajeron dijo asombrado el profesor cuando se dio cuenta de que nadie trajo el **reporte_i** los alumnos avergonzados prometieron traer**los_i** para la próxima sesión

2. FOR *i* in ***.PDF** do **PDFTOTEXT** **$i** DONE




In [None]:
#!for i in *.txt; do mv $i $i.log; done

In [None]:
#ls -lh

In [None]:
#rm *.log

# 3. Procesamiento de corpus

Con los datos descargados podemos hacer muchas cosas. Una de ellas, es unir los archivos en un solo documento o crear un generados de concordancias muy sencillo.

A continuación, veremos el uso de **cat** y de **grep**. Ambos son librerías muy potentes para procesar datos alfanuméricos.

In [None]:
!cat *.txt > corpus.txt #leer los archivos solicitados y guarda la salida > en FILE

## 3.1 GREP
Esta librería es muy potente, así como su versión para expresiones regulares **egrep**, puesto que permite hacer búsquedas complejas para recuperar información de forma eficiente; además, puede trabajar sobre diferentes tipos de archivos.

En esta [liga](https://www.linuxsc.net/como-buscar-una-cadena-de-texto-usando-el-comando-grep-y-egrep-con-ejemplos-practicos/) pueden aprender un poco acerca de su funcionamiento.

Adicionalmente, los resultados que obtenemos los podemos guardar en un archivo de salida con el operador **>**.


In [None]:
!less corpus.txt | grep 'agua' #leer archivo | entra tubería para hacer un segundo proceso, en este caso, recuperar las líneas que concuerdan con la búsqueda

In [None]:
!less corpus.txt | grep -in 'bioingeniería'

In [None]:
!less corpus.txt | grep -n 'ado$'

In [None]:
!less corpus.txt | grep -in 'ado' > ado.txt

# 4. Anotación POS

En esta sección veremos cómo se puede anotar el corpus que acabamos de crear con etiquetas de categoría gramatical de forma automática e iterativa. Para ello, usaremos el software [TreeTagger](https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/).



## 4.1 Instalación del etiquetador

Descargar los archivos que se mencionan en la página y, posteriormente, subirlos a la máquina virtual en la que estamos trabajando. Todos los archivos van a quedar en la ruta /content/experimentos/

In [None]:
!sh install-tagger.sh

Prueba de que el software se instaló correctamente y arroja resultados de la anotación POS.

In [None]:
!echo 'esta es la prueba de instalación' | cmd/tree-tagger-spanish-ancora

In [None]:
!for i in *.txt; do cat $i | cmd/tree-tagger-spanish-ancora > $i.tagged; done

In [None]:
ls *.tagged

In [None]:
!cat corpus.txt | cmd/tree-tagger-spanish-ancora > corpus.total.tagged

In [None]:
ls *.tagged

# 5. Refuerzo

1. Crear un nuevo Notebook llamado **preseea** para realizar los siguientes procesos.
1. Crear una carpeta de trabajo llamada **refuerzo** y realizar los siguientes procesos. El path debe quedar de la siguiente forma:
   /content/refuerzo/
   Recuerden la importancia de los paths, puesto que ahí ejecutaremos todo el proceso: instalación, experimentos, anotación, etc.

2. Descargar los archivos de PRESEEA que están en estas URLs:

   https://lef.colmex.mx/pdf/Entrevista%201%20(ME-042-31H-99).pdf

   https://lef.colmex.mx/pdf/Entrevista%2013%20(ME-006-32H-97).pdf

   https://lef.colmex.mx/pdf/Entrevista%2025%20(ME-009-33H-97).pdf

   https://lef.colmex.mx/pdf/Entrevista%207%20ME-107-31M-00.pdf

   https://lef.colmex.mx/pdf/Entrevista%2019%20(ME-055-32M-99).pdf

  https://lef.colmex.mx/pdf/Entrevista%2031%20(ME-220-33M-02).pdf

3. Convertilos a formato TXT  de forma iterativa.

4. Extraer algunas concordancias con el comando **grep** y guardar los resultados con el nombre de la consulta. Ejemplo:

    !less *.txt | grep 'no' > no.txt

5. Anotar todos los textos de forma independiente con TreeTager.
