<a href="https://colab.research.google.com/github/sergiocastro85/trabajosPython/blob/main/Copia_de_Taller_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Taller: introducción al procesamiento del lenguaje natural**

Por favor lea con atención **TODAS** las instrucciones para que el taller se le califique de acuerdo a los requerimientos.

**Objetivo:** construir un modelo TF-IDF con base en un corpus de documentos  y calcular la similitud coseno entre estos documentos que conforman el corpus.

---


# Primera parte: responder las siguientes preguntas
1. Descargue y descomprima el corpus (ejecute la celda indicada)
2. ¿Cuántos documentos tiene el corpus?
3. Explore dos o tres documentos al azar e indique qué tipo de documentos son los del corpus: cuentos, sinópsis de películas, chistes, novelas, libros, discursos, etc.
4. ¿Cuál es el tipo de archivo de los documentos del corpus?

---

# Segunda parte: flujo de trabajo y responder preguntas planteadas

Realice lo siguiente con **cada documento** del corpus:

1. Obtener el texto en "bruto" (`raw`) de cada documento.
2. Convierta todo el texto en bruto en minúsculas. `raw = raw.lower()`.
3. Obtener del texto en bruto del numeral anterior (`raw`), una lista de tokens de palabras **usando** `nltk.tokenize.word_tokenize` **pasando como parámetro el lenguaje usado en el contenido de los documentos del corpus**.
4. Obtenga una **nueva** lista de tokens de palabras **usando** `nltk.tokenize.RegexTokenizer` y empleando la siguiente expresión regular como parámetro del tokenizador: `'\w+'`.
    1. ¿Qué diferencias encuentra con la lista de tokens del numeral anterior? Sugerencia: imprima ambas listas, mida la longitud y compare.
5. Tomando la lista de tokens del punto anterior, crear una **nueva** lista de tokens filtrando (eliminando) las *stop words*.
6. Tomando la lista de tokens del punto anterior, crear una **nueva** lista de tokens filtrando (eliminando) de la lista, los tokens que sean de menos de tres caractéres de longitud.
7. Tomando la lista de tokens del punto anterior, crear una **nueva** lista de tokens eliminando acentos en las palabras.
8. Tomando la lista de tokens del punto anterior, crear una **nueva** lista de tokens obtienendo el *stem* de cada token.
9. Agregue como elemento de **una nueva lista**, la lista del punto anterior. Cada lista producida en el numeral ocho debe ser agregada como elemento de esta nueva lista lista. Define esta lista vacia al principio del código y vaya agregando cada una de las listas que va obteniendo en el numeral anterior.
10. Crear una **nueva lista** que corresponde al corpus que se le debe entregar a la clase `TfidfVectorizer` de la librería `sklearn`. **Nota: Ver diapositivas de clase**.
11. Crear el modelo TF-IDF.
    1. ¿Cuántos términos conforman el vocabulario del corpus?
12. Medir la similitud entre los documentos usando la medida de similitud coseno.
    1. Muestre la matriz de coeficientes de similitud entre los documentos del corpus.
    2. ¿Cuáles son los documentos que más se parecen entre sí? ¿Podría verfificar si es cierto? Justifique.




# **Pseudocódigo de guía para la fase de preprocesamiento del texto**

El siguiente pseudocódigo tiene como propósito ilustrar toda la etapa de preprocesamiento de texto indicada en los numerales anteriores. Al finalizar debe obtener el conjunto $ D $ (una lista de Python) que corresponde a una lista de tokens en el formato que se necesita para usar `TfidfVectorizer()` de la librería `Sklearn`. Una vez obtenido $ D $, use el mismo código de Python que encuentra en las diapositivas para construir el modelo TF-IDF.

Las listas $ T3, T4, T5, T6, T7 $ y $ T8 $ en el siguiente pseudocódigo corresponden a las listas que se piden en los mismos numerales de la sección anterior.

**Convenciones usadas en este pseudocódigo**

Símbolo           | Significado
------------------|------------------
$ \leftarrow $    | Operador de asignación.
$ \emptyset $     | Conjunto vacío, inicialización de listas, arreglos, etc.
$ \triangleright $| Se usa para indicar comentarios .
$ \cup $          | Operador de unión. P. Ej. agregar elementos a una lista, arreglo.
$ \in $           | Pertenece a.
$ \notin $        | No pertenece a.




---


$ imports\ \text{...} $

$ \text {Sea}\ S\ \text{un conjunto de stop words} $

$ \text {Sea}\ A\ \text{el conjunto de archivos que conforman el corpus} $

$ T  \leftarrow \emptyset \triangleright \text{Conjunto para construir el corpus de tokens que indica el numeral 9} $

$ \textbf{for all}\ archivo \in A\ \textbf{do} $

>$  a \leftarrow open(archivo) $

>$ raw \leftarrow a.read() $

>$ raw \leftarrow raw.lower() $

>$ a.close() $

>$ T3 \leftarrow word\_tokenize(raw, language) \triangleright \text{Conjunto tokens en bruto} $

>$ rt \leftarrow RegexpTokenizer(\text{"\\w+"})$

>$ T4 \leftarrow rt.tokenize(raw) $

>$ T5 \leftarrow \emptyset \triangleright \text{Conjunto tokens sin stop words}$

>$ \textbf{for all}\ t \in T4\ \textbf{do} $

>> $ \textbf{if}\ t \notin S\ \textbf{then}$

>>> $ T5 \leftarrow T5 \cup \{t\} $

>> $ \textbf{end if} $

> $ \textbf{end for} $

>$ T6 \leftarrow \emptyset \triangleright \text{Conjunto tokens longitud > 3}$

>$ \textbf{for all}\ t \in T5\ \textbf{do} $

>> $ \textbf{if}\ length(t) > 3\ \textbf{then}$

>>> $ T6 \leftarrow T6 \cup \{t\} $

>> $ \textbf{end if} $

> $ \textbf{end for} $

>$ T7 \leftarrow \emptyset \triangleright \text{Conjunto tokens normalizado}$

>$ \textbf{for all}\ t \in T6\ \textbf{do} $

>> $ t \leftarrow unidecode(t) $

>>$ T7 \leftarrow T7 \cup \{t\} $

> $ \textbf{end for} $

>$ T8 \leftarrow \emptyset \triangleright \text{Conjunto tokens stems}$

>$ \textbf{for all}\ t \in T7\ \textbf{do} $

>> $ t \leftarrow stem(t) $

>>$ T8 \leftarrow T8 \cup \{t\} $

> $ \textbf{end for} $

> $ T \leftarrow T \cup \{T8\} $

$ \textbf{end for} $

$ \triangleright \text{El siguiente código para el numeral 10} $

$ D \leftarrow \emptyset \triangleright \text{Corpus de tokens para TfidfVectorizer()}$

$ \textbf{for all}\ e \in T\ \textbf{do}$

>$ \triangleright \text{Tal cual en Python lo siguiente} $

>$ t \leftarrow \text{'  '}.join(e) \triangleright \text{Va un espacio en blanco en las comillas}$

>$ D \leftarrow D \cup \{t\}$

$ \textbf{end for} $

# **Descarga del corpus usado en el taller**

Por favor ejecute las siguientes celdas para la descarga y descompresión del corpus. Si tiene algún inconveniente en esta fase por favor haga lo siguiente:

1. Clic en el menú **Entorno de ejecución**
2. Clic en **Restablecer el estado de fábrica del entorno de ejecución** 
3. Ejecute de nuevo las celdas de código

In [1]:
import nltk

In [2]:
!pip install unidecode

Collecting unidecode
  Downloading Unidecode-1.3.4-py3-none-any.whl (235 kB)
[?25l[K     |█▍                              | 10 kB 36.1 MB/s eta 0:00:01[K     |██▉                             | 20 kB 8.3 MB/s eta 0:00:01[K     |████▏                           | 30 kB 7.1 MB/s eta 0:00:01[K     |█████▋                          | 40 kB 3.7 MB/s eta 0:00:01[K     |███████                         | 51 kB 3.6 MB/s eta 0:00:01[K     |████████▍                       | 61 kB 4.3 MB/s eta 0:00:01[K     |█████████▊                      | 71 kB 4.5 MB/s eta 0:00:01[K     |███████████▏                    | 81 kB 3.5 MB/s eta 0:00:01[K     |████████████▌                   | 92 kB 3.9 MB/s eta 0:00:01[K     |██████████████                  | 102 kB 4.3 MB/s eta 0:00:01[K     |███████████████▎                | 112 kB 4.3 MB/s eta 0:00:01[K     |████████████████▊               | 122 kB 4.3 MB/s eta 0:00:01[K     |██████████████████              | 133 kB 4.3 MB/s eta 0:00:01

In [3]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [4]:
from nltk.tokenize import word_tokenize

In [5]:
from nltk.tokenize import RegexpTokenizer

In [6]:
from nltk.corpus import stopwords

In [7]:
from unidecode import unidecode

In [14]:
from nltk.stem.snowball import SnowballStemmer

In [8]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [9]:
!wget -O CorpusTallerNLP.zip https://drive.google.com/u/0/uc?id=1y_Em0jgijsfxgqrSBdI59Fk_r7P2MeMk&export=download

--2022-05-21 00:29:45--  https://drive.google.com/u/0/uc?id=1y_Em0jgijsfxgqrSBdI59Fk_r7P2MeMk
Resolving drive.google.com (drive.google.com)... 142.251.8.100, 142.251.8.113, 142.251.8.101, ...
Connecting to drive.google.com (drive.google.com)|142.251.8.100|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://drive.google.com/uc?id=1y_Em0jgijsfxgqrSBdI59Fk_r7P2MeMk [following]
--2022-05-21 00:29:46--  https://drive.google.com/uc?id=1y_Em0jgijsfxgqrSBdI59Fk_r7P2MeMk
Reusing existing connection to drive.google.com:443.
HTTP request sent, awaiting response... 303 See Other
Location: https://doc-0c-30-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/ldqj23o8pvhll7jduakc4n5uhj28ajj7/1653092925000/08159721715164229692/*/1y_Em0jgijsfxgqrSBdI59Fk_r7P2MeMk [following]
--2022-05-21 00:29:47--  https://doc-0c-30-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/ldqj23o8pvhll7jduakc4n5uhj28ajj7/1653092925000/081597217

In [10]:
!unzip -o -d /root CorpusTallerNLP.zip

Archive:  CorpusTallerNLP.zip
   creating: /root/CorpusTallerNLP/
  inflating: /root/CorpusTallerNLP/01.txt  
  inflating: /root/CorpusTallerNLP/02.txt  
  inflating: /root/CorpusTallerNLP/03.txt  
  inflating: /root/CorpusTallerNLP/04.txt  
  inflating: /root/CorpusTallerNLP/05.txt  
  inflating: /root/CorpusTallerNLP/06.txt  
  inflating: /root/CorpusTallerNLP/07.txt  
  inflating: /root/CorpusTallerNLP/08.txt  
  inflating: /root/CorpusTallerNLP/09.txt  
  inflating: /root/CorpusTallerNLP/10.txt  
  inflating: /root/CorpusTallerNLP/11.txt  
  inflating: /root/CorpusTallerNLP/12.txt  
  inflating: /root/CorpusTallerNLP/13.txt  
  inflating: /root/CorpusTallerNLP/14.txt  
  inflating: /root/CorpusTallerNLP/15.txt  
  inflating: /root/CorpusTallerNLP/16.txt  
  inflating: /root/CorpusTallerNLP/17.txt  
  inflating: /root/CorpusTallerNLP/18.txt  
  inflating: /root/CorpusTallerNLP/19.txt  
  inflating: /root/CorpusTallerNLP/20.txt  


##Respuesta  uno: 20 documentos

# **Establecimiento de la ruta de trabajo**

Ejecute la siguiente celda para establecer la ubicación de ejecución del código Python a la misma ubicación de los archivos del corpus.

In [11]:
corpusdir = '/root/CorpusTallerNLP/'
import os
os.chdir(corpusdir)
archivos_corpus = sorted(os.listdir('.'))

# **Desarrollo del taller**

A partir de este punto su código...(buena suerte)

In [15]:
# Su código aquí o en mas celdas de código
for archivo in archivos_corpus:
  a=open(archivo)
  lineas=a.readlines()
  #converti la lista a string
  lineas=''.join(lineas)
  lineas=lineas.lower()
  T3=word_tokenize(lineas,language="spanish")
  rt=RegexpTokenizer('\w+')
  T4=rt.tokenize(lineas)
  sw=stopwords.words('spanish')
  T5=[t for t in T4 if t not in sw]
  T6=[t for t in T5 if len(t)>3]
  T7=[unidecode(t) for t in T6 ]
  ss = SnowballStemmer('spanish')
  T8=[ss.stem(t) for t in T7 ]


T8


['nair',
 'campeon',
 'colombian',
 'gan',
 'titul',
 'carrer',
 'hac',
 'cuatr',
 'anos',
 'boyacens',
 'nuev',
 'campeon',
 'oficial',
 'carrer',
 'descalific',
 'campeon',
 'oficializ',
 'viern',
 'nair',
 'quintan',
 'campeon',
 'vuelt',
 'asturi',
 'edicion',
 '2017',
 'colombian',
 'sid',
 'segund',
 'prueb',
 'ganador',
 'descalific',
 'dopaj',
 'espanol',
 'raul',
 'alarcon',
 'nac',
 'alic',
 'hac',
 'anos',
 'sid',
 'ganador',
 'carrer',
 'nair',
 'termin',
 'segund',
 'sancion',
 'cuatr',
 'anos',
 'union',
 'ciclist',
 'internacional',
 'metod',
 'sustanci',
 'prohib',
 'suspension',
 'provisional',
 'octubr',
 '2019',
 'ahor',
 'oficial',
 'octubr',
 '2023',
 'result',
 'consegu',
 'moment',
 'descont',
 'record',
 'tras',
 'castig',
 'ciclist',
 'equip',
 'port',
 'nair',
 'logr',
 'titul',
 'deb',
 'segund',
 'posicion',
 'carrer',
 'todavi',
 'haci',
 'part',
 'movist',
 'team',
 'confirmacion',
 'sancion',
 'ganador',
 'vuelt',
 'asturi',
 '2017',
 'raul',
 'alarcon',




---
Taller y corpus preparado por Juan Felipe Muñoz Fernández | jfmunozf@unal.edu.co 