# Fundamentos de Procesamiento Tectual 

---

# I. Cargando **"quanteda"** y nuestro primer ***corpus***

In [1]:
# install.packages("quanteda")
library(quanteda)

Package version: 3.3.1
Unicode version: 13.0
ICU version: 69.1

Parallel computing: 20 of 20 threads used.

See https://quanteda.io for tutorials and examples.



## ¿Que es un Corpus?

En lingüística y procesamiento del lenguaje natural, un "corpus" se refiere a una colección estructurada y organizada de textos escritos o hablados que se utilizan para el estudio, análisis y entrenamiento de modelos de lenguaje.

Un corpus puede estar compuesto por una variedad de textos, como libros, artículos, periódicos, transcripciones de audio, conversaciones grabadas, páginas web, entre otros. Estos textos pueden estar etiquetados con **metadatos** (*docvars*) para facilitar su búsqueda y análisis.








## Corpus: data_corpus_inaugural

Los discursos inaugurales son pronunciados por los presidentes de Estados Unidos cuando juran su cargo, algo que ocurre una vez cada cuatro años, el 21 de enero. Generalmente, contienen mensajes importantes sobre sus intenciones, prioridades y visión para el país.

Este corpus es ampliamente utilizado en el campo del procesamiento del lenguaje natural y la lingüística computacional como una fuente de datos para entrenar y evaluar modelos de análisis de texto, clasificación de sentimientos, extracción de características lingüísticas y otros tipos de análisis de texto relacionados.


In [3]:
print(data_corpus_inaugural)
class(data_corpus_inaugural)

Corpus consisting of 59 documents and 4 docvars.
1789-Washington :
"Fellow-Citizens of the Senate and of the House of Representa..."

1793-Washington :
"Fellow citizens, I am again called upon by the voice of my c..."

1797-Adams :
"When it was first perceived, in early times, that no middle ..."

1801-Jefferson :
"Friends and Fellow Citizens: Called upon to undertake the du..."

1805-Jefferson :
"Proceeding, fellow citizens, to that qualification which the..."

1809-Madison :
"Unwilling to depart from examples of the most revered author..."

[ reached max_ndoc ... 53 more documents ]




## print(corpus), docvars(corpus), summary(corpus), docnames(corpus)

**docvars:** Las "docvars" (variables de documento) son metadatos asociados a cada documento en un corpus. Representan información adicional o atributos que pueden estar relacionados con los textos contenidos en el corpus.

Las docvars son útiles para almacenar información contextual sobre los documentos, como el autor, el género, la fecha, la fuente o cualquier otro atributo relevante que se quiera asociar a los textos. Estas variables pueden ser de diferentes tipos, como cadenas de texto, fechas, números o factores categóricos.



In [4]:
head(docvars(data_corpus_inaugural))



Unnamed: 0_level_0,Year,President,FirstName,Party
Unnamed: 0_level_1,<int>,<chr>,<chr>,<fct>
1,1789,Washington,George,none
2,1793,Washington,George,none
3,1797,Adams,John,Federalist
4,1801,Jefferson,Thomas,Democratic-Republican
5,1805,Jefferson,Thomas,Democratic-Republican
6,1809,Madison,James,Democratic-Republican


**summary(corpus)**

Otra forma de obtener una visión general condensada de un corpus es utilizar la función **summary()**. **summary()** es una función base de R (es decir, una función incorporada en R) y proporciona información resumida básica sobre el objeto en cuestión.

In [5]:
head(summary(data_corpus_inaugural))
tail(summary(data_corpus_inaugural))

Unnamed: 0_level_0,Text,Types,Tokens,Sentences,Year,President,FirstName,Party
Unnamed: 0_level_1,<chr>,<int>,<int>,<int>,<int>,<chr>,<chr>,<fct>
1,1789-Washington,625,1537,23,1789,Washington,George,none
2,1793-Washington,96,147,4,1793,Washington,George,none
3,1797-Adams,826,2577,37,1797,Adams,John,Federalist
4,1801-Jefferson,717,1923,41,1801,Jefferson,Thomas,Democratic-Republican
5,1805-Jefferson,804,2380,45,1805,Jefferson,Thomas,Democratic-Republican
6,1809-Madison,535,1261,21,1809,Madison,James,Democratic-Republican


Unnamed: 0_level_0,Text,Types,Tokens,Sentences,Year,President,FirstName,Party
Unnamed: 0_level_1,<chr>,<int>,<int>,<int>,<int>,<chr>,<chr>,<fct>
54,2001-Bush,621,1806,97,2001,Bush,George W.,Republican
55,2005-Bush,772,2312,99,2005,Bush,George W.,Republican
56,2009-Obama,938,2689,110,2009,Obama,Barack,Democratic
57,2013-Obama,814,2317,88,2013,Obama,Barack,Democratic
58,2017-Trump,582,1660,88,2017,Trump,Donald J.,Republican
59,2021-Biden,812,2766,216,2021,Biden,Joseph R.,Democratic




**Types**  : Número de tokens únicos - ntype()

**Tokens** : Número total de tokens – ntoken()



In [6]:
print(ntype(tail(data_corpus_inaugural)))
print(ntoken(tail(data_corpus_inaugural)))

 2001-Bush  2005-Bush 2009-Obama 2013-Obama 2017-Trump 2021-Biden 
       621        772        938        814        582        812 
 2001-Bush  2005-Bush 2009-Obama 2013-Obama 2017-Trump 2021-Biden 
      1806       2312       2689       2317       1660       2766 


**docnames(corpus)**

Cuando se crea un corpus en quanteda, se asigna a cada documento un nombre o identificador único. Estos nombres o identificadores se almacenan en el atributo "docnames" del corpus. Los docnames son útiles para realizar operaciones específicas en documentos individuales dentro del corpus, como recuperar un documento en particular para su análisis o referencia.

In [7]:
docnames(data_corpus_inaugural) %>%
  head() %>%
  print()

[1] "1789-Washington" "1793-Washington" "1797-Adams"      "1801-Jefferson" 
[5] "1805-Jefferson"  "1809-Madison"   


**meta(corpus):**

Cada corpus también puede contener metadatos a nivel de corpus, con información sobre cualquier aspecto del mismo. Toma la forma de una lista (list).

In [8]:
print(meta(data_corpus_inaugural))

$description
[1] "Transcripts of all inaugural addresses delivered by United States Presidents, from Washington 1789 onward.  Data compiled by Gerhard Peters."

$source
[1] "Gerhard Peters and John T. Woolley. The American Presidency Project."

$url
[1] "https://www.presidency.ucsb.edu/documents/presidential-documents-archive-guidebook/inaugural-addresses"

$author
[1] "(various US Presidents)"

$keywords
[1] "political"     "US politics"   "United States" "presidents"   
[5] "presidency"   

$title
[1] "US presidential inaugural address speeches"





---


# **II. Tokenization**

La **tokenización** es un proceso que consiste en dividir un texto en unidades más pequeñas llamadas tokens. Un token puede ser una palabra, un número, un signo de puntuación o cualquier otra unidad significativa de texto.

El objetivo de la tokenización es convertir un texto en una secuencia estructurada de tokens que luego se puede utilizar para análisis.

---

## Un Primer Ejemplo






Consideremos el siguiente texto:

"Mario es un gran empresario. Creó su propia empresa a partir de un modesto emprendimiento."

In [None]:
my_text <- c(
"Mario es un gran empresario. Creó su propia empresa a partir de un modesto emprendimiento."
)

In [None]:
my_corpus <- corpus(my_text)
my_corpus

In [None]:
toks <- tokens(my_corpus)
print(toks)
class(toks)

In [None]:
toks_lower <- tokens_tolower(toks)
print(toks_lower)

In [None]:
toks_nopunct_stop <-tokens(toks_lower, remove_punct = TRUE) |>
  tokens_remove(pattern = stopwords("es"))

toks_nopunct_stop 

In [None]:
toks_nopunct_stop_stem <- tokens_wordstem(toks_nopunct_stop)
toks_nopunct_stop_stem

Mh....

La biblioteca **SnowballC** se utiliza en diversos lenguajes de programación, incluyendo R, para proporcionar implementaciones eficientes de algoritmos de stemming para diferentes idiomas. En el caso de R, se puede utilizar en conjunto con la biblioteca quanteda para realizar el stemming de palabras en textos en español u otros idiomas compatibles.

In [None]:
install.packages("SnowballC")
library(SnowballC)

In [None]:
toks_nopunct_stop_stem <- tokens_wordstem(toks_nopunct_stop, language = "spanish")
toks_nopunct_stop_stem


---

## Discursos Inaugurales

In [None]:
toks <- tokens(data_corpus_inaugural)
print(toks)
class(toks)



---


## Tokens, Guiones y Palabras Compuestas

**tokens(corpus), tokens(corpus, split_hyphens = TRUE)**

**Texto con guiones** - "Fellow-Citizens", "God-given", "non-believers“, "self-reliance", "self-supporting",

"well-spent", "well-regulated", etc…

In [None]:
# Hypehns ----
toks_split <- tokens(data_corpus_inaugural, split_hyphens = TRUE)
print(toks_split)

In [None]:
sum(ntoken(toks))
sum(ntoken(toks_split))



---


## Mayúsculas, Signos de Puntuación y "Stop Words"

**tokens_tolower(toks)**

In [None]:
toks_lower <- tokens_tolower(toks)
print(toks_lower)



Eliminar los signos de puntuación y las “stop words”



In [None]:
toks_nopunct_stop <-tokens(data_corpus_inaugural, remove_punct = TRUE) |>
  tokens_remove(pattern = stopwords("en"))
print(toks_nopunct_stop)

¿Qué palabras considera Quanteda como "stop words"

In [None]:
stopwords_en <- stopwords("en")

In [None]:
print(stopwords_en)

In [None]:
stopwords_sp <- stopwords("spanish")
stopwords_sp

¿Por qué eliminar las "stop words"?



1.   Reducción del ruido: Las stopwords son palabras muy comunes en un idioma determinado, como "el", "de", "y", "a", etc. Estas palabras suelen tener poca información semántica y, en muchos casos, no aportan un valor significativo al análisis de texto. Al eliminar las stopwords, se reduce el ruido en los datos y se enfoca en las palabras más relevantes para el análisis.

2.   Mejora de la eficiencia computacional: Las stopwords son palabras que aparecen con mucha frecuencia en los documentos. Al eliminarlas, se reduce la cantidad de palabras en el texto, lo que a su vez reduce la cantidad de cálculos y operaciones necesarias durante el análisis. Esto puede acelerar el procesamiento y mejorar la eficiencia computacional.


3.   Enfocarse en el contexto y las palabras clave: Al eliminar las stopwords, se puede poner mayor énfasis en las palabras que tienen más peso semántico y contribuyen significativamente al significado y al contexto de un texto. Esto puede ayudar a identificar y analizar las palabras clave, los patrones y las relaciones más relevantes en el análisis de texto.

Es importante destacar que la eliminación de stopwords no es aplicable en todos los casos y en todos los tipos de análisis de texto. En algunos casos, como el análisis de contexto o la identificación de temas generales, las stopwords pueden contener información relevante y no deben eliminarse. Por lo tanto, es esencial considerar el contexto y los objetivos del análisis antes de decidir si es apropiado eliminar o conservar las stopwords.

In [None]:
toks_nopunct_stop_low <- tokens(data_corpus_inaugural, remove_punct = TRUE,)  |>
  tokens_remove(pattern = stopwords("en"))  |>
  tokens_tolower()

print(toks_nopunct_stop_low)




---
# III. Stemming



El **stemming** simplifica las palabras a su forma básica (es decir, a su raíz). Esencialmente, logra categorizar palabras muy relacionadas como idénticas en lugar de considerarlas como  diferentes. Por ejemplo, *run*, *runner*, *running* tienen la raíz *run*.


El objetivo del stemming es reducir diferentes variantes morfológicas de una palabra a una forma común o raíz, conocida como **"stem"** o **"raíz léxica"**. El proceso de stemming ayuda a agrupar las palabras que tienen una relación semántica similar, pero que pueden tener diferentes formas debido a la conjugación, pluralización u otras modificaciones morfológicas. Al reducir las palabras a su forma base, se pueden agrupar y analizar más eficientemente, lo que facilita tareas como la búsqueda de palabras clave, la clasificación de textos o la recuperación de información.




In [None]:
tokens_wordstem(toks_nopunct_stop_low)

En cuanto a las limitaciones inherentes al stemming,  probablemente el problema más importante está relacionado con el **over-stemming** (situación en la que dos palabras no relacionadas se reducen a la misma raíz) y el **under-stemming** (situación en la que dos palabras relacionadas se reducen a diferentes raíces). En este sentido, trabajar con la versión *stemmed* de un corpus requiere más intervención "humana" para que el analista pueda evaluar correctamente el significado correcto de una palabra **stemmed**.
(*over-stemming* y  *under-stemming* me recuerdan el trade-off entre *over-fitting* y *under-fitting* en modelos de ML).




---


# IV. Key Words in Context - kwic()


**kwic()** se utiliza para crear una lista o índice alfabético de palabras de un corpus, junto con una cantidad dada de palabras antes y después de las palabras clave elegidas para contextualizar su significado.

In [None]:
toks <- tokens(data_corpus_inaugural)
kw_inaug <- kwic(toks, pattern = c("liberty", "people"), window = 4)
print(tail(kw_inaug, 10))



Nótese que en este caso, se utiliza la versión más básica del texto tokenizado.  Al utilizar la versión básica del texto tokenizado, se pueden presentar las palabras clave junto con su contexto de manera más clara en un lenguage que hace más sencilla la interpretación humana.