## Tokenización
Convertir textos a tokens.

Son caracteres o palabras unicas de los textos.

Digamos que tenemos la siguiente frase:

"El perro está dormido en el sillon" 

Esa frase es igual a 6 Tokens (7 tokens si el objetivo es hacer sensible el modelo a mayusculas y minusculas).

Existen varias formas para tokenizar: 
- Por palabra ("Hola, fernando" = "Hola,","fernando")
- Por caracter ("automóvil" = "a","u","t","o",...,"l")
- Por Sub palabras ("automóvil" = "auto", "móvil")

In [1]:
#Ejemplo de tokenización
texto = "Hola, ¿Cómo estás?"
texto = texto.lower() #tomaremos como base un modelo que no es sensible a mayusculas y minuscilas
print(texto)
tokens = texto.split()
print(tokens)

hola, ¿cómo estás?
['hola,', '¿cómo', 'estás?']


Explicación de la respuesta: Se puede observar en la respuesta que las palabras vienen con caracteres especiales (",", "¿", "?"). Esto es por la naturaleza del split donde "tokenizará" un texto hasta encontrar el siguiente espacio. En este punto se puede limpiar el texto para quitar dichos caracteres especiales o tambien tokenizar dichos caracteres, eso dependerá del objetivo de lo que se busca.

## STOPWORDS

KeepCoding define las stopwords como "conjunto de palabras comunes en un idioma que se filtran o excluyen del análisis de texto durante el procesamiento de lenguaje natural".

Unos ejemplos en el lenguaje español serian:
- y
- la
- los
- en
- para


In [2]:
#Se descargan la lista de stopwords de nltk
import nltk

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\cachi\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
#Anclamos que queremos los stopwords del idioma español
from nltk.corpus import stopwords

stop_words = set(stopwords.words('spanish'))
stop_words

{'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fue',
 'f

In [4]:
#Ahora tokenizaremos nuestro texto
from nltk.tokenize import word_tokenize
nltk.download('punkt_tab')


[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\cachi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [5]:
texto = "Hola, ¿Cómo estás?"
texto = texto.lower()
tokens = word_tokenize(texto,language="spanish")
print(tokens)

['hola', ',', '¿cómo', 'estás', '?']


In [6]:
texto_filtrado = [word for word in tokens if not word in stop_words]
texto_filtrado

['hola', ',', '¿cómo', '?']

Explicación de salida: ¿Por qué la ", ¿ ?" se mantuvieron y el "estás" se borró?

En nuestras stopwords no se encuentran dichos caracteres especiales pero al parecer el "estás" sí se encuentra en las stopwords por lo que por esa misma razón nos dio ese resultado pero que tal si probamos con la siguiente frase:

"El fruto se cayó del arbol"

In [7]:
texto = "El fruto se cayó del arbol"
texto = texto.lower()
tokens = word_tokenize(texto,language="spanish")
print(tokens)

texto_filtrado = [word for word in tokens if not word in stop_words]
texto_filtrado

['el', 'fruto', 'se', 'cayó', 'del', 'arbol']


['fruto', 'cayó', 'arbol']

Se puede observar que solo se dejó aquellas palabras que no son stopwords (fruto, cayó, arbol).

¿Cómo sería agregar más palabras a mi stopwords?

Existen 2 formas:
- Modificar el archivo de los stopwords (En local se encuentra en: C:\Users\[user_name]\AppData\Roaming\nltk_data\corpora\stopwords, buscar el lenguaje que deseas, abrir dicho documento con bloc de notas y agregar las palabras que desees)

- crear otra variable con el mismo dataset de stopwords y agregar lo que deseas, como el ejemplo siguiente:

In [8]:
s_words = stop_words
s_words.update(",","¿","?") #add si solo agregaras un elemento; update si agregarás más de un elemento.
s_words

{',',
 '?',
 'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',

In [9]:
texto = "Hola, ¿ Cómo estás?"
texto = texto.lower()
tokens = word_tokenize(texto,language="spanish")
print(tokens)

texto_filtrado = [word for word in tokens if not word in s_words]
texto_filtrado

['hola', ',', '¿', 'cómo', 'estás', '?']


['hola', 'cómo']

Observación: Al parecer cuando se usa el "¿" el tokenizador lo toma conjunto a la palabra siguiente por lo que puede llegar a generar ciertos problemas, se sugieren más pruebas.

## Stemming y Lemmatization

### Algunos problemas de la tokenización básica y recuentos son los siguientes:
- **Las palabras similares se tratan como entidades separadas**. 

Ejemplo: Caminar, Caminando, Camina; no importa si las palabras esten estrechamente relacionadas, estas se tomarán como palabras independientes de las otras.
- **El alto dimensional de los vectores resultantes**. 

Pueden existir palabras con significados similares pero el tokenizador los tomará como palabras diferentes (el mismo casó del punto anterior). El mejor caso seria que si se encuentran las palabras "caminar, caminando, camina, caminó" se tome bajo el mismo verbo que seria "caminar", esto para que no tenga que contabilizar 4 veces una palabra que se podria resumir a 1 sola.
- **Aplicaciones practicas y desventajas de la tokenización basica**. 

Ejemplo: Digamos que estamos realizando un motor de busqueda y coloco "Persona corriendo", lo mejor sería que me coloque resultados con relación al verbo "correr" y no solo mostrar resultados de, literal, "persona CORRIENDO" lo cual disminuiría la cantidad de resultados haciendo que el usuario tenga que buscar basado en el tiempo del verbo/accion (pasado, presente y futuro) para obtener el resultado que el busca en vez de mostrar el resultado de todos los tiempo.

**Stemming**

El Stemming es una técnica más simple que simplemente elimina los sufijos de las palabras.

Ejemplo:
- Spanish: ando, endo, ido, etc
- English: ing, ed, s, en

**Lemmatization**

La Lemmatization es una técnica más sofisticada que utiliza las reglas del lenguaje para obtener la base o raiz de una palabra.

Ejemplo Stemming

In [10]:
#Descargar las palabras que nos serviran para realizar el stemming
import nltk

nltk.download('wordnet') 

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\cachi\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [11]:
#Ejemplo en español
from nltk.stem import SnowballStemmer

#creamos el stemmer en español
stemmer = SnowballStemmer('spanish')

print(stemmer.stem('caminando'))
print(stemmer.stem('caminar'))
print(stemmer.stem('caminó'))

camin
camin
camin


In [12]:
#ejemplo en ingles
#creamos el stemmer en ingles
stemmer = SnowballStemmer('english')

print(stemmer.stem('walking'))
print(stemmer.stem('walk'))
print(stemmer.stem('walked'))

print(stemmer.stem('running'))
print(stemmer.stem('run'))
print(stemmer.stem('ran'))

print(stemmer.stem('swimming'))
print(stemmer.stem('swim'))
print(stemmer.stem('swam'))
print(stemmer.stem('swum'))

walk
walk
walk
run
run
ran
swim
swim
swam
swum


Observaciones: Apesar de que en ingles se obtuvo buenos resultados, este llega a fallar con verbos irregulares.

Ejmeplo Lemmatization

#instalaciones necesarias si ejecutas de forma local
```
pip install spacy
!python -m spacy download es_core_news_sm -q
```

In [13]:
import spacy

#cargar el modelo en español
nlp = spacy.load('es_core_news_sm')

#crear un documento
doc = nlp("caminar caminando caminó caminé caminaba")

#imprimir el texto y el lemma de cada token
for token in doc:
    print(token.text, " -> ", token.lemma_)

caminar  ->  caminar
caminando  ->  caminar
caminó  ->  caminar
caminé  ->  caminé
caminaba  ->  caminar


Observaciones: El resultado de dicha prueba demuestra que si se puede lograr el objetivo de disminuir las palabras a su "verbo" base, aunque existen excepciones a la regla como lo es la palabra "caminé", se sugieren más pruebas con dicha libreria.

**Particularidades del Lemmatization y recomendaciones para su uso**
- La lemmatization puede ser más efectiva que el stemming, pero tambien es más costosa computacionalmente.
- El uso de lemmatization puede requerir el etiquetado previo. Esto se pudo observar con el caso de "caminé" donde quizás dicha palabra no está dentro del conjunto de palabras para el verbo "caminar".

# ÁREA PRACTICA

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("kevinmorgado/spanish-news-classification")

print("Path to dataset files:", path)

## Tokenizacion

In [None]:
import pandas as pd 


In [43]:
df = pd.read_csv('df_total.csv', encoding='UTF-8')
df

Unnamed: 0,url,news,Type
0,https://www.larepublica.co/redirect/post/3201905,Durante el foro La banca articulador empresari...,Otra
1,https://www.larepublica.co/redirect/post/3210288,El regulador de valores de China dijo el domin...,Regulaciones
2,https://www.larepublica.co/redirect/post/3240676,En una industria históricamente masculina como...,Alianzas
3,https://www.larepublica.co/redirect/post/3342889,Con el dato de marzo el IPC interanual encaden...,Macroeconomia
4,https://www.larepublica.co/redirect/post/3427208,Ayer en Cartagena se dio inicio a la versión n...,Otra
...,...,...,...
1212,https://www.bbva.com/es/como-lograr-que-los-in...,En la vida de toda empresa emergente llega un ...,Innovacion
1213,https://www.bbva.com/es/podcast-como-nos-afect...,La espiral alcista de los precios continúa y g...,Macroeconomia
1214,https://www.larepublica.co/redirect/post/3253735,Las grandes derrotas nacionales son experienci...,Alianzas
1215,https://www.bbva.com/es/bbva-y-barcelona-healt...,BBVA ha alcanzado un acuerdo de colaboración c...,Innovacion


In [44]:
# separamos los datos en variables de entrada y etiqueta
X = df['news']
y = df['Type']

In [45]:
print(df['Type'].value_counts())

Type
Macroeconomia     340
Alianzas          247
Innovacion        195
Regulaciones      142
Sostenibilidad    137
Otra              130
Reputacion         26
Name: count, dtype: int64


In [46]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

In [47]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

X_train_transformed = vectorizer.fit_transform(X_train)
X_test_transformed = vectorizer.transform(X_test)

In [48]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

model = MultinomialNB()
model.fit(X_train_transformed, y_train)
y_pred = model.predict(X_test_transformed)
print(metrics.accuracy_score(y_test,y_pred))

0.8073770491803278


In [49]:
#Vemos dimensionalidad
X_train_transformed

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 235186 stored elements and shape (973, 26760)>

## Stemming

In [53]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\cachi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\cachi\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [54]:
stemmer = SnowballStemmer('spanish')

In [55]:
def tokenize_and_stem(text):
    tokens = word_tokenize(text.lower())
    stems = [stemmer.stem(token) for token in tokens if token.isalpha()]
    return ' '.join(stems)

In [56]:
df['news_stemmer'] = df['news'].apply(tokenize_and_stem)

In [57]:
df['news_stemmer']

0       durant el for la banc articul empresarial par ...
1       el regul de valor de chin dij el doming que bu...
2       en una industri histor masculin com lo es la a...
3       con el dat de marz el ipc interanual encaden s...
4       ayer en cartagen se dio inici a la version num...
                              ...                        
1212    en la vid de tod empres emergent lleg un momen...
1213    la espiral alcist de los preci continu y gener...
1214    las grand derrot nacional son experient trauma...
1215    bbva ha alcanz un acuerd de colabor con barcel...
1216    casi entrand a la part final de noviembr la ep...
Name: news_stemmer, Length: 1217, dtype: object

In [58]:
df['news_stemmer'][3]

'con el dat de marz el ipc interanual encaden su decimoquint tas posit consecut la inflacion public por el ine se ha manten igual respect al avanc del de marz y se situ punt por encim del dat de febrer que ascend al esos punt de diferent la mayor part la coloc el grup de la viviend punt por la sub de la electr y el del transport punt por el alza de los carbur tambien impuls el ipc de marz el aument de los preci de la restaur y los servici de aloj y al encarec generaliz de los aliment especial del pesc y el marisc de la carn de las legumbr y hortaliz y de la lech el ques y los ten en cuent la rebaj del impuest especial sobr la electr y las variacion sobr otros impuest el ipc interanual alcanz en marz nuev decim mas que la tas general del asi lo reflej el ipc a impuest constant que el ine tambien public en el marc de esta inflacion subyacent sin aliment no elabor ni product energet aument en marz cuatr decim hast su valor mas alto desd septiembr de de este mod la subyacent se situ mas de

¿Qué diferencías hubo?  Lo que pasó es que se eliminaron los sufijos de varias palabras para reducir la dimensionalidad de las mismas.

In [59]:
X = df['news_stemmer']
y = df['Type']
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2)
vectorizer = CountVectorizer()
X_train_transformed = vectorizer.fit_transform(X_train)
X_test_transformed = vectorizer.transform(X_test)

model = MultinomialNB()
model.fit(X_train_transformed, y_train)

#Se mide el rendimiento del modelo
y_pred = model.predict(X_test_transformed)
print(metrics.accuracy_score(y_test,y_pred))


0.819672131147541


In [60]:
#Vemos dimensionalidad
X_train_transformed

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 198193 stored elements and shape (973, 11930)>

## Lemmatization

In [61]:
import spacy

nlp = spacy.load('es_core_news_sm')

In [62]:
def lemmatize_text(text):
    doc = nlp(text.lower())
    lemmas = [token.lemma_ for token in doc if token.is_alpha]
    return ' '.join(lemmas)

NOTA: El siguiente punto al ejecutarlo me tardó 2m con 21.2s por lo que no desesperen si es que se tarda mucho o poco, recordemos que el lemma a pesar de ser de los metodos más sofisticados, este tambien es el que más tiempo se tarda en realizar la operación, conjunto a que son 1216 textos que tiene que lemmatizar por lo que se tomará algo de tiempo.

In [63]:
df['new_lemma'] = df['news'].apply(lemmatize_text)
df['new_lemma']

0       durante el foro el banco articulador empresari...
1       el regulador de valor de china decir el doming...
2       en uno industria históricamente masculino como...
3       con el dato de marzo el ipc interanual encaden...
4       ayer en cartagena él dar inicio a el versión n...
                              ...                        
1212    en el vida de todo empresa emergente llegar un...
1213    el espiral alcista de el precio continuar y ge...
1214    el grande derrota nacional ser experiencia tra...
1215    bbva haber alcanzar uno acuerdo de colaboració...
1216    casi entrar a el parte final de noviembre el é...
Name: new_lemma, Length: 1217, dtype: object

In [64]:
df['new_lemma'][3]

'con el dato de marzo el ipc interanual encadenar su decimoquinto tasa positivo consecutivo el inflación publicado por el ine él haber mantener igual respecto al avance del de marzo y él situar punto por encima del dato de febrero que ascender al ese punto de diferencia el mayor parte él colocar el grupo de el vivienda punto por el subida de el electricidad y el del transporte punto por el alza de el carburante también impulsar el ipc de marzo el aumento de el precio de el restauración y el servicio de alojamiento y al encarecimiento generalizado de el alimento especialmente del pescado y el marisco de el carne de el legumbr y hortaliza y de el leche el queso y el tener en cuenta el rebaja del impuesto especial sobre el electricidad y el variación sobre otro impuesto el ipc interanual alcanzar en marzo nueve décima más que el tasa general del así él reflejar el ipc a impuesto constante que el ine también publicar en el marco de este inflación subyacente sin alimento no elaborado ni pro

In [65]:
#Separamos los datos en variables de entrada y etiquetas
X = df['new_lemma']
y = df['Type']

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2)
vectorizer = CountVectorizer()
X_train_transformed = vectorizer.fit_transform(X_train)
X_test_transformed = vectorizer.transform(X_test)

model = MultinomialNB()
model.fit(X_train_transformed, y_train)

#Medimos el rendimiento del modelo
y_pred = model.predict(X_test_transformed)

print(metrics.accuracy_score(y_test,y_pred))

0.7868852459016393


In [66]:
#Vemos dimensionalidad
X_train_transformed

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 191309 stored elements and shape (973, 16423)>

## Comparativa de Procesos de Texto

| Proceso | Dimensionalidad | Resultado del Modelo |
|---------|----------------|---------------------|
| Tokenización | 26,760 | 0.8074 |
| Stemming | 11,930 | 0.8197 |
| Lemmatization | 16,423 | 0.7869 |

### Análisis Comparativo

- **Mayor dimensionalidad**: Tokenización (26,760 features)
- **Mejor resultado del modelo**: Stemming (81.97%)
- **Menor dimensionalidad**: Stemming (11,930 features)
- **Proceso más balanceado**: Stemming combina buena precisión con reducción dimensional significativa

# Introducción a la Similitud de Vectores

## ¿Qué es la similitud de vectores?

La similitud de vectores, como se puede obviar, es qué tanto separece un vector a otro. Pero ¿Qué tiene que ver esto con NLP?  

Como todos sabemos, los modelos de ML no entienden palabras, solo entienden numeros, por lo que lo que se realiza una conversión de cada palabra en un vector, esto para poder medir la distancia entre una palabra y otras para que el modelo pueda comprender mejor las relaciones.

Un Ejemplo es el siguiente:
- "mamá" y "papá" estarían cercas (tienen una relación con el concepto de "familia").
- "Tomate" y "Zanahoria" estarian cercas (tienen una relación con el concepto de "Verduras").
- "Persona" y "Arena" estarían lejos

```python
# Imagina que cada palabra tiene coordenadas:
mom = [0.8, 0.9, 0.7]      # Cerca de "dad"
dad = [0.7, 0.9, 0.8]    # Cerca de "mom"  
tomate = [0.1, 0.2, 0.9]  # Cerca de "zanahoria"
arena = [0.9, 0.1, 0.2] # Lejos de todo lo anterior
```

## Aplicaciones practicas de la similitud de vectores
- Similitud de documentos
- Spinning de articulos y SEO
- Recomendaciones
- Chatbots 
- Traducción automática

# Introducción a Método TF-IDF

En NLP, muchas veces, se requiere entender la importancia relativa de ciertas palabras dentro de un o unos documentos.
- TF = Term Frequency
- IDF = Inverse Document Frequency

En resumen: Es un metodo para saber cuan importante es una palabra para un documento/colección.

## Problemas con el método del conteo

El método del conteo NO toma en cuenta la relevancia de las palabras, cosa que TF-IDF reduce el peso de las palabras comunes y aumenta el peso de las palabras que no se utilizan con frecuencia

## Stop Words

Recordemos que en los primeros puntos del documento vimos el tema de las stop words donde dichas palabras se eliminaban del texto ya que son palabras comunes (si, la, el, mas, etc). Si dichas palabras se dejan en el texto pueden sesgar el análisis hacia palabras más comunes, es por ello que se excluyen durante el NLP.

## Ambigüedad y especifidad de las stop words dependiendo de la aplicación

¿Recuerdan la practica de las stop words donde en una frase se nos borraba una palabra que no debia ser clasificada como stop word?

Bueno, sabemos que no todas las palabras comunes son stop words en todas las situaciones. Por ejemplo "no" podría ser clasificada como stop word en muchos contextos, pero NO en el análisis de sentimientos donde podría ser una palabra clave (Igual tomar el ejemplo que pasó aquí donde se tomó como stop word la palabra "estás").

## Funcionamiento de TF-IDF

TF-IDF asigna un puntaje a cada palabra en un documento en función de su frecencia en ese documento (TF) y su frecuencia en todos los documentos (IDF). Cuanto más a menudo aparece una palabra en un solo documento, pero menos a menudo en todos los documentos, mayor es su puntaje TF-IDF. 

"Las palabras que aparecen con más frecuencia en un documento pero raramente en otros documentos son más importantes".

## Formulación de TF-IDF y su justificación

La forma en la que se calcula el TF-IDF es multiplicando dos componentes: TF e IDF
- TF: Se calcula como el número de veces que aparece una palabra en un documento dividido por el total del palabras en ese documento.
- IDF: Se calcula como el logaritmo del total de documentos dividido por el número de documentos que contienen la palabra.

### Formulas

- TF-IDF = TF(t,d)*IDF(t,D)
- TF(t,d) = (Número de veces que el termino "t" aparece en el documento "d") / (Total de términos en el documento "d")
- IDF(t,D) = log_e(Total de documentos en el corpus D / Número de documentos donde el término "t" aparece)
