# Instrucciones del Informe


En esta tarea, implementará técnicas de preprocesamiento de texto, métodos de codificación numérica de texto y funciones de clasificación.

Usaremos dos conjuntos de datos de texto:
- El primer conjunto de datos es una submuestra de un [Conjunto de datos de clickbait](https://github.com/bhargaviparanjape/clickbait/tree/master/dataset) que tiene títulos de artículos y una etiqueta binaria que indica si el título se considera clickbait.
- El segundo conjunto de datos es una submuestra de un [Conjunto de datos de Web of Science](https://data.mendeley.com/datasets/9rw3vkcfy4/6) que tiene artículos y una etiqueta correspondiente en el dominio de los artículos.

Las técnicas de preprocesamiento de texto limpiarán estos dos conjuntos de datos y el resultado se introducirá en los métodos de codificación numérica. Una vez que tengamos el texto en un formato codificado numéricamente, introduciremos los valores codificados en las funciones de clasificación y predeciremos la etiqueta de los artículos/títulos.

<!-- <img src="/data/images/sequence.png" width="75%"> -->
<p align="center"><img src="data/images/sequence.png" width="75%" align="center"></p>

Para finalizar la tarea, también implementaremos y exploraremos varias métricas de evaluación para analizar el rendimiento de los clasificadores.

Como sección de crédito adicional, hemos incluido una sección que profundiza en la transmisión y el preprocesamiento de un gran conjunto de datos utilizando la popular biblioteca [Hugging Face](https://huggingface.co/). 


## Entregables y distribución de puntos

### Q0: División de validación [5 puntos]
- **0.1: División de datos de prueba y entrenamiento** [5 puntos] Entregables: <font color = 'green'>split.py</font>

- [5 puntos] split_data

### Q1: Preprocesamiento de texto [15 puntos]
- **1.1: Eliminación de ruido, tokenización y normalización** [10 puntos] Entregables: <font color = 'green'>preprocess.py</font>

- [5 puntos] clean_text

- [5 puntos] clean_dataset
- **1.3: Limpieza del conjunto de datos de Web of Science** [5 puntos] Entregables: <font color = 'green'>preprocess.py</font>

- [5 puntos] clean_wos

### Q2: Codificación numérica [30 puntos]
- **2.1: Codificación One Hot y Bolsa de palabras** [20 pts] Entregables: <font color = 'green'>bagofwords.py</font>

- [1pts] \__init__

- [3pts] split_text

- [3pts] flatten_text

- [5pts] fit

- [3pts] onehot

- [5pts] transform
- **2.2: Bolsa de palabras con CountVectorizer** [5 pts] Entregables: <font color = 'green'>encode.py</font>

- [1pts] \__init__

- [2pts] fit

- [2pts] transform
- **2.3: Codificación TF-IDF** [5 pts] Entregables: <font color = 'green'>encode.py</font>

- [1pts] \__init__

- [2pts] fit

- [2pts] transform

### Q3: Clasificación mediante Naive Bayes [10 puntos]
- **3.1: Implementación de Naive Bayes multinomial** [5 puntos] Entregables: <font color = 'green'>classify.py</font>

- [1 punto] \__init__

- [2 puntos] ajuste

- [2 puntos] predicción
- **3.2: Implementación de Naive Bayes gaussiano** [5 puntos] Entregables: <font color = 'green'>classify.py</font>

- [1 punto] \__init__

- [2 puntos] ajuste

- [2 puntos] predicción

### Q4: Métricas de evaluación [15 puntos]
- **4.1: Implementación de precisión, recuperación, exactitud, puntuación F1, puntuación ROC_AUC, matriz de confusión** [15 puntos] Entregables: <font color = 'green'>metrics.py</font>

- [5 puntos] precisión

- [2 puntos] recuperación

- [2 puntos] precisión

- [2 puntos] puntuación f1

- [2 puntos] puntuación roc_auc

- [2 puntos] matriz de confusión

### Q5: Preprocesamiento en Big Data (7,5 puntos de crédito adicional adicional)
- **5.1 Tokenización de datos transmitidos** Entregables: <font color = 'green'>preprocess_bigdata.py</font> **(Enviar a la sección de crédito adicional adicional en Gradescope)**

- [2,5 puntos] \__init__

- [2,5 puntos] tokenizar

- [2,5 puntos] preprocess_text


# Configuración
**Consulte el archivo environment_setup.md para crear el entorno para esta tarea.** Este cuaderno se prueba con las versiones de paquetes que se indican en la salida de la celda Importaciones de la biblioteca a continuación, y los paquetes correspondientes se pueden descargar desde [miniconda](https://docs.conda.io/en/latest/miniconda.html). También puede que desee familiarizarse con varios paquetes:

- [jupyter notebook](https://jupyter-notebook.readthedocs.io/en/stable/)
- [numpy](https://docs.scipy.org/doc/numpy-1.15.1/user/quickstart.html)
- [sklearn](https://matplotlib.org/users/pyplot_tutorial.html)

**Otra alternativa es la instalación de las librerias mediante PIP.**

* pip install matplotlib numpy scikit-learn scipy pandas nltk bs4 mkl<2022 datasets transformers

En los archivos .py, implemente las funciones que tienen `raise NotImplementedError` y, después de terminar la codificación, elimine o comente `raise NotImplementedError`.


## Importando Librerias

In [23]:
#Import the necessary libraries
import pandas as pd
import numpy as np
import scipy as sp
import sys, re, bs4, nltk, sklearn, matplotlib

# Used for Q5 Bonus only
import datasets, transformers 

from copy import deepcopy
from sklearn.metrics import accuracy_score

%load_ext autoreload
%autoreload 2
%reload_ext autoreload

print('Version Information')

print('python: {}'.format(sys.version))
print('pandas: {}'.format(pd.__version__))
print('numpy: {}'.format(np.__version__))
print('scipy: {}'.format(sp.__version__))
print('re: {}'.format(re.__version__))
print('bs4: {}'.format(bs4.__version__))
print('nltk: {}'.format(nltk.__version__))
print('sklearn: {}'.format(sklearn.__version__))
print('matplotlib: {}'.format(matplotlib.__version__))
print('datasets: {}'.format(datasets.__version__)) # Q5 Bonus
print('transformers: {}'.format(transformers.__version__)) #Q5 Bonus

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload
Version Information
python: 3.11.14 | packaged by Anaconda, Inc. | (main, Oct 21 2025, 18:30:03) [MSC v.1929 64 bit (AMD64)]
pandas: 2.3.3
numpy: 1.24.3
scipy: 1.10.1
re: 2.2.1
bs4: 4.13.5
nltk: 3.9.2
sklearn: 1.7.2
matplotlib: 3.10.6
datasets: 3.3.2
transformers: 4.51.3


# Carga de Datasets

Comenzamos cargando ambos datasets.

In [24]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

df_data = pd.read_csv('./data/data.csv')
df_data_wos = pd.read_csv('./data/data_wos.csv')

A continuación, se muestra la cantidad de titulares en el conjunto de datos, así como una muestra de los titulares de los artículos y su etiqueta binaria, donde 0 se considera que no es clickbait y 1 es clickbait.

In [25]:
print(f'Number of Headlines: {len(df_data)}')

print('\n\nSample Label and Headlines:')
x = 105
for label, line in zip(df_data['headline'][x:x+5], df_data['label'][x:x+5]):
    print(f'{label}: {line}')
    
print('\nOutput of Sample Headlines without Print Statement:')
df_data[['headline', 'label']][x:x+5]

Number of Headlines: 24000


Sample Label and Headlines:
27 Breathtaking Alternatives To A Traditional Wedding Bouquet <br>
: 1
22 Pictures People Who Aren't Grad Students Will <strong>Never</strong> Understand
: 1
PepsiCo Profit Falls 43 Percent
: 0
Website of Bill O'Reilly, FOX News commentator, hacked in retribution
: 0
The Green Toy Soldiers From Your Childhood Now Come In Baller Yoga Poses A
: 1

Output of Sample Headlines without Print Statement:


Unnamed: 0,headline,label
105,27 Breathtaking Alternatives To A Traditional ...,1
106,22 Pictures People Who Aren't Grad Students Wi...,1
107,PepsiCo Profit Falls 43 Percent\r\n,0
108,"Website of Bill O'Reilly, FOX News commentator...",0
109,The Green Toy Soldiers From Your Childhood Now...,1


In [26]:
print(f'Number of Articles: {len(df_data_wos)}')

# Numerical label to domain mapping
wos_label = {0:'CS', 1:'ECE', 4:'Civil', 5:'Medical'}

print('\nLabel Key:', wos_label)

print('\nSample Label and Articles:\n')
x = 107
for label, line in zip(df_data_wos['label'][x:x+3], df_data_wos['article'][x:x+3]):
    print(f'{label} - {wos_label[label]}: {line}')

Number of Articles: 2000

Label Key: {0: 'CS', 1: 'ECE', 4: 'Civil', 5: 'Medical'}

Sample Label and Articles:

0 - CS: An efficient procedure for calculating the electromagnetic fields in multilayered cylindrical structures is reported in this paper. Using symbolic computation, spectral Green's functions, suitable for numerical implementations are determined in compact and closed forms. Applications are presented for structures with two dielectric layers.

1 - ECE: A multifunctional platform based on the microhotplate was developed for applications including a Pirani vacuum gauge, temperature, and gas sensor. It consisted of a tungsten microhotplate and an on-chip operational amplifier. The platform was fabricated in a standard complementary metal oxide semiconductor (CMOS) process. A tungsten plug in standard CMOS process was specially designed as the serpentine resistor for the microhotplate, acting as both heater and thermister. With the sacrificial layer technology, the microhotpl

# Q0: División de validación [5pts]


## 0.1: Dividir datos de prueba y entrenamiento [5pts]
En el archivo **split.py** complete las siguientes funciones:

* **split_data**: Divida los datos en una división de prueba y entrenamiento 80/20.
### 0.1.1 Pruebas locales para funciones divididas [Sin puntos]
Puede probar su implementación de las funciones contenidas en **split.py** en la celda a continuación. No dude en comentar las pruebas para las funciones que aún no se hayan completado. Consulte [Uso de pruebas locales](#using_local_tests) para obtener más detalles.


In [27]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

import split
from local_tests.split_test import Split_test

test_sd = Split_test()

print('Local Tests for Split Functions \n')
# Local test for split_data
train_clickbait, test_clickbait = split.split_data(df_data)

split_clickbait = (len(train_clickbait) == test_sd.x_train_len) and (len(test_clickbait) == test_sd.x_test_len)
print('Your split_data works for clickbait as expected: ', split_clickbait)

# Local test for split_data
train_wos, test_wos = split.split_data(df_data_wos)

split_wos = (len(train_wos) == test_sd.x_train_wos_len) and (len(test_wos) == test_sd.x_test_wos_len)
print('Your split_data works for wos as expected: ', split_wos)

Local Tests for Split Functions 

Your split_data works for clickbait as expected:  True
Your split_data works for wos as expected:  True


## 0.1.2: División de los conjuntos de datos [Sin puntos]
Ejecute las celdas a continuación para dividir el conjunto de datos de prueba y entrenamiento utilizando la función de división que ya implementó en 0.1.


In [28]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

import split

df_train, df_test = split.split_data(df_data)

# Separate dataframes into train and test lists
x_train, y_train = list(df_train['headline']), list(df_train['label'])
x_test, y_test = list(df_test['headline']), list(df_test['label'])

Below is the number of headlines in the train and test set.

In [29]:
print(f'Number of Train Headlines: {len(x_train)}')
print(f'Number of Test Headlines: {len(x_test)}')

Number of Train Headlines: 19200
Number of Test Headlines: 4800


In [30]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

import split

df_train_wos, df_test_wos = split.split_data(df_data_wos)

# Separate dataframes into train and test lists
x_train_wos, y_train_wos = list(df_train_wos['article']), list(df_train_wos['label'])
x_test_wos, y_test_wos = list(df_test_wos['article']), list(df_test_wos['label'])

In [31]:
print(f'Number of Train Articles: {len(x_train_wos)}')
print(f'Number of Test Articles: {len(x_test_wos)}')

Number of Train Articles: 1600
Number of Test Articles: 400


# Q1: Preprocesamiento de texto [15 puntos]
## 1.1: Eliminación de ruido, tokenización y normalización [10 puntos]
En el archivo **preprocess.py**, complete las siguientes funciones:
* <strong>clean_text</strong>: limpie una sola cadena de entrada dada, los requisitos están en la cadena de documentación
* <strong>clean_dataset</strong>: use clean_text para limpiar un conjunto de datos completo de cadenas

Sugerencia:
* Puede encontrar <a href="https://stackoverflow.com/questions/16206380/python-beautifulsoup-how-to-remove-all-tags-from-an-element">esta discusión</a> útil para eliminar la etiqueta html.
### 1.1.1 Pruebas locales para funciones de preprocesamiento [Sin puntos]
Puede probar su implementación de las funciones contenidas en **preprocess.py** en la celda a continuación. No dude en comentar las pruebas de las funciones que aún no se han completado. Consulte [Uso de pruebas locales](#using_local_tests) para obtener más detalles.


In [32]:
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\nicol\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\nicol\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\nicol\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\nicol\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [33]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from preprocess import Preprocess
from local_tests.preprocess_test import Preprocess_Test

test_pp = Preprocess_Test()
pp = Preprocess()

print('Local Tests for Preprocess Functions \n')
# Local test for clean_text
output = []
for text in test_pp.x_train:
    output.append(pp.clean_text(text))
clean_text_test = (output == test_pp.cleaned_text)
print('Your clean_text works as expected:', clean_text_test)

# Local test for clean_dataset
output = pp.clean_dataset(test_pp.x_train)
clean_dataset_test = (output == test_pp.cleaned_text)
print('Your clean_dataset works as expected:', clean_dataset_test)

Local Tests for Preprocess Functions 

Your clean_text works as expected: False
Your clean_dataset works as expected: False


## 1.2: Limpieza del conjunto de datos de Clickbait [Sin puntos]
Ejecute la celda a continuación para limpiar el conjunto de datos de prueba y entrenamiento de Clickbait utilizando las funciones de preprocesamiento que ya ha implementado en 1.1.


In [34]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from preprocess import Preprocess
cleaned_text = Preprocess().clean_dataset(x_train)
cleaned_text_test = Preprocess().clean_dataset(x_test)

# Do not worry if you see a warning from BeautifulSoup

## 1.3: Limpieza del conjunto de datos de Web of Science [5 puntos]
En el archivo **preprocess.py**, complete la siguiente función utilizando las funciones de preprocesamiento que ya ha implementado en 1.1:
* <strong>clean_wos</strong>: Limpia una única cadena de entrada dada, los requisitos están en la cadena de documentación


In [35]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from preprocess import clean_wos
cleaned_text_wos, cleaned_text_wos_test = clean_wos(x_train_wos, x_test_wos)

# Q2: Codificación numérica [30 puntos]
En esta sección, exploraremos la codificación One Hot, Bag of Words y TF-IDF como métodos de codificación de texto a numérico. ## 2.1: Codificación One Hot y Bag of Words [20pts]
En el archivo **bagofwords.py**, complete las siguientes funciones:
* <strong>\__init__</strong>
* <strong>split_text</strong>
* <strong>flatten_text</strong>
* <strong>fit</strong>
* <strong>onehot</strong>
* <strong>transform</strong>

Dado el texto Clickbait limpio de la pregunta 1, convierta cada cadena en un vector one hot y luego use la representación del vector one hot de la cadena para crear una representación de bag of words.

Por ejemplo, dados los siguientes textos limpios:

`["perro salta valla", "perro rompe valla"]`

Para crear una representación one hot, las cadenas deben descomponerse en una lista de palabras:

`[['perro', 'saltar', 'valla'], ['perro', 'romper', 'valla']]`

Una vez que la cadena se ha descompuesto en una lista de palabras, la lista deberá aplanarse para crear una asignación entre una palabra única y una representación one hot única:

`['perro', 'saltar', 'valla', 'perro', 'romper', 'valla']`

Al introducir la lista aplanada para que se ajuste al codificador One Hot, se creará la siguiente asignación:

`[1., 0., 0., 0.]` $\rightarrow$ break  
`[0., 1., 0., 0.]` $\rightarrow$ dog  
`[0., 0., 1., 0.]` $\rightarrow$ fence  
`[0., 0., 0., 1.]` $\rightarrow$ jump  

Ahora que tenemos la asignación, podemos obtener la representación one hot de `"dog jump fence"`:

`[[0., 1., 0., 0.],
[0., 0., 0., 1.],
[0., 0., 1., 0.]]`

La representación one hot se puede sumar a lo largo de las filas para crear la representación bag of words para `"dog jump fence"`:

`[0., 1., 1., 1.]`
### 2.1.1 Pruebas locales para codificación One Hot y Bag of Words [Sin puntos]
Puede probar su implementación de las funciones contenidas en **bagofwords.py** en la celda a continuación. No dude en comentar las pruebas de las funciones que aún no se han completado. Consulte [Uso de pruebas locales](#using_local_tests) para obtener más detalles.


In [36]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from bagofwords import OHE_BOW
from local_tests.bagofwords_test import BagofWords_Test

test_ob = BagofWords_Test()
ob = OHE_BOW()

print('Local Tests for OHE_BOW Functions \n')
# Local test for split_text
output = ob.split_text(test_ob.cleaned_text)
split_text_test = (output == test_ob.data_split)
print('Your split_text works as expected:', split_text_test)

# Local test for flatten_list
output = ob.flatten_list(test_ob.data_split)
flatten_text_test = np.all((output == test_ob.flattened_list) == True)
print('Your flatten_list works as expected:', flatten_text_test)

# Local test for fit
ob.fit(test_ob.cleaned_text)
ob_cat_test = np.all((ob.oh.categories_[0] == test_ob.fitted_categories) == True)
vocab_size_test = (ob.vocab_size == test_ob.vocab_size)
print('Your fit works as expected:', (ob_cat_test and vocab_size_test))

# Local test for onehot
output = ob.onehot(test_ob.data_split[0])
onehot_test = np.all((output == test_ob.encode_0) == True)
# vocab_size_test = (ob.vocab_size == test_ob.vocab_size)
print('Your onehot works as expected:', onehot_test)

# Local test for transform
output = ob.transform(test_ob.cleaned_text)
onehot_test = np.all((output == test_ob.cleaned_text_bow) == True)
print('Your transform works as expected:', onehot_test)

Local Tests for OHE_BOW Functions 

Your split_text works as expected: True
Your flatten_list works as expected: True
Your fit works as expected: True
Your onehot works as expected: True
Your transform works as expected: True


### 2.1.2 Convertir el texto limpio de Web of Science en una representación de bolsa de palabras [Sin puntos]
Ejecute la celda siguiente para convertir el conjunto de datos de prueba y entrenamiento limpios utilizando las funciones de codificación One Hot y bolsa de palabras que ya ha implementado en 2.1.1


### 2.1.2 Convert the Web of Science Cleaned Text to a Bag of Words Representation [No Points]
Run the below cell to convert the cleaned train and test dataset using the one hot encoding and bag of words functions that you have already implemented in 2.1.1

In [16]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

# this cell may take a few minutes to run

from bagofwords import OHE_BOW

ohe_bow = OHE_BOW()
ohe_bow.fit(cleaned_text_wos)
x_train_ohe_bow = ohe_bow.transform(cleaned_text_wos)
x_test_ohe_bow = ohe_bow.transform(cleaned_text_wos_test)

In [37]:
print('Shape of Bag of Words representation for Web of Science Train:', x_train_ohe_bow.shape)
print('Shape of Bag of Words representation for Web of Science Test:', x_test_ohe_bow.shape)

Shape of Bag of Words representation for Web of Science Train: (1600, 17796)
Shape of Bag of Words representation for Web of Science Test: (400, 17796)


### 2.1.3 Convertir el texto limpio de Clickbait en una representación de bolsa de palabras [Sin puntos]
Ejecute la celda a continuación para convertir el conjunto de datos de prueba y entrenamiento limpios utilizando las funciones de codificación one hot y bolsa de palabras que ya implementó en 2.1.1

**NOTA:** La ejecución del código demorará unos minutos y eso es normal. Para que los cálculos sean más rápidos, no dude en usar [ejecutores de pool paralelo](https://superfastpython.com/processpoolexecutor-in-python/) en la función de transformación.

In [38]:
from bagofwords import OHE_BOW

ohe_bow = OHE_BOW()
ohe_bow.fit(cleaned_text)
x_train_ohe_bow = ohe_bow.transform(cleaned_text)
x_test_ohe_bow = ohe_bow.transform(cleaned_text_test)

In [39]:
print('Shape of Bag of Words representation for clickbait Train:', x_train_ohe_bow.shape)
print('Shape of Bag of Words representation for clickbait Test:', x_test_ohe_bow.shape)

Shape of Bag of Words representation for clickbait Train: (19200, 17015)
Shape of Bag of Words representation for clickbait Test: (4800, 17015)


## 2.2: Bolsa de palabras utilizando CountVectorizer [5 puntos]
En el archivo **encode.py**, complete las siguientes funciones en la clase `BagOfWords`:
* <strong>\__init__</strong>
* <strong>fit</strong>
* <strong>transform</strong>

En la sección anterior, implementamos la Bolsa de palabras utilizando la función OneHotEncoder de sklearn. En esta sección, utilizará la función CountVectorizer de sklearn para crear una representación de bolsa de palabras. Descubrirá que la implementación con CountVectorizer es mucho más corta y rápida que con OneHotEncoder de sklearn. No se proporciona ninguna prueba local, sin embargo, sus resultados con CountVectorizer o OneHotEncoder deberían ser similares. La diferencia es que CountVectorizer ignora caracteres individuales y nuestra implementación de One Hot Encoder no lo hace, por lo tanto, la dimensión del vocabulario es ligeramente más pequeña.
### 2.2.1 Convertir el texto limpio de Web of Science en una representación de bolsa de palabras [Sin puntos]
Ejecute la celda a continuación para convertir el conjunto de datos limpio utilizando las funciones de bolsa de palabras que ya ha implementado en 2.2


In [40]:
%%time
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from encode import BagOfWords

bow = BagOfWords()
bow.fit(cleaned_text_wos)
x_train_bow_wos = bow.transform(cleaned_text_wos)
x_test_bow_wos = bow.transform(cleaned_text_wos_test)

CPU times: total: 844 ms
Wall time: 852 ms


In [41]:
print('Shape of Bag of Words representation for Web of Science Train:', x_train_bow_wos.shape)
print('Shape of Bag of Words representation for Web of Science Test:', x_test_bow_wos.shape)

Shape of Bag of Words representation for Web of Science Train: (1600, 17777)
Shape of Bag of Words representation for Web of Science Test: (400, 17777)


### 2.2.2 Convertir el texto limpio de Clickbait en una representación de bolsa de palabras [Sin puntos]
Ejecute la celda a continuación para convertir el conjunto de datos limpio utilizando las funciones de bolsa de palabras que ya ha implementado en 2.2


In [42]:
%%time
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from encode import BagOfWords

bow = BagOfWords()
bow.fit(cleaned_text)
x_train_bow = bow.transform(cleaned_text)
x_test_bow = bow.transform(cleaned_text_test)

CPU times: total: 906 ms
Wall time: 913 ms


In [43]:
print('Shape of Bag of Words representation for Clickbait Train:', x_train_bow.shape)
print('Shape of Bag of Words representation for Clickbait Test:', x_test_bow.shape)

Shape of Bag of Words representation for Clickbait Train: (19200, 16997)
Shape of Bag of Words representation for Clickbait Test: (4800, 16997)


Observe cómo no usamos la implementación de bolsa de palabras utilizando OneHotEncoder para transformar el conjunto de datos de Clickbait. El uso de la implementación de la versión 2.1 podría llevar una cantidad significativa de tiempo, según la cantidad de recursos computacionales que tengamos. No dude en intentar convertir este conjunto de datos utilizando la implementación 2.1 y ver cuánto tiempo lleva.

## 2.3: Codificación TF-IDF [5 puntos]
Observe cómo en Bag of Words todas las palabras tienen la misma importancia; sin embargo, en TF-IDF podemos asignar una importancia más lógica a un vector de palabras para cada documento. Puede volver a consultar las diapositivas de la semana 2 para revisar los detalles sobre el concepto de TF-IDF; sin embargo, en esta sección aprovecharemos el TfidfVectorizer de sklearn para codificar nuestros conjuntos de datos.

En el archivo **encode.py**, complete las siguientes funciones en la clase `TfIdf`:
* <strong>\__init__</strong>
* <strong>fit</strong>
* <strong>transform</strong>
### 2.3.1 Convertir el texto limpio de Web of Science en una representación TfIdf [Sin puntos]
Ejecute la siguiente celda para convertir el conjunto de datos limpio utilizando las funciones TfIdf que ya ha implementado en 2.3


In [44]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from encode import TfIdf

tfidf = TfIdf()
tfidf.fit(cleaned_text_wos)
x_train_tfidf_wos = tfidf.transform(cleaned_text_wos)
x_test_tfidf_wos = tfidf.transform(cleaned_text_wos_test)

In [45]:
print('Shape of TfIdf representation for Web of Science Train:', x_train_tfidf_wos.shape)
print('Shape of TfIdf representation for Web of Science Test:', x_test_tfidf_wos.shape)

Shape of TfIdf representation for Web of Science Train: (1600, 17777)
Shape of TfIdf representation for Web of Science Test: (400, 17777)


### 2.3.2 Convert the Clickbait Cleaned Text to a TfIdf Representation [No Points]
Run the below cell to convert the cleaned dataset using the TfIdf functions that you have already implemented in 2.3

In [46]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from encode import TfIdf

tfidf = TfIdf()
tfidf.fit(cleaned_text)
x_train_tfidf = tfidf.transform(cleaned_text)
x_test_tfidf = tfidf.transform(cleaned_text_test)

In [47]:
print('Shape of TfIdf representation for Web of Science Train:', x_train_tfidf.shape)
print('Shape of TfIdf representation for Web of Science Test:', x_test_tfidf.shape)

Shape of TfIdf representation for Web of Science Train: (19200, 16997)
Shape of TfIdf representation for Web of Science Test: (4800, 16997)


# Q3: Clasificación mediante Naive Bayes [10 puntos]
Ahora que tenemos una bolsa de palabras y una representación Tf-Idf de nuestros conjuntos de datos, exploremos cómo se comparan cuando se pasan a un clasificador para predecir la etiqueta del texto. Usaremos dos de las funciones de Naive Bayes de sklearn, Naive Bayes multinomial y NaiveBayes gaussiano.
## 3.1: Implementación de Naive Bayes multinomial [5 puntos]
En el archivo **classify.py**, complete las siguientes funciones en la clase `MNB`:
* <strong>`__init__`</strong>
* <strong>fit</strong>
* <strong>predict</strong>
### 3.1.1 Conjunto de datos de clickbait [Sin puntos]
Ejecute la celda a continuación para clasificar la representación de bolsa de palabras del conjunto de datos de clickbait utilizando las funciones de Naive Bayes multinomial que ya ha implementado en 3.1


In [48]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import MNB

# Initialize classifier, fit, and predict
clf = MNB()
clf.fit(x_train_bow, np.array(y_train))
y_hat = clf.predict(x_train_bow)
y_hat_test = clf.predict(x_test_bow)

model = 'Multinomial Naive Bayes'
encoding = 'Clickbait Bag of Words'
metric = 'Accuracy Score'

# Assess performance of classifier using Accuracy score as the metric
clf_train_score = accuracy_score(y_train, y_hat)
clf_test_score = accuracy_score(y_test, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

Train Accuracy Score for Multinomial Naive Bayes - Clickbait Bag of Words: 0.9774
Test Accuracy Score for Multinomial Naive Bayes - Clickbait Bag of Words: 0.9569


Ahora, intentémoslo con la representación tf-idf del conjunto de datos de clickbait

In [49]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import MNB

# Initialize classifier, fit, and predict
clf = MNB()
clf.fit(x_train_tfidf, np.array(y_train))
y_hat = clf.predict(x_train_tfidf)
y_hat_test = clf.predict(x_test_tfidf)

model = 'Multinomial Naive Bayes'
encoding = 'Clickbait TF-IDF'
metric = 'Accuracy Score'

# Assess performance of classifier using Accuracy score as the metric
clf_train_score = accuracy_score(y_train, y_hat)
clf_test_score = accuracy_score(y_test, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

Train Accuracy Score for Multinomial Naive Bayes - Clickbait TF-IDF: 0.9784
Test Accuracy Score for Multinomial Naive Bayes - Clickbait TF-IDF: 0.9552


### 3.1.2 Conjunto de datos de Web of Science [Sin puntos]
Ejecute la celda a continuación para clasificar la representación de bolsa de palabras del conjunto de datos de Web of Science utilizando las funciones de Naive Bayes multinomial que ya ha implementado en 3.1


In [50]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import MNB

# Initialize classifier, fit, and predict
clf = MNB()
clf.fit(x_train_bow_wos, np.array(y_train_wos))
y_hat = clf.predict(x_train_bow_wos)
y_hat_test = clf.predict(x_test_bow_wos)

model = 'Multinomial Naive Bayes'
encoding = 'Web of Science Bag of Words'
metric = 'Accuracy Score'

# Assess performance of classifier using Accuracy score as the metric
clf_train_score = accuracy_score(y_train_wos, y_hat)
clf_test_score = accuracy_score(y_test_wos, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

Train Accuracy Score for Multinomial Naive Bayes - Web of Science Bag of Words: 0.9750
Test Accuracy Score for Multinomial Naive Bayes - Web of Science Bag of Words: 0.8300


Ahora, intentémoslo con la representación tf-idf del conjunto de datos de Conjunto de datos de Web of Science.

In [51]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import MNB

# Initialize classifier, fit, and predict
clf = MNB()
clf.fit(x_train_tfidf_wos, np.array(y_train_wos))
y_hat = clf.predict(x_train_tfidf_wos)
y_hat_test = clf.predict(x_test_tfidf_wos)

model = 'Multinomial Naive Bayes'
encoding = 'Web of Science TF-IDF'
metric = 'Accuracy Score'

# Assess performance of classifier using Accuracy score as the metric
clf_train_score = accuracy_score(y_train_wos, y_hat)
clf_test_score = accuracy_score(y_test_wos, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

Train Accuracy Score for Multinomial Naive Bayes - Web of Science TF-IDF: 0.9644
Test Accuracy Score for Multinomial Naive Bayes - Web of Science TF-IDF: 0.8500


## 3.2: Implementación de Naive Bayes gaussiano [5 puntos]
En el archivo **classify.py**, complete las siguientes funciones en la clase `GNB`:
* <strong>\__init__</strong>
* <strong>fit</strong>
* <strong>predict</strong>
### 3.2.1 Conjunto de datos de clickbait [Sin puntos]
Ejecute la siguiente celda para clasificar la representación de bolsa de palabras del conjunto de datos de clickbait utilizando las funciones de Naive Bayes gaussiano que ya ha implementado en 3.2


In [54]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import GNB

# Initialize classifier, fit, and predict
clf = GNB()
clf.fit(x_train_bow, np.array(y_train))
y_hat = clf.predict(x_train_bow)
y_hat_test = clf.predict(x_test_bow)

model = 'Gaussian Naive Bayes'
encoding = 'Clickbait Bag of Words'
metric = 'Accuracy Score'

# Assess performance of classifier using Accuracy score as the metric
clf_train_score = accuracy_score(y_train, y_hat)
clf_test_score = accuracy_score(y_test, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

Train Accuracy Score for Gaussian Naive Bayes - Clickbait Bag of Words: 0.9716
Test Accuracy Score for Gaussian Naive Bayes - Clickbait Bag of Words: 0.8952


Ejecute la siguiente celda para clasificar la representación de tf-idf del conjunto de datos de clickbait utilizando las funciones de Naive Bayes multinomial que ya ha implementado en 3.1

In [55]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import GNB

# Initialize classifier, fit, and predict
clf = GNB()
clf.fit(x_train_tfidf.toarray(), np.array(y_train))
y_hat = clf.predict(x_train_tfidf.toarray())
y_hat_test = clf.predict(x_test_tfidf.toarray())

model = 'Gaussian Naive Bayes'
encoding = 'Clickbait TF-IDF'
metric = 'Accuracy Score'

# Assess performance of classifier using Accuracy score as the metric
clf_train_score = accuracy_score(y_train, y_hat)
clf_test_score = accuracy_score(y_test, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

AttributeError: 'numpy.ndarray' object has no attribute 'toarray'

### 3.2.2 Conjunto de datos de Web of Science [Sin puntos]
Ejecute la siguiente celda para clasificar la representación de bolsa de palabras del conjunto de datos de Web of Science utilizando las funciones de Naive Bayes gaussiano que ya ha implementado en 3.2


In [None]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import GNB

# Initialize classifier, fit, and predict
clf = GNB()
clf.fit(x_train_bow_wos, np.array(y_train_wos))
y_hat = clf.predict(x_train_bow_wos)
y_hat_test = clf.predict(x_test_bow_wos)

model = 'Gaussian Naive Bayes'
encoding = 'Web of Science Bag of Words'
metric = 'Accuracy Score'

# Assess performance of classifier using Accuracy score as the metric
clf_train_score = accuracy_score(y_train_wos, y_hat)
clf_test_score = accuracy_score(y_test_wos, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

Ejecute la siguiente celda para clasificar la representación tf-idf del conjunto de datos de Web of Science utilizando las funciones Bayesianas Naive Gaussianas que ya ha implementado en 3.2

In [None]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import GNB

# Initialize classifier, fit, and predict
clf = GNB()
clf.fit(x_train_tfidf_wos.toarray(), np.array(y_train_wos))
y_hat = clf.predict(x_train_tfidf_wos.toarray())
y_hat_test = clf.predict(x_test_tfidf_wos.toarray())

model = 'Gaussian Naive Bayes'
encoding = 'Web of Science TF-IDF'
metric = 'Accuracy Score'

# Assess performance of classifier using Accuracy score as the metric
clf_train_score = accuracy_score(y_train_wos, y_hat)
clf_test_score = accuracy_score(y_test_wos, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

## 3.3: Bayesianas Naive Gaussianas vs. Multinomiales [Sin puntos]
Observe la diferencia en la precisión de las pruebas entre Bayesianas Naive Gaussianas (GNB) y Multinomiales (MNB). En general, MNB tiene una precisión de prueba mayor que GNB. Una de las principales suposiciones al utilizar GNB es que las características se distribuyen siguiendo una distribución gaussiana. La distribución gaussiana no se aplica necesariamente a las palabras y puede no ser un algoritmo adecuado para la clasificación de texto. Es importante elegir algoritmos que sean adecuados para el contexto del problema.
# Q4: Métricas de evaluación [15 puntos]
## 4.1: Implementación de precisión, recuperación, exactitud y puntuación F1 [15 puntos]
Para cuantificar la bondad de nuestros métodos de clasificación, necesitamos utilizar métricas de evaluación.

En el archivo **metrics.py**, complete las siguientes funciones:
* <strong>accuracy</strong>
* <strong>recall</strong>
* <strong>precision</strong>
* <strong>f1_score</strong>
* <strong>confusion_matrix</strong>
* <strong>roc_auc_score</strong>

Puede utilizar sklearn.metrics para todos los métodos de evaluación EXCEPTO para la precisión.

La precisión debe implementarse utilizando numpy como la relación entre la cantidad de puntos de datos predichos correctamente y la cantidad total de puntos de datos.

$$Precisión = \dfrac{TP + TN}{TP + TN + FP + FN}$$

Donde TP = Verdaderos positivos, TN = Verdaderos negativos, FP = Falsos positivos, FN = Falsos negativos
tienes ## 4.2: Analizar el método Naive Bayes multinomial utilizando el conjunto de datos Clickbait [Sin puntos]
### 4.2.1 Análisis de la precisión [Sin puntos]
Aquí puede ver cómo se compara su implementación de precisión con los valores de precisión de sklearn de la sección 3.1.1. Deben ser idénticos.


In [None]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import MNB
from metrics import Metrics

# Initialize classifier, fit, and predict
clf = MNB()
clf.fit(x_train_bow, np.array(y_train))
y_hat = clf.predict(x_train_bow)
y_hat_test = clf.predict(x_test_bow)

model = 'Multinomial Naive Bayes'
encoding = 'Clickbait Bag of Words'
metric = 'Accuracy Score'

# Assess performance of classifier using Accuracy score as the metric
clf_train_score = Metrics().accuracy(y_train, y_hat)
clf_test_score = Metrics().accuracy(y_test, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

### 4.2.2 Análisis de recuperación, precisión y puntuación F1 [Sin puntos]
Ahora analicemos la recuperación, precisión y puntuación f1 promedio del algoritmo Naive Bayes multinomial utilizando el conjunto de datos Clickbait.


In [None]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from classify import MNB
from metrics import Metrics

# Initialize classifier, fit, and predict
clf = MNB()
clf.fit(x_train_bow, np.array(y_train))
y_hat = clf.predict(x_train_bow)
y_hat_test = clf.predict(x_test_bow)

model = 'Multinomial Naive Bayes'
encoding = 'Clickbait Bag of Words'

metric = 'Average Recall Score'
clf_train_score = Metrics().recall(y_train, y_hat, average='macro')
clf_test_score = Metrics().recall(y_test, y_hat_test, average='macro')
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))
print()

metric = 'Average Precision Score'
clf_train_score = Metrics().precision(y_train, y_hat, average='macro')
clf_test_score = Metrics().precision(y_test, y_hat_test, average='macro')
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))
print()


metric = 'Average F1 Score'
clf_train_score = Metrics().f1_score(y_train, y_hat, average='macro')
clf_test_score = Metrics().f1_score(y_test, y_hat_test, average='macro')
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

### 4.2.3 Análisis de la puntuación ROC AUC y la matriz de confusión [Sin puntos]
Ahora analicemos la puntuación roc_auc promedio y la matriz de confusión del algoritmo Naive Bayes multinomial utilizando el conjunto de datos Clickbait.


In [None]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

metric = 'ROC_AUC Score'
clf_train_score = Metrics().roc_auc_score(y_train, y_hat)
clf_test_score = Metrics().roc_auc_score(y_test, y_hat_test)
print('Train {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_train_score))
print('Test {} for {} - {}: {:.4f}'.format(metric, model, encoding, clf_test_score))

In [None]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

metric = 'Confusion Matrix'
clf_train_confusion_matrix = Metrics().confusion_matrix(y_train, y_hat)
clf_test_confusion_matrix = Metrics().confusion_matrix(y_test, y_hat_test)
print('Train {} for {} - {}'.format(metric, model, encoding))
print(clf_train_confusion_matrix)
print('Test {} for {} - {}'.format(metric, model, encoding))
print(clf_test_confusion_matrix)

# Q5: Limpieza de texto para macrodatos [7,5 puntos de crédito adicional]

Ahora que hemos explorado la limpieza, clasificación y evaluación de texto, exploremos cómo funcionan en el mundo real cuando hay muchos más datos. Específicamente, exploraremos la biblioteca Hugging Face, una biblioteca popular en aprendizaje automático.
## 5.1 Transmisión y tokenización

Para este problema, preprocesaremos el conjunto de datos de Wikipedia de Hugging Face. Tomaremos el texto de cada uno de los artículos y usaremos el tokenizador DistilBert para tokenizar el texto. Luego crearemos un conjunto de datos que consista solo en el id, el título y los primeros 100 tokens **en inglés** (¡no numéricos!) del texto del artículo. Un conjunto de datos como este se podría usar para crear un resumidor liviano, pasarlo a un modelo para puntuar la atención del usuario prevista o para analizar los patrones sintácticos que se encuentran en las introducciones de los artículos de Wikipedia.

Sin embargo, este conjunto de datos ocupa 20 GB, ¡demasiado grande para caber en la RAM de la mayoría de las computadoras! Por lo tanto, tendremos que **transmitir** el conjunto de datos a nuestras computadoras, como se hace a menudo en el mundo real cuando se crean LLM.

En esta sección, completaremos los métodos en el archivo **preprocess_bigdata.py**.
### 5.1.1 Inicializar el conjunto de datos [2,5 puntos de bonificación adicional]

En el archivo **preprocess_bigdata.py**, cambia la inicialización de **self.dataset** en el método **init** para permitir la transmisión.


In [None]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from preprocess_bigdata import Preprocess
from local_tests.preprocess_bigdata_test import test_init_dataset

print("Starting streaming tests, if the dataset test takes long please double check your code.")

test_pp = Preprocess()
test_init_dataset(str(type(test_pp.dataset)))

print("The columns of your dataset are: ", test_pp.dataset.column_names)
print("Example row: ")
try:
    print(next(iter(test_pp.dataset)))
except:
    print("Your dataset is initalized wrong or might be empty")

### 5.1.2 Tokenizar [2,5 puntos de bonificación adicional]

En el archivo **preprocess_bigdata.py**:
- Inicializa **self.tokenizer** en el método **init**
- Completa el método **tokenize**

En esta sección, queremos crear un tokenizador que pueda recibir lotes de datos y devolver matrices que contengan los primeros 100 tokens del texto del artículo.


In [None]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from preprocess_bigdata import Preprocess
from local_tests.preprocess_bigdata_test import  test_init_tokenizer, tokenizer_example_sentences, test_tokenize

test_pp = Preprocess()
test_init_tokenizer(str(type(test_pp.tokenizer)))

output = test_pp.tokenize(tokenizer_example_sentences, max_length=10)
test_tokenize(output)

### 5.1.3 Tokenizar el conjunto de datos [2,5 puntos de bonificación adicional]

En el archivo **preprocess_bigdata.py**:
- Completa el método **preprocess_text**

Para este método, utiliza el procesamiento por lotes para devolver el conjunto de datos preprocesado. Para ver por qué necesitamos el procesamiento por lotes, ejecute las dos celdas siguientes y observe cuánto tiempo tardan en ejecutarse:


In [None]:
%%time
###############################
### DO NOT CHANGE THIS CELL ###
###############################

dataset_head = test_pp.dataset.take(1)
print(list(dataset_head))

In [None]:
%%time
###############################
### DO NOT CHANGE THIS CELL ###
###############################

dataset_head2 = test_pp.dataset.take(10)
print(list(dataset_head2))

Toman aproximadamente el mismo tiempo en ejecutarse, ¡aunque una extrae mucho más a la vez! Por eso el procesamiento por lotes es tan importante, especialmente para las aplicaciones de transmisión: nos permite procesar nuestro conjunto de datos tan rápido como podemos manejarlo, según las limitaciones de memoria de nuestra máquina local.

Ahora continúe y pruebe su implementación de **preprocess_text** en la siguiente celda:


In [None]:
###############################
### DO NOT CHANGE THIS CELL ###
###############################

from preprocess_bigdata import Preprocess
from local_tests.preprocess_bigdata_test import test_init_dataset, test_preprocess

test_pp = Preprocess()
dataset_cleaned = test_pp.preprocess_text()

test_init_dataset(str(type(dataset_cleaned)))

first_row = next(iter(dataset_cleaned))
test_preprocess(first_row)

Felicitationes, terminaste la tarea 2 &#128512;!