<a href="https://colab.research.google.com/github/DCDPUAEM/DCDP_2022/blob/main/03-Deep-Learning/notebooks/Tarea-1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Módulo 1 - Tarea 1

Construir un clasificador MLP para predecir la clase de un documento de texto del corpus *20newsgroups* ([más información](http://qwone.com/~jason/20Newsgroups/)), el cual ya ha sido usado varias veces en clase.

Para esto, puedes usar tantas capas como desees, además, puedes modificar el número de neuronas, hacer dropout, usar callbacks y gridsearch (puede ser muy tardado). También podrías aplicar reducción de dimensionalidad a alguna de las matrices de features obtenidas. La función de perdida para la clasificación multiclase que usaremos es `categorical_crossentropy` y la métrica de rendimiento será el accuracy.

Una vez que tengas tu mejor modelo posible respecto al accuracy, reportar también las métricas:

* Recall
* Precision
* Roc-Auc score
* La matriz de confusión

Divide el conjunto de datos en 85% de entrenamiento y 15% de prueba.

**Fecha de entrega: Domingo 25 de junio**

En el siguiente link puedes encontrar las mejores accuracy que se han logrado, así como la estrategia. https://paperswithcode.com/sota/text-classification-on-20news

No es realista esperar obtener resultados de ese orden puesto que se trata de un problema no trivial. En sesiones posteriores iremos mejorando este resultado con algunas redes más especializadas.

## 1. Obtener el dataset

In [1]:
from sklearn.datasets import fetch_20newsgroups
import numpy as np

full_data = fetch_20newsgroups(remove=('headers', 'footers', 'quotes'),
                               subset='all'
                              )


docs = full_data.data   # Los documentos
y = full_data.target    # Las clases de los documentos

Recuerda que para hacer clasificación multiclase con redes MLP necesitas tener las clases codificadas como *one-hot encoding*.

## 2. Obtención de features

Para obtener las features de cada documento usaremos dos estrategias:

1. El módelo bolsa de palabras (*Bag of words: BOW*). Para esto usaremos la clase `CountVectorizer` de scikit-learn.
2. El módelo TF-IDF. Para esto usaremos la clase `TfidfVectorizer` de scikit-learn. Los detalles de este modelo los puedes ver en la notebook de [clustering](https://github.com/DCDPUAEM/DCDP/blob/main/02-Machine-Learning/notebooks/12-Clustering.ipynb) del módulo pasado.

Además, limpiaremos el texto y lematizaremos.

> La lematización es un proceso lingüístico que consiste en, dada una forma flexionada (es decir, en plural, en femenino, conjugada, etc), hallar el lema correspondiente. El lema es la forma que por convenio se acepta como representante de todas las formas flexionadas de una misma palabra. Es decir, el lema de una palabra es la palabra que nos encontraríamos como entrada en un diccionario tradicional: singular para sustantivos, masculino singular para adjetivos, infinitivo para verbos. Por ejemplo, decir es el lema de dije, pero también de diré o dijéramos; guapo es el lema de guapas; mesa es el lema de mesas.



Bajamos las *stopwords*, signos de puntuación y el módulo *wordnet* (usado para sinónimos y lematización).

In [None]:
import nltk
from nltk import download

nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')

Limpiamos el texto quitando signos de puntuación, números, símbolos especiales y pasando todo a minúsculas. Usamos la función que ya habíamos definido en el módulo pasado.

In [None]:
url = "https://raw.githubusercontent.com/DCDPUAEM/DCDP/main/02-Machine-Learning/data/limpiador_texto.py"
!wget --no-cache --backups=1 {url}

In [4]:
from limpiador_texto import preprocesar_textos

clean_docs = preprocesar_textos(docs)

Veamos como va el corpus hasta el momento

In [None]:
import pandas as pd

docs_df = pd.DataFrame(data={'document': clean_docs,
                             'class': y})
docs_df

Lematizamos

In [None]:
w_tokenizer = nltk.tokenize.WhitespaceTokenizer()
lemmatizer = nltk.stem.WordNetLemmatizer()

def lemmatize_text(text):
    return(" ".join([lemmatizer.lemmatize(w,"v") for w in w_tokenizer.tokenize(text)]))

docs_df["lemmatized_document"] = docs_df['document'].apply(lemmatize_text)
docs_df

Creamos una lista con los documentos preprocesados

In [7]:
clean_docs = list(docs_df["lemmatized_document"].values)

## 3. El modelo

### 3.1  TF-IDF

Obtenemos la matriz de features TF-IDF. Recuerda que `topn_words` especifica cuántas palabras del vocabulario tomar, ordenadas por las más frecuentes.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

topn_words = 800

vectorizer = TfidfVectorizer(stop_words='english',
                             max_features=topn_words)
X_tfidf = vectorizer.fit_transform(clean_docs)
X_tfidf = np.asarray(X_tfidf.todense())
print(X_tfidf.shape)

In [None]:
# Tu modelo ...

### 3.2 BOW

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

topn_words = 800

count_vectorizer = CountVectorizer(stop_words='english',
                                    max_features=topn_words)
X_counts = count_vectorizer.fit_transform(clean_docs)
X_counts =  np.asarray(X_counts.todense())
print(X_counts.shape)

In [None]:
# Tu modelo ...