# Laboratorio 8

En el presente laboratorio se abordarán técnicas de Procesamiento de Lenguaje Natural con el fin de crear modelos de clasificación de texto. Para ello se utilizará un dataset de noticias extraídas de diversas páginas web entre Marzo y Agosto del 2014. Las categorías de noticias incluyen negocios, ciencia y tecnología, entretenimiento y salud.

https://archive.ics.uci.edu/ml/machine-learning-databases/00359/

### Contenido
Del repositorio del dataset se tiene la siguiente información sobre sus atributos:
- **ID** : the numeric ID of the article
- **TITLE** : the headline of the article
- **URL** : the URL of the article
- **PUBLISHER** : the publisher of the article
- **CATEGORY** : the category of the news item; one of: -- b : business -- t : science and technology -- e : entertainment -- m : health
- **STORY** : alphanumeric ID of the news story that the article discusses
- **HOSTNAME** : hostname where the article was posted
- **TIMESTAMP** : approximate timestamp of the article's publication, given in Unix time (seconds since midnight on Jan 1, 1970)

##### Para el desarrollo del laboratorio se puede hacer uso del módulo stopwords de la liberia nltk, para ello se puede utilizar el siguiente código

In [1]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Brenda\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
# Para realizar la lematización, se requiere instalar la base de datos de WordNet, para lo cual puede utilizar el siguiente comando
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Brenda\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

##### Además, se puede consultar en el siguiente link para las tareas de Lemmatization, Stemming y expresiones regulares http://www.nltk.org/book/ch03.html

## 1. Exploración (1p)

#### a. Descargue y cargue el dataset. Identifique la cantidad de noticias por cada categoría (1p)

In [3]:
import pandas as pd
import numpy as np
from collections import Counter

train_data=pd.read_csv('newsCorpora.csv',sep='\t')
categorias = np.asarray(train_data['category'])
counterCategorias = Counter(categorias)
print("Cantidad de noticias por cada categoria: ")
counterCategorias

Cantidad de noticias por cada categoria: 


Counter({'b': 115967, 'e': 152469, 'm': 45639, 't': 108344})

## 2. Preprocesamiento (9p)

#### a. Considere solo los títulos de los artículos para clasificar las noticias. Remueva las otras columnas del dataset (1p)

In [4]:
train_data=np.asarray(train_data['title'])

#### b1. Explore los títulos de los artículos del dataset y describa qué caracteres de puntuación (u otros caracteres) considera que deben ser removidos (0.5p)

In [5]:
train_data[1]

"Fed's Charles Plosser sees high bar for change in pace of tapering"

#### b2. Elimine dichos caracteres del dataset utilizando expresiones regulares (1.5p)

In [6]:
import re
import nltk

puntuacion=[',','-']
print(puntuacion)

[',', '-']


In [7]:
doc_preprocessed = []
doc_tokens = []

for d in train_data:
    no_puntuacion = d.translate(puntuacion)
    doc_preprocessed.append(no_puntuacion)
    t = nltk.word_tokenize(no_puntuacion)
    doc_tokens.append(t)

In [8]:
doc_preprocessed[1]

"Fed's Charles Plosser sees high bar for change in pace of tapering"

#### c. Convierta el texto del dataset a minúsculas (0.5p)

In [9]:
for i in range(len(doc_preprocessed)):
    doc_preprocessed[i]=doc_preprocessed[i].lower()
doc_preprocessed[1]

"fed's charles plosser sees high bar for change in pace of tapering"

#### d. Remueva stopwords del texto del dataset e indique la cantidad de stopwords que está removiendo (1.5p)

In [10]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

palabras=stopwords.words('english')

for linea in doc_preprocessed:
    tokens = word_tokenize(linea)
    filtered_sentence = []
    for i in tokens:
        if i not in palabras:
            filtered_sentence.append(i)
    linea=filtered_sentence

In [11]:
doc_preprocessed[2]

'us open: stocks fall after fed official hints at accelerated tapering'

#### e. Genere dos versiones o copias del dataset (*data_stem* y *data_lem*):

In [12]:
data_stem=doc_preprocessed
data_lem=doc_preprocessed

##### e1. Sobre la primera copia (data_stem), aplique Stemming (2p)

In [13]:
from nltk.stem import PorterStemmer, WordNetLemmatizer

stemmer = PorterStemmer()
for linea in data_stem:
    word=word_tokenize(linea)
    aux=""
    for palabra in word:
        pal=stemmer.stem(palabra)
        aux=aux+pal+" "
    linea=aux
    #print(linea)

##### e2. Sobre la segunda copia (data_lem), aplique Lemmatization (2p)

In [15]:
lem=WordNetLemmatizer()
for linea in data_lem:
    word = word_tokenize(linea)
    auxL=""
    for palabra in word:
        pal=lem.lemmatize(palabra)
        aux=aux+pal+" "
    linea=aux
    #print(linea)

## 3. Vectorización del texto (4p)

#### a. Para cada copia del dataset (*data_stem* y *data_lem*) convierta el texto del título de las noticias a vectores de características utlizando CountVectorizer y TfidfVectorizer

\* Las clases CountVectorizer y TfidfVectorizer se encuentran en la librería scikit-learn

In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer

##### a1. Vectorización de data_stem utilizando CountVectorizer (X1) (1p)

In [19]:
cv = CountVectorizer()
X1=cv.fit_transform(data_stem)
X1.shape

(422419, 54637)

##### a2. Vectorización de data_stem utilizando TfidfVectorizer (X2) (1p)

In [20]:
tfidf = TfidfVectorizer()
X2 = tfidf.fit_transform(data_stem)
X2.shape

(422419, 54637)

##### a3. Vectorización de data_lem utilizando CountVectorizer (X3) (1p)

In [21]:
cv = CountVectorizer()
X3=cv.fit_transform(data_lem)
X3.shape

(422419, 54637)

##### a4. Vectorización de data_lem utilizando TfidfVectorizer (X4) (1p)

In [22]:
tfidf = TfidfVectorizer()
X4 = tfidf.fit_transform(data_lem)
X4.shape

(422419, 54637)

## 3. Entrenamiento de modelos de aprendizaje de máquina (7p)

#### a. Realice un train test split de cada dataset (X1,X2, X3, X4), considerando un tamaño de conjunto de prueba de 20% (1p)

Asegúrese de realizar la misma partición para cada dataset, para que los resultados sean comparables (i.e. si utiliza la función *train_test_split()* fije el parámetro *random_state* con el mismo valor para X1, X2, X3 y X4)

In [30]:
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
from collections import Counter

train_data=pd.read_csv('newsCorpora.csv',sep='\t')
category = np.asarray(train_data['category'])

X1_train,X1_test,y1_train,y1_test=train_test_split(X1, category, test_size=0.2, random_state=42)
X2_train,X2_test,y2_train,y2_test=train_test_split(X2, category, test_size=0.2, random_state=42)
X3_train,X3_test,y3_train,y3_test=train_test_split(X3, category, test_size=0.2, random_state=42)
X4_train,X4_test,y4_train,y4_test=train_test_split(X4, category, test_size=0.2, random_state=42)

#### b. Entrene por lo menos tres modelos de aprendizaje de máquina con cada conjunto de entrenamiento (X1_train, X2_train, X3_train, X4_train) utilizando validación cruzada con 5 iteraciones (folds) (3p)

\* Si el tiempo de entrenamiento del modelo es demasiado alto, considere generar vectores de características más pequeños modificando el parámetro __max features__ tanto de CountVectorizer como de TfidfVectorizer

In [31]:
from sklearn.model_selection import cross_val_score
from sklearn.svm import LinearSVC
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import Perceptron
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import NearestCentroid
from sklearn.ensemble import RandomForestClassifier

import warnings
warnings.filterwarnings('ignore')

def run_model(clf, X, y):
    scores = cross_val_score(clf, X, y, cv=4)
    print("%s accuracy: %0.2f (+/- %0.2f)" % \
          (str(clf.__class__).split('.')[-1].replace('>','').replace("'",''), 
          scores.mean(), scores.std() * 2))
    
def run_models(X, y):
    run_model(PassiveAggressiveClassifier(), X, y)
    run_model(SGDClassifier(), X, y)
    run_model(MultinomialNB(), X, y)

#### c. Presente una tabla con los 12 resultados de entrenamiento de cada modelo (3) con cada dataset (4) con los siguientes campos (1p)

- Modelo utilizado
- Dataset utlizado
- Media de accuracy de las iteraciones de la validación cruzada
- Desviación estándar de las iteraciones de la validación cruzada

In [34]:
print("Con X1: ")
run_models(X1_train,y1_train)
print()

print("Con X2: ")
run_models(X2_train,y2_train)
print()

print("Con X3: ")
run_models(X3_train,y3_train)
print()

print("Con X4: ")
run_models(X4_train,y4_train)
print()

Con X1: 
PassiveAggressiveClassifier accuracy: 0.94 (+/- 0.00)
SGDClassifier accuracy: 0.94 (+/- 0.00)
MultinomialNB accuracy: 0.93 (+/- 0.00)

Con X2: 
PassiveAggressiveClassifier accuracy: 0.95 (+/- 0.00)
SGDClassifier accuracy: 0.92 (+/- 0.00)
MultinomialNB accuracy: 0.92 (+/- 0.00)

Con X3: 
PassiveAggressiveClassifier accuracy: 0.94 (+/- 0.00)
SGDClassifier accuracy: 0.94 (+/- 0.00)
MultinomialNB accuracy: 0.93 (+/- 0.00)

Con X4: 
PassiveAggressiveClassifier accuracy: 0.94 (+/- 0.00)
SGDClassifier accuracy: 0.92 (+/- 0.00)
MultinomialNB accuracy: 0.92 (+/- 0.00)



#### d. Seleccione los 3 mejores resultados y para cada uno, realice la predicción sobre el conjunto de prueba respectivo (X1_test, X2_test, X3_test o X4_test según corresponda), y reporte el accuracy obtenido y la matriz de confusión de las predicciones (2p)

In [41]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

model1 = LogisticRegression()
model1.fit(X1_test, y1_test)
p1 = model1.predict(X1_test)
print("Para X1_test:")
print('Train accuracy {}%'.format(100*np.sum(p1.T == y1_test.ravel())/p1.T.size))
print(classification_report(y1_test, p1))
print("----------------------------------------------------------------------")

model2 = LogisticRegression()
model2.fit(X2_test, y2_test)
p2 = model2.predict(X2_test)
print("Para X2_test:")
print('Train accuracy {}%'.format(100*np.sum(p2.T == y2_test.ravel())/p2.T.size))
print(classification_report(y2_test, p2))
print("-----------------------------------------------------------------------")

model3 = LogisticRegression()
model3.fit(X3_test, y3_test)
p3 = model3.predict(X3_test)
print("Para X3_test:")
print('Train accuracy {}%'.format(100*np.sum(p3.T == y3_test.ravel())/p3.T.size))
print(classification_report(y3_test, p3))
print("-----------------------------------------------------------------------")


Para X1_test:
Train accuracy 96.87041333270206%
             precision    recall  f1-score   support

          b       0.95      0.96      0.96     23414
          e       0.98      0.99      0.99     30353
          m       0.98      0.96      0.97      9024
          t       0.96      0.96      0.96     21693

avg / total       0.97      0.97      0.97     84484

-----------------------------------------------------
Para X2_test:
Train accuracy 94.56465129491974%
             precision    recall  f1-score   support

          b       0.93      0.93      0.93     23414
          e       0.96      0.98      0.97     30353
          m       0.97      0.89      0.93      9024
          t       0.93      0.93      0.93     21693

avg / total       0.95      0.95      0.95     84484

-----------------------------------------------------
Para X3_test:
Train accuracy 96.87041333270206%
             precision    recall  f1-score   support

          b       0.95      0.96      0.96     23414