# Naive Bayes Discreto

Haremos un clasificador de artículos utilizando un modelo de Naive Bayes discreto. Trabajaremos con el dataset de Twenty News Group. Antes de empezar carguemos el dataset:

In [1]:
#Loading the data set - training data.
from sklearn.datasets import fetch_20newsgroups
twenty_train = fetch_20newsgroups(subset='train', shuffle=False)

In [2]:
twenty_train.keys()

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])

In [3]:
len(twenty_train.data) #Cantidad de artículos periodísticos

11314

In [4]:
set(twenty_train["target"]) #Clasificaciones de los artículos

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19}

In [5]:
twenty_train["target_names"] #Referencia de los números de target

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

In [6]:
twenty_train.data[5] # Primer artículo

'From: taihou@chromium.iss.nus.sg (Tng Tai Hou)\nSubject: ADB and graphics tablet help!\nOrganization: Institute Of Systems Science, NUS\nLines: 13\n\nHelp!!!\n\nI have an ADB graphicsd tablet which I want to connect to my\nQuadra 950. Unfortunately, the 950 has only one ADB port and\nit seems I would have to give up my mouse.\n\nPlease, can someone help me? I want to use the tablet as well as\nthe mouse (and the keyboard of course!!!).\n\nThanks in advance.\n\nTai Hou TNG\nSingapore\n'

Vamos a aplicar el siguiente procesamiento utilizando los conceptos vistos en clase:

* Tokenization (nltk)
* Lemmatization (nltk)
* Stop Words (nltk)
* Stemming (nltk)
* Filtrado de palabras
* Obtención del vocabulario (countvectorizer)
* Transformación de los artículos en vectores
* Armado del modelo de Naive Bayes Multinomial
* Evaluación con el Train Set
* Evaluación con el Test Set

In [7]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import stopwords
nltk.download('wordnet')
nltk.download('punkt')
nltk.download('stopwords')
lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\eugenio.voss\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\eugenio.voss\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\eugenio.voss\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [8]:
#Procesando todos los artículos:
articulos_procesados=list()
for idx in range(len(twenty_train.data)):
    if idx%1000==0:
        print(f'se procesaron {idx} artículos')
    art=twenty_train.data[idx]
    tok=word_tokenize(art)
    lem=[lemmatizer.lemmatize(x,pos='v') for x in tok]
    stop = [x for x in lem if x not in stopwords.words('english')]
    stem=[stemmer.stem(x) for x in stop]
    alpha=[x for x in stem if x.isalpha()]
    articulos_procesados.append(" ".join(alpha))

se procesaron 0 artículos
se procesaron 1000 artículos
se procesaron 2000 artículos
se procesaron 3000 artículos
se procesaron 4000 artículos
se procesaron 5000 artículos
se procesaron 6000 artículos
se procesaron 7000 artículos
se procesaron 8000 artículos
se procesaron 9000 artículos
se procesaron 10000 artículos
se procesaron 11000 artículos


In [103]:
# Extracting features from articles
from sklearn.feature_extraction.text import CountVectorizer
#count_vect = CountVectorizer(max_df=0.8,min_df=20) #chequear que max_df y min_df sean los que se piden
count_vect = CountVectorizer(max_df=0.6,min_df=10) #chequear que max_df y min_df sean los que se piden
count_vect.fit(articulos_procesados) #Aprende el vocabulario y le asigna un código a cada palabra
twenty_train.target[5]

4

In [104]:
twenty_train.target_names[4]

'comp.sys.mac.hardware'

In [105]:
lemmatizer.lemmatize('being')

'being'

In [106]:
stemmer.stem('president')

'presid'

In [107]:
len(articulos_procesados)

11314

In [108]:
vocabulary=count_vect.get_feature_names() #Estos nombres de las palabras seleccionadas para el vocabulario, ordenadas por orden alfabético
print(vocabulary)

['aa', 'aaa', 'aaron', 'ab', 'abandon', 'abbrevi', 'abc', 'aberystwyth', 'abid', 'abil', 'abl', 'abnorm', 'aboard', 'abolish', 'abomin', 'abort', 'abound', 'about', 'abov', 'abpsoft', 'abraham', 'abridg', 'abroad', 'absenc', 'absent', 'absolut', 'absorb', 'abstract', 'absurd', 'abund', 'abus', 'ac', 'academ', 'academi', 'academia', 'acc', 'acceler', 'acceller', 'accept', 'access', 'accessori', 'accid', 'accident', 'accommod', 'accomod', 'accompani', 'accompli', 'accomplish', 'accord', 'accordingli', 'account', 'accumul', 'accur', 'accuraci', 'accus', 'ace', 'ach', 'achiev', 'achkar', 'acid', 'ack', 'acker', 'acknowledg', 'aclu', 'acm', 'acquaint', 'acquir', 'acquisit', 'acronym', 'across', 'act', 'action', 'activ', 'activist', 'actual', 'acut', 'ad', 'adam', 'adapt', 'adaptec', 'adaptor', 'adb', 'adc', 'adcom', 'add', 'addict', 'addit', 'addr', 'address', 'adequ', 'adher', 'adirondack', 'adjac', 'adject', 'adjust', 'adl', 'admin', 'administ', 'administr', 'admir', 'admiss', 'admit', 'a

In [109]:
len(vocabulary)

9183

En la siguiente celda de código transforme los artículos procesados al vector de cuentas de palabras, es decir, transforme los artículos procesados utilizando el count vectorizer.

In [114]:
X_train_data= count_vect.fit_transform(articulos_procesados)

Utilice la función MultinomialNB de sklear para implementar un clasificador Naive Bayes discreto. Utilice smoothing laplaciano con alpha=3.

In [113]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB(alpha=3.0)
clf.fit(X_train_data, vocabulary)

ValueError: Found input variables with inconsistent numbers of samples: [11314, 9183]

## Evaluación con el train set
Evalúe el accuracy del modelo entrenado utilizando el train set.

In [None]:
clf.score(#SOLUCION AQUI)

# Evaluación con el test set
Procese y convierta los artículos del test-set. Evalúe el accuracy del modelo con los parámetros obtenidos anteriormente utilizando el test-set.

In [None]:
twenty_test = fetch_20newsgroups(subset='test', shuffle=False)

In [None]:
#Procesando todos los artículos:
articulos_procesados_test=list()
for idx in range(len(twenty_test.data)):
    ### SOLUCIÓN AQUÍ

In [None]:
#Transforme los artículos de test procesados
X_test_data=

In [None]:
#Evalúe el score del modelo entrenado para el train set para los artículos de test
clf.score(#SOLUCION AQUI)