## Naive Bayes

In [1]:
import pandas as pd
import pickle

In [2]:
data = pickle.load(open('data/df_clean_izq.pkl','rb'))

In [3]:
data.sample(5)

Unnamed: 0,topics,date,flyer,lead,headline,body,url
12,inflation,\nViernes 25 de septiembre,LAS EMPRESAS PRESIONAN POR SUBA DE PRECIOS,Las cámaras de supermercados denuncian que rec...,Precios Máximos: los supermercados reciben un ...,Directivos de cámaras de supermercados denunci...,https://www.laizquierdadiario.com/Economia/Pre...
55,exchange,\nJueves 17 de septiembre,RESTRICCIONES CAMBIARIAS,Ambos servicios se pueden pesificar para evita...,Netflix y Spotify: ¿cómo hacer para pesificar ...,Tras las nuevas medidas dispuestas por el Banc...,https://www.laizquierdadiario.com/Economia/Net...
8,inflation,\nMiércoles 21 de octubre,INDEC,Mientras los materiales para la construcción c...,"Los precios mayoristas aumentaron 3,7 % en sep...",Este miércoles el Indec publicó el índice de p...,https://www.laizquierdadiario.com/Economia/Los...
15,inflation,\nJueves 17 de septiembre,INFORME INDEC,"En agosto subió 2,1 %, y la canasta básica ali...","El costo de vida aumentó 37,8 % en un año",La Canasta Básica Total (CBT) registró en agos...,https://www.laizquierdadiario.com/Economia/El-...
7,inflation,\nJueves 12 de noviembre,INFORME INDEC,Es el registro más alto del año. En lo que va ...,"Se acelera la inflación: alimentos y ropa, lo ...",La suba de precios no se detiene. Según anunci...,https://www.laizquierdadiario.com/Economia/La-...


In [4]:
df_inflation = data.loc[data.topics == 'inflation']
df_inflation.shape

(34, 7)

In [5]:
df_exchange = data.loc[data.topics == 'exchange']
df_exchange.shape

(26, 7)

In [6]:
corpus = list(df_inflation.body.values) + list(df_exchange.body.values)
len(corpus)

60

In [7]:
target = list(df_inflation.topics.values) + list(df_exchange.topics.values)

In [8]:
data = pd.DataFrame([corpus, target]).transpose()
data

Unnamed: 0,0,1
0,Se trata del mismo aumento que aplicó Massalin...,inflation
1,"La petrolera Raizen, dueña de la marca Shell, ...",inflation
2,Los precios de los combustibles comercializado...,inflation
3,¿Cuántos días te dura el salario del mes? Segu...,inflation
4,El Indec informó este jueves que el Índice de ...,inflation
5,El Indec informó este martes que la Canasta Bá...,inflation
6,Este jueves la Dirección de Estadísticas e Inv...,inflation
7,La suba de precios no se detiene. Según anunci...,inflation
8,Este miércoles el Indec publicó el índice de p...,inflation
9,El Indec publicó que la canasta de pobreza fue...,inflation


### Train - Test Split

In [9]:
from sklearn.model_selection import train_test_split

In [10]:
train,test,y_train,y_test = train_test_split(data.iloc[:,0], data.iloc[:,1], train_size=0.75); 

In [11]:
train.shape, test.shape

((45,), (15,))

### Tokenization + Vectorization
#### CountVectorizer

In [12]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
import re

In [13]:
stopwords_sp = stopwords.words('spanish')

In [14]:
vectorizer = CountVectorizer(stop_words = stopwords_sp, lowercase = True, strip_accents='unicode')
vectorizer.fit(list(re.sub(r'(\d|\$|\%|\+)', '', doc) for doc in corpus))

  'stop_words.' % sorted(inconsistent))


CountVectorizer(stop_words=['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los',
                            'del', 'se', 'las', 'por', 'un', 'para', 'con',
                            'no', 'una', 'su', 'al', 'lo', 'como', 'más',
                            'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí',
                            'porque', ...],
                strip_accents='unicode')

In [15]:
X_train = vectorizer.transform(train);

In [16]:
X_train

<45x2903 sparse matrix of type '<class 'numpy.int64'>'
	with 5921 stored elements in Compressed Sparse Row format>

In [17]:
X_train_matriz = X_train.todense()

In [18]:
X_test = vectorizer.transform(test);

In [19]:
X_test_matriz = X_train.todense()

#### Tf IDf Vectorizer

In [20]:
from sklearn.feature_extraction.text import TfidfTransformer

In [21]:
X_train_matriz_tfidf = TfidfTransformer().fit_transform(X_train_matriz);

In [22]:
X_test_matriz_tfidf = TfidfTransformer().fit_transform(X_test_matriz);

### Multinomial Naive Bayes + CountVectorizer

In [23]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

In [24]:
multi_nb = MultinomialNB()

multi_nb.fit(X_train, y_train.values)

MultinomialNB()

In [25]:
y_pred = multi_nb.predict(X_test)

In [26]:
from sklearn.metrics import accuracy_score

In [27]:
accuracy_score(y_pred, y_test.values)

1.0

### Multinomial Naive Bayes + TfIDf

In [28]:
multi_nb_2 = MultinomialNB()

multi_nb_2.fit(X_train_matriz_tfidf, y_train.values)

MultinomialNB()

In [29]:
y_pred = multi_nb_2.predict(X_test)

In [30]:
from sklearn.metrics import accuracy_score

In [31]:
accuracy_score(y_pred, y_test.values)

1.0

### Tokenization + Vectorization (Manual)

#### CountVectorizer with pre-built tokens

In [32]:
cv_tokens = pickle.load(open('tokens/topic_tokens_izq_new.pkl', 'rb'))

In [33]:
vectorizer.fit(cv_tokens.drop('topics', axis=1))

CountVectorizer(stop_words=['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los',
                            'del', 'se', 'las', 'por', 'un', 'para', 'con',
                            'no', 'una', 'su', 'al', 'lo', 'como', 'más',
                            'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí',
                            'porque', ...],
                strip_accents='unicode')

In [34]:
X_train_2 = vectorizer.transform(train)

In [35]:
X_train_matriz_2 = X_train_2.todense()

In [36]:
X_test_2 = vectorizer.transform(test)

In [37]:
X_test_matriz_2 = X_test_2.todense()

#### TF-IDF Vectorizer with pre-built tokens

In [38]:
X_train_matriz_tfidf_2 = TfidfTransformer().fit_transform(X_train_matriz_2);

In [39]:
X_test_matriz_tfidf_2 = TfidfTransformer().fit_transform(X_test_matriz_2);

### Multinomial Naive Bayes + CountVectorizer (updated tokens)

In [40]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

In [41]:
multi_nb = MultinomialNB()

multi_nb.fit(X_train_2, y_train.values)

MultinomialNB()

In [42]:
y_pred_2 = multi_nb.predict(X_test_2)

In [43]:
from sklearn.metrics import accuracy_score

In [44]:
accuracy_score(y_pred_2, y_test.values)

1.0

### Multinomial Naive Bayes + Tf IDf Vectorizer (updated tokens)

In [45]:
multi_nb_2 = MultinomialNB()

multi_nb_2.fit(X_train_matriz_tfidf_2, y_train.values)

MultinomialNB()

In [46]:
y_pred_2 = multi_nb_2.predict(X_test_matriz_tfidf_2)

In [47]:
from sklearn.metrics import accuracy_score

In [48]:
accuracy_score(y_pred_2, y_test.values)

1.0