## Librerías necesarias

In [71]:
import csv
import numpy as np


## Función para limpiar el texto

In [2]:
import re

def limpia_texto(texto):
	return ' '.join(
		[palabra.lower() for palabra in 
			re.sub(
				"(@[A-Za-z0-9]+)|([A-Za-zá-ú]*[0-9]+[A-Za-zá-ú]*)|([^A-Za-z \tá-ú])|(\w+:\/\/\S+)", 
				" ", 
				texto
			).split()]
	)

## Leer los datos

In [100]:
with open('dataset.csv', 'r') as f:
	raw = csv.reader(f, delimiter=',', quotechar='"')

	data = []
	for row in raw:
		data.append([
			row[0],
			row[1],
			limpia_texto(row[0])
		])

tweets_limpios = np.asarray(data)[:,2]
Y = np.asarray(data)[:,1]


In [4]:
print(tweets_limpios.shape)
print(Y.shape)

(14312,)
(14312,)


## Vocabulario

In [5]:
bolsa_de_palabras = sorted(set(' '.join(tweets_limpios).split()))

print("Hay {} palabras".format(len(bolsa_de_palabras)))

Hay 22286 palabras


In [6]:
import re


def Lemmatizador(texto, minWordLen=4):

	tokens = texto.split()

	output = []
	for palabra in tokens:
		corregida = palabra

		regla1 = r'((i[eé]ndo|[aá]ndo|[aáeéií]r|[^u]yendo)(sel[ao]s?|l[aeo]s?|nos|se|me))'
		step1 = re.search(regla1, corregida)
		if step1:
		    if (len(palabra)-len(step1.group(1))) >= minWordLen:
		        corregida = corregida[:-len(step1.group(1))]
		    elif (len(palabra)-len(step1.group(3))) >= minWordLen:
		        corregida = corregida[:-len(step1.group(3))]

		regla2 = {
		  '(anzas?|ic[oa]s?|ismos?|[ai]bles?|istas?|os[oa]s?|[ai]mientos?)$' : '',
		  '((ic)?(adora?|ación|ador[ae]s|aciones|antes?|ancias?))$' : '',
		  '(log[íi]as?)$' : 'log',
		  '(ución|uciones)$' : 'u',
		  '(encias?)$' : 'ente',
		  '((os|ic|ad|(at)?iv)amente)$' : '',
		  '(amente)$' : '',
		  '((ante|[ai]ble)?mente)$' : '',
		  '((abil|ic|iv)?idad(es)?)$' : '',
		  '((at)?iv[ao]s?)$' : '',
		  '(ad[ao])$' : '',
		  '(ando)$' : '',
		  '(aci[óo]n)$' : '',
		  '(es)$' : ''
		}
		for key in regla2:
		    tmp = re.sub(key, regla2[key], corregida)
		    if tmp!=corregida and len(tmp)>=minWordLen:
		        corregida = tmp

		regla3 = {
		'(y[ae]n?|yeron|yendo|y[oó]|y[ae]s|yais|yamos)$',
		'(en|es|éis|emos)$',
		'(([aei]ría|ié(ra|se))mos)$',
		'(([aei]re|á[br]a|áse)mos)$',
		'([aei]ría[ns]|[aei]réis|ie((ra|se)[ns]|ron|ndo)|a[br]ais|aseis|íamos)$',
		'([aei](rá[ns]|ría)|a[bdr]as|id[ao]s|íais|([ai]m|ad)os|ie(se|ra)|[ai]ste|aban|ar[ao]n|ase[ns]|ando)$',
		'([aei]r[áé]|a[bdr]a|[ai]d[ao]|ía[ns]|áis|ase)$',
		'(í[as]|[aei]d|a[ns]|ió|[aei]r)$',
		'(os|a|o|á|í|ó)$',
		'(u?é|u?e)$',
		'(ual)$',
		'([áa]tic[oa]?)$'
		}
		for pattern in regla3:
		    tmp = re.sub(pattern, '', corregida)
		    if tmp!=corregida and len(tmp)>=minWordLen:
		        corregida = tmp

		output.append(corregida)
	return ' '.join(output)

In [7]:
bolsa_de_raices = sorted(set(Lemmatizador(' '.join(bolsa_de_palabras)).split()))

print("Hay {} raices".format(len(bolsa_de_raices)))



Hay 13108 raices


## Train vs test set

In [8]:
num_test = int(0.25 * len(Y))

tweets_limpios_test = tweets_limpios[-num_test:]
Y_test = Y[-num_test:]

tweets_limpios_train = tweets_limpios[:-num_test]

Y_train = Y[:-num_test]


print(tweets_limpios_train.shape)
print(Y_train.shape)

print(tweets_limpios_test.shape)
print(Y_test.shape)

(10734,)
(10734,)
(3578,)
(3578,)


## Vectorizar

In [9]:
train_lemmatizado = [Lemmatizador(tweet) for tweet in tweets_limpios_train]

In [10]:
for row in train_lemmatizado[10:15]:
    print(row)

a las primer solicitud recibid se les enviar una especi de entr para acced al event merendolatuiter
buen días twittercill falt d as para el estr yeswespainisdifferent en palm entrad en ole
curr romer y su mujer carm tell en el para arrop a y pp
venen
me encant ir a bilba y encontr con quien le dice a su hijo germán es niet de uno de los fund del afhletic


In [97]:
def one_hot(input_, bolsa, invierte=False):
	if not invierte:
		onehot = np.zeros(len(bolsa))
		if input_ in bolsa:
			indice = bolsa.index(input_)
			onehot[indice] = 1
		return onehot
	else:
		indice = np.flatnonzero(input_==1)
		return None if len(indice)!=1 else bolsa[indice[0]]


In [12]:
train_vectorizado = [one_hot(tweet, bolsa_de_raices) for tweet in train_lemmatizado]

In [13]:
print(train_lemmatizado[10])

a las primer solicitud recibid se les enviar una especi de entr para acced al event merendolatuiter


In [30]:
train_lemmatizado[10].split()[2]

'primer'

In [81]:
one_hot(train_lemmatizado[10].split()[2], bolsa_de_raices)

TypeError: 'numpy.ndarray' object is not callable

In [117]:
train_onehot = []

for i, tweet in enumerate(train_lemmatizado[10:15]):
    
    raices = [Lemmatizador(palabra) for palabra in tweet.split()]
    
    one_hots = [one_hot(raiz, bolsa_de_raices) for raiz in raices]

    print(data[10+i][0])
    print(tweet)
    
    train_onehot.append(one_hots)
    
    for one_hot_ in one_hots:
        print(one_hot_)

    

A las primeras 500 solicitudes recibidas se les enviara una especie de "entrada" para acceder al "evento".#merendolatuitera
a las primer solicitud recibid se les enviar una especi de entr para acced al event merendolatuiter
[1. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
¡¡¡buenos días twittercillos!! FALTAN 2 DÍAS PARA EL ESTRENO #yeswespainISDIFFERENT en PALMA!!! Entradas en http://t.co/Q9HzeyLP !!ole!
buen días twittercill falt d as para el estr yeswespainisdifferent en palm entrad en ole
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]

In [130]:
train_counts = []
for row in train_onehot:
    
    counts = np.sum(row, axis=0)
    
    train_counts.append(counts)
    
    print(counts)

[1. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[1. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[2. 0. 0. ... 0. 0. 0.]


## Vectorizar (sklearn)

In [121]:
print(tweets_limpios.shape)
print(tweets_limpios[10])

(14312,)
a las primeras solicitudes recibidas se les enviara una especie de entrada para acceder al evento merendolatuitera


In [134]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(preprocessor=Lemmatizador)
train_counts_2 = vectorizer.fit_transform(tweets_limpios)

In [137]:
print(train_counts_2.shape)

(14312, 13080)


In [138]:
print(train_counts_2[10])

  (0, 7968)	1
  (0, 4788)	1
  (0, 384)	1
  (0, 113)	1
  (0, 9055)	1
  (0, 4387)	1
  (0, 3060)	1
  (0, 4582)	1
  (0, 12413)	1
  (0, 4413)	1
  (0, 7273)	1
  (0, 10299)	1
  (0, 11411)	1
  (0, 9827)	1
  (0, 11056)	1
  (0, 7183)	1


## Stopwords

In [86]:
with open('stopwords.txt','r') as f:
	stopwords = [line.rstrip() for line in f.readlines()]

## Naive bayes

In [140]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
#from sklearn.feature_extraction.text import TfidfTransformer

pipe = Pipeline([
	('vect',CountVectorizer(ngram_range=(1,3), preprocessor=Lemmatizador)),  #, stop_words=stopwords
	#('tfidf',TfidfTransformer()),
	('clf',MultinomialNB())
])

pipe.fit(tweets_limpios_train, Y_train)

Pipeline(memory=None,
     steps=[('vect', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 3),
        preprocessor=<function Lemmatizador at 0x...enizer=None, vocabulary=None)), ('clf', MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True))])

In [141]:
Y_pred = pipe.predict(tweets_limpios_test)


print("Eficacia NB: {}".format(np.mean(Y_pred==Y_test)))

Eficacia NB: 0.849357182783678
