## Sentiment Analysis con IMDb Movie DataSet

En esta sección, capacitaremos un modelo de regresión logística simple para clasificar reseñas de películas a partir del conjunto de datos de revisión de IMDb de 50k que ha sido coleccionado por Maas et. Alabama.

> AL Maas, RE Daly, PT Pham, D Huang, AY Ng, and C Potts. Learning word vectors for sentiment analysis. In Proceedings of the 49th Annual Meeting of the Association for Computational Lin- guistics: Human Language Technologies, pages 142–150, Portland, Oregon, USA, June 2011. Association for Computational Linguistics

[Source: http://ai.stanford.edu/~amaas/data/sentiment/]

El dataset consiste de 50.000 reseñas de peliculas los directorios orginales carpetas "train" y "test". la clase de etiquetas son binarias (1=positivas y 0= negativas) y contiene 25,000 positivos y 25,000 negativos reseñas respectivamente. 
Bueno por simplicidad lo ensambe en una archivo de reseña tivo excel CSV.

In [15]:
import pandas as pd
df = pd.read_csv('shuffled_movie_data.csv')
df.head() # mostrar ultimo 5

Unnamed: 0,review,sentiment
0,"In 1974, the teenager Martha Moxley (Maggie Gr...",1
1,OK... so... I really like Kris Kristofferson a...,0
2,"***SPOILER*** Do not read this, if you think a...",0
3,hi for all the people who have seen this wonde...,1
4,"I recently bought the DVD, forgetting just how...",0


## Preprocessing Text Data

Ahora vamos a definir un simple tokenizador que divide el texto en palabras individuales oseas "tokens", ademas,usaremos algunas expresiones regulares simples para eliminar el marcado HTML y todos los caracteres que no sean letras, como "emoticonos", tambien  convertir el texto a minúsculas, eliminar palabras clave y aplicar el algoritmo de derivación de Porter para convertir las palabras en su forma raíz.

In [3]:
import numpy as np
from nltk.stem.porter import PorterStemmer
import re
from nltk.corpus import stopwords

stop = stopwords.words('english')
porter = PorterStemmer()

def tokenizer(text):
    text = re.sub('<[^>]*>', '', text)
    emoticons = re.findall('(?::|;|=)(?:-)?(?:\)|\(|D|P)', text.lower())
    text = re.sub('[\W]+', ' ', text.lower()) #+ ' '.join(emoticons).replace('-', '')
    text = [w for w in text.split() if w not in stop]
    tokenized = [porter.stem(w) for w in text]
    return text

ahora vamos hacer un intento y mostrar algunos ejemplos

In [4]:
#
print(tokenizer('This :) is a <a> test!"hoa" :-)</br>'))

#tamaño de la palabra
print(len(tokenizer('This :) is a <a> test!"hoa" :-)</br>')))

#convertir tokesn a lista de lista

def toList(text):
    review = []
    for w in text:
        review.append([w])
    return review
    
print(toList(tokenizer('This x:) is a <a> test!"hoa" :-)</br>')))

['test', 'hoa']
2
[['x'], ['test'], ['hoa']]


In [5]:
print(tokenizer('This :) is a <a> pedro cambio! xD algoritmo"hoa" :-)</br><>'))

['pedro', 'cambio', 'xd', 'algoritmo', 'hoa']


## Preprocesamiento 
Primero vamos definir un modulo que retorne un text body y su correspondiente etiqueta, para ello vamos a implementar este modulo acontinuacion


In [5]:
def stream_docs(path):
    with open(path, 'r') as csv:
        next(csv) # saltar header
        for line in csv:
            text, label = line[:-3], int(line[-2])
            yield text, label

Para confirmar que la funcion `stream_docs` recupera segun lo previsto, vamos a ejecutar el siguiente codigo...

In [6]:
next(stream_docs(path='shuffled_movie_data.csv'))

('"In 1974, the teenager Martha Moxley (Maggie Grace) moves to the high-class area of Belle Haven, Greenwich, Connecticut. On the Mischief Night, eve of Halloween, she was murdered in the backyard of her house and her murder remained unsolved. Twenty-two years later, the writer Mark Fuhrman (Christopher Meloni), who is a former LA detective that has fallen in disgrace for perjury in O.J. Simpson trial and moved to Idaho, decides to investigate the case with his partner Stephen Weeks (Andrew Mitchell) with the purpose of writing a book. The locals squirm and do not welcome them, but with the support of the retired detective Steve Carroll (Robert Forster) that was in charge of the investigation in the 70\'s, they discover the criminal and a net of power and money to cover the murder.<br /><br />""Murder in Greenwich"" is a good TV movie, with the true story of a murder of a fifteen years old girl that was committed by a wealthy teenager whose mother was a Kennedy. The powerful and rich f

Una vez que hayamos verificado que nuestras funcion `stream_docs` funciona, ahora implementaremos una función `get_minibatch`(pedazos) para obtener un número específico(size) de documentos:

In [7]:
def get_minibatch(doc_stream, size):
    docs, y = [], []
    for _ in range(size):
        text, label = next(doc_stream)
        
        docs.append(toList(tokenizer(text)))
        y.append(label)
    return docs, y

In [8]:

# primero vamos cargar todos los datos en un X y Y para extraer las caracteristias 

X,Y = get_minibatch(stream_docs(path='shuffled_movie_data.csv'), size= 5000) # get string of text

#print(ar[0][0])

In [9]:
print('size of X:',len(X))
print('size of X[4]: ',len(X[4]))
print('dato :',X[4])

size of X: 5000
size of X[4]:  62
dato : [['recently'], ['bought'], ['dvd'], ['forgetting'], ['much'], ['hated'], ['movie'], ['version'], ['chorus'], ['line'], ['every'], ['change'], ['director'], ['attenborough'], ['made'], ['story'], ['failed'], ['making'], ['director'], ['cassie'], ['relationship'], ['prominent'], ['entire'], ['ensemble'], ['premise'], ['musical'], ['sails'], ['window'], ['musical'], ['numbers'], ['sped'], ['rushed'], ['show'], ['hit'], ['song'], ['gets'], ['entire'], ['meaning'], ['shattered'], ['given'], ['cassie'], ['character'], ['overall'], ['staging'], ['self'], ['conscious'], ['reason'], ['give'], ['2'], ['great'], ['numbers'], ['still'], ['able'], ['enjoyed'], ['despite'], ['film'], ['attempt'], ['squeeze'], ['every'], ['bit'], ['joy'], ['spontaneity']]


hasta este punto ya hemos hecho la extraccion de caracteristicas y alguna parte de tokenizacion y agrupamiento seleccion en pedazos de string de palabras en un arreglo

### Word embedding o extraccion de caracteristicas para el Modelado 

Primero, vamos a ver que trabajar con texto es un poco complicado para el modelamiento con una red neuronal o una algoritmo de aprendizaje automatico, asi que transformar a un lenguage de numero o vectores de numero, pero viendo la relacion entre las palabras es algo realmente muy loco (genial), y esto suena demasiado complicado verdad?, pues si... en realidad transformar palabras a numero o vectores de numero de nxn dimensiones es to much", pero afortunadamente existen `word2vect` que fue desarrollado por un googler mikolov tal y como dice aqui https://en.wikipedia.org/wiki/Word2vec, asi que no hay que preocuparnos por eso solo hay que usarlo y `gensim` libreria en python hara la magia por nosotros , bueno tambien debemos indicar que existen otros como glove, fastText.. etc

#### embedding con gensim desde cero

bueno, en es paso vamos usar la libreria Gensim para generar nuestro proppio diccionarion de un Word2vect embedding de tal forma que tambien podemos definir el tamaño de los vectores por palabra, para este ejemplo y por motivos de prueba solo consideramos 20 el tamaño de cada vector,sin embargo se recommienda de 100-300 para el optimo desempeño, lo que se hace aqui es:

- generar nuestro modelo word2vect = n
- almacenamos las palabras con fuerte relacion de vencidad en un diccionario = w2v
- consideramos el promedio de los vectores para su mejor representacion de los features
- finalmente se almacena en un X_total (total de features 'matriz' 50000 x 20)

In [10]:
#definir el numero de  el word embedding para cada review
import gensim


In [11]:
X_total = []

for i in range(len(X)):
    n = gensim.models.Word2Vec(X[i], size= 20,min_count=1)
    w2v = dict(zip(n.wv.index2word, n.wv.syn0))
    letra = list(n.wv.vocab)
    da = []
    for i in range(len(w2v)):
        da.append(w2v[letra[i]])
    X_total.append(np.mean(da, axis = 0))

  """


A continuación, haremos uso del "truco de hash" a través de scikit-learns HashingVectorizer para crear un modelo de bolsa de BOW para nuestras descripciones

In [12]:

from sklearn.feature_extraction.text import HashingVectorizer
vect = HashingVectorizer(decode_error='ignore', 
                         n_features=2**21,
                         preprocessor=None, 
                         tokenizer=tokenizer)


#Definiremos el dato para el test
X_train,X_test=X_total[:45000], X_total[45000:]
X_test = np.asarray(X_test)
X_train = np.asarray(X_train)

X_train.shape, X_test.shape

((5000, 20), (0,))

### Adaptando mis datos para la NN

en esta parte adaptamos los datos para que se puedan operar de la forma que implemente la red neuronal de 3 capas , aqui se puede ver:

x_train, X_test, Y_train, Y_test que son el dato para el training y el test, respectivamente con 45 mil y 5 mil para el test.
tambien debemos decir que X_total , Y_total son la cantidad de features y labels totales 50 mil filas cada uno

In [13]:
'''
import gensim
# sea X la lista de textos token (es decir lista de lista de tokens)
modelo = gensim.models.Word2Vec(X, size=20, workers= 4)
w2v = dict(zip(modelo.wv.index2word, modelo.wv.syn0))
# reducir el modelo en vocabulario de tamaño en el modelo
words = list(modelo.wv.vocab)
#guardaremos el modleo
modelo.save('model.bin')
#abrir el modelo y cargar
new_model = gensim.models.Word2Vec.load('model.bin')

print('words: ',len(words))
'''

X = np.asarray(X_train)
#Y = np.asarray(Y)
#Y_train = np.zeros((5000,2))
y_1 = []
y_2 = []
#validar Y_train
for k in range(len(Y)):
    if Y[k] == 1:
        y_1.append(Y[k])  
        y_2.append(0)
    else:
        y_1.append(0)  
        y_2.append(Y[k])
Y_total = np.column_stack((np.array(y_1),np.array(y_2)))
print('penultimo: ',Y_total[0][0])

#dividir y
Y_train = np.asarray(Y_total[:45000])
Y_test = np.asarray(Y_total[45000:])
        
Y_train.shape , Y_test.shape

penultimo:  1


((5000, 2), (0, 2))

In [14]:
from sklearn.neural_network import MLPClassifier
#clf = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5,20), random_state=1)
from sklearn.linear_model import SGDClassifier
clf = SGDClassifier(loss='log', random_state=1, max_iter=300)
classes = np.array([0, 1])
clf.partial_fit(X_train, Y[:45000], classes=classes)
y_h2 = clf.predict(X_test)


print('SKLEARN NN accuracy of Test: ',accuracy_score(y_pred=y_h2,y_true=Y[45000:])*100,'%')



ValueError: Expected 2D array, got 1D array instead:
array=[].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.