# Pruebas Sprint 2
En este notebook se concentran todas las pruebas relativas al código generado durante el sprint 2, para ejecutarlas es necesario colocar el archivo nlp_functions.py en el directorio raíz del proyecto y pulsar Cell -> Run All en Jupyter Notebook

In [12]:
# Añadimos la carpeta raíz para poder importar la clase nlp_functions
import sys
sys.path.insert(0, '../')

import nlp_functions as nlp_f
import pandas as pd
import math
import numpy as np
import scipy
import tensorflow as tf

## Prueba 5: División en conjunto de entrenamiento y pruebas

In [2]:
def prueba5():
    print('Prueba 5: División del dataset en conjunto de entrenamiento y pruebas')
    
    try:
        print('\n--- Lectura del dataset preprocesado')
        df = pd.read_csv('../dataset/ticnn_preprocessed.csv')    
    except:
        print('Se ha producido un error al leer el dataset')
        raise
    
    print('Dataset leído correctamente, mostrando las tres primeras entradas')
    print(df.head(3))
    
    try:
        print('\n--- División de los datos en entrenamiento y pruebas')
        print('70% entrenamiento - 30% pruebas')
        
        texts = list(df['text'])
        targets = list(df['type'])
        
        x_train, y_train, x_test, y_test = nlp_f.train_test_split(texts, targets)
        print('Datos separados correctamente')
        
    except:
        print('Error al separar en entrenamiento y pruebas')
        raise
        
    try:
        print('\n--- Comprobamos que el tamaño de los conjuntos es correcto')
        
        assert len(x_train) == int(len(df)*0.7)
        assert len(x_train) == len(y_train)
        print('El tamaño del conjunto de entrenamiento es el correcto')
        
        assert len(x_test) == int(math.ceil(len(df)*0.3))
        assert len(x_test) == len(y_test)
        print('El tamaño del conjunto de pruebas es el correcto')

    except:
        print('El tamaño de los conjuntos no es el adecuado')
        raise
    
    print('\n-------------------------------------------------------------------')
    print('División en conjunto de entrenamiento y pruebas realizada correctamente')
    
    

In [3]:
prueba5()

Prueba 5: División del dataset en conjunto de entrenamiento y pruebas

--- Lectura del dataset preprocesado
Dataset leído correctamente, mostrando las tres primeras entradas
                                                text  type
0  ['donald', 'trump', 'property', 'showcase', 'b...   0.0
1  ['trump', 'foundation', 'tell', 'new', 'york',...   0.0
2  ['donald', 'trump', 'prepares', 'white', 'hous...   0.0

--- División de los datos en entrenamiento y pruebas
70% entrenamiento - 30% pruebas
Datos separados correctamente

--- Comprobamos que el tamaño de los conjuntos es correcto
El tamaño del conjunto de entrenamiento es el correcto
El tamaño del conjunto de pruebas es el correcto

-------------------------------------------------------------------
División en conjunto de entrenamiento y pruebas realizada correctamente


## Prueba 6: Convert to sparse tensor

In [4]:
def prueba6():
    print('Prueba 6: Convertir un array de numpy a un sparse vector')
    
    try:
        print('\n--- Conversión a sparse tensor')
        
        test_vector = np.zeros(shape = (50000, ))
        test_vector_size = sys.getsizeof(test_vector)
        print('El tamaño de la matriz de numpy es {}'.format(test_vector_size))
        
        test_vector = scipy.sparse.csc_matrix(test_vector)
        
        sparse_vector = nlp_f.convert_to_sparse_tensor(test_vector)
        sparse_vector_size = sys.getsizeof(sparse_vector)
        
        print('El tamaño de la matriz sparse es {}'.format(sparse_vector_size))
        
        print('La matriz sparse es de tipo {}'.format(type(sparse_vector)))
        
        assert isinstance(sparse_vector, 
                         type(tf.sparse.SparseTensor(indices=[[0, 0], [1, 2]], values=[1, 2], dense_shape=[3, 4])))
        
        assert test_vector_size > sparse_vector_size
        print('El tamaño del vector sparse es menor que el de la matriz de numpy')
        
    except:
        print('\nSe ha producido un error al intentar crear el vector sparse')
        raise
        
    print('\n-------------------------------------------------------------------')
    print('Tranformación a Matriz Sparse realizada correctamente')

In [5]:
prueba6()

Prueba 6: Convertir un array de numpy a un sparse vector

--- Conversión a sparse tensor
El tamaño de la matriz de numpy es 400096
El tamaño de la matriz sparse es 56
La matriz sparse es de tipo <class 'tensorflow.python.framework.sparse_tensor.SparseTensor'>
El tamaño del vector sparse es menor que el de la matriz de numpy

-------------------------------------------------------------------
Tranformación a Matriz Sparse realizada correctamente


## Prueba 7: Generate Logistic Regression

In [6]:
def prueba7():
    print('Prueba 7: Creación de un Modelo de Regresión logística')
    
    try:
        print('\nCreación del modelo...')
        model = nlp_f.generate_logistic_regression(20000)
        
    except:
        print('Error al crear el modelo')
        raise
    
    print('\n------------------------------------')
    print('Modelo creado:')
    print(model.summary())
    print('\nClase del modelo: {}'.format(type(model)))

In [7]:
prueba7()

Prueba 7: Creación de un Modelo de Regresión logística

Creación del modelo...

------------------------------------
Modelo creado:
Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (20, 1)                   20001     
Total params: 20,001
Trainable params: 20,001
Non-trainable params: 0
_________________________________________________________________
None

Clase del modelo: <class 'tensorflow.python.keras.engine.sequential.Sequential'>


## Prueba 8: Generar Modelo Neuronal Word2Vec

In [8]:
def prueba8():
    print('Prueba 8: Creación del Modelo Neuronal de Word2Vec')
    
    try:
        print('\nCreación del Modelo...')
        model = nlp_f.generate_w2v_dense_nn()
        
    except:
        print('Error al crear el modelo')
        raise
    
    print('\n------------------------------------')
    print('Modelo creado:')
    print(model.summary())
    print('\nClase del modelo: {}'.format(type(model)))

In [9]:
prueba8()

Prueba 8: Creación del Modelo Neuronal de Word2Vec

Creación del Modelo...

------------------------------------
Modelo creado:
Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 150)               45150     
_________________________________________________________________
dropout (Dropout)            (None, 150)               0         
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 151       
Total params: 45,301
Trainable params: 45,301
Non-trainable params: 0
_________________________________________________________________
None

Clase del modelo: <class 'tensorflow.python.keras.engine.sequential.Sequential'>


## Prueba 9: Generar Modelo Neuronal Doc2Vec

In [10]:
def prueba9():
    print('Prueba 9: Creación del Modelo Neuronal de Doc2Vec')
    
    try:
        print('\nCreación del Modelo...')
        model = nlp_f.generate_d2v_dense_nn()
        
    except:
        print('Error al crear el modelo')
        raise
    
    print('\n------------------------------------')
    print('Modelo creado:')
    print(model.summary())
    print('\nClase del modelo: {}'.format(type(model)))

In [11]:
prueba9()

Prueba 9: Creación del Modelo Neuronal de Doc2Vec

Creación del Modelo...

------------------------------------
Modelo creado:
Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_3 (Dense)              (None, 150)               45150     
_________________________________________________________________
dropout_1 (Dropout)          (None, 150)               0         
_________________________________________________________________
dense_4 (Dense)              (None, 1)                 151       
Total params: 45,301
Trainable params: 45,301
Non-trainable params: 0
_________________________________________________________________
None

Clase del modelo: <class 'tensorflow.python.keras.engine.sequential.Sequential'>
