# Pruebas Sprint 1
En este notebook se concentran todas las pruebas relativas al código generado durante el sprint 1, para ejecutarlas es necesario colocar el archivo csv subset_test.csv y el archivo nlp_functions.py en el mismo directorio que este notebook y pulsar Cell -> Run All en Jupyter Notebook

In [8]:
import pandas as pd
import nlp_functions as nlp_f

## Prueba 1: Lectura del fichero csv

In [3]:
def prueba1():
    print("Lectura del fichero csv. \n")
    print("El archivo subset_test.csv debe encontarse en la misma carpeta que este notebook")
    
    try:
        datos = pd.read_csv('subset_test.csv')
    except:
        print('Error al leer el fichero csv')
        raise
        
    print("El fichero se ha leído correctamente. Los primeros cinco elementos son:")
    print(datos.head())
    print('-'*40)
    print('Los últimos 5 elementos son:')
    print(datos.tail())

In [4]:
prueba1()

Lectura del fichero csv. 

El archivo subset_test.csv debe encontarse en la misma carpeta que este notebook
El fichero se ha leído correctamente. Los primeros cinco elementos son:
   type                                              title  \
0   1.0  EPA Delays Rule to Limit Carbon Emissions from...   
1   1.0  Marco Rubio Signals Possible Opposition To Rex...   
2   1.0  UPDATE: Boehner Power Point of deal added- Sun...   
3   1.0  Is Lack of Solemnity a Cause or a Symptom of O...   
4   1.0  Free 45 minute session with “PlayBook pro spec...   

                                             content  
0  EPA Delays Rule to Limit Carbon Emissions from...  
1  Marco Rubio Signals Possible Opposition To Rex...  
2  UPDATE: Boehner sent a Power Point to his cauc...  
3  (Before It's News)\n\nThe Ordinary Form at the...  
4  Free 45 minute session with “PlayBook pro spec...  
----------------------------------------
Los últimos 5 elementos son:
      type                                     

## Prueba 2: Preprocesado del dataset

In [6]:
def prueba2():
    try:
        print("Lectura del fichero... \n")
        datos = pd.read_csv('subset_test.csv')
    except:
        print("Error al leer el fichero csv")
        raise
    print("El fichero se ha leído correctamente")
    
    print("Primeras tres entradas sin preprocesar")
    print(datos.head(3))
    print('-'*40)
    
    try:
        print("Preprocesado del dataset")
        datos['content'] = datos['content'].apply(nlp_f.tokenizer)
    except:
        print("Error al preprocesar el conjunto de datos")
        raise
    print("El preprocesado se ha realizado correctamente")
    print("Primeras tres entradas preprocesadas")
    print(datos.head(3))

In [9]:
prueba2()

Lectura del fichero... 

El fichero se ha leído correctamente
Primeras tres entradas sin preprocesar
   type                                              title  \
0   1.0  EPA Delays Rule to Limit Carbon Emissions from...   
1   1.0  Marco Rubio Signals Possible Opposition To Rex...   
2   1.0  UPDATE: Boehner Power Point of deal added- Sun...   

                                             content  
0  EPA Delays Rule to Limit Carbon Emissions from...  
1  Marco Rubio Signals Possible Opposition To Rex...  
2  UPDATE: Boehner sent a Power Point to his cauc...  
----------------------------------------
Preprocesado del dataset
El preprocesado se ha realizado correctamente
Primeras tres entradas preprocesadas
   type                                              title  \
0   1.0  EPA Delays Rule to Limit Carbon Emissions from...   
1   1.0  Marco Rubio Signals Possible Opposition To Rex...   
2   1.0  UPDATE: Boehner Power Point of deal added- Sun...   

                                

## Prueba 3: Preprocesado de un objeto que no es de tipo string

In [10]:
def prueba3():
    
    test = 123456.6
    
    try:
        print('Preprocesado de un objeto que no es de tipo String')
        test = nlp_f.tokenizer(test)
    except:
        print("Error al preprocesar una entrada que no es de tipo String")
        raise
        
    print('El preprocesado se ha realizado correctamente')
    print(test)

In [11]:
prueba3()

Preprocesado de un objeto que no es de tipo String
El preprocesado se ha realizado correctamente
[]


## Prueba 4: Preprocesado de un string aplicando todas las técnicas de preprocesado

In [12]:
def prueba4():
    test = "<HTML>This <p>is.a</p> ! jua@email.com sentences, showing off the <br> stop words filtration. http://www.youtube.com 68509"
    
    try:
        print('Preprocesado de un string')
        test = nlp_f.tokenizer(test)
    except:
        print('Error al preprocesar el string')
        raise
    print('El preprocesado se ha realizado correctamente')
    print(test)

In [13]:
prueba4()

Preprocesado de un string
El preprocesado se ha realizado correctamente
['sentence', 'show', 'stop', 'word', 'filtration']
