###  <span style="color:orange"> LIMPIEZA DE LOS DATOS </span>
___
A la hora de preparar nuestros textos para su análisis, los datos recuperados deberán pasar por algunos procesos de limpieza que nos aseguren estar trabajando con texto pertinente para nuestros fines.

* El primer paso para esta tarea será realizar una revisión del contenido obtenido para poder definir los problemas a los que nos enfrentaremos en cada caso. 
* Definir los objetivos y límites de la limpieza dependerá los propósitos del proyecto. Según para lo que se vaya a utilizar, nos interesará ser más minuciosos en la limpieza, recuperando un resultado de menor tamaño y mayor relevancia (común en los análisis de contenido), o preferiremos conservar algunos de los rasgos distintivos del texto (técnica utilizada en los análisis estilísticos, entre otros). 

En nuestro modelo, realizaremos un barrido profundo que únicamente conserve las piezas clave necesarias para estudios de análisis del texto, de sentimiento y modelado de tema. Para la limpieza de nuestros documentos utilizaremos la biblioteca de expresiones regulares para Python **(re)**. 


In [None]:
# Importamos la biblioteca de regex (Regular Expression) de Python 
import re
#También importamos el módulo string, que necesitaremos para eliminar la puntuación
import string

### PRIMERA PARTE DE LA LIMPIEZA


In [None]:
def primeraLimpieza(text):
    '''Primero vamos a separar algunas palabras se han unido a otras en el proceso de raspado'''
    text = re.sub(r'([a-z])([A-Z])', r'\1 \2', text)

    '''También es común que se conserven las marcas del cambio de línea'''
    text = re.sub('\n', ' ', text)
    
    '''Y de tabulación'''
    text = re.sub('\t', ' ', text)
    
    '''Eliminamos la puntuación con la constante de Python, que se encarga de: !"#$%&amp;'()*+,-./:;&lt;=&gt;?@[\]^_`{|}~'''
    text = re.sub('[%s]' % re.escape(string.punctuation), ' ', text)
    
    '''Añadimos alguna puntuación que no recoge la constante'''
    text = re.sub('[‘’“”—«»¡¿▪]', ' ', text)
    
    '''Por último, eliminamos el exceso de espaciado que hemos estado generando en nuestra limpieza'''
     text = " ".join(text.split())
    
    return text

En el caso de la matriz que generaremos en la siguiente tarea, debemos solucionar algunos problemas más en forma de nueva función.



### SEGUNDA PARTE DE LA LIMPIEZA

In [None]:
def segundaLimpieza(text): 
    
    '''Transformamos el texto a minúscula'''
    text = text.lower()
    
    '''También palabras que contengan números en su interior'''
    text = re.sub('\w*\d\w*', ' ', text)
    
    '''Por último, eliminamos el exceso de espaciado que hemos estado generando en nuestra limpieza'''
     text = " ".join(text.split())
    
    return text