Después de haber limpiado nuestro texto, preparamos el formato de los datos para utilizarlos más tarde. En este caso, prepararemos y almacenaremos los datos en forma de **corpus** y **matriz**.

###  <span style="color:orange"> CREACIÓN DEL CORPUS </span>
___
Nuestro corpus estará compuesto por el conjunto de noticias seleccionadas por  periódico debidamente limpiadas y almacenadas como cadena de texto. Como nos interesa realizar un análisis comparativo, se ha previsto como solución al conflicto la creación de un marco de datos **DataFrame** del paquete **Pandas**. De esta forma podremos almacenar la información en forma de tabulación, y así diferenciar la pertenencia de las noticias a sus correspondientes medios. 


In [None]:
#Importamos el paquete previamente instalado
import pandas as pd

'''Personalizamos la representación'''
pd.set_option('max_colwidth',200)

'''Habremos guardado nuestros datos en un diccionario que contenga: Clave (nombre del periódico) - Valor(cadena de texto limpio)'''
corpus_df = pd.DataFrame.from_dict(diccionario).transpose()

'''Llamamos a la columna Noticias'''
corpus_df.columns = ['Noticias']

'''Con este método Pandas ordena las etiquetas con sus debidos ejes'''
corpus_df = corpus_df.sort_index()


In [None]:
# Guardamos nuevamente nuestra serialización pickle
corpus_df.to_pickle("corpus.pkl")

###  <span style="color:orange"> CREACIÓN DE LA MATRIZ </span>
___

Para nuestro análisis también necesitaremos crear una *bolsa de palabras* que registre el número de apariciones de cada característica lingüística en nuestros textos. Esta bolsa de palabras es un elemento común dentro del campo del PLN, y consiste en un modelo de representación del vocabulario utilizado mediante una matriz en la que se miden el número de apariciones del token por campo. 
Para poder hacer esta conversión a una matriz matemática, pasaremos por vectorizar nuestro texto. Los pasos a seguir serán:
* 	Tokenización del texto
*	Creación de un vocabulario
*	Codificación del documento

Para nuestra investigación utilizaremos la clase **CountVectorizer** de la biblioteca de aprendizaje automático **Scikit-learn**.


####  <span style="color:blue"> ANTES DE CREAR LA MATRIZ </span>
___
Antes de proceder a crear la matriz es conveniente eliminar aquellas *palabras vacías* como artículos, pronombres, preposiciones e incluso algunos verbos modales o auxiliares. Para nuestro modelo hemos creado un conjunto de 395 palabras vacías que recogemos en el archivo `palabras_vacias`. 
Para la creación de este corpus se ha tenido en cuenta que uno de nuestros objetivos es el cálculo de sentimiento, por lo que se han mantenido adjetivos calificativos y adverbios de cantidad, afirmación, negación, duda y modo que en otras situaciones serían considerados como palabras vacías. 

In [None]:
#Importamos el módulo codecs, que nos ahorrará problemas con la codificación y decodificación de nuestro documento

import codecs 

with codecs.open('palabras_vacias.txt', encoding='utf-8') as f:
    stopwords = f.read().splitlines()

In [None]:
# Utilizamos CountVectorizer para crear la matriz, excluyendo las palabras definidas como vacías

from sklearn.feature_extraction.text import CountVectorizer

'''Especificamos la exclusión de nuestra lista de palabras vacías'''
cv = CountVectorizer(stop_words = stopwords)

'''La función transform convertirá a un vector nuestra columna de texto'''
matriz_cv = cv.fit_transform(corpus_df.Noticias)

'''Expresamos su resultado de nuevo en una tabla DataFrame'''
df_matriz = pd.DataFrame(matriz_cv.toarray(), columns=cv.get_feature_names())
df_matriz.index = corpus_df.index


In [None]:
# De nuevo, guardamos para posterior uso

df_matriz.to_pickle("df_matriz.pkl")

In [None]:
#También guardamos nuestro elemento CountVectorizer para posterior uso en la detección de temas automática

pickle.dump(cv, open("cv.pkl", "wb"))