###  <span style="color:orange"> ANÁLISIS DEL TEXTO </span>
___
Los objetivos que esperamos conseguir en esta fase serán:
* La medición de palabras más frecuentes por periódico, que delaten los temas preferentes en sus informaciones
* La riqueza léxica total por medio, que indirectamente revele la variedad de aspectos destacados en la selección específica de noticias
* La media de palabras por artículo, que nos permita sacar conclusiones sobre el nivel de cobertura concedida a la pandemia.

Para todo ello, trabajaremos computacionalmente con los datos generados con nuestra matriz. 


####  <span style="color:blue"> PALABRAS MÁS COMUNES POR MEDIO </span>
___
Este cálculo se obtiene especificando el número de repeticiones que cada término debe igualar o superar en nuestra matriz.


In [None]:
# Leemos la matriz de términos
import pandas as pd

matriz = pd.read_pickle('df_matriz.pkl')

In [None]:
# Por ejemplo, seleccionemos las 10 palabras más comunes
'''Buscamos recoger tanto el nombre de la palabra como el número de repeticiones, 
así que crearemos un diccionario con esa estructura'''
top10 = {}

'''Para simplicar el posterior bucle, alteraremos el orden normal de representación de 
la matriz(cada columna corresponde a un término, y cada fila a un periódico). Con el método transpose conseguimos que
cada periódico componga una columna y las filas pasen a ser el recuento de apariciones de cada palabra'''
matriz = matriz.transpose()
'''Recorreremos cada periódico'''
for c in matriz.columns:
    '''La función .head nos devolverá el número especificado de elementos (10) con mayor valor'''
    top = matriz[c].sort_values(ascending=False).head(10)
    '''Ordenamos nuestro diccionario para que la clave sea el nombre del diccionario y el valor sea una lista
    con tuplas que contengan ('término', nº de repeticiones)'''
    top10[c]= list(zip(top.index, top.values))

####  <span style="color:blue"> RIQUEZA LÉXICA </span>
___

Para este objetivo, operaremos con la extensión para vectores y matrices Python **Numpy**, una biblioteca que permite realizar tareas matemáticas de alto nivel y operar con la matriz de forma sencilla. 

In [None]:
# Creamos una lista con las palabras que tienen una aparción por lo menos

lista_apariciones = []
for periodico in matriz.columns:
    '''El [0] refiere el índice del DataFrame al que nos estamos refiriendo'''
    apariciones = matriz[periodico].to_numpy().nonzero()[0].size
    lista_apariciones.append(apariciones)

####  <span style="color:blue"> MEDIA DE PALABRAS </span>
___
Nuestro objetivo en este caso es acceder al total de palabras de cada medio dividido entre el número de artículos recogidos. Para ello, medimos el total de palabras en cada periódico, simplemente recorriendo la matriz con la función de suma:

In [None]:
#Calculamos el total de palabras por periódico
total_palabras = []
for word in matriz.columns:
    total = sum(matriz[word])
    total_palabras.append(total)

Habiendo definido manualmente una lista del total de artículos recogidos por cada periódico, 

`
d['Artículos recogidos por periódico'] = total_articulos `

el cálculo de la media resultaría algo tan sencillo como lo siguiente:

In [None]:
d['Media'] = d['Palabras usadas por cada periódico'] / d['Artículos recogidos por periódico']