# Analisis de /output

Este notebook hace un analisis del resultado de procesar los distintos diarios:
* eliminando etiquetas,
* extrayendo texto de JSON,
* borrando articulos innecesarios (juegos de crucigrama),
* eliminando articulos con caracteres extraños.

En caso de volver a ejecutar el analisis de los archivos, actualizar la tabla en [este link](https://docs.google.com/spreadsheets/d/1j7Vk2-hx3DwBIxWNb0of6ovTxoiH7DTyG-O9BTvaBt4/edit#gid=489649496), es un excel en "modelo prensa uy/dataset_noticias/procesado/metadata_corpus", tab 'texto_depurado'.

In [1]:
import pandas as pd
from pathlib import Path

## El pais

In [2]:
file_path = '../output/el_pais'
el_pais_paths = [str(x) for x in Path(file_path).glob("*.txt")]
print(el_pais_paths)

['../output/el_pais/elpais20140911184708Noticias.txt', '../output/el_pais/elpais20140926203240Noticias-C.txt', '../output/el_pais/elpais20140926203240Noticias-A.txt', '../output/el_pais/elpais20140926203240Noticias-B.txt', '../output/el_pais/elpais20140924173922Noticias.txt', '../output/el_pais/elpais20140926203240Noticias-F.txt', '../output/el_pais/elpais20140926203240Noticias-E.txt', '../output/el_pais/elpais20141107112348Noticias.txt', '../output/el_pais/elpais20140926203240Noticias-D.txt', '../output/el_pais/elpais20141021181153Noticias_0.txt']


In [3]:
resumen = []
for path in el_pais_paths:
  print(f'ANALISIS {path}')
  
  reader = open(path, "r+")
  lines = reader.readlines()
  cantidad = len(lines)
  print(f'  Cantidad de articulos: {cantidad}')

  largo_noticia = list(map(lambda line: len(line), lines))
  promedio_largo_noticia = round(sum(largo_noticia)/len(largo_noticia), 2)
  print(f'  Largo promedio de noticia: {promedio_largo_noticia}')

  palabras_por_noticia = list(map(lambda line: len(line.split()), lines))
  promedio_cantidad_palabras = round(sum(palabras_por_noticia)/len(palabras_por_noticia), 2)
  print(f'  Cantidad promedio de palabras por noticia: {promedio_cantidad_palabras}')

  resumen.append({'archivo': path, 'cant_articulos': cantidad, 'promedio_largo_noticias': promedio_largo_noticia, 'promedio_cantidad_palabras': promedio_cantidad_palabras})


ANALISIS ../output/el_pais/elpais20140911184708Noticias.txt
  Cantidad de articulos: 106550
  Largo promedio de noticia: 3570.91
  Cantidad promedio de palabras por noticia: 594.73
ANALISIS ../output/el_pais/elpais20140926203240Noticias-C.txt
  Cantidad de articulos: 58528
  Largo promedio de noticia: 3798.92
  Cantidad promedio de palabras por noticia: 629.64
ANALISIS ../output/el_pais/elpais20140926203240Noticias-A.txt
  Cantidad de articulos: 68035
  Largo promedio de noticia: 3494.81
  Cantidad promedio de palabras por noticia: 582.86
ANALISIS ../output/el_pais/elpais20140926203240Noticias-B.txt
  Cantidad de articulos: 68098
  Largo promedio de noticia: 3892.66
  Cantidad promedio de palabras por noticia: 648.52
ANALISIS ../output/el_pais/elpais20140924173922Noticias.txt
  Cantidad de articulos: 29809
  Largo promedio de noticia: 4002.45
  Cantidad promedio de palabras por noticia: 665.35
ANALISIS ../output/el_pais/elpais20140926203240Noticias-F.txt
  Cantidad de articulos: 60839


In [4]:
df_el_pais = pd.DataFrame(data=resumen)
df_el_pais

Unnamed: 0,archivo,cant_articulos,promedio_largo_noticias,promedio_cantidad_palabras
0,../output/el_pais/elpais20140911184708Noticias...,106550,3570.91,594.73
1,../output/el_pais/elpais20140926203240Noticias...,58528,3798.92,629.64
2,../output/el_pais/elpais20140926203240Noticias...,68035,3494.81,582.86
3,../output/el_pais/elpais20140926203240Noticias...,68098,3892.66,648.52
4,../output/el_pais/elpais20140924173922Noticias...,29809,4002.45,665.35
5,../output/el_pais/elpais20140926203240Noticias...,60839,3210.84,530.79
6,../output/el_pais/elpais20140926203240Noticias...,61774,3373.01,558.92
7,../output/el_pais/elpais20141107112348Noticias...,380,2430.86,406.13
8,../output/el_pais/elpais20140926203240Noticias...,75277,3827.63,637.28
9,../output/el_pais/elpais20141021181153Noticias...,82888,3041.27,502.34


## La republica

In [5]:
file_path = '../output/la_republica'
la_republica_paths = [str(x) for x in Path(file_path).glob("*.txt")]
print(la_republica_paths)

['../output/la_republica/larepublica20141107112348Noticias.txt']


In [6]:
resumen = []
for path in la_republica_paths:
  print(f'ANALISIS {path}')
  
  reader = open(path, "r+")
  lines = reader.readlines()
  cantidad = len(lines)
  print(f'  Cantidad de articulos: {cantidad}')

  largo_noticia = list(map(lambda line: len(line), lines))
  promedio_largo_noticia = round(sum(largo_noticia)/len(largo_noticia), 2)
  print(f'  Largo promedio de noticia: {promedio_largo_noticia}')

  palabras_por_noticia = list(map(lambda line: len(line.split()), lines))
  promedio_cantidad_palabras = round(sum(palabras_por_noticia)/len(palabras_por_noticia), 2)
  print(f'  Cantidad promedio de palabras por noticia: {promedio_cantidad_palabras}')

  resumen.append({'archivo': path, 'cant_articulos': cantidad, 'promedio_largo_noticias': promedio_largo_noticia, 'promedio_cantidad_palabras': promedio_cantidad_palabras})


ANALISIS ../output/la_republica/larepublica20141107112348Noticias.txt
  Cantidad de articulos: 84757
  Largo promedio de noticia: 2408.59
  Cantidad promedio de palabras por noticia: 391.94


In [7]:
df_la_republica = pd.DataFrame(data=resumen)
df_la_republica

Unnamed: 0,archivo,cant_articulos,promedio_largo_noticias,promedio_cantidad_palabras
0,../output/la_republica/larepublica201411071123...,84757,2408.59,391.94
