# Analysus Datasets Originales
Este archivo busca resumir informacion cuantitativa respecto a los datos originales (en crudo). Previo a hacerle cualquier tipo de modificación.



In [1]:
import re
import pandas as pd

from pathlib import Path

## La republica

In [2]:
from xml.dom import minicompat


input='../input/la_republica'

paths = [str(x) for x in Path(input).glob("*.xml")]

resumen = []
for path in paths:
  print(f'Processing {path}... ')

  f = open(path, "r")
  file_str = f.read()
  f.close()

  pattern = r"<doc>\n.*?<\/doc>"

  articles = re.findall(pattern, file_str, re.MULTILINE | re.IGNORECASE | re.DOTALL)
  cantidad_articulos = len(articles)

  regex_dates = r'<field name=\"fecha\">(\d\d\d\d-\d\d-\d\d).*?<\/field>'
  dates = list(map(lambda art: re.search(regex_dates, art).group(1), articles))

  if(len(articles) != len(dates)):
    print('   ==== WARNING ==== No se extrajeron todas las fechas')
  max_date = max(dates)
  min_date = min(dates)

  regex_text = r'<field name=\"articulo\">(.*?)<\/field>'
  articles_text = list(map(lambda art: re.search(regex_text, art).group(1), articles))
  if(len(articles) != len(articles_text)):
    print('   ==== WARNING ==== No se extrajeron todos los articulos')

  articles_length = list(map(lambda art: len(art), articles_text))
  articles_mean_length = round(sum(articles_length) / len(articles_length), 2) 
  print(f'   Cantidad de articulos: {cantidad_articulos}')
  print(f'   Articulo mas viejo: {min_date}')
  print(f'   Articulo mas reciente: {max_date}')
  print(f'   Largo promedio de notcias: {articles_mean_length}')

  resumen.append({'archivo': path, 'cant_articulos': cantidad_articulos, 'articulo_viejo': min_date, 'articulo_reciente': max_date, 'largo_promedio_caracteres': articles_mean_length})
  print('')


Processing ../input/la_republica/larepublica20141107112348Noticias.xml... 
   Cantidad de articulos: 224227
   Articulo mas viejo: 1990-08-14
   Articulo mas reciente: 2014-11-07
   Largo promedio de notcias: 2630.63



In [3]:
df_la_republica = pd.DataFrame(data=resumen)
df_la_republica

Unnamed: 0,archivo,cant_articulos,articulo_viejo,articulo_reciente,largo_promedio_caracteres
0,../input/la_republica/larepublica2014110711234...,224227,1990-08-14,2014-11-07,2630.63


## El pais

In [6]:
from xml.dom import minicompat


input='../input/el_pais'

paths = [str(x) for x in Path(input).glob("*.xml")]

resumen = []
for path in paths:
  print(f'Processing {path}... ')
  
  f = open(path, "r")
  file_str = f.read()
  f.close()

  pattern = r"<doc>\n.*?<\/doc>"

  articles = re.findall(pattern, file_str, re.MULTILINE | re.IGNORECASE | re.DOTALL)
  cantidad_articulos = len(articles)

  regex_dates = r'<field name=\"fecha\">(\d\d\d\d-\d\d-\d\d).*?<\/field>'
  dates = list(map(lambda art: re.search(regex_dates, art).group(1), articles))

  if(len(articles) != len(dates)):
    print('   ==== WARNING ==== No se extrajeron todas las fechas')
  max_date = max(dates)
  min_date = min(dates)

  regex_text = r'<field name=\"articulo\">(.*?)<\/field>'
  articles_text = list(map(lambda art: re.search(regex_text, art).group(1), articles))
  if(len(articles) != len(articles_text)):
    print('   ==== WARNING ==== No se extrajeron todos los articulos')

  articles_length = list(map(lambda art: len(art), articles_text))
  articles_mean_length = round(sum(articles_length) / len(articles_length), 2) 
  print(f'   Cantidad de articulos: {cantidad_articulos}')
  print(f'   Articulo mas viejo: {min_date}')
  print(f'   Articulo mas reciente: {max_date}')
  print(f'   Largo promedio de notcias: {articles_mean_length}')

  resumen.append({'archivo': path, 'cant_articulos': cantidad_articulos, 'articulo_viejo': min_date, 'articulo_reciente': max_date, 'largo_promedio_caracteres': articles_mean_length})
  print('')


Processing ../input/el_pais/elpais20140926203240Noticias-B.xml... 
   Cantidad de articulos: 90909
   Articulo mas viejo: 1990-08-14
   Articulo mas reciente: 2019-12-31
   Largo promedio de notcias: 3921.65

Processing ../input/el_pais/elpais20140926203240Noticias-F.xml... 
   Cantidad de articulos: 89902
   Articulo mas viejo: 1990-08-14
   Articulo mas reciente: 2019-11-21
   Largo promedio de notcias: 3224.45

Processing ../input/el_pais/elpais20141107112348Noticias.xml... 
   Cantidad de articulos: 402
   Articulo mas viejo: 2008-08-03
   Articulo mas reciente: 2014-11-07
   Largo promedio de notcias: 2428.98

Processing ../input/el_pais/elpais20140911184708Noticias.xml... 
   Cantidad de articulos: 160017
   Articulo mas viejo: 1990-08-14
   Articulo mas reciente: 2019-12-31
   Largo promedio de notcias: 3835.97

Processing ../input/el_pais/elpais20141021181153Noticias_0.xml... 
   Cantidad de articulos: 114776
   Articulo mas viejo: 1990-08-14
   Articulo mas reciente: 2014-09-1

In [7]:
df_el_pais = pd.DataFrame(data=resumen)
df_el_pais

Unnamed: 0,archivo,cant_articulos,articulo_viejo,articulo_reciente,largo_promedio_caracteres
0,../input/el_pais/elpais20140926203240Noticias-...,90909,1990-08-14,2019-12-31,3921.65
1,../input/el_pais/elpais20140926203240Noticias-...,89902,1990-08-14,2019-11-21,3224.45
2,../input/el_pais/elpais20141107112348Noticias.xml,402,2008-08-03,2014-11-07,2428.98
3,../input/el_pais/elpais20140911184708Noticias.xml,160017,1990-08-14,2019-12-31,3835.97
4,../input/el_pais/elpais20141021181153Noticias_...,114776,1990-08-14,2014-09-19,2552.68
5,../input/el_pais/elpais20140926203240Noticias-...,90909,1990-08-14,2019-12-31,3570.67
6,../input/el_pais/elpais20140926203240Noticias-...,90909,1990-08-14,2019-12-31,3684.93
7,../input/el_pais/elpais20140926203240Noticias-...,90909,1990-08-14,2019-12-31,3904.86
8,../input/el_pais/elpais20140924173922Noticias.xml,34598,1990-08-14,2019-12-31,3885.88
9,../input/el_pais/elpais20140926203240Noticias-...,90909,1990-08-14,2019-12-30,3552.77
