# Results

Results without merging datasets and removing duplicates between 0s and 1s:

|                 | 1 (emails) | 0 (scraped) |  Total |
|-----------------|-----------:|------------:|-------:|
| Expansion       |      2,593 |       9,772 | 12,365 |
| Cincodias       |      1,284 |       3,965 |  5,249 |
| El Confidencial |        855 |       5,291 |  6,146 |
| Others          |        105 |           0 |    105 |
| Total           |      4,837 |      19,028 | 23,865 |

Articles for training  - Emails (ground truth)
=========================


****

In [1]:
import os
import re
import json
import pprint
import datetime
import pandas as pd

pp = pprint.PrettyPrinter(indent=4)

In [2]:
data = []
with open('../articles_email.json') as input_file:
    for line in input_file:
        data.append(json.loads(line))

In [3]:
df = pd.DataFrame(data)

print("Number of articles downloaded: {:,}".format(df.shape[0]))

Number of articles downloaded: 5,146


In [4]:
# print("Min date:", df[df['publish_date'].notna()]['publish_date'].min()[:10])
# print("Max date:", df[df['publish_date'].notna()]['publish_date'].max()[:10])

### Duplicates and useless articles

In [5]:
df_dups = df.groupby('text').size().sort_values(0,ascending=False).reset_index().rename(columns={0:"count"})
df_dups.head(10)

Unnamed: 0,text,count
0,Bluecap es una “boutique” de consultoría estra...,78
1,You have requested on-line access to a Sanford...,44
2,How Can We Help?\n\nIf you'd like to learn mor...,36
3,,27
4,One account. All of Google. Sign in to continu...,19
5,Consulte las citas más relevantes de la jornad...,6
6,"Danièle Nouy, presidenta del Supervisor Único,...",3
7,El ministro de Economía aseguró que la resoluc...,3
8,Federal Reserve Chair Janet Yellen said it is ...,2
9,Los bancos españoles que habían capitalizado s...,2


In [6]:
# text 0: Bluecap es una “boutique” de consultoría estra...
print("Text 0:\n")
print(df_dups.loc[0]['text'],"...")

idx = df.index[df['text']==df_dups.loc[0]['text']]
df = df.drop(idx)

print("\n\nCurrent number of articles: {:,}".format(df.shape[0]))

Text 0:

(u'Bluecap es una \u201cboutique\u201d de consultor\xeda estrat\xe9gica especializada en el sector financiero\n\nBluecap es un equipo internacional de profesionales del sector financiero. Mezclamos cultura y talento para dar el servicio m\xe1s especializado mientras disfrutamos de cada reto.\n\nBluecap es el lugar donde el espacio es el que t\xfa creas, donde el futuro es el que t\xfa imaginas\n\n\xbfQuieres hablar con nosotros?', '...')


Current number of articles: 5,068


In [7]:
# text 1: You have requested on-line access to a Sanford...
print("Text 1:\n")
print(df_dups.loc[1]['text'],"...")

idx = df.index[df['text']==df_dups.loc[1]['text']]
df = df.drop(idx)

print("\n\nCurrent number of articles: {:,}".format(df.shape[0]))

Text 1:

(u'You have requested on-line access to a Sanford C. Bernstein report. On-line access to these reports is available only to clients of Sanford C. Bernstein & Co., LLC, Sanford C. Bernstein Limited, or Sanford C. Bernstein (Hong Kong) Limited (together, "Bernstein"). For your convenience, an additional logon id and password is not required. Simply confirm the e-mail address by which you are known to us for verification. By submitting information below, you accept the Terms of Use.\n\nPlease enter your email to verify access:', '...')


Current number of articles: 5,024


In [8]:
# text 2: How Can We Help?\n\nIf you'd like to learn mor...
print("Text 2:\n")
print(df_dups.loc[2]['text'],"...")

idx = df.index[df['text']==df_dups.loc[2]['text']]
df = df.drop(idx)

print("\n\nCurrent number of articles: {:,}".format(df.shape[0]))

Text 2:

(u"How Can We Help?\n\nIf you'd like to learn more about Bernstein's insights and execution or how they can help advance your business, please contact us.", '...')


Current number of articles: 4,988


In [9]:
# text 4: One account. All of Google. Sign in to continu...
print("Text 4:\n")
print(df_dups.loc[4]['text'],"...")

idx = df.index[df['text']==df_dups.loc[4]['text']]
df = df.drop(idx)

print("\n\nCurrent number of articles: {:,}".format(df.shape[0]))

Text 4:

(u'One account. All of Google. Sign in to continue to Google Calendar', '...')


Current number of articles: 4,969


In [10]:
# text 5: Consulte las citas más relevantes de la jornad...
print("Text 5:\n")
print(df_dups.loc[5]['text'],"...")

idx = df.index[df['text']==df_dups.loc[5]['text']]
df = df.drop(idx)

print("\n\nCurrent number of articles: {:,}".format(df.shape[0]))

Text 5:

(u'Consulte las citas m\xe1s relevantes de la jornada actual y de las pr\xf3ximas. [Acceder]', '...')


Current number of articles: 4,963


In [11]:
# removing empty text articles
df = df.drop(df[df['text']==''].index)
print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 4,936


In [12]:
# removing duplicates
df = df.drop_duplicates(subset='text', keep='first', inplace=False)
print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 4,837


In [13]:
# articles with very short text (useless)
for idx, row in df[df['text'].str.len()<200].iterrows():
    print idx, "\t", repr(row['text']), "\n"

327 	u'Acceso a la herramienta de descarga de informes\n\nBANCO POPULAR ESPA\xd1OL, S.A.\n\nInformaci\xf3n adicional\n\nInforme completo en formato\n\nEl informe ha sido elaborado bas\xe1ndose en la taxonom\xeda IPP.' 

1227 	u'Our lawyers are enthusiastic, committed people who relish the challenges and opportunities that they encounter every day. Search for a lawyer by name or use one of the filters.' 

2405 	u'No ha sido posible completar su consulta. Vuelva a intentarlo m\xe1s tarde.' 

2410 	u'\xbfNo est\xe1s registrado? Crea tu cuenta\n\nEntra en EL PA\xcdS\n\nEntra en EL PA\xcdS\n\nCerrar men\xfa\n\nTama\xf1o letra a- A+\n\nAlto contraste' 

3956 	u'Sucesi\xf3n de mentirijillas en BBVA: Francisco Gonz\xe1lez pasa el testigo a FG' 



In [14]:
# we can get rid of these articles since the text info is not adequate

### Creating new features

* section
* datepart
* day of week
* newspaper

In [15]:
# newspaper

df['newspaper'] = df['url'].apply(lambda x: re.findall('(?:\/\/www\.|\/\/)(\w+)\.\w',x))

for idx, row in df.iterrows():
    
    source = row['newspaper']
    try:
        df.loc[idx, 'newspaper'] = source[0]
    except:
        df.loc[idx, 'newspaper'] = ""

In [16]:
df_source = df.groupby('newspaper').size().sort_values(0, ascending=False).reset_index().rename(columns={0:"count"})
df_source.head(10)

Unnamed: 0,newspaper,count
0,expansion,2593
1,cincodias,1284
2,elconfidencial,855
3,blogs,35
4,retina,14
5,economia,6
6,bloomberg,3
7,euribor,3
8,bbva,2
9,cnmv,2


In [17]:
# split the publish date to date and time and remove time because it is not changing
df['date'], df['time'] = df.publish_date.str.split(' ').str
df.drop(['time'], axis=1, inplace=True)

In [18]:
# convert date columns to datetime and create day_of_week column
df['date'] = pd.to_datetime(df['date'])
df['day_of_week'] = df['date'].dt.weekday_name
df.head(5)

Unnamed: 0,authors,keywords,publish_date,summary,text,title,top_image,url,newspaper,date,day_of_week
0,"[Asunción Infante Fuentes, Andrés Stumpf Guirao]","[tumbar, vuelve, ibex, descenso, son, en, una,...",2016-03-17 00:00:00,"El Ibex cede un 1,18% y pierde el soporte clav...",Amaneció con subidas en todos los grandes parq...,El sector bancario vuelve a tumbar al Ibex: es...,https://d500.epimg.net/cincodias/iconos/v2.x/v...,http://cincodias.com/cincodias/2016/03/17/merc...,cincodias,2016-03-17,Thursday
1,[],"[ladrillo, en, desde, menor, junio, su, del, h...",2016-03-18 00:00:00,"El año pasado, la morosidad de este segmento h...",El pasado año el descenso de la mora tanto de ...,La morosidad del ladrillo cierra 2015 en su me...,http://estaticos.expansion.com/assets/multimed...,http://www.expansion.com/empresas/banca/2016/0...,expansion,2016-03-18,Friday
2,"[Eduardo Segovia, Pedro Calvo, Contacta Al Aut...","[inversores, stanley, morgan, en, encuentro, p...",2016-03-24 00:00:00,El banco de inversión Morgan stanley organiza ...,El banco de inversión Morgan stanley organiza ...,Noticias del BBVA: Los inversores señalan de q...,https://www.ecestaticos.com/imagestatic/clippi...,http://www.elconfidencial.com/mercados/2016-03...,elconfidencial,2016-03-24,Thursday
3,"[Assumpta Zorraquino, Contacta Al Autor, Carlo...","[regulación, servicios, versus, para, por, en,...",2016-03-24 00:00:00,La aparición de las start-ups tecnológicas ded...,La aparición de las start-ups tecnológicas ded...,Fintech: Innovación versus regulación,https://www.ecestaticos.com/imagestatic/clippi...,http://blogs.elconfidencial.com/mercados/tribu...,blogs,2016-03-24,Thursday
4,"[Pedro Calvo, Kike Vázquez, Daniel Lacalle, Vi...","[europea, pierde, por, en, y, valor, su, del, ...",2016-03-29 00:00:00,Como el que han pagado en el último año las gr...,"Son los bancos españoles. Y los italianos, por...",Tipos de interés: La banca europea pierde un t...,https://www.ecestaticos.com/imagestatic/clippi...,http://www.elconfidencial.com/empresas/2016-03...,elconfidencial,2016-03-29,Tuesday


In [19]:
# drop unnecessary columns
df.drop(['top_image', 'publish_date'], axis=1, inplace=True)

In [20]:
df.columns

Index([    u'authors',    u'keywords',     u'summary',        u'text',
             u'title',         u'url',   u'newspaper',        u'date',
       u'day_of_week'],
      dtype='object')

---

# Articles for training - Historical data

Checking the newspaper output for all urls scraped from the different source to build the training dataset. The scraped newspapers are (run every 8 days between 2016/04/01 and 2018/04/01):

1. Expansion
2. Cincodias
3. El Confidencial

__Considerations__

* Articles with __no text__.
* Note that some of these __articles may be included in the emails__ sent over these years.
* Currenty working with articles __published on mondays__ regardless of the source.
* Handle errors/exceptions in the download method of the newspaper.

---

## 1. Expansion

In [21]:
# article content downloaded and parsed with newspaper3k
data = []
with open('../articles_expansion_hemeroteca.json') as input_file:
    for line in input_file:
        data.append(json.loads(line))

In [22]:
df = pd.DataFrame(data)

In [23]:
print("Number of articles downloaded: {:,}".format(df.shape[0]))

Number of articles downloaded: 9,986


### Duplicates and useless articles

In [24]:
df_dups = df.groupby('text').size().sort_values(0,ascending=False).reset_index().rename(columns={0:"count"})
df_dups.head(5)

Unnamed: 0,text,count
0,"Para comentar o valorar, por favor inicie sesi...",87
1,"Para comentar o valorar, por favor inicie sesi...",58
2,,46
3,¿Televisión de pago en España a precios low co...,2
4,"En plena era tecnológica, donde podemos relaci...",2


We can see that there are articles with useless text and articles with no text at all. We will get rid of all these invalid articles.

In [25]:
# text 0: Para comentar o valorar, por favor inicie sesi...
idx = df.index[df['text']==df_dups.loc[0]['text']]
df = df.drop(idx)

# text 1: Para comentar o valorar, por favor inicie sesi...
idx = df.index[df['text']==df_dups.loc[1]['text']]
df = df.drop(idx)

# text 2: (empty text)
idx = df.index[df['text']==df_dups.loc[2]['text']]
df = df.drop(idx)

print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 9,795


In [26]:
df_dups = df.groupby('text').size().sort_values(0,ascending=False).reset_index().rename(columns={0:"count"})
print("Number of articles duplicated twice: {:,}".format(df_dups[df_dups['count']==2]['text'].count()))

Number of articles duplicated twice: 23


In [27]:
# removing duplicates
df = df.drop_duplicates(subset='text', keep='first', inplace=False)

In [28]:
print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 9,772


In [29]:
df_dups = df.groupby('text').size().sort_values(0,ascending=False).reset_index().rename(columns={0:"count"})
df_dups.head(5)

Unnamed: 0,text,count
0,Único coche del mundo con tres trenes de poten...,1
1,El plan del Gobierno británico permitirá al se...,1
2,"El plazo de amortización es inferior a un año,...",1
3,El plazo de aceptación se extenderá desde maña...,1
4,El plazo de aceptación de la opa que Carlos Sl...,1


There are no more text duplicates at this point. However, there are useless articles such as ...

In [30]:
# articles with very short text (useless)
for idx, row in df[df['text'].str.len()<150].iterrows():
    print(idx, "\t", repr(row['text']), "\n")

(904, '\t', "u'Este fin de semana con EXPANSI\\xd3N, conozca los fondos m\\xe1s recomendados por los expertos.'", '\n')
(1166, '\t', "u'El presidente del Gobierno en funciones y candidato a la reelecci\\xf3n por el Partido Popular, Mariano RajoyJuanJo Mart\\xednEFE'", '\n')
(1722, '\t', "u'La tregua alcanza a las bolsas europeas, y a sus divisas. El Ibex sale de m\\xednimos de tres a\\xf1os con el rebote de la banca y de IAG.'", '\n')
(2464, '\t', "u'La comisaria de Competencia de la UE, Margrethe Vestager.Foto: Efe'", '\n')
(2701, '\t', "u'\\xa1Empieza el partido! \\xbfQui\\xe9n de estos pilotos de la Scuderia Ferrari ser\\xe1 tan bueno jugando voleibol como lo es en la pista?\\n\\nRemitido'", '\n')
(3543, '\t', "u'El fabricante ha presentado en el Sal\\xf3n de Pek\\xedn de China una soluci\\xf3n de movilidad para los grandes atascos que combina el coche y el patinete.'", '\n')
(3677, '\t', "u'Francisco R. Checa y Susana P\\xe9rez analizan las claves burs\\xe1tiles del d\\xeda y adela

### Creating new features

* section
* datepart
* day of week
* newspaper

In [31]:
# newspaper
df['newspaper'] = 'expansion'

In [32]:
# create seccion field from url
df['section'] = df['url'].apply(lambda x: x.split('/')[3])

In [33]:
df.groupby('section').size().sort_values(0, ascending=False).reset_index().rename(columns={0:'count'}).head(10)

Unnamed: 0,section,count
0,empresas,2188
1,economia,1970
2,mercados,945
3,aragon,777
4,extremadura,604
5,directivos,462
6,economia-digital,380
7,fueradeserie,375
8,sociedad,321
9,juridico,262


In [34]:
# split the publish date to date and time and remove time because it is not changing
df['date'], df['time'] = df.publish_date.str.split(' ').str
df.drop(['time'], axis=1, inplace=True)

In [35]:
# convert date columns to datetime and create day_of_week column
df['date'] = pd.to_datetime(df['date'])
df['day_of_week'] = df['date'].dt.weekday_name
df.head(5)

Unnamed: 0,authors,keywords,publish_date,summary,text,title,top_image,url,newspaper,section,date,day_of_week
0,[],"[las, terremoto, se, aumenta, que, ha, el, ecu...",2016-04-17 00:00:00,"El presidente de Ecuador, Rafael Correa, ha el...","El presidente de Ecuador, Rafael Correa, ha el...",Aumenta a 272 el número de muertos a causa del...,http://estaticos.expansion.com/assets/desktop/...,http://www.expansion.com/sociedad/2016/04/17/5...,expansion,sociedad,2016-04-17,Sunday
1,[],"[empresa, sauces, presunta, investigan, tambié...",2016-05-03 00:00:00,La Justicia argentina ha iniciado una causa po...,La Justicia argentina ha iniciado una causa po...,Investigan una empresa de Cristina Fernández d...,http://estaticos.expansion.com/assets/multimed...,http://www.expansion.com/economia/politica/201...,expansion,economia,2016-05-03,Tuesday
2,[],"[superiores, las, pedroche, ser, josé, ni, que...",2016-04-17 00:00:00,Cristina Pedroche es de izquierdas y de Vallec...,Cristina Pedroche es de izquierdas y de Vallec...,Ni Cristina Pedroche ni José Sacristán son sup...,http://estaticos.expansion.com/assets/multimed...,http://www.expansion.com/actualidadeconomica/a...,expansion,actualidadeconomica,2016-04-17,Sunday
3,[],"[su, próximo, resultado, que, el, en, del, gre...",2016-04-17 00:00:00,"""El equipo del Fondo volverá a Atenas a princi...",La directora gerente del Fondo Monetario Inter...,"El FMI no espera obtener un ""resultado inmedia...",http://estaticos.expansion.com/assets/multimed...,http://www.expansion.com/economia/2016/04/17/5...,expansion,economia,2016-04-17,Sunday
4,[],"[su, aunque, que, encontrará, investigarme, po...",2016-04-17 00:00:00,"En una entrevista en el diario El País, Soria ...",El ex ministro reconoce que a pesar de que su ...,"Soria: ""Montoro hará bien en investigarme, aun...",http://estaticos.expansion.com/assets/multimed...,http://www.expansion.com/economia/politica/201...,expansion,economia,2016-04-17,Sunday


In [36]:
# drop unnecessary columns
df.drop(['top_image', 'publish_date'], axis=1, inplace=True)

### Dump to JSON

In [37]:
# df.to_json('./articles_clean_expansion.json')

In [38]:
pp.pprint(dict(df.loc[0]))

{   u'authors': [],
    'date': Timestamp('2016-04-17 00:00:00'),
    'day_of_week': 'Sunday',
    u'keywords': [   u'las',
                     u'terremoto',
                     u'se',
                     u'aumenta',
                     u'que',
                     u'ha',
                     u'el',
                     u'ecuador',
                     u'en',
                     u'del',
                     u'272',
                     u'muertos',
                     u'causa',
                     u'n\xfamero',
                     u'y',
                     u'los',
                     u'la'],
    'newspaper': 'expansion',
    'section': u'sociedad',
    u'summary': u'El presidente de Ecuador, Rafael Correa, ha elevado este domingo a 272 el n\xfamero de muertos a causa del terremoto de magnitud 7,8 en la escala de Richter que sacudi\xf3 el s\xe1bado el pa\xeds, agregando que el balance de v\xedctimas "aumentar\xe1 en las pr\xf3ximas horas".\n"Son momentos dif\xedciles para la pa

---

## 2. Cincodias

In [39]:
# article content downloaded and parsed with newspaper3k
data = []        
with open('../articles_cincodias.json') as input_file:
    for line in input_file:
        data.append(json.loads(line))

In [40]:
df = pd.DataFrame(data)

In [41]:
print("Number of articles downloaded: {:,}".format(df.shape[0]))

Number of articles downloaded: 3,998


### Duplicates and useless articles

In [42]:
df_dups = df.groupby('text').size().sort_values(0,ascending=False).reset_index().rename(columns={0:"count"})
df_dups.head(5)

Unnamed: 0,text,count
0,¿No estás registrado? Crea tu cuenta\n\nEntra ...,26
1,Europa ha empezado ya con un particular carrus...,2
2,Hablemos de democracia. Si quieren hablemos en...,2
3,Luis de Guindos está a poco más de un paso de ...,2
4,"El euríbor a 12 meses, el indicador más utiliz...",2


In [43]:
# text 0: ¿No estás registrado? Crea tu cuenta\n\nEntra ...
idx = df.index[df['text']==df_dups.loc[0]['text']]
df = df.drop(idx)

print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 3,972


In [44]:
df_dups = df.groupby('text').size().sort_values(0,ascending=False).reset_index().rename(columns={0:"count"})
print("Number of articles duplicated twice: {:,}".format(df_dups[df_dups['count']==2]['text'].count()))

Number of articles duplicated twice: 6


In [45]:
# removing duplicates
df = df.drop_duplicates(subset='text', keep='first', inplace=False)
print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 3,966


In [46]:
df_dups = df.groupby('text').size().sort_values(0,ascending=False).reset_index().rename(columns={0:"count"})
df_dups.head(5)

Unnamed: 0,text,count
0,“¡Que no le falte de nada a mis #materialadict...,1
1,"El principal indicador de la bolsa española, e...",1
2,"El principal indicador de la Bolsa española, e...",1
3,El primer trimestre del año deja en los invers...,1
4,El primer trimestre de año ha estado repleto d...,1


In [47]:
# removing empty text articles
df = df.drop(df[df['text']==''].index)
print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 3,965


In [48]:
# articles with very short text (useless)
for idx, row in df[df['text'].str.len()<150].iterrows():
    print(idx, "\t", repr(row['text']), "\n")

(57, '\t', "u'El coste de los despidos en el sector financiero\\n\\nCompatir en Linkedin Enviar por correo Subir'", '\n')
(79, '\t', "u'Los problemas a los que se enfrentan los bancos europeos\\n\\nCompatir en Linkedin Enviar por correo Subir'", '\n')
(243, '\t', 'u\'Los creadores de la serie de HBO "Silicon Valley" creen que la tecnolog\\xeda est\\xe1 plagada de "hippies"\\n\\nCompatir en Linkedin Enviar por correo Subir\'', '\n')
(459, '\t', "u'Jos\\xe9 Padilla, Padilla Supermercados-Spar: \\u201cEl \\xe9xito de nuestro negocio es estar a la altura de las necesidades de nuestro cliente\\u201d.'", '\n')
(480, '\t', "u'Si apuestas en la Eurocopa 2016, estas webs predicen el resultado de cada partido\\n\\nCompatir en Linkedin Enviar por correo Subir'", '\n')
(632, '\t', "u'Cuatro empresas se jugaban las adjudicaciones de las obras con el n\\xfamero del Gordo de Navidad.'", '\n')
(806, '\t', "u'3\\n\\nLa selecci\\xf3n de EE UU de baloncesto, uno de los grandes atractivos de estos juegos,

### Creating new features

* section
* datepart
* day of week
* newspaper

In [49]:
# newspaper
df['newspaper'] = 'cincodias'

In [50]:
# create seccion field from url
df['section'] = df['url'].apply(lambda x: x.split('/')[7])

In [51]:
df.groupby('section').size().sort_values(0, ascending=False).reset_index().rename(columns={0:'count'}).head(10)

Unnamed: 0,section,count
0,mercados,792
1,companias,686
2,empresas,618
3,economia,464
4,lifestyle,197
5,midinero,196
6,sentidos,135
7,smartphones,129
8,fortunas,105
9,autonomos,99


In [52]:
# split the publish date to date and time and remove time because it is not changing
df['date'], df['time'] = df.publish_date.str.split(' ').str
df.drop(['time'], axis=1, inplace=True)

In [53]:
# convert date columns to datetime and create day_of_week column
df['date'] = pd.to_datetime(df['date'])
df['day_of_week'] = df['date'].dt.weekday_name
df.head(5)

Unnamed: 0,authors,keywords,publish_date,summary,text,title,top_image,url,newspaper,section,date,day_of_week
0,[Carlos González Villamil],"[y, videoconsola, en, uso, la, mac, que, para,...",2016-04-09 00:00:00,El firmware 3.50 de PlayStation 4 ha mejorado ...,El firmware 3.50 de PlayStation 4 ha mejorado ...,Cómo configurar Remote Play en PC y Mac para e...,https://d500.epimg.net/cincodias/imagenes/2016...,https://cincodias.elpais.com/cincodias/2016/04...,cincodias,lifestyle,2016-04-09,Saturday
1,[Juande Portillo],"[y, los, la, en, que, reduciendo, adelgaza, ba...",2016-04-08 00:00:00,"Una dieta a largo plazo, en todo caso, a la qu...","En apenas una década, y con una crisis financi...",La banca adelgaza costes reduciendo red y plan...,https://d500.epimg.net/cincodias/imagenes/2016...,https://cincodias.elpais.com/cincodias/2016/04...,cincodias,mercados,2016-04-08,Friday
2,[],"[y, los, en, la, han, que, trabajadores, prote...",2016-04-09 00:00:00,"Los trabajadores de Lauki, cuya factoría de Va...","Los trabajadores de Lauki, cuya factoría de Va...",Protesta de la plantilla de Lauki por el cierr...,https://d500.epimg.net/cincodias/imagenes/2016...,https://cincodias.elpais.com/cincodias/2016/04...,cincodias,empresas,2016-04-09,Saturday
3,"[Javier Fernández Magariño, Pablo Monge]","[será, nacerá, y, los, la, en, que, europa, ai...",2016-04-09 00:00:00,Air Europa Express nace sobre la pequeña aerol...,"Juan José Hidalgo, presidente de Globalia y Ai...",Esta será la nueva Air Europa 'low cost' que n...,https://d500.epimg.net/cincodias/imagenes/2016...,https://cincodias.elpais.com/cincodias/2016/04...,cincodias,empresas,2016-04-09,Saturday
4,[Will Oliver],"[y, último, su, en, la, año, que, cameron, el,...",2016-04-09 00:00:00,"WILL OLIVER EFEDavid Cameron, primer ministro ...",Protestas en Londres tras conocer la conexión ...,Cameron pagó impuestos por 90.000 euros en el ...,https://d500.epimg.net/cincodias/imagenes/2016...,https://cincodias.elpais.com/cincodias/2016/04...,cincodias,economia,2016-04-09,Saturday


In [54]:
# drop unnecessary columns
df.drop(['top_image', 'publish_date'], axis=1, inplace=True)

### Dump to JSON

In [55]:
# df.to_json('./articles_clean_cincodias.json')

In [56]:
pp.pprint(dict(df.loc[1]))

{   u'authors': [u'Juande Portillo'],
    'date': Timestamp('2016-04-08 00:00:00'),
    'day_of_week': 'Friday',
    u'keywords': [   u'y',
                     u'los',
                     u'la',
                     u'en',
                     u'que',
                     u'reduciendo',
                     u'adelgaza',
                     u'banca',
                     u'el',
                     u'red',
                     u'costes',
                     u'por',
                     u'es',
                     u'plantilla',
                     u'del'],
    'newspaper': 'cincodias',
    'section': u'mercados',
    u'summary': u'Una dieta a largo plazo, en todo caso, a la que preceder\xe1 de forma inmediata una nueva purga detonada por la presi\xf3n que ejercen sobre los m\xe1rgenes los tipos cero y la debilidad general del negocio.\nUn ajuste adicional que rondar\xeda el 20% de la red y la plantilla actual.\nY eso, que el recorte ya realizado hasta la fecha no ha sido menor.\nEl 

---

## El Confidencial

In [57]:
# article content downloaded and parsed with newspaper3k
data = []
with open('../articles_elconfidencial.json') as input_file:
    for line in input_file:
        data.append(json.loads(line))

In [58]:
df = pd.DataFrame(data)

In [59]:
print("Number of articles downloaded: {:,}".format(df.shape[0]))

Number of articles downloaded: 1,796


### Duplicates and useless articles

In [60]:
df_dups = df.groupby('text').size().sort_values(0,ascending=False).reset_index().rename(columns={0:"count"})
df_dups.head(5)

Unnamed: 0,text,count
0,"BIOGRAFÍA\n\nTrader, empezó su carrera profesi...",14
1,La industria de los fondos de inversión en Esp...,3
2,"La lava fluye desde el Piton de la Fournaise, ...",3
3,Más de 70 años después de la liberación del ca...,2
4,20 de 21\n\nPuente flotante de Evergreen (Redm...,2


In [61]:
# text 0: BIOGRAFÍA\n\nTrader, empezó su carrera profesi...
idx = df.index[df['text']==df_dups.loc[0]['text']]
df = df.drop(idx)

print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 1,782


In [62]:
# removing empty text articles
df = df.drop(df[df['text']==''].index)
print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 1,780


In [63]:
# text 2: Estimado lector: el próximo 1 de Junio la Tabl...
print("Text 2:\n")
print(df_dups.loc[2]['text'][:500],"...")

idx = df.index[df['text']==df_dups.loc[2]['text']]
df = df.drop(idx)

print("\n\nCurrent number of articles: {:,}".format(df.shape[0]))

Text 2:

(u'La lava fluye desde el Piton de la Fournaise, uno de los volcanes m\xe1s activos del mundo, en Reuni\xf3n, una isla del archipi\xe9lago de las Mascare\xf1as, en el oc\xe9ano \xcdndico, con estatus de departamento de ultramar franc\xe9s, el 3 de febrero de 2017. (Reuters)', '...')


Current number of articles: 1,777


In [64]:
# text 3: Gonzalo de Diego Ramos\n\nLa mítica empresa de...
print("Text 3:\n")
print(df_dups.loc[3]['text'])

idx = df.index[df['text']==df_dups.loc[3]['text']]
df = df.drop(idx)

print("\n\nCurrent number of articles: {:,}".format(df.shape[0]))

Text 3:

Más de 70 años después de la liberación del campo de concentración de Auschwitz, este complejo situado en los territorios polacos ocupados durante la II Guerra Mundial continúa siendo símbolo universal del Holocausto. Uno de los episodios más oscuros de la Historia reciente, que se saldó con el asesinato de más de seis millones de inocentes a manos de la Alemania nazi de Hitler.

Para acercar la compleja realidad que se vivió en Auschwitz, y transmitir al mundo las repercusiones históricas y humanas sobre los campos de concentración, una exposición itinerante recorre el mundo proponiendo al visitante un viaje intelectual y profundamente emocional, en el que se trata de dilucidar cómo ese lugar llegó a existir y el modo en que su existencia afecta, aún hoy, a nuestra visión del mundo. Con el título de "Auschwitz. No hace mucho. No muy lejos" Madrid es el primer destino de esta muestra itinerante que descubre, en primicia mundial, más de 600 piezas originales, además de numeroso

In [65]:
# text 4: Entrevista a Attila Szabo\n\n"Un 3% de los run...
print("Text 4:\n")
print(df_dups.loc[4]['text'])

idx = df.index[df['text']==df_dups.loc[4]['text']]
df = df.drop(idx)

print("\n\nCurrent number of articles: {:,}".format(df.shape[0]))

Text 4:

20 de 21

Puente flotante de Evergreen (Redmond, Washington)

¿Qué tiene de especial este puente? A simple vista parece una construcción como otra cualquiera, pero los algo más de dos kilómetros de esta estructura están construidos sobre un lago de más de 60 metros de profundidad. Construido en los 60, se mantiene en pie gracias a un buen número de estructuras de hormigón en la base que están ancladas a unos pesos situados en las profundidades del lago Washington y que otorgan la estabilidad necesaria.


Current number of articles: 1,773


In [66]:
df_dups = df.groupby('text').size().sort_values(0,ascending=False).reset_index().rename(columns={0:"count"})
df_dups.head(5)

Unnamed: 0,text,count
0,La industria de los fondos de inversión en Esp...,3
1,"Ibiza, verano, música electrónica, fiestón. ¿H...",2
2,Ibiza toca a gente guapa. En la lúbrica isla p...,2
3,La madera ha jugado un papel determinante a la...,2
4,Blanco y radiante. Es una de las grandes estre...,2


In [67]:
# removing duplicates
df = df.drop_duplicates(subset='text', keep='first', inplace=False)
print("Current number of articles: {:,}".format(df.shape[0]))

Current number of articles: 1,765


In [68]:
# articles with very short text (useless)
for idx, row in df[df['text'].str.len()<150].iterrows():
    print(idx, "\t", repr(row['text']), "\n")

(317, '\t', "u'Alemania tambi\\xe9n es campeona con los menos habituales\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nPantalla completa'", '\n')
(371, '\t', "u'Este padre colg\\xf3 en Instragram un truco infalible e h\\xedper tierno en el que consigue dormir a su hijo reci\\xe9n nacido con una t\\xe9cnica sencilla.'", '\n')
(1369, '\t', "u'Carlota Casiraghi y Dimitri Rassam, las grandes estrellas en el Baile de la Rosa de M\\xf3naco\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nPantalla completa'", '\n')
(1409, '\t', "u'La sede de Appleby en la isla de Jersey. (REUTERS)'", '\n')
(1584, '\t', "u'El criador Agus Badud lava uno de sus 40 perros en la aldea de Cibiuk en Majalaya, Java Occidental, el 27 de septiembre de 2017. (Reuters)'", '\n')
(1724, '\t', "u'Este perro sabe que ha hecho algo mal cuando su due\\xf1o le llama desde la cocina. Alguien se ha comido algo que no deb\\xeda'", '\n')
(1725, '\t', "u'Consigue que uno de

### Creating new features

* section
* datepart
* day of week
* newspaper

In [69]:
# newspaper
df['newspaper'] = 'elconfidencial'

In [70]:
# create seccion field from url
df['section'] = df['url'].apply(lambda x: x.split('/')[3])

In [71]:
df.groupby('section').size().sort_values(0, ascending=False).reset_index().rename(columns={0:'count'}).head(10)

Unnamed: 0,section,count
0,espana,369
1,multimedia,263
2,deportes,188
3,alma-corazon-vida,126
4,empresas,107
5,tecnologia,97
6,mundo,87
7,cultura,76
8,economia,69
9,mercados,66


In [72]:
# split the publish date to date and time and remove time because it is not changing
df['date'], df['time'] = df.publish_date.str.split(' ').str
df.drop(['time'], axis=1, inplace=True)

In [73]:
# convert date columns to datetime and create day_of_week column
df['date'] = pd.to_datetime(df['date'])
df['day_of_week'] = df['date'].dt.weekday_name
df.head(5)

Unnamed: 0,authors,keywords,publish_date,summary,text,title,top_image,url,newspaper,section,date,day_of_week
0,"[Rafael, Fotografía, Enrique Villarino, Eduard...","[la, en, noticias, supremo, el, que, una, paga...",2017-06-19 00:00:00,Sostienen que el mismo dinero que les sirvió p...,"Jaime Botín, patrón de Bankinter y procesado p...",Lista Falciani: Jaime Botín e hijos reclaman e...,https://www.ecestaticos.com/imagestatic/clippi...,https://www.elconfidencial.com/empresas/2017-0...,elconfidencial,empresas,2017-06-19,Monday
1,"[Eduardo Segovia, Agustín Marco, E. Segovia, C...","[del, vender, el, reprocha, que, una, se, plan...",2017-06-05 00:00:00,"Uno de sus componentes, molesto con la actual ...","""Enfado monumental"". Así califican varios miem...",Noticias del Banco Popular: El consejo del Ban...,https://www.ecestaticos.com/imagestatic/clippi...,https://www.elconfidencial.com/empresas/2017-0...,elconfidencial,empresas,2017-06-05,Monday
2,"[Isabel Morillo, Juanma Romero, Contacta Al Au...","[del, el, que, segunda, va, sánchez, su, por, ...",2017-06-19 00:00:00,El día después de la batalla no habrá tregua e...,El día después de la batalla no habrá tregua e...,39° Congreso Federal del PSOE: El PSOE afronta...,https://www.ecestaticos.com/imagestatic/clippi...,https://www.elconfidencial.com/espana/2017-06-...,elconfidencial,espana,2017-06-19,Monday
3,"[Isabel Morillo, Juanma Romero, Contacta Al Au...","[las, del, federal, reabre, el, que, se, más, ...",2017-06-18 00:00:00,Fue la última en entrevistarse con Pedro Sánch...,La jornada acabó mal. Pasadas las once de la n...,39° Congreso Federal del PSOE: El pulso de Ped...,https://www.ecestaticos.com/imagestatic/clippi...,https://www.elconfidencial.com/espana/2017-06-...,elconfidencial,espana,2017-06-18,Sunday
4,"[Juanma Romero, Isabel Morillo, Contacta Al Au...","[pronto, del, las, mandato, el, que, una, misi...",2017-06-19 00:00:00,"Que hiciera el equipo que quisiera, que sacara...",El reinado de Pedro Sánchez ya ha comenzado. E...,39° Congreso Federal del PSOE: Sánchez arranca...,https://www.ecestaticos.com/imagestatic/clippi...,https://www.elconfidencial.com/espana/2017-06-...,elconfidencial,espana,2017-06-19,Monday


In [74]:
# drop unnecessary columns
df.drop(['top_image', 'publish_date'], axis=1, inplace=True)

### Dump to JSON

In [75]:
# df.to_json('./articles_clean_elconfidencial.json')

In [76]:
pp.pprint(dict(df.loc[1]))

{   u'authors': [   u'Eduardo Segovia',
                    u'Agust\xedn Marco',
                    u'E. Segovia',
                    u'Contacta Al Autor'],
    'date': Timestamp('2017-06-05 00:00:00'),
    'day_of_week': 'Monday',
    u'keywords': [   u'del',
                     u'vender',
                     u'el',
                     u'reprocha',
                     u'que',
                     u'una',
                     u'se',
                     u'plan',
                     u'saracho',
                     u'su',
                     u'para',
                     u'banco',
                     u'los',
                     u'y',
                     u'en',
                     u'popular',
                     u'la'],
    'newspaper': 'elconfidencial',
    'section': u'empresas',
    u'summary': u'Uno de sus componentes, molesto con la actual situaci\xf3n, espet\xf3 durante la reuni\xf3n del mi\xe9rcoles pasado que "para esto, nos qued\xe1bamos con \xc1ngel Ron".\nEl riesg