In [1]:
import pandas as pd
import numpy as np

# Data wrangling

### Read CSV

In [2]:
news = pd.read_csv('eluniversal_2019_06_07_articles.csv')
news.head(3)

Unnamed: 0,body,title,url
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...
1,,,http://www.eluniversal.com.mx/deportes/box
2,,,https://www.tangible-eluniversal.com.mx/en-ver...


### Add the news paper id

In [3]:
news['newspaper_uid'] = 'eluniversal'
news.head(3)

Unnamed: 0,body,title,url,newspaper_uid
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...,eluniversal
1,,,http://www.eluniversal.com.mx/deportes/box,eluniversal
2,,,https://www.tangible-eluniversal.com.mx/en-ver...,eluniversal


### 1. Get the host of the url

In [4]:
# hint: use urllib.parse
from urllib.parse import urlparse
news['host'] = news['url'].apply(lambda url: urlparse(url).netloc)
news.head(3)

Unnamed: 0,body,title,url,newspaper_uid,host
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...,eluniversal,www.eluniversal.com.mx
1,,,http://www.eluniversal.com.mx/deportes/box,eluniversal,www.eluniversal.com.mx
2,,,https://www.tangible-eluniversal.com.mx/en-ver...,eluniversal,www.tangible-eluniversal.com.mx


### 2. Frecuencies for each host found

In [5]:
news['host'].value_counts()

www.eluniversal.com.mx             115
www.viveusa.mx                       9
www.elbotiquin.mx                    9
bit.ly                               8
www.tangible-eluniversal.com.mx      7
www.unionjalisco.mx                  6
www.eluniversalqueretaro.mx          5
sanluis.eluniversal.com.mx           5
oaxaca.eluniversal.com.mx            5
www.elgrafico.mx                     5
www.eluniversalvideo.com.mx          4
de10.com.mx                          4
www.unioncdmx.mx                     3
www.revistaclase.mx                  3
www.unionpuebla.mx                   3
www.clubeluniversal.mx               2
twitter.com                          1
interactivo.eluniversal.com.mx       1
www.unionyucatan.mx                  1
www.unionedomex.mx                   1
www.unionguanajuato.mx               1
www.facebook.com                     1
Name: host, dtype: int64

### 3. Fill the nans of the title column

In [6]:
missing_titles_mask = news['title'].isna()
missing_titles_mask[:4]

0    False
1     True
2     True
3    False
Name: title, dtype: bool

In [7]:
news[missing_titles_mask].head(3)

Unnamed: 0,body,title,url,newspaper_uid,host
1,,,http://www.eluniversal.com.mx/deportes/box,eluniversal,www.eluniversal.com.mx
2,,,https://www.tangible-eluniversal.com.mx/en-ver...,eluniversal,www.tangible-eluniversal.com.mx
6,"CUERNAVACA.– Tres hombres fueron detenidos, un...",,https://www.elgrafico.mx/la-roja/ladron-se-dis...,eluniversal,www.elgrafico.mx


In [8]:
(news[missing_titles_mask]['url']
 .str.extract(r'(?P<missing_titles>[^/]+)$')
).head(3)

Unnamed: 0,missing_titles
1,box
2,en-verdad-padecio-sifilis-schubert-el-gran-com...
6,ladron-se-dispara-durante-asalto-pizzeria-en-m...


In [24]:
(news[missing_titles_mask]['url']
 .str.extract(r'([^/]+)$')
).head(2)

Unnamed: 0,0
1,box
2,en-verdad-padecio-sifilis-schubert-el-gran-com...


In [27]:
clean = (news[missing_titles_mask]['url']
 .str.extract(r'([^/]+)$')
)[0].apply(lambda s: str(s).replace("-"," ").capitalize())

In [30]:
news.loc[missing_titles_mask, 'title'] = clean

In [31]:
news.head()

Unnamed: 0,body,title,url,newspaper_uid,host
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...,eluniversal,www.eluniversal.com.mx
1,,Box,http://www.eluniversal.com.mx/deportes/box,eluniversal,www.eluniversal.com.mx
2,,En verdad padecio sifilis schubert el gran com...,https://www.tangible-eluniversal.com.mx/en-ver...,eluniversal,www.tangible-eluniversal.com.mx
3,\n\nTras el triunfo de Barbosa y la derrota de...,Puebla: un tropiezo electoral no es una derrot...,https://www.eluniversal.com.mx/articulo/maria-...,eluniversal,www.eluniversal.com.mx
4,\n\nLa noticia de que las niñas y niños de la ...,Entre faldas y pantalones,https://www.eluniversal.com.mx/articulo/letici...,eluniversal,www.eluniversal.com.mx
