In [2]:
import pandas as pd
import numpy as np

# Data wrangling

### Read CSV

In [2]:
news = pd.read_csv(r'../datasets/eluniversal_2019_06_07_articles.csv')
news.head(3)

Unnamed: 0,body,title,url
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...
1,,,http://www.eluniversal.com.mx/deportes/box
2,,,https://www.tangible-eluniversal.com.mx/en-ver...


### Add the news paper id

In [3]:
news['newspaper_uid'] = 'eluniversal'
news.head(3)

Unnamed: 0,body,title,url,newspaper_uid
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...,eluniversal
1,,,http://www.eluniversal.com.mx/deportes/box,eluniversal
2,,,https://www.tangible-eluniversal.com.mx/en-ver...,eluniversal


### 1. Get the host of the url

In [4]:
# hint: use urllib.parse
from urllib.parse import urlparse
news['host'] = news['url'].apply(lambda url: urlparse(url).netloc)
news.head(3)

Unnamed: 0,body,title,url,newspaper_uid,host
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...,eluniversal,www.eluniversal.com.mx
1,,,http://www.eluniversal.com.mx/deportes/box,eluniversal,www.eluniversal.com.mx
2,,,https://www.tangible-eluniversal.com.mx/en-ver...,eluniversal,www.tangible-eluniversal.com.mx


### 2. Frecuencies for each host  
return a pandas series. From most frequence to less frequence

In [5]:
news['host'].value_counts()

www.eluniversal.com.mx             115
www.viveusa.mx                       9
www.elbotiquin.mx                    9
bit.ly                               8
www.tangible-eluniversal.com.mx      7
www.unionjalisco.mx                  6
oaxaca.eluniversal.com.mx            5
www.elgrafico.mx                     5
sanluis.eluniversal.com.mx           5
www.eluniversalqueretaro.mx          5
de10.com.mx                          4
www.eluniversalvideo.com.mx          4
www.revistaclase.mx                  3
www.unionpuebla.mx                   3
www.unioncdmx.mx                     3
www.clubeluniversal.mx               2
www.facebook.com                     1
www.unionguanajuato.mx               1
twitter.com                          1
interactivo.eluniversal.com.mx       1
www.unionyucatan.mx                  1
www.unionedomex.mx                   1
Name: host, dtype: int64

In [10]:
one = news['host'].value_counts()

### 3. Fill in the nans of the 'title' column taking part of 'url' column  
In this dataset, there are two columns, 'title' and 'url'.
There are some NaN records in title, but 'url' column can fill these blanks.
The 'title' value is in 'url' values, is the last text from last '/' character 

Additional: Replace '-' by ' ' and the title must by capitalized  

Example: www.facebook.com/andres/gutierrez-arcia so, the title must be 'Gutierrez Arcia'

In [11]:
missing_titles_mask = news['title'].isna()
missing_titles_mask[:4];

In [12]:
news[missing_titles_mask]['url'][:4];

In [13]:
(news[missing_titles_mask]['url']
 .str.extract(r'(?P<missing_titles>[^/]+)$')
).head(3)

Unnamed: 0,missing_titles
1,box
2,en-verdad-padecio-sifilis-schubert-el-gran-com...
6,ladron-se-dispara-durante-asalto-pizzeria-en-m...


In [14]:
(news[missing_titles_mask]['url']
 .str.extract(r'([^/]+)$')
).head(2)

Unnamed: 0,0
1,box
2,en-verdad-padecio-sifilis-schubert-el-gran-com...


In [15]:
clean = (news[missing_titles_mask]['url']
 .str.extract(r'([^/]+)$')
)[0].apply(lambda s: str(s).replace("-"," ").capitalize())

In [16]:
news.loc[missing_titles_mask, 'title'] = clean

In [31]:
news.head()

Unnamed: 0,body,title,url,newspaper_uid,host
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...,eluniversal,www.eluniversal.com.mx
1,,Box,http://www.eluniversal.com.mx/deportes/box,eluniversal,www.eluniversal.com.mx
2,,En verdad padecio sifilis schubert el gran com...,https://www.tangible-eluniversal.com.mx/en-ver...,eluniversal,www.tangible-eluniversal.com.mx
3,\n\nTras el triunfo de Barbosa y la derrota de...,Puebla: un tropiezo electoral no es una derrot...,https://www.eluniversal.com.mx/articulo/maria-...,eluniversal,www.eluniversal.com.mx
4,\n\nLa noticia de que las niñas y niños de la ...,Entre faldas y pantalones,https://www.eluniversal.com.mx/articulo/letici...,eluniversal,www.eluniversal.com.mx


In [19]:
news.dtypes

body             object
title            object
url              object
newspaper_uid    object
host             object
dtype: object

In [5]:
url = "https://raw.githubusercontent.com/andrsGutirrz/datathonDatasets/master/eluniversal_2019_06_07_articles.csv"
news = pd.read_csv(url)
news['title'].fillna(news.url.apply(lambda x: x.split('/')[-1].title().replace('-', ' ')),inplace = True)


In [8]:
news.head(10)

Unnamed: 0,body,title,url
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...
1,,Box,http://www.eluniversal.com.mx/deportes/box
2,,En Verdad Padecio Sifilis Schubert El Gran Com...,https://www.tangible-eluniversal.com.mx/en-ver...
3,\n\nTras el triunfo de Barbosa y la derrota de...,Puebla: un tropiezo electoral no es una derrot...,https://www.eluniversal.com.mx/articulo/maria-...
4,\n\nLa noticia de que las niñas y niños de la ...,Entre faldas y pantalones,https://www.eluniversal.com.mx/articulo/letici...
5,"[email protected]\nHace más de siglo y medio, ...",El mar es para todos: estrena Huatulco una pla...,http://oaxaca.eluniversal.com.mx/especiales/22...
6,"CUERNAVACA.– Tres hombres fueron detenidos, un...",Ladron Se Dispara Durante Asalto Pizzeria En M...,https://www.elgrafico.mx/la-roja/ladron-se-dis...
7,\n\nLa historia después de la senadora y su pi...,La historia después de la senadora y su pistola,http://www.eluniversal.com.mx/estados/la-histo...
8,,La foto del día (Junio 2019),http://www.eluniversal.com.mx/galeria/nacion/l...
9,,Las Bacterias Que Viven En Tu Celular Y Otros ...,https://www.tangible-eluniversal.com.mx/las-ba...


In [9]:
from pandas.util.testing import assert_frame_equal

In [10]:
male_passengers_survived = titanic.loc[((titanic.Sex == 'male') & (titanic.Survived == 1)),:]
female_passengers_survived = titanic.loc[((titanic.Sex == 'female') & (titanic.Survived == 1)),:]
survivors = (len(female_passengers_survived), len(male_passengers_survived))
survivors


NameError: name 'titanic' is not defined

In [11]:
news = pd.read_csv(
    r'https://raw.githubusercontent.com/andrsGutirrz/datathonDatasets/master/eluniversal_2019_06_07_articles.csv')
news.head(3)

news['newspaper_uid'] = 'eluniversal'

from urllib.parse import urlparse
news['host'] = news['url'].apply(lambda url: urlparse(url).netloc)
news.head(3)

news['temp'] = news['url'].apply(lambda url: url.split('/')[-1].replace('-', ' ').title())

news['title'] = news['title'].fillna(news['temp'])

news.drop(columns=['temp'])


Unnamed: 0,body,title,url,newspaper_uid,host
0,\nLa procuradora Ernestina Godoy confirmó que ...,Matan a exdiputado de Tláhuac; investigan vínc...,http://www.eluniversal.com.mx/metropoli/cdmx/m...,eluniversal,www.eluniversal.com.mx
1,,Box,http://www.eluniversal.com.mx/deportes/box,eluniversal,www.eluniversal.com.mx
2,,En Verdad Padecio Sifilis Schubert El Gran Com...,https://www.tangible-eluniversal.com.mx/en-ver...,eluniversal,www.tangible-eluniversal.com.mx
3,\n\nTras el triunfo de Barbosa y la derrota de...,Puebla: un tropiezo electoral no es una derrot...,https://www.eluniversal.com.mx/articulo/maria-...,eluniversal,www.eluniversal.com.mx
4,\n\nLa noticia de que las niñas y niños de la ...,Entre faldas y pantalones,https://www.eluniversal.com.mx/articulo/letici...,eluniversal,www.eluniversal.com.mx
5,"[email protected]\nHace más de siglo y medio, ...",El mar es para todos: estrena Huatulco una pla...,http://oaxaca.eluniversal.com.mx/especiales/22...,eluniversal,oaxaca.eluniversal.com.mx
6,"CUERNAVACA.– Tres hombres fueron detenidos, un...",Ladron Se Dispara Durante Asalto Pizzeria En M...,https://www.elgrafico.mx/la-roja/ladron-se-dis...,eluniversal,www.elgrafico.mx
7,\n\nLa historia después de la senadora y su pi...,La historia después de la senadora y su pistola,http://www.eluniversal.com.mx/estados/la-histo...,eluniversal,www.eluniversal.com.mx
8,,La foto del día (Junio 2019),http://www.eluniversal.com.mx/galeria/nacion/l...,eluniversal,www.eluniversal.com.mx
9,,Las Bacterias Que Viven En Tu Celular Y Otros ...,https://www.tangible-eluniversal.com.mx/las-ba...,eluniversal,www.tangible-eluniversal.com.mx
