# Data Wrangling

In [2]:
import pandas as pd
import csv

pd.options.display.max_rows = 6
el_tiempo = pd.read_csv('web_scrapper/eltiempo_2018_12_09_articles.csv', encoding='utf-8')

### 1. Añadir un newspaper_uid al Dataframe

In [3]:
el_tiempo['newspaper_uid'] = 'eltiempo'
el_tiempo

Unnamed: 0,body,title,url,newspaper_uid
0,\n\n\n\nLos derechos humanos son una pieza cla...,¿Cuál es el futuro de los derechos humanos en ...,https://www.eltiempo.com/podcast/no-es-hora-de...,eltiempo
1,\n\n\n\nEl pasado 6 de diciembre se cumplieron...,,https://www.eltiempo.com/opinion/editorial/una...,eltiempo
2,\n\n\n\nCelebra River Plate el título de la Co...,Quintero: el colombiano fue héroe de River par...,https://www.eltiempo.com/deportes/futbol-inter...,eltiempo
...,...,...,...,...
51,"\n\n\n\nEn el 2019, la recuperación del sector...","Ventas de vivienda en Colombia aumentarán 3,7 ...",https://www.eltiempo.com/economia/sectores/ven...,eltiempo
52,\n\n\n\nEs claro que dolor y placer son polos ...,Polvos que ayudan a curar / Sexo con Esther,https://www.eltiempo.com/vida/salud/polvos-que...,eltiempo
53,\n\n\n\nEl día en que aparecieron flotando en ...,El sangriento capítulo colombiano en el juicio...,https://www.eltiempo.com/justicia/investigacio...,eltiempo


### 2. Obtener el host para saber de que páginas está construida la página principal de cada periodico

In [4]:
from urllib.parse import urlparse

In [5]:
url_ejemplo = el_tiempo.iloc[0]['url']
print(f"La url de ejemplo es: \n{url_ejemplo}")
host_ejemplo = urlparse(url_ejemplo).netloc
print(f"El host es: {host_ejemplo}")

La url de ejemplo es: 
https://www.eltiempo.com/podcast/no-es-hora-de-callar/cual-es-el-futuro-de-los-derechos-humanos-en-america-303288
El host es: www.eltiempo.com


In [6]:
el_tiempo['host'] = el_tiempo['url'].apply(lambda url: urlparse(url).netloc)
el_tiempo

Unnamed: 0,body,title,url,newspaper_uid,host
0,\n\n\n\nLos derechos humanos son una pieza cla...,¿Cuál es el futuro de los derechos humanos en ...,https://www.eltiempo.com/podcast/no-es-hora-de...,eltiempo,www.eltiempo.com
1,\n\n\n\nEl pasado 6 de diciembre se cumplieron...,,https://www.eltiempo.com/opinion/editorial/una...,eltiempo,www.eltiempo.com
2,\n\n\n\nCelebra River Plate el título de la Co...,Quintero: el colombiano fue héroe de River par...,https://www.eltiempo.com/deportes/futbol-inter...,eltiempo,www.eltiempo.com
...,...,...,...,...,...
51,"\n\n\n\nEn el 2019, la recuperación del sector...","Ventas de vivienda en Colombia aumentarán 3,7 ...",https://www.eltiempo.com/economia/sectores/ven...,eltiempo,www.eltiempo.com
52,\n\n\n\nEs claro que dolor y placer son polos ...,Polvos que ayudan a curar / Sexo con Esther,https://www.eltiempo.com/vida/salud/polvos-que...,eltiempo,www.eltiempo.com
53,\n\n\n\nEl día en que aparecieron flotando en ...,El sangriento capítulo colombiano en el juicio...,https://www.eltiempo.com/justicia/investigacio...,eltiempo,www.eltiempo.com


In [7]:
el_tiempo['host'].value_counts()

www.eltiempo.com     51
www.futbolred.com     3
Name: host, dtype: int64

## Datos Faltantes

### Rellenar datos faltantes

In [10]:
# Mascara
missing_titles_mask = el_tiempo['title'].isna()
# Retorna un Series en donde marca True con los datos NaN
missing_titles_mask

0     False
1      True
2     False
      ...  
51    False
52    False
53    False
Name: title, Length: 54, dtype: bool

In [11]:
#De esta forma traemos solo los registros con True en la Mascara
el_tiempo[missing_titles_mask]

Unnamed: 0,body,title,url,newspaper_uid,host
1,\n\n\n\nEl pasado 6 de diciembre se cumplieron...,,https://www.eltiempo.com/opinion/editorial/una...,eltiempo,www.eltiempo.com
7,"\n\n\n\nAsí es ella: grande, segura, dedicada ...",,https://www.eltiempo.com/opinion/columnistas/p...,eltiempo,www.eltiempo.com
20,\n\nUn emotivo partido se vivió este sábado en...,,https://www.futbolred.com/futbol-colombiano/li...,eltiempo,www.futbolred.com
...,...,...,...,...,...
38,"\n\nTeófilo Gutiérrez, Jarlan Barrera y Luis D...",,https://www.futbolred.com/futbol-colombiano/li...,eltiempo,www.futbolred.com
45,\n\n\n\nPuede que la imagen de Petro manoseand...,,https://www.eltiempo.com/opinion/columnistas/m...,eltiempo,www.eltiempo.com
47,\n\n\n\nCon la caída del Muro de Berlín y el d...,,https://www.eltiempo.com/opinion/columnistas/m...,eltiempo,www.eltiempo.com


In [14]:
# ?P<nombre_grupo> de esta forma nombramos grupos en expresiones regulares
el_tiempo[missing_titles_mask]['url'].str.extract(r'(?P<missing_titles>[^/]+)$')

Unnamed: 0,missing_titles
1,una-pesadilla-venezolana-editorial-303060
7,grande-caterine-paula-moreno-303066
20,junior-vs-medellin-resumen-de-la-final-de-la-l...
...,...
38,teofilo-jarlan-y-luis-diaz-los-mejores-de-la-f...
45,epilogo-de-petro-y-la-chuspa-maria-isabel-rued...
47,el-centro-esta-out-mauricio-vargas-303072


In [None]:
is_well_formed_link = re.compile(r'^https?://.+/.+$')