In [1]:
import pandas as pd

## **Series**

Las series son grupos de tipos de datos ordenados y dinámicos que alamcenan un solo tipo de dato. Se pueden construir a partir de _tuples_, _lists_, _diccionarios_ y _numpy arrays_.

In [2]:
series_test = pd.Series([100,200,300])
series_test

0    100
1    200
2    300
dtype: int64

Los _strings_ son tratados como objetos por defecto.

In [3]:
series_test = pd.Series(["a","b","c"], index=["x","y","z"], dtype=str)
series_test

x    a
y    b
z    c
dtype: object

In [4]:
series_test = pd.Series({1: "a", 2:"b",3:"c"}, dtype=str)
series_test.values

array(['a', 'b', 'c'], dtype=object)

## **Dataframes**

Son un conjunto de series que conforma un conjunto de datos con dos dimensiones, también posee _labels_ o etiquetas.

In [5]:
frame_test = pd.DataFrame({
    1999: [1,2,3],
    2000: [4,5,6],
    2001: [7,8,9]}
)
frame_test

Unnamed: 0,1999,2000,2001
0,1,4,7
1,2,5,8
2,3,6,9


In [6]:
frame_test = pd.DataFrame(
    [[1,2,3],
    [4,5,6],
    [7,8,9]], columns=[1999,2000,2001]
)
frame_test

Unnamed: 0,1999,2000,2001
0,1,2,3
1,4,5,6
2,7,8,9


## **Índices y selección**

* Dictionary-like: \
`df['col']` -> _DataSeries_ \
`df[['col1','col2']]` -> _DataFrame_

* Numpy-like: Solo recibe numeros como argumentos \
`df.iloc[:]` <- fila \
`df.iloc[:,:]` <- fila, columna

* Label-based: Recibe los distintos tipos de datos que pueda tener como índice o columna: \
`df.loc[:]` <- fila \
`df.loc[:,:]` <- fila, columna


In [7]:
noticias_df = pd.read_csv('../web_scraper/eluniversal_2022_07_15_articles.csv')
noticias_df.head()

Unnamed: 0,body,title,url
0,\r\n Este jueves 14 de julio fue aprehendido u...,Detienen a uno de los presuntos asaltantes de ...,https://sanluis.eluniversal.com.mx/sociedad/de...
1,"\r\nEn su pasada visita a Washington DC, el pr...","Crisis no se enfrentan con acciones tibias, si...",https://www.eluniversal.com.mx/nacion/crisis-n...
2,\r\n\r\nSemarnat negó a Audi un permiso clave ...,"Semarnat, tache",http://www.eluniversal.com.mx/opinion/mario-me...
3,\r\n Los presidentes de México y Estados Unido...,"México y EU, cooperación bilateral con respons...",http://www.eluniversal.com.mx/opinion/gabriela...
4,\r\nDesde su creación por decreto el 26 de mar...,"Peligro, Guardia Nacional al volante",http://www.eluniversal.com.mx/opinion/claudio-...


In [8]:
noticias_df["body"] = noticias_df["body"].str.replace("\r\n", "")
noticias_df.head()

Unnamed: 0,body,title,url
0,Este jueves 14 de julio fue aprehendido uno d...,Detienen a uno de los presuntos asaltantes de ...,https://sanluis.eluniversal.com.mx/sociedad/de...
1,"En su pasada visita a Washington DC, el presid...","Crisis no se enfrentan con acciones tibias, si...",https://www.eluniversal.com.mx/nacion/crisis-n...
2,Semarnat negó a Audi un permiso clave para ins...,"Semarnat, tache",http://www.eluniversal.com.mx/opinion/mario-me...
3,Los presidentes de México y Estados Unidos se...,"México y EU, cooperación bilateral con respons...",http://www.eluniversal.com.mx/opinion/gabriela...
4,Desde su creación por decreto el 26 de marzo d...,"Peligro, Guardia Nacional al volante",http://www.eluniversal.com.mx/opinion/claudio-...


## **Data wrangling**

In [9]:
# 1. Añadir el newspaper_uid al Dataframe

noticias_df['newspaper_uid'] = 'el_universal'
noticias_df.head(2)

Unnamed: 0,body,title,url,newspaper_uid
0,Este jueves 14 de julio fue aprehendido uno d...,Detienen a uno de los presuntos asaltantes de ...,https://sanluis.eluniversal.com.mx/sociedad/de...,el_universal
1,"En su pasada visita a Washington DC, el presid...","Crisis no se enfrentan con acciones tibias, si...",https://www.eluniversal.com.mx/nacion/crisis-n...,el_universal


In [10]:
from urllib.parse import urlparse
noticias_df['host'] = noticias_df['url'].apply(lambda url: urlparse(url=url).netloc)
noticias_df.head(2)

Unnamed: 0,body,title,url,newspaper_uid,host
0,Este jueves 14 de julio fue aprehendido uno d...,Detienen a uno de los presuntos asaltantes de ...,https://sanluis.eluniversal.com.mx/sociedad/de...,el_universal,sanluis.eluniversal.com.mx
1,"En su pasada visita a Washington DC, el presid...","Crisis no se enfrentan con acciones tibias, si...",https://www.eluniversal.com.mx/nacion/crisis-n...,el_universal,www.eluniversal.com.mx


In [11]:
noticias_df['host'].value_counts()

www.eluniversal.com.mx        26
sanluis.eluniversal.com.mx     1
oaxaca.eluniversal.com.mx      1
Name: host, dtype: int64

## **Missing Data**

In [12]:
noticias_df.iloc[18]

body             Una abuela de armas tomar será el personaje qu...
title                                                          NaN
url              http://www.eluniversal.com.mx/espectaculos/adr...
newspaper_uid                                         el_universal
host                                        www.eluniversal.com.mx
Name: 18, dtype: object

In [13]:
missing_title_mask = noticias_df['title'].isna()
missing_titles = noticias_df[missing_title_mask]['url'].str.extract(r'(?P<missing_titles>[^/]+)$').applymap(lambda title: title.replace("-", " ").capitalize())
missing_titles

Unnamed: 0,missing_titles
18,Adriana barraza la abuela aguerrida que llega dc


In [14]:
noticias_df.loc[missing_title_mask, 'title'] = missing_titles.loc[:,'missing_titles']

In [15]:
noticias_df.loc[18]

body             Una abuela de armas tomar será el personaje qu...
title             Adriana barraza la abuela aguerrida que llega dc
url              http://www.eluniversal.com.mx/espectaculos/adr...
newspaper_uid                                         el_universal
host                                        www.eluniversal.com.mx
Name: 18, dtype: object

## **Additional cleanup**

In [16]:
import hashlib

uids = (noticias_df
            .apply(lambda row: hashlib.md5(bytes(row['url'].encode())), axis=1)
            .apply(lambda hash_object: hash_object.hexdigest())
)

noticias_df['uid'] = uids
noticias_df.set_index('uid', inplace = True)
noticias_df.head(2)

Unnamed: 0_level_0,body,title,url,newspaper_uid,host
uid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
672acc53d38f65d859d66f21bd20e726,Este jueves 14 de julio fue aprehendido uno d...,Detienen a uno de los presuntos asaltantes de ...,https://sanluis.eluniversal.com.mx/sociedad/de...,el_universal,sanluis.eluniversal.com.mx
73ca710dc260bc439f95df00f0835cd5,"En su pasada visita a Washington DC, el presid...","Crisis no se enfrentan con acciones tibias, si...",https://www.eluniversal.com.mx/nacion/crisis-n...,el_universal,www.eluniversal.com.mx


## **Data enrichment**

In [17]:
import nltk
from nltk.corpus import stopwords

In [18]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Cesar\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Cesar\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [19]:
stop_words = set(stopwords.words('spanish'))

In [21]:
def tokenize_column(df, column_name):
    return  (df
                .dropna()
                .apply(lambda row: nltk.word_tokenize(row[column_name]), axis = 1)
                .apply(lambda tokens: list(filter(lambda x: x.isalpha(), tokens)))
                .apply(lambda tokens: list(map(lambda token: token.lower(), tokens)))
                .apply(lambda word_list: list(filter(lambda word: word not in stop_words, word_list)))
                .apply(lambda valid_list: len(valid_list))
            )

noticias_df['n_tokens_title'] = tokenize_column(noticias_df, 'title')
noticias_df.head(2)

Unnamed: 0_level_0,body,title,url,newspaper_uid,host,n_tokens_title
uid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
672acc53d38f65d859d66f21bd20e726,Este jueves 14 de julio fue aprehendido uno d...,Detienen a uno de los presuntos asaltantes de ...,https://sanluis.eluniversal.com.mx/sociedad/de...,el_universal,sanluis.eluniversal.com.mx,9
73ca710dc260bc439f95df00f0835cd5,"En su pasada visita a Washington DC, el presid...","Crisis no se enfrentan con acciones tibias, si...",https://www.eluniversal.com.mx/nacion/crisis-n...,el_universal,www.eluniversal.com.mx,11


## **Duplicate values**

In [52]:
# pd.options.display.max_rows = 6
# pd.options.display.max_colwidth = 20
pd.options.display.multi_sparse

True

In [51]:
noticias_df.iloc[[0]]

Unnamed: 0_level_0,body,title,url,newspaper_uid,host,n_tokens_title
uid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
672acc53d38f65d859d66f21bd20e726,Este jueves 14 ...,Detienen a uno d...,https://sanluis....,el_universal,sanluis.eluniver...,9


In [53]:
noticias_df = pd.concat((noticias_df,noticias_df.iloc[[0]]))


In [54]:
noticias_df

Unnamed: 0_level_0,body,title,url,newspaper_uid,host,n_tokens_title
uid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
672acc53d38f65d859d66f21bd20e726,Este jueves 14 ...,Detienen a uno d...,https://sanluis....,el_universal,sanluis.eluniver...,9
73ca710dc260bc439f95df00f0835cd5,En su pasada vis...,Crisis no se enf...,https://www.elun...,el_universal,www.eluniversal....,11
441fa5a4b3b7718c0e15d86578cbba8d,Semarnat negó a ...,"Semarnat, tache",http://www.eluni...,el_universal,www.eluniversal....,2
...,...,...,...,...,...,...
f09b395f23f67a774870ba261077127f,La devastación a...,Urge un Tribunal...,http://www.eluni...,el_universal,www.eluniversal....,3
f9d690aac591e3fbc791ba19e357ef43,La Copa del Mund...,Gerardo Martino ...,https://www.elun...,el_universal,www.eluniversal....,7
672acc53d38f65d859d66f21bd20e726,Este jueves 14 ...,Detienen a uno d...,https://sanluis....,el_universal,sanluis.eluniver...,9


In [None]:
noticias_df.drop_duplicates(subset=['title'], keep='first', inplace='true')