# Map URL categories to fixed categories

The purpose of this script is to map variable categories in the URL paths
to fixed categories that will be used by the api-end-point

In [1]:
import pymongo
import pandas as pd
import os
from urllib.parse import urlparse, parse_qs
import pickle

# This option allows you to see all of the columns
pd.set_option('display.max_columns', None)

# This option allows you to see the entire URL, for example
pd.options.display.max_colwidth = 200

In [2]:
# This function is used to extract categories from URL paths
# Also return example URL from each category
def get_category_from_url(target_publication, path_number):
    
    subset = data[data['publication']==target_publication]
    
    categories = []
    
    examples = {}

    for i in range(0, len(subset)):
        
        targetURL = subset['url'].iloc[i]
        parsed_url = urlparse(targetURL)
        parsed = parsed_url.path
        local_category = parsed.split('/')[path_number]
        categories.append(local_category)
        examples[local_category] = targetURL

    categories = pd.DataFrame(categories)
    return (categories[0].value_counts(), examples.values())

In [3]:
mongoPass = os.environ['mongoPass']
myclient = pymongo.MongoClient("mongodb+srv://axme100:{}@cluster0-5jopz.mongodb.net/test?retryWrites=true&w=majority".format(mongoPass))
mydb = myclient["finalProject"]
# Create a new colection called raw article
mycol = mydb["rawArticles"]
cursor = mycol.find()
data = pd.DataFrame(list(cursor))

In [4]:
data.publication.value_counts()

EFE (España)                 1507
Excelsior                    1277
EFE (América)                1006
La Jornada                    843
El país (España)              832
Expansión - Portada           178
El país (América)             167
Expansión - Emprendedores      50
Expansión - Dinero             49
Expansión - Nacional           49
Expansión - Carrera            49
Expansión - Opinión            45
Expansión - Tecnología         41
Expansión - Empresas           34
Name: publication, dtype: int64

# EFE (España)

In [5]:
efe_espana = get_category_from_url('EFE (España)', 3)
print(efe_espana)

(deportes-redes-sociales    396
deportes                   183
sociedad                   153
cultura                    136
politica                   112
economia                   110
portada                     80
practicodeporte             78
mundo                       57
gente                       47
destacada                   39
efemotor                    29
efefuturo                   24
efeempresas                 16
efeestilo                   14
comunicados                  7
mexico-empresas              6
reportajes                   6
mexico                       5
efeverifica                  3
efetur                       3
efeemprende                  3
Name: 0, dtype: int64, dict_values(['https://www.efe.com/efe/espana/deportes-redes-sociales/muere-en-brasil-el-tecnico-valdir-espinosa-campeon-del-mundial-de-clubes/50001350-4183420?utm_source=wwwefecom&utm_medium=rss&utm_campaign=rss', 'https://www.efe.com/efe/espana/deportes/rubiales-mientras-sea-presidente-no-va-

In [6]:
efe_espana_terms = {'deportes-redes-sociales': 'deportes',
'deportes': 'deportes',
'sociedad': 'cultura-sociedad',
'cultura': 'cultura-sociedad',
'politica': 'política',
'economia': 'economía',
'portada': 'otro',
'practicodeporte': 'deportes',
'mundo': 'mundo',
'gente': 'chisme',
'destacada': 'otro',
'efemotor': 'tecnología',
'efefuturo': 'tecnología',
'efeempresas': 'negocios',
'efeestilo': 'moda',
'mexico-empresas': 'méxico',
'comunicados': 'otro',
'reportajes': 'otro',
'mexico': 'méxico',
'efeverifica': 'otro',
'efeemprende': 'otro',
'efetur': 'otro'}

In [7]:
efe_america = get_category_from_url('EFE (América)', 3)
efe_america

(sociedad                   248
 deportes                   211
 cultura                    118
 mexico                     109
 politica                    98
 economia                    94
 mundo                       63
 comunicados                 27
 gente                       21
 reportajes                   7
 tecnologia                   5
 portada                      4
 deportes-redes-sociales      1
 Name: 0, dtype: int64,
 dict_values(['https://www.efe.com/efe/america/deportes/muere-en-brasil-el-tecnico-valdir-espinosa-campeon-del-mundial-de-clubes/20000010-4183420?utm_source=wwwefecom&utm_medium=rss&utm_campaign=rss', 'https://www.efe.com/efe/america/cultura/la-mayor-coleccion-privada-de-neruda-se-pone-a-venta-en-barcelona/20000009-4183354?utm_source=wwwefecom&utm_medium=rss&utm_campaign=rss', 'https://www.efe.com/efe/america/sociedad/crucero-sigue-frente-a-isla-mexicana-cozumel-esperando-permiso-de-desembarque/20000013-4183383?utm_source=wwwefecom&utm_medium=rss&utm_cam

In [8]:
efe_america_terms = {"sociedad": "mundo",
"deportes": "deportes",
"cultura": "mundo",
"mexico": "méxico",
"politica": "politica",
"economia": "economía",
"mundo": "mundo",
"gente": "chisme",
"comunicados": "otro",
"reportajes": "otro",
"tecnologia": "tecnología",
"portada": "otro",
"deportes-redes-sociales": "deportes"}

In [9]:
el_pais_america = get_category_from_url('El país (América)', 1)
el_pais_america

(elpais           46
 internacional    41
 cultura          23
 economia         18
 sociedad         13
 verne             8
 deportes          6
 retina            4
 elviajero         2
 elcomidista       1
 gente             1
 mrss-s            1
 cincodias         1
 politica          1
 diario            1
 Name: 0, dtype: int64,
 dict_values(['https://elpais.com/internacional/2020/02/01/actualidad/1580571998_684729.html', 'https://elpais.com/elpais/2019/02/19/planeta_futuro/1550599103_443707.html', 'https://elpais.com/cultura/2020/02/26/babelia/1582720365_799984.html', 'https://elpais.com/sociedad/2020/02/18/actualidad/1582046433_957378.html', 'https://elpais.com/economia/2020/02/27/actualidad/1582776346_417059.html', 'https://verne.elpais.com/verne/2019/11/30/mexico/1575076665_430100.html', 'https://elviajero.elpais.com/elviajero/2019/01/03/actualidad/1546530533_905999.html', 'https://elcomidista.elpais.com/elcomidista/2020/01/10/receta/1578676438_261516.html', 'https://elpais

In [10]:
el_pais_america_terms = {"elpais": "otro",
"internacional": "mundo",
"cultura": "cultura-sociedad",
"economia": "economía",
"sociedad": "cultura-sociedad",
"verne": "otro",
"deportes": "deportes",
"retina": "otro",
"elviajero": "viajes",
"cincodias": "otro",
"elcomidista": "otro",
"politica": "política",
"mrss-s": "otro"}

In [11]:
el_pais_espana = get_category_from_url('El país (España)', 1)
el_pais_espana

(elpais           261
 politica          92
 cultura           92
 sociedad          81
 deportes          66
 internacional     64
 economia          59
 ccaa              35
 verne             18
 cat               12
 retina            12
 elviajero          9
 elcomidista        8
 cincodias          8
 tecnologia         7
 gente              3
 espana             1
 a                  1
 mrss-s             1
 dynclick           1
 diario             1
 Name: 0, dtype: int64,
 dict_values(['https://elpais.com/politica/2020/02/27/actualidad/1582817995_080741.html', 'https://elpais.com/internacional/2019/12/04/actualidad/1575467276_142190.html', 'https://elpais.com/sociedad/2020/02/26/actualidad/1582734638_122366.html?rel=mas', 'https://cincodias.elpais.com/cincodias/2020/02/26/fortunas/1582745939_237807.html', 'https://elpais.com/cultura/2020/02/26/actualidad/1582731991_683126.html', 'https://elpais.com/elpais/2020/02/27/gastronotas_de_capel/1582785884_926164.html', 'https://elpais

In [12]:
el_pais_espana_terms = {"elpais": "cat",
"cultura": "cultura-sociedad",
"politica": "política",
"sociedad": "cultura-sociedad",
"deportes": "deportes",
"internacional": "mundo",
"economia": "economía",
"ccaa": "otro",
"verne": "otro",
"retina": "otro",
"cat": "otro",
"elviajero": "viajes",
"cincodias": "otro",
"elcomidista": "otro",
"tecnologia": "tecnología",
"a": "otro",
"diario": "otro",
"mrss-s": "otro",
"dynclick": "otro"}

In [13]:
excelsior = get_category_from_url('Excelsior', 1)
excelsior

(nacional       345
 comunidad      220
 adrenalina     209
 global         151
 funcion        149
 opinion        113
 trending        58
 expresiones     25
 hacker           6
 multimedia       1
 Name: 0, dtype: int64,
 dict_values(['https://www.excelsior.com.mx/adrenalina/como-celebrar-los-goles-del-clasico-real-madrid-barcelona-en-tiktok/1366634', 'https://www.excelsior.com.mx/comunidad/ayuda-a-localizar-a-anabella-desaparecio-en-naucalpan/1366625', 'https://www.excelsior.com.mx/funcion/champions-magic-un-show-donde-lo-imposible-se-vuelve-real/1366628', 'https://www.excelsior.com.mx/global/vicepresidenta-de-iran-da-positivo-a-coronavirus/1366631', 'https://www.excelsior.com.mx/nacional/apoya-la-semar-a-buzo-en-islas-marias-en-nayarit/1366629', 'https://www.excelsior.com.mx/trending/se-una-dama-video-que-exhibe-estereotipos-que-mujeres-viven-a-diario/1366523', 'https://www.excelsior.com.mx/hacker/pega-coronavirus-a-apple-para-perfeccionar-nuevos-iphone/1366597', 'https://www.exce

In [14]:
excelsior_terms = {"nacional": "méxico",
"comunidad": "cultura-sociedad",
"adrenalina": "deportes",
"global": "mundo",
"funcion": "otro",
"opinion": "otro",
"trending": "chisme",
"expresiones": "chisme",
"hacker": "tecnología",
"multimedia": "otro"}

In [15]:
la_jornada = get_category_from_url('La Jornada', 4)
la_jornada

(politica        243
 deportes         99
 sociedad         73
 economia         72
 estados          70
 capital          61
 opinion          55
 mundo            54
 cultura          46
 espectaculos     34
 index.php        24
 ciencias         12
 Name: 0, dtype: int64,
 dict_values(['https://www.jornada.com.mx/2020/02/27/opinion/020o1eco?partner=rss', 'https://www.jornada.com.mx/2020/02/27/deportes/a10n2dep?partner=rss', 'https://www.jornada.com.mx/2020/02/27/politica/003n2pol?partner=rss', 'https://www.jornada.com.mx/2020/02/27/espectaculos/a08n1esp?partner=rss', 'https://www.jornada.com.mx/2020/02/27/estados/024n3est?partner=rss', 'https://www.jornada.com.mx/2020/02/27/mundo/022n4mun?partner=rss', 'https://www.jornada.com.mx/2020/02/27/economia/020n2eco?partner=rss', 'https://www.jornada.com.mx/2020/02/27/sociedad/031n2soc?partner=rss', 'https://www.jornada.com.mx/2020/02/27/ciencias/a02n1cie?partner=rss', 'https://www.jornada.com.mx/2020/02/27/cultura/a03n1cul?partner=rss', 'h

In [16]:
la_jornada_terms = {"politica": "política",
"deportes": "deportes",
"sociedad": "cultura-sociedad",
"estados": "méxico",
"economia": "economía",
"capital": "negocios",
"opinion": "otro",
"mundo": "mundo",
"cultura": "cultura-sociedad",
"espectaculos": "otro",
"index.php": "otro",
"ciencias": "tecnología"}

# Create a dictionary that contains the mapping from the periodical to the terms that are being used

In [17]:
url_terms = {**efe_espana_terms, **excelsior_terms, **efe_america_terms, **la_jornada_terms, **el_pais_espana_terms, **el_pais_america_terms}


#url_terms = {
#{'EFE (España)': efe_espana_terms,
#'Excelsior': excelsior_terms,
#'EFE (América)': efe_america_terms,
#'La Jornada': la_jornada_terms,
#'El país (España)': el_pais_espana,
#'El país (América)': el_pais_america_terms}
#}

In [18]:
url_terms

{'deportes-redes-sociales': 'deportes',
 'deportes': 'deportes',
 'sociedad': 'cultura-sociedad',
 'cultura': 'cultura-sociedad',
 'politica': 'política',
 'economia': 'economía',
 'portada': 'otro',
 'practicodeporte': 'deportes',
 'mundo': 'mundo',
 'gente': 'chisme',
 'destacada': 'otro',
 'efemotor': 'tecnología',
 'efefuturo': 'tecnología',
 'efeempresas': 'negocios',
 'efeestilo': 'moda',
 'mexico-empresas': 'méxico',
 'comunicados': 'otro',
 'reportajes': 'otro',
 'mexico': 'méxico',
 'efeverifica': 'otro',
 'efeemprende': 'otro',
 'efetur': 'otro',
 'nacional': 'méxico',
 'comunidad': 'cultura-sociedad',
 'adrenalina': 'deportes',
 'global': 'mundo',
 'funcion': 'otro',
 'opinion': 'otro',
 'trending': 'chisme',
 'expresiones': 'chisme',
 'hacker': 'tecnología',
 'multimedia': 'otro',
 'tecnologia': 'tecnología',
 'estados': 'méxico',
 'capital': 'negocios',
 'espectaculos': 'otro',
 'index.php': 'otro',
 'ciencias': 'tecnología',
 'elpais': 'otro',
 'internacional': 'mundo',
 

In [19]:
list(set([x for x in url_terms.values()]))

['otro',
 'moda',
 'mundo',
 'tecnología',
 'méxico',
 'deportes',
 'chisme',
 'cultura-sociedad',
 'negocios',
 'política',
 'viajes',
 'economía']

In [20]:
filename = 'url_terms'
outfile = open(filename,'wb')
pickle.dump(url_terms,outfile)
outfile.close()