In [7]:
import requests
import json
from io import StringIO
import numpy as np

In [2]:
topics_mx_request = requests.get('https://trends.google.com/trends/api/topcharts?hl=en-US&tz=300&date=2017&geo=MX')
topics_global_request = requests.get('https://trends.google.com/trends/api/topcharts?hl=en-US&tz=300&date=2017&geo=GLOBAL')
cat_request = requests.get('https://gist.githubusercontent.com/Mackaber/545610649e6a32a5723af78d8069369b/raw/3a9889bf1336d9fd3e05882d7d028138e6586374/mexico_interest_dataset.json')

print('Status')
print('Topics MX:', topics_mx_request.status_code)
print('Topics Global:', topics_global_request.status_code)
print('Categories:', cat_request.status_code)

Status
Topics MX: 200
Topics Global: 200
Categories: 200


In [10]:
top_mx = json.load(StringIO(topics_mx_request.text[topics_mx_request.text.find('\n')+1:]))
top_global = json.load(StringIO(topics_global_request.text[topics_global_request.text.find('\n')+1:]))

categories = cat_request.json()
topics = [item for sublist in top_mx['topCharts'] for item in sublist['listItems']] + [item for sublist in top_global['topCharts'] for item in sublist['listItems']]

unique_topics = set(topics)

In [6]:
class Category:
    def __init__(self, cat_id, name, parent=None):
        self.weight = 1
        self.name = name
        self.parent = parent
        self.children = []
        self.cat_id = cat_id
        
        if parent is not None:
            parent.add_child(self)
        
    def add_child(self, child):
        self.children.append(child)
        child.parent = self
        
        for c in children:
            c.weight = 1 / len(children)
            
    def add_parent(self, parent):
        parent.add_child(self)
        
    def is_descendant_of(self, cat):
        if(self.parent is None):
            return False
        
        if(self.parent is cat):
            return True
        
        return self.parent.is_descendant_of(cat)
        
class Topic:
    def __init__(self, name, categories=[]):
        self.name = name
        self.categories = categories[:]
        
        # Remover ascendencia de categorias (son redundantes)
        # Complejidad: O(mn^2) donde m es la altura maxima del arbol de categorias.
        # Quizas se pueda mejorar pero dudo que un tema tenga muchas categorias
        for c1 in self.categories:
            for c2 in self.categories:
                if c1.is_descendant_of(c2):
                    self.categories.remove(c1)
    
    
    '''
        Esta funcion retorna un arreglo con los pesos de categoria calculados de la
        siguiunte forma:
        
        - Si la categoria fue asignada al tema, esta tiene un peso de 1
        - Si la categoria es un hijo de una categoria asignada, se pondera
          esta categoria proporcional a la cantidad de hermanos que tiene
        - Si la categoria es padre de una categoria asignada, se pondera esta
          categoria proporcional a la ponderacion del hijo 
    '''
    def categorization_array(self, n_cat):
        mat = np.zeros(n_cat)
        
        for cat in self.categories:
            mat[cat.cat_id] = 1
            
            for ch in cat.children:
                # Cada hijo tiene un peso equivalente a
                # una fraccion del padre
                mat[ch.cat_id] = ch.weight
            
            # Iterar por padres
            par = cat.parent
            w = cat.weight
            while(par is not None):
                # Cada padre tiene un peso equivalente
                # a la fraccion del hijo
                mat[par.cat_id] = w
                w *= par.weight
        
        return mat
                
                

{'13 Reasons Why',
 'Aaron Hernandez',
 'Accidente en Reforma',
 'Adam West',
 'American Gods',
 'Ana Winocur',
 'April the Giraffe',
 'Ariana Grande',
 'Australian Open',
 'BMC election',
 'Baahubali 2: The Conclusion',
 'Bad and Boujee',
 'Beauty and the Beast',
 'Big Brother Brasil',
 'Bigg Boss',
 'Bill Paxton',
 'Bill Skarsgård',
 'Bimba Bosé',
 'Bitcoin',
 'Brad Bufanda',
 'British Columbia election',
 'Buen Fin',
 'Caer en Tentación',
 'Camila Sodi',
 'Canelo vs Chávez',
 'Canelo vs GGG',
 'Cardi B',
 'Cash Me Outside Meme',
 'Cataluña',
 'Charlie Murphy',
 'Chester Bennington',
 'Chicken breast recipe',
 'Chris Cornell',
 'Closer',
 'Coco',
 'Coleslaw recipe',
 'Corea del Norte',
 'Cómo contribuye la brea a los restos fósiles',
 'Cómo dibujar',
 'Cómo hacer slime',
 'Cómo hacer un folleto',
 'Cómo hacer un spinner',
 'Cómo hacer una catrina',
 'Cómo se escribe Halloween',
 'Cómo se fabrica el vidrio',
 'Cómo se puede utilizar la energía solar',
 'Cómo ser un Latin Lover',
 'Cóm

In [11]:
display(categories)

[{'key': 'Interests > Business and industry',
  'name': 'Business and industry',
  'parent': 'Interests',
  'path': ['Interests'],
  'raw_name': 'Business and industry'},
 {'audience_size': 10000000,
  'id': '6003584163107',
  'key': 'Interests > Business and industry > Advertising',
  'name': 'Advertising',
  'parent': 'Interests > Business and industry',
  'path': ['Interests', 'Business and industry'],
  'raw_name': 'Advertising',
  'type': 'interests'},
 {'audience_size': 9200000,
  'id': '6003840140052',
  'key': 'Interests > Business and industry > Agriculture',
  'name': 'Agriculture',
  'parent': 'Interests > Business and industry',
  'path': ['Interests', 'Business and industry'],
  'raw_name': 'Agriculture',
  'type': 'interests'},
 {'audience_size': 10000000,
  'id': '6004140335706',
  'key': 'Interests > Business and industry > Architecture',
  'name': 'Architecture',
  'parent': 'Interests > Business and industry',
  'path': ['Interests', 'Business and industry'],
  'raw_n