# Proyecto web (Semana 3)

Para este proyecto nos fue solicitado que realizaramos dos tareas:
1. Hacer uso de un API para generar un dataset.
2. Aplicar web scraping para generar un dataset.

Estas dos tareas deben resultar en los siguientes archivos:
1. Un archivo ".csv" en el cual tengamos el dataset generado via API.
2. Un archivo ".csv" en el cual tengamos el dataset generado via API, aplicando labores de limpieza y manipulación.
3. Un archivo ".csv" en el cual tengamos el dataset generado via web scraping.
4. Un archivo ".csv" en el cual tengamos el dataset generado via web scraping, aplicando labores de limpieza y manipulación.

# Ideas para el proyecto.

Considerando que los datos son la materia prima para proyectos de analitica, decidí utilizar el API de un gran sitio (Kaggle) que contiene datasets sobre diferentes temas, la gran mayoria de manera pública.

En el caso del web scraping decidí tomar una página que contiene un gran número de modelos en 3D, y obtener información acerca de cada uno de ellos.

# API 

Lo primero que realice para el uso del API, fue instalar un wrapper que ofrece el API de Kaggle.

In [None]:
#import sys
#!{sys.executable} -m pip install mdutils kaggle 

Continue con una celda para realizar todos los imports que se vayan requiriendo a lo largo del proyecto.

In [None]:
import requests
from kaggle.api.kaggle_api_extended import KaggleApi
import time
import pandas as pd
import json
import operator
from bs4 import BeautifulSoup
import re

El wrapper del API de Kaggle realiza la autentificación con los siguientes comandos.

In [None]:
api = KaggleApi({"username":"","key":""})
api.authenticate()

En este momento estamos autorizados para utilizar el API a partir de todos los métodos que provee el wrapper. En teoría el API de kaggle es más fácil de usar desde un shell, y su documentación (https://github.com/Kaggle/kaggle-api) esta redactada para su uso en shell. Pero es completamente factible traducir todos sus comandos al metodo incluido en el wrapper. Algunos de los comandos disponibles se enlistan a continuación:

| Comando                  | Parametros                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   | Descripción                                                                                                                                                                      |
|--------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| dataset_list()           | sort_by: how to sort the result, see valid_dataset_sort_bys for options size: the size of the dataset, see valid_dataset_sizes for string options file_type: the format, see valid_dataset_file_types for string options license_name: string descriptor for license, see valid_dataset_license_names tag_ids: tag identifiers to filter the search search: a search term to use (default is empty string) user: username to filter the search to mine: boolean if True, group is changed to "my" to return personal page: the page to return (default is 1) | Comando para realizar búsqueda de datasets, los parámetros extra permiten ordenarlos, filtrar por tags, página que obtener, buscar datasets por usuario y otras caracteristicas. |
| dataset_view()           | :param str owner_slug: Dataset owner (required) :param str dataset_slug: Dataset name (required)                                                                                                                                                                                                                                                                                                                                                                                                                                                             | Ver metadatos de un dataset.                                                                                                                                                     |
| dataset_metadata()       | dataset: name dataset path: its obtain with the name of the dataset.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | Ver metadatos de un dataset.                                                                                                                                                     |
| dataset_list_files()     | dataset: the string identified of the dataset should be in format [owner]/[dataset-name]                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | Lista los archivos presentes en el dataset.                                                                                                                                      |
| dataset_download_file()  | dataset: the string identified of the dataset should be in format [owner]/[dataset-name] file_name: the dataset configuration file path: if defined, download to this location force: force the download if the file already exists (default False) quiet: suppress verbose output (default is True)                                                                                                                                                                                                                                                         | Descarga un archivo presente  en un dataset.                                                                                                                                     |
| dataset_download_files() | dataset: the string identified of the dataset should be in format [owner]/[dataset-name] path: the path to download the dataset to force: force the download if the file already exists (default False) quiet: suppress verbose output (default is True) unzip: if True, unzip files upon download (default is False)                                                                                                                                                                                                                                        | Descacarga todos los archivos  de un dataset.                                                                                                                                    |
| download_file()          | response: the response to download outfile: the output file to download to quiet: suppress verbose output (default is True) chunk_size: the size of the chunk to stream                                                                                                                                                                                                                                                                                                                                                                                      | También descarga un archivo.                                                                                                                                                     |

## Extraer data.

Para mi proyecto me interesa obtener datasets que tengan relación palabras clave que yo seleccione, para esto construyo una lista con dichas palabras, en ella preferentemente hay que agregar palabras en inglés.

In [None]:
intereses = ['currencies','currency','forex','finance','exchanges','tweets','news','fake news']

Continue realizando una búsqueda en la API con cada interes, decidí agregar una pausa entre cada solicitud a la API de un 1.5s.

In [None]:
datasets_category = pd.DataFrame()
result_busqueda_list = []
categoria_list = []

for interes in intereses:
    time.sleep(1.5)
    response = api.dataset_list(search=interes)
    if len(response) != 0:
        result_busqueda_list.extend(response)
        categoria_list.extend(((interes+',')*len(response)).split(',')[:-1])
    
datasets_category['Dataset'] = result_busqueda_list
datasets_category['Category'] = categoria_list

In [None]:
print('Se obtuvieron %i datasets en la busqueda sobre los interes seleccionados.' % len(datasets_category))

Revisamos si existen repeticiones en los resultados de busqueda.

In [None]:
if len(set(datasets_category['Dataset'])) != len(datasets_category):
    print('Existen datasets repetidos')
else:
    print('No hay datasets repetidos')

Para cada uno de los datasets encontrados en la búsqueda descargaremos sus metadatos.

In [None]:
metadata_datasets_list = []
for dataset in datasets_category['Dataset']:
    time.sleep(1)
    owner_name = str(dataset).split('/')[0]
    name = str(dataset).split('/')[1]
    metadata_datasets_list.append(api.datasets_view(owner_name,name))

In [None]:
metadata_keys = ['id', 'ref', 'subtitle', 'tags', 'creatorName', 'creatorUrl',
                 'totalBytes', 'url', 'lastUpdated', 'downloadCount', 'isPrivate',
                 'isReviewed', 'isFeatured', 'licenseName', 'description', 'ownerName',
                 'ownerRef', 'kernelCount', 'title', 'topicCount', 'viewCount', 'voteCount',
                 'currentVersionNumber', 'files', 'versions', 'usabilityRating']

In [None]:
metadata_df = pd.DataFrame(metadata_datasets_list)

Guardamos el dataset sin limpiar

In [None]:
metadata_df.to_csv('dataset_api.csv')

## Selección de columnas

Seleccioné las columnas que considero útiles.

In [None]:
useful_key_metadata = ['title','subtitle','description','lastUpdated','ref','totalBytes','url','tags','downloadCount','licenseName',
                       'kernelCount','versions','usabilityRating'] 

In [None]:
dataset = metadata_df[useful_key_metadata]
dataset

## Identificando valores nulos.

Buscamos datos que no sean un valor.

In [None]:
missing_values = dataset.isna().sum()
missing_values

No se encontraron valores nulos.

## Manipulación del dataset

Agregamos la columna de categoría de búsqueda con la que iniciamos.

In [None]:
dataset['category'] = categoria_list

### Columna total bytes.

Modificamos el valor base de la columna de "Bytes" a "Mega bytes" 

In [None]:
byte_to_gb = lambda x: x/1000000
dataset["totalBytes"] = dataset["totalBytes"].apply(byte_to_gb)
dataset = dataset.rename(columns = {"totalBytes":"totalGigaBytes"})
dataset.head(3)

## Columna Tags.

En la columna "tags" encontramos referencias a los grupos en los cuales se encuentra clasificado el dataset.
Esta columna varia de dataset a dataset. Sin embargo nos permite tener aún más grupos sobre los cuales realizar
busquedas con resultados que puedan ser de interes al usuario.

Para esta columna realizaremos una extracción de todas las etiquetas y obtenemos la frecuencia de un set para evitar repeticiones,además de que presentaremos las tres más frecuentes al usuario de manera que este pueda usarlas en una búsqueda de intereses aún mayor.

In [None]:
suggest_interest = [element['ref'] for tag in dataset['tags'] for element in tag]
set_suggest = set(suggest_interest)
dict_freq_suggest = {k:suggest_interest.count(k) for k in set_suggest}
sorted_tups = sorted(dict_freq_suggest.items(), key=operator.itemgetter(1))
print(sorted_tups[-10:])

Estas sugerencias se pueden interpretar como los hashtag que contiene el dataset, por tanto hay que ser cuidadosos al seleccionar nuevos intereses de la lista.

Así también tenemos valores vacios para la columna etiquetas, así que sustituiremos la columna tags
por "number of tags"

In [None]:
num_tags = lambda x: len(x)
dataset["tags"] = dataset["tags"].apply(num_tags)
dataset = dataset.rename(columns = {"tags":"numberOfTags"})
dataset.head(3)

## Columna Versions

La columna versions contiene al menos una versión para el dataset, sin embargo en caso de que tenga más solo sería
de nuestro interes la última versión y su fecha.

In [None]:
dataset["versions"][0][0]

In [None]:
last_version = lambda x: str(x[0]['status']) + ' version: ' +  str(x[0]['versionNumber']) + ', ' + str(x[0]['creationDate'])
dataset["versions"] = dataset["versions"].apply(last_version)
dataset = dataset.rename(columns = {"versions":"lastVersion"})
dataset.head(3)

## Análisis.

Finalmente por ahora, podemos utilizar cada una de las columnas disponibles para realizar algunos filtros con los cuales obtener información interesante.

### Mejor score de utilidad.

In [None]:
dataset.sort_values(['usabilityRating'],ascending=False)

### Mayor tamaño

In [None]:
dataset.sort_values(['totalGigaBytes'],ascending=False)

### El más utilizado.

In [None]:
dataset.sort_values(['kernelCount'],ascending=False)

Guardamos el dataset limpio.

In [None]:
dataset.to_csv('dataset_api_clean.csv')

# Web scraping.

Algo que siempre me ha gustado son los modelos 3D, estos pueden ser útiles para empresas de videojuegos, para la industria de la animación y algunos otros sectores.

La primera página que encontre con cientos de modelos de pago y gratuitos para descargar fue: https://www.turbosquid.com/

Mi objetivo será hacer web scraping a su sitio y obtener información útil para cada uno de los modelos 3D diponibles.

Generé la clase que utilizaré para realizar el scraping tomando como base el trabajo en el lab de web scraping avanzado.

In [None]:
class WebSpider:
    """
    This is the constructor class to which you can pass a bunch of parameters. 
    These parameters are stored to the class instance variables so that the
    class functions can access them later.
    
    url_pattern: the regex pattern of the web urls to scape
    pages_to_scrape: how many pages to scrape
    sleep_interval: the time interval in seconds to delay between requests. If <0, requests will not be delayed.
    content_parser: a function reference that will extract the intended info from the scraped content.
    """
    def __init__(self, url_pattern, pages_to_scrape=10, sleep_interval=-1, content_parser=None):
        self.url_pattern = url_pattern
        self.pages_to_scrape = pages_to_scrape
        self.sleep_interval = sleep_interval
        self.content_parser = content_parser
        self.output = []
    """
    Scrape the content of a single url.
    """
    def scrape_url(self, url):
        response = requests.get(url)
        if str(response) != '<Response [200]>':
            print('Error en la respuesta del servidor',response)
        elif str(response) == '<Response [408]>':
            print('Error en el limite de tiempo de respuesta del servidor')
        elif str(response) == '<Response [429]>':
            print('Error demasiadas peticiones')
        # I didn't find the SSL error but I add a 404 error catching.
        elif str(response) == '<Response [404]>':
            print('No se encontro el contenido')
        else:
            result = self.content_parser(response.content)
            self.output_results(result)
    
    """
    Export the scraped content. Right now it simply print out the results.
    But in the future you can export the results into a text file or database.
    """
    def output_results(self, r):
        self.output.extend(r)
        print('Se agregaron %i url a la lista' % (len(r)))
    """
    After the class is instantiated, call this function to start the scraping jobs.
    This function uses a FOR loop to call `scrape_url()` for each url to scrape.
    """
    def kickstart(self):
        for i in range(1, self.pages_to_scrape+1):
            if self.sleep_interval > 0:
                time.sleep(self.sleep_interval)
                self.scrape_url(self.url_pattern % i)
            else:
                self.scrape_url(self.url_pattern % i)
        return self.output

La estructura del sítio resulto ser no tan mala, sin duda una más que utiliza los div de manera impulsiva pero encontramos el url del modelo en los "div" de clase "thumbnail thumbnail-md".

La estructura para el paginado es la siguiente:

"https://www.turbosquid.com/Search/3D-Models?page_num=2&sort_column=a5&sort_order=asc"

Ya que he utilizado sus herramientas de filtrado para ordenar de menor a mayor costo, y tener los modelos gratuitos al inicio.


In [None]:
# Hacemos una prueba para la página 0
response = requests.get('https://www.turbosquid.com/Search/3D-Models?sort_column=a5&sort_order=asc')
print(response)
content = response.content
soup_prueba = BeautifulSoup(content,'html')
divs_modelos = soup_prueba.find_all('div',{'class':'thumbnail thumbnail-md'})
divs_modelos

In [None]:
# Para obtener el url del modelo necesitamos llegar a:
divs_modelos[0].select('a')[0]['href']

Aplicando esto a toda la página de prueba:

In [None]:
urls_modelos = [div.select('a')[0]['href'] for div in divs_modelos]

In [None]:
print('Tenemos %i modelos por página' % len(urls_modelos))

In [None]:
print('Dentro de la página hay %i modelos' % (100*7668) )

Por lo tanto la función para el scraping de las url de los modelos queda de la siguiente forma:

In [None]:
def web_parser(content):
    soup_prueba = BeautifulSoup(content,'html')
    divs_modelos = soup_prueba.find_all('div',{'class':'thumbnail thumbnail-md'})
    urls_modelos = [div.select('a')[0]['href'] for div in divs_modelos]
    return urls_modelos

In [None]:
# 3D models
# https://www.turbosquid.com/Search/3D-Models?sort_column=a5&sort_order=asc
URL_PATTERN = 'https://www.turbosquid.com/Search/3D-Models?page_num=%i&sort_column=a5&sort_order=asc' # regex pattern for the urls to scrape
PAGES_TO_SCRAPE = 10 # how many webpages to scrapge
SLEEP_INTERVAL = 1

# Instantiate the IronhackSpider class
project_spider = WebSpider(URL_PATTERN,PAGES_TO_SCRAPE,SLEEP_INTERVAL, content_parser = web_parser)

# Start scraping jobs
urls_modelos_pages = project_spider.kickstart()

Un siguiente paso es obtener información sobre cada uno de los modelos entrando a la url obtenida y realizar scraping de nuevo, en este caso nos interesa obtener la siguiente información:

1. Nombre del modelo, div class productTitle
2. Dueño del modelo, div class productArtist
3. Precio del modelo, div class priceSection price
4. Licencia de uso, div class LicenseUses
5. Fecha de publicación
6. Formatos incluidos, tabla clase exchange
7. Categorias agregadas al modelo, accediendo al div class categorySection
8. Tags agragados al modelo, accediendo al div class tagSection
9. Descripción del modelo, accediendo al div class descriptionSection


Definimos una nueva clase de Spider.

In [None]:
class ModelsSpider:
    """
    This is the constructor class to which you can pass a bunch of parameters. 
    These parameters are stored to the class instance variables so that the
    class functions can access them later.
    
    url_pattern: the regex pattern of the web urls to scape
    pages_to_scrape: how many pages to scrape
    sleep_interval: the time interval in seconds to delay between requests. If <0, requests will not be delayed.
    content_parser: a function reference that will extract the intended info from the scraped content.
    """
    def __init__(self, urls_pages, sleep_interval=-1, content_parser=None):
        self.urls_pages = urls_pages
        self.sleep_interval = sleep_interval
        self.content_parser = content_parser
        self.output = []
    """
    Scrape the content of a single url.
    """
    def scrape_url(self, url):
        response = requests.get(url)
        if str(response) != '<Response [200]>':
            print('Error en la respuesta del servidor',response)
        elif str(response) == '<Response [408]>':
            print('Error en el limite de tiempo de respuesta del servidor')
        elif str(response) == '<Response [429]>':
            print('Error demasiadas peticiones')
        # I didn't find the SSL error but I add a 404 error catching.
        elif str(response) == '<Response [404]>':
            print('No se encontro el contenido')
        else:
            result = self.content_parser(response.content)
            self.output_results(result)
    
    """
    Export the scraped content. Right now it simply print out the results.
    But in the future you can export the results into a text file or database.
    """
    def output_results(self, r):
        self.output.append(r)
    """
    After the class is instantiated, call this function to start the scraping jobs.
    This function uses a FOR loop to call `scrape_url()` for each url to scrape.
    """
    def kickstart(self):
        for i in self.urls_pages:
            if self.sleep_interval > 0:
                time.sleep(self.sleep_interval)
                self.scrape_url(i)
            else:
                self.scrape_url(i)
        return self.output

Definimos un nuevo parser para extraer los datos de cada página.

In [None]:
def model_parser(content):
    check_content = lambda x: True if x != [] else False
    soup_prueba = BeautifulSoup(content,'html')
    try: 
        check_content(soup_prueba.find_all('div',{'class':'productTitle'})[0].select('h1')[0]['content'])
        nombre = soup_prueba.find_all('div',{'class':'productTitle'})[0].select('h1')[0]['content']
    except:
        nombre = ''
    try: 
        check_content(soup_prueba.find_all('div',{'class':'productArtist'})[0].text[3:])
        dueño = soup_prueba.find_all('div',{'class':'productArtist'})[0].text[3:]
    except:
        dueño = ''
    try: 
        check_content(soup_prueba.find_all('div',{'class':'priceSection price'})[0].text)
        precio = soup_prueba.find_all('div',{'class':'priceSection price'})[0].text
    except:
        precio = ''
    try: 
        check_content(soup_prueba.find_all('div',{'class':'LicenseUses'})[0].text)
        licencia = soup_prueba.find_all('div',{'class':'LicenseUses'})[0].text
    except:
        licencia = ''
    try: 
        check_content(soup_prueba.find_all('table',{'class':'SpecificationTable'})[0].select('time')[0]['datetime'])
        fecha_pub = soup_prueba.find_all('table',{'class':'SpecificationTable'})[0].select('time')[0]['datetime']
    except:
        fecha_pub = ''
    try: 
        check_content(soup_prueba.find_all('table',{'class':'exchange'})[0].text)
        formatos = soup_prueba.find_all('table',{'class':'exchange'})[0].text
    except:
        formatos = ''
    try: 
        check_content(soup_prueba.find_all('div',{'class':'FeatureGraphCategories'})[0].select('a'))
        categorias = soup_prueba.find_all('div',{'class':'FeatureGraphCategories'})[0].select('a')
        links_categorias = [categoria['href'] for categoria in categorias]
        list_categorias = [categoria.text for categoria in categorias]
    except:
        links_categorias = []
        list_categorias = []
    try: 
        check_content(soup_prueba.find_all('div',{'class':'tagSection'})[0].select('a'))
        tags = soup_prueba.find_all('div',{'class':'tagSection'})[0].select('a')
        links_tags = [tag['href'] for tag in tags]
        list_tags = [tag.text for tag in tags]
    except:
        links_tags = []
        list_tags = []
    try: 
        check_content(soup_prueba.find_all('div',{'class':'descriptionSection'})[0].select('.descriptionContentParagraph')[0].text)
        descripcion = soup_prueba.find_all('div',{'class':'descriptionSection'})[0].select('.descriptionContentParagraph')[0].text
    except:
        descripcion = ''
    row_dataset = [nombre,dueño,precio,licencia,fecha_pub,formatos,list_categorias,links_categorias,list_tags,links_tags,descripcion]
    return row_dataset

In [None]:
SLEEP_INTERVAL = 0.5

# Instantiate the IronhackSpider class
project_spider_models = ModelsSpider(urls_modelos_pages,SLEEP_INTERVAL, content_parser = model_parser)

# Start scraping jobs
rows_dataset = project_spider_models.kickstart()

In [None]:
rows_dataset[0]

In [None]:
dataset_scraping = pd.DataFrame(rows_dataset)
dataset_scraping.columns = [['name_model','owner','price','license','published_date','formats_available','list_categories','links_categories','list_tags','links_tags','description']]
dataset_scraping

Por el momento he realizado el scraping a 10 páginas del sitio, con cien modelos, lo que representa 1000 requests. He mantenido este número por la posibilidad de que bloquen la dirección IP, sin embargo puede modificarse el parametro del primer Spider y tratar de obtener los url de todos los modelos disponibles.

In [None]:
# Guardamos en archivo csv los resultados obtenidos.
dataset_scraping.to_csv('dataset_scraping.csv',index=False)

## Limpieza de datos.

Es necesario aplicar una limpieza a los datos.

Revisamos la cantida de valores vacios

In [None]:
missing_values_scraping = dataset_scraping.isna()
missing_values_scraping = missing_values_scraping.sum()
missing_values_scraping

## Columna name_model

En este caso podemos darle un formato más limpio a los nombres (capitalize) y eliminar palabras que son innecesarias.

With the name we now that all are 3D models, so we remove this word for all the names.

In [None]:
dataset_scraping.columns

Here I had a problem because I got a multiindex dataframe, so I had to apply some extra steps each time I wanted to modify a column.

In [None]:
nombres = dataset_scraping['name_model']
nombres = [nombres.loc[[i]].values[0][0] for i in range(len(nombres))]
nombres = [nombre.replace('3D ','').replace('model ','').replace('3D','').replace('model','').capitalize() for nombre in nombres]
dataset_scraping['name_model'] = nombres

## Columna price.

Primero nos damos una idea de la variedad de precios en esta columna.

In [None]:
prices = dataset_scraping['price']
prices = [prices.loc[[i]].values[0][0] for i in range(len(prices))]

Parece que dentro de los primeros 1000 modelos todos son gratuitos, por lo que solo limpiamos un poco el string.

In [None]:
dataset_scraping['price'] = [re.sub(r'\n','',price) for price in prices]
dataset_scraping

## Columna formats_available

Para esta columna necesitamos un formao similar a la columna price, solo que generamos una lista de formatos.

In [None]:
formatos = dataset_scraping['formats_available']
formatos = [formatos.loc[[i]].values[0][0] for i in range(len(formatos))]

In [None]:
dataset_scraping['formats_available'] = [re.findall(r'\b\w+\s(?:\w+)?',str(formato)) for formato in formatos]
dataset_scraping

Finalmente podemos hacer un reordenamiento de las columnas.

In [None]:
orden_columnas = ['name_model', 'description','owner','price','license','published_date',
                  'formats_available','list_categories','links_categories','list_tags','links_tags']

In [None]:
dataset_scraping = dataset_scraping[orden_columnas]
dataset_scraping

Ahora sustituimos los valores nulos y listas vacias por la cadena "Unknown"

In [None]:
dataset_scraping.fillna('No disponible')
change_to_unknown = lambda x: 'Unknown' if x == [] else x
for i in dataset_scraping.columns:
    dataset_scraping[i] = dataset_scraping[i].apply(change_to_unknown)
dataset_scraping

Guardamos el dataset limpio.

In [None]:
dataset_scraping.to_csv('datase_scraping_clean.csv',index=False)

## Análisis.

Ahora podemos obtener las categorias o etiquetas más frecuentes.

In [None]:
lista_categorias = dataset_scraping['list_categories']
lista_categorias = [lista_categorias.loc[[i]].values[0][0] for i in range(len(lista_categorias))]
lista_categorias_total = [categoria for lista in lista_categorias for categoria in lista]
set_categorias = set(lista_categorias_total)
dict_freq_categories = {k:lista_categorias_total.count(k) for k in set_categorias}
freq_categories_order = sorted(dict_freq_categories.items(), key=operator.itemgetter(1))
print('Categorias más frecuentes en orden ascendente:')
print(freq_categories_order[-10:])

In [None]:
lista_etiquetas = dataset_scraping['list_tags']
lista_etiquetas = [lista_etiquetas.loc[[i]].values[0][0] for i in range(len(lista_etiquetas))]
lista_etiquetas_total = [etiqueta for lista in lista_etiquetas for etiqueta in lista]
set_etiquetas = set(lista_etiquetas_total)
dict_freq_tags = {k:lista_etiquetas_total.count(k) for k in set_etiquetas}
freq_tags_order = sorted(dict_freq_tags.items(), key=operator.itemgetter(1))
print('Categorias más frecuentes en orden ascendente:')
print(freq_tags_order[-10:])

Buscar los "dueños" más frecuentes.

In [None]:
dueños = dataset_scraping['owner']
dueños = [dueños.loc[[i]].values[0][0] for i in range(len(dueños))]
len(set(dueños))

In [None]:
dueños_dict = {k:dueños.count(k) for k in set(dueños)}
freq_dueños_order = sorted(dueños_dict.items(), key=operator.itemgetter(1))
print('Los dueños con más modelos en orden ascendente:')
print(freq_dueños_order[-10:])

La posibilidad de filtrar para encontrar información relevante sobre que dueño es el más activo con base en la fecha de publicación de sus modelos y el número de modelos es posible calcularla con base en el dataset limpio.

Ahora bien como podemos ver tambien sería interesante analizar información sobre los modelos de pago que desgrciadamente no alcanzamos a obtener debido a la inmensa cantidad de modelos que hay en la página. Por ahora se han prácticado las habilidades de uso de APIs y web scraping.