# Objetivos

El objetivo de este notebook es recolectar información para luego realizar un breve análisis sobre las publicaciones con descuentos en el site de MercadoLibre (esto se lleva a cabo en el notebook "analisis").

La información se recolecta a través de las APIS publicas de MercadoLibre (https://developers.mercadolibre.com.ar/es_ar/api-docs-es).

Es importante notar que se tomó en cuenta sólo el site de Argentina y se tomaron 1000 registros (publicaciones) por cada una de las categorías principales del site. 

Este notebook guarda toda la información recolectada en el csv "df_total_original.csv".

# Índice

* [1 - Imports](#1)
* [2 - Recolección de datos](#2)

# 1 - Imports <a id="1"></a>

In [1]:
import numpy as np
import pandas as pd

import time
from time import process_time

from funciones import request_a_diccionario, generar_df

# 2 - Recolección de datos <a id="2"></a>

#### Analizamos los países que hay

In [2]:
lista_paises = request_a_diccionario("https://api.mercadolibre.com/sites")

In [3]:
lista_paises

[{'default_currency_id': 'MXN', 'id': 'MLM', 'name': 'Mexico'},
 {'default_currency_id': 'BOB', 'id': 'MBO', 'name': 'Bolivia'},
 {'default_currency_id': 'CUP', 'id': 'MCU', 'name': 'Cuba'},
 {'default_currency_id': 'USD', 'id': 'MEC', 'name': 'Ecuador'},
 {'default_currency_id': 'USD', 'id': 'MSV', 'name': 'El Salvador'},
 {'default_currency_id': 'NIO', 'id': 'MNI', 'name': 'Nicaragua'},
 {'default_currency_id': 'HNL', 'id': 'MHN', 'name': 'Honduras'},
 {'default_currency_id': 'PAB', 'id': 'MPA', 'name': 'Panamá'},
 {'default_currency_id': 'PEN', 'id': 'MPE', 'name': 'Perú'},
 {'default_currency_id': 'GTQ', 'id': 'MGT', 'name': 'Guatemala'},
 {'default_currency_id': 'CRC', 'id': 'MCR', 'name': 'Costa Rica'},
 {'default_currency_id': 'DOP', 'id': 'MRD', 'name': 'Dominicana'},
 {'default_currency_id': 'VES', 'id': 'MLV', 'name': 'Venezuela'},
 {'default_currency_id': 'COP', 'id': 'MCO', 'name': 'Colombia'},
 {'default_currency_id': 'BRL', 'id': 'MLB', 'name': 'Brasil'},
 {'default_curre

#### Analizamos las categorías que hay

In [4]:
lista_categorias = request_a_diccionario("https://api.mercadolibre.com/sites/MLA/categories")

In [5]:
print("Hay un total de", len(lista_categorias), "categorías.")

Hay un total de 31 categorías.


In [6]:
lista_categorias

[{'id': 'MLA5725', 'name': 'Accesorios para Vehículos'},
 {'id': 'MLA1512', 'name': 'Agro'},
 {'id': 'MLA1403', 'name': 'Alimentos y Bebidas'},
 {'id': 'MLA1071', 'name': 'Animales y Mascotas'},
 {'id': 'MLA1367', 'name': 'Antigüedades y Colecciones'},
 {'id': 'MLA1368', 'name': 'Arte, Librería y Mercería'},
 {'id': 'MLA1743', 'name': 'Autos, Motos y Otros'},
 {'id': 'MLA1384', 'name': 'Bebés'},
 {'id': 'MLA1246', 'name': 'Belleza y Cuidado Personal'},
 {'id': 'MLA1039', 'name': 'Cámaras y Accesorios'},
 {'id': 'MLA1051', 'name': 'Celulares y Teléfonos'},
 {'id': 'MLA1648', 'name': 'Computación'},
 {'id': 'MLA1144', 'name': 'Consolas y Videojuegos'},
 {'id': 'MLA1276', 'name': 'Deportes y Fitness'},
 {'id': 'MLA5726', 'name': 'Electrodomésticos y Aires Ac.'},
 {'id': 'MLA1000', 'name': 'Electrónica, Audio y Video'},
 {'id': 'MLA2547', 'name': 'Entradas para Eventos'},
 {'id': 'MLA407134', 'name': 'Herramientas y Construcción'},
 {'id': 'MLA1574', 'name': 'Hogar, Muebles y Jardín'},
 {'

#### Analizamos las subcategorías que hay

In [7]:
dicc_subcategorias = {}
for categoria in lista_categorias:
    categoria_id = categoria["id"]
    categoria_name = categoria["name"]
    info = request_a_diccionario("https://api.mercadolibre.com/categories/" + categoria_id)
    print("-"*100)
    print("Categoría:", categoria_name)
    children_categories = info["children_categories"]
    print("Cantidad de subcategorías:", len(children_categories))
    for subcategoria in children_categories:
        dicc_subcategorias[subcategoria["id"]] = subcategoria["name"]
    print("-"*100)

----------------------------------------------------------------------------------------------------
Categoría: Accesorios para Vehículos
Cantidad de subcategorías: 19
----------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------
Categoría: Agro
Cantidad de subcategorías: 8
----------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------
Categoría: Alimentos y Bebidas
Cantidad de subcategorías: 5
----------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------
Categoría: Animales y Mascotas
Cantidad de subcategorías: 10
------------------------------------------------------------

In [8]:
print("Hay un total de", len(dicc_subcategorias), "subcategorías.")

Hay un total de 399 subcategorías.


In [9]:
dicc_subcategorias

{'MLA4711': 'Acc. para Motos y Cuatriciclos',
 'MLA417044': 'Acc. y Repuestos Náuticos',
 'MLA86360': 'Acc. y Repuestos para Camiones',
 'MLA6520': 'Accesorios de Auto y Camioneta',
 'MLA3381': 'Audio para Vehículos',
 'MLA4610': 'GNC',
 'MLA2227': 'Herramientas',
 'MLA86838': 'Limpieza de Vehículos',
 'MLA6537': 'Llantas',
 'MLA8531': 'Navegadores GPS',
 'MLA400928': 'Neumáticos',
 'MLA402999': 'Performance',
 'MLA1747': 'Repuestos Autos y Camionetas',
 'MLA419936': 'Repuestos de Maquinaria Pesada',
 'MLA1771': 'Repuestos Motos y Cuatriciclos',
 'MLA86080': 'Seguridad Vehicular',
 'MLA377674': 'Service Programado',
 'MLA4589': 'Tuning',
 'MLA6177': 'Otros',
 'MLA442345': 'Alimentación y Suplementos',
 'MLA442346': 'Animales',
 'MLA442344': 'Generadores de Energía',
 'MLA442343': 'Insumos Agrícolas',
 'MLA407816': 'Insumos Agroganaderos',
 'MLA417282': 'Máquinas y Herramientas',
 'MLA442351': 'Repuestos de Maquinaria Pesada',
 'MLA404085': 'Otros',
 'MLA178700': 'Bebidas',
 'MLA1423': 

#### Recolectamos los datos usando la API

### NOTA: vamos a hacer el análisis sólo para Argentina

In [11]:
t_inicial = time.perf_counter()

lista_dfs = []
for numero_categoria, categoria in enumerate(lista_categorias):
    print("Recolectando data de la categoría:", str(numero_categoria), "de", len(lista_categorias), "(categoría", categoria["name"], ").")
    for pagina in range(20):
        print("Página:" + str(pagina) + " de 19.", end='\r', flush=True)
        categoria_id = categoria["id"]
        categoria_name = categoria["name"]
        offset = str(50 * pagina + 1)
        items = request_a_diccionario("https://api.mercadolibre.com/sites/MLA/search?category=" + categoria_id + "&limit=50&offset=" + offset)
        df = generar_df(items)
        df["categoria_principal"] = categoria_name
        lista_dfs.append(df)
        time.sleep(1)
    elapsed_time = time.perf_counter() - t_inicial
    print("Tiempo de ejecución:", round(elapsed_time / 60, 2), "minutos.")
    print("-"*100)
        
elapsed_time = time.perf_counter() - t_inicial

print("Tiempo total de ejecución:", round(elapsed_time / 60, 2), "minutos.")

Recolectando data de la categoría: 0 de 31 (categoría Accesorios para Vehículos ).
Tiempo de ejecución: 1.06 minutos.
----------------------------------------------------------------------------------------------------
Recolectando data de la categoría: 1 de 31 (categoría Agro ).
Tiempo de ejecución: 1.65 minutos.
----------------------------------------------------------------------------------------------------
Recolectando data de la categoría: 2 de 31 (categoría Alimentos y Bebidas ).
Tiempo de ejecución: 2.22 minutos.
----------------------------------------------------------------------------------------------------
Recolectando data de la categoría: 3 de 31 (categoría Animales y Mascotas ).
Tiempo de ejecución: 2.84 minutos.
----------------------------------------------------------------------------------------------------
Recolectando data de la categoría: 4 de 31 (categoría Antigüedades y Colecciones ).
Tiempo de ejecución: 3.47 minutos.
--------------------------------------

#### Juntamos todo en un sólo dataframe

In [12]:
df_total_original = pd.concat(lista_dfs, axis = 0)

#### Corroboramos el tamaño del dataset obtenido

In [14]:
print("Tamaño total esperado (aprox):", len(lista_categorias) * 1000)
print("Tamaño total:", len(df_total_original))

Tamaño total esperado (aprox): 31000
Tamaño total: 30843


#### Eliminamos duplicados

In [15]:
print("Cantidad de duplicados:", df_total_original.duplicated(keep="first").sum())
df_total_original = df_total_original[~df_total_original.duplicated(keep="first")]
print("Eliminamos los duplicados.")
print("Quedaron", len(df_total_original), "registros en total.")

Cantidad de duplicados: 528
Eliminamos los duplicados.
Quedaron 30315 registros en total.


#### Guardamos en un csv

In [16]:
df_total_original.to_csv("df_total_original.csv", index = False)