# MeLiSA: Mercado Libre for Sentiment Analysis

A continuación se describe cómo fue la construcción del dataset MeLiSA.

## Descarga de datos

Se utilizó la [API de Mercado Libre](https://developers.mercadolibre.com.ar/es_ar/herramientas) para obtener los ids de los productos disponibles en Argentina, Bolivia, Brasil, Chile, Colombia, Costa Rica, Dominicana, Ecuador, Guatemala, Honduras, México, Nicaragua, Panamá, Paraguay, Perú, Salvador, Uruguay y Venezuela en el momento de la descarga. Se observó que, de todos estos países, sólo se encontraron muestras suficientemente relevantes con respecto a la forma de calificar un producto en los siguientes países: Argentina, Brasil, Chile, Colombia, México, Perú, Uruguay y Venezuela. Para el resto de países, la cantidad de reviews era muy poca (posiblemente debido a que Mercado Libre no se encuentra muy expandido en ese país) como para considerar una muestra representativa de la expresión de sentimientos en ese país. 

Se procedió de la siguiente manera:

1. Se descargaron los ids de todos los productos existentes dentro del país, para cada uno de los países mencionados anteriormente. Esto se hizo en dos fechas diferentes (agosto de 2020 y diciembre de 2020). Tuvimos cuidado de no repetir productos. 

2. Se descargaron los reviews con mayor valorización (cantidad de likes menos cantidad de dislike) de cada producto, permitiendo hasta 100 reviews por producto.

3. Limpieza de las descargas: 
    1. Se eliminaron duplicados de reviews, mirando el review_id
    2. Se eliminaron reviews que contuvieran en algún campo un valor NaN
    3. Se validaron los campos del resto de reviews.
    4. Dentro del campo review_title y review_content, se cambiaron todos los tipos de espacios por espacios simples y se eliminaron las dúplicas de los reviews con el mismo contenido y título. 
    5. Se guardó todo en el  archivo `reviews_all_parts_04-01-2021.csv`. En total se obtuvo una cantidad de 7426606 reviews con contenido, título y rate únicos.
    6. Review contiene un prod_id y una cat_id. La categoría a la que pertenece un porducto puede estar o no incluída en otra categoría. Además, puede haber productos con el mismo id pero que pertenecen a diferentes categorías. Lo que se hizo fue, en primer lugar, reducir la cantidad de categorías a las mas generales (archivo `reviews_all_parts_with_orig_cat_name_04-01-2021.csv`). En este proceso se tuvo que descartar algunos reviews debido posiblemente a que el id de la categoría cambió y se volvió inaccesible. Con esto se obtuvo 7385259 reviews con contenido, título y rate únicos.
    7. Luego se definieron los siguientes diccionarios en base a las categorías disponibles hasta el momento:

    ```Python
    generalize_categories = {'Hogar, Muebles y Jardín': 'Hogar / Casa',
    'Casa, Móveis e Decoração': 'Hogar / Casa',
    'Herramientas y Construcción': 'Hogar / Casa',
    'Industrias y Oficinas': 'Hogar / Casa',
    'Ferramentas e Construção': 'Hogar / Casa',
    'Bebés': 'Hogar / Casa',
    'Animales y Mascotas': 'Hogar / Casa',
    'Hogar y Muebles': 'Hogar / Casa',
    'Bebês': 'Hogar / Casa',
    'Animais': 'Hogar / Casa',
    'Indústria e Comércio': 'Hogar / Casa',
    'Industrias': 'Hogar / Casa',
    'Computación': 'Tecnología y electrónica / Tecnologia e electronica',
    'Accesorios para Vehículos': 'Tecnología y electrónica / Tecnologia e electronica',
    'Acessórios para Veículos': 'Tecnología y electrónica / Tecnologia e electronica',
    'Electrónica, Audio y Video': 'Tecnología y electrónica / Tecnologia e electronica',
    'Electrodomésticos y Aires Ac.': 'Tecnología y electrónica / Tecnologia e electronica',
    'Celulares y Telefonía': 'Tecnología y electrónica / Tecnologia e electronica',
    'Informática': 'Tecnología y electrónica / Tecnologia e electronica',
    'Eletrônicos, Áudio e Vídeo': 'Tecnología y electrónica / Tecnologia e electronica',
    'Electrodomésticos': 'Tecnología y electrónica / Tecnologia e electronica',
    'Eletrodomésticos': 'Tecnología y electrónica / Tecnologia e electronica',
    'Celulares y Teléfonos': 'Tecnología y electrónica / Tecnologia e electronica',
    'Cámaras y Accesorios': 'Tecnología y electrónica / Tecnologia e electronica',
    'Consolas y Videojuegos': 'Tecnología y electrónica / Tecnologia e electronica',
    'Celulares e Telefones': 'Tecnología y electrónica / Tecnologia e electronica',
    'Câmeras e Acessórios': 'Tecnología y electrónica / Tecnologia e electronica',
    'Deportes y Fitness': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Belleza y Cuidado Personal': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',  
    'Calçados, Roupas e Bolsas': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Esportes e Fitness': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Ropa y Accesorios': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Salud y Equipamiento Médico': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Beleza e Cuidado Pessoal': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Ropa, Bolsas y Calzado': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Saúde': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Vestuario y Calzado': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Ropa, Calzados y Accesorios': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Ropa, Zapatos y Accesorios': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Estética y Belleza': 'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal',
    'Juegos y Juguetes': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Brinquedos e Hobbies': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Arte, Librería y Mercería': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Instrumentos Musicales': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Arte, Papelaria e Armarinho': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Arte, Papelería y Mercería': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Joyas y Relojes': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Instrumentos Musicais': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Games': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Joias e Relógios': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Souvenirs, Cotillón y Fiestas': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Festas e Lembrancinhas': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Recuerdos, Cotillón y Fiestas': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Antigüedades y Colecciones': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Libros, Revistas y Comics': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Relojes y Joyas': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Antiguidades e Coleções': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Arte, Librería y Cordonería': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Recuerdos, Piñatería y Fiestas': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Música, Películas y Series': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Música, Filmes e Seriados': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Relojes, Joyas y Bisutería': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Música y Películas': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Livros, Revistas e Comics': 'Arte y entretenimiento / Arte e Entretenimiento',
    'Alimentos y Bebidas': 'Alimentos y Bebidas / Alimentos e Bebidas',
    'Alimentos e Bebidas': 'Alimentos y Bebidas / Alimentos e Bebidas',
    'Servicios': 'Servicios / Serviços',
    'Serviços': 'Servicios / Serviços',
    'Agro': np.nan,
    'Otras categorías': np.nan,
    'Mais Categorias': np.nan,
    'Otras Categorías': np.nan,
    'Ingressos': np.nan,
    'Entradas para Eventos': np.nan,
    'Boletas para Espectáculos': np.nan,
    'Autos, Motos y Otros': np.nan}

    gen2key = {'Hogar / Casa': 'HOGAR',
    'Tecnología y electrónica / Tecnologia e electronica': 'TEC',
    'Arte y entretenimiento / Arte e Entretenimiento': 'ARTE',
    'Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal': 'SALUD',
    'Alimentos y Bebidas / Alimentos e Bebidas': 'ALIMENTOS',
    'Servicios / Serviços': 'SERVICIOS'}
    ```

    7. Con ellos, se obtuvo un nuevo conjunto de categorías más generales (HOGAR, TEC, ARTE, SALUD, ALIMENTOS y SERVICIOS). Como se ve, en este proceso se descartaron algunas categorías, por lo que ahora el número de reviews total es 7306825 (archivo `reviews_all_parts_with_cats_ok_06-01-2021.csv`).
    8. Lo que se buscó después fue que, para cada país, haya una cantidad parecida de muestras en cada categoría para un rate fijo. Por ejemplo:

    MPE:

        rate1: {cat1: x1, cat2: x2, ...}

        rate2: {cat2: x1, cat2: x2, ...}

    MLA:

        rate1: {cat1: y1, cat2: y2, ...}
        
        rate2: {cat2: y1, cat2: y2, ...}

    ...

    De esta manera, cuando se suma la cantidad de muestras por país, hay la misma cantidad de muestras por categoría para cada rate. Como yo no quiero que los algoritmos predigan el rate a partir del vocabulario (es decir, no quiero que se prediga que es rate 5 sólo porque la mayor parte de los reviews de tecnología son de rate 5), voy a querer que la cantidad de reviews por tema sean más o menos equilibrados a lo largo de los rates.

    9. Con estos cálculos, en el test voy a tener más o menos 700 muestras por país y por rate. Eso me da 24500 muestras en total, lo cual está bien para un conjunto de test. El resto lo puedo usar para train, pero tengo que lograr, tanto para train como para test, que haya la misma cantidad de reviews por categoría por rate. Es decir, puede haber 2 reviews en la categoría SERVICIOS en Perú rateados con 2 estrellas, pero también tiene que haber 2 reviews en la misma categoría rateados con 1, 3, 4 y 5 estrellas. Eso me da, si dejo 24500 muestras para test, un total de aproximadamente 90000 muestras para train, ya que en train no es necesario tener igualado por país la cantidad de reviews.

    10. Para hacer esto, decidimos ordenar los reviews según una puntuación proporcional a su longitud y a su valorización (cantidad de likes menos cantidad de dislikes). Con eso supusimos que obteníamos los reviews más importantes.

    11. Además, no dejamos que haya más de 30 comentarios por producto.

    12. Una vez hecho el recorte por categoría se obtuvo un mapa de reviews por país y por categoría para cada rate (archivo `reviews_all_parts_sampled_by_cat_and_limited_by_prods_08-01-2021.csv`):
    [!alt text](./sampled_cat)

    13. Después me di cuenta de que la categoría de servicios tenía mucha información (teléfonos, mails, ig, etc.) y que eran relativamente poquitas muestras por lo que decidí descartarla. (archivo `./reviews_all_parts_sampled_by_cat_and_limited_by_prods_09-01-2021.csv`)

    14. Ahora empezamos con las modificaciones manuales. Primero identificamos los reviews en español que tenían caracteres raros (poco frecuentes), eliminamos algunos que eran basura y modificamos algunos que sólo requerían cambiar algún que otro caracter. Lo mismo para portugués, pero sin editar los comentarios y sólo eliminarlos. (archivos `./reviews_por_cleaned_chars_11-01-2021.csv` y `./reviews_esp_cleaned_chars_11-01-2021.csv`)

    15. También corrimos 5 detectores de lenguaje distintos para identificar comentarios basura (que estén en otro idioma o que simplemente sean comentarios sin sentido). Nos quedamos con los que al menos 3 de ellos consideraban con más del 90% de probabilidad que estaban en castellano y eliminamos los reviews basura del resto.

    16. Ahora obtuvimos el vocabulario tokenizando por letras, dígitos y puntuación por separado. Con esto, identificamos los tokens poco frecuentes que son realmente basura y eliminamos los comentarios al que pertenecían. Esto se hizo luego de lo anterior porque hacer esto de una crea muchos tokens.