# DiploDatos 2021


### Categorización de publicaciones de productos realizadas en Mercado Libre

### 02 - Análisis y Curación

#### Condiciones generales que aplican a todos los prácticos:
   - Las notebooks tienen que ser 100% reproducibles, es decir al ejecutar las celdas tal cuál como se entrega la notebook se deben obtener los mismos resultados sin errores.
   - Código legible, haciendo buen uso de las celdas de la notebook y en lo posible seguir estándares de código para *Python* (https://www.python.org/dev/peps/pep-0008/).
   - Utilizar celdas tipo *Markdown* para ir guiando el análisis.
   - Limpiar el output de las celdas antes de entregar el notebook (ir a *Kernel* --> *Restart Kernel and Clear All Ouputs*).
   - Incluir conclusiones del análisis que se hizo en la sección "Conclusiones". Tratar de aportar valor en esta sección, ser creativo.

## 1. Consignas

#### Sección A:  Limpieza de texto / Preprocessing

Tener en cuenta lo siguiente: 

1. *Unidecode*

2. Pasar a minúsculas

3. Limpiar números

4. Limpiar símbolos **(** ' ! ¡ " @ % & * , . : ; < = > ? @ \ ^ _ { | } ~ \t \n [ ] ` $ **)**

5. Limpiar caracteres que suelen usarse como espacios **(** ' + ( ) - \ **)**

6. Reemplazar contracciones, por ejemplo, **c/u** por *cada uno*, **c/** por *con*, **p/** por *para*.

7. Etc.

#### Sección B: Tokenización & Secuencias

1. Utilizar métodos `fit_on_texts()`, `texts_to_sequences()`, y `pad_sequences()`:

- https://keras.io/api/preprocessing/text/#tokenizer-class

- https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences

#### Sección C: Label Encoding

1. Utilizar método `LabelEncoder()` de *sklearn*:

- https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

#### Sección D: Word Embeddings

Generar los *word embeddings* correspondientes, de las siguientes dos formas:

1. *Custom Word Embeddings*
2. *Loading Pretrained Word Embeddings* (**opcional**)

En ambos puntos el objetivos final es llegar a crear la *embedding layer* de *keras*:

- https://keras.io/api/layers/core_layers/embedding/

## 2. Código y análisis

Imports necesarios

In [1]:
import pandas as pd
import nltk
import re
from unidecode import unidecode

# Esto sirve para configurar NLTK. La primera vez puede tardar un poco...
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/mgobbi289/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/mgobbi289/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Lectura de dataset reducido

In [2]:
df_dataset = pd.read_csv('DataSet/dataset.csv')

Estudiamos el dataset brevemente antes de comenzar a operar sobre el mismo

In [3]:
df_dataset.describe()

Unnamed: 0,title,label_quality,language,category
count,646760,646760,646760,646760
unique,646019,2,2,20
top,Teclado Casio Ctk4200,unreliable,portuguese,PANTS
freq,2,551878,328992,35973


In [4]:
print(f'Dimensiones: {df_dataset.shape}')

Dimensiones: (646760, 4)


In [5]:
print(f'Variables: {list(df_dataset.columns)}')

Variables: ['title', 'label_quality', 'language', 'category']


**Unidecode**

Principalmente, se eliminan los tildes (en ambos idiomas).

In [6]:
df_dataset.sample(10, random_state=123)

Unnamed: 0,title,label_quality,language,category
181848,Fogão A Gás 4 Bocas Industrial Innal Alta Pre...,reliable,portuguese,RANGES
478587,Heladera Saccol Mod. Hsa32 320 Litros,unreliable,spanish,REFRIGERATORS
606516,Fogão Com Porta Full Glass E Timer E Relógio D...,unreliable,portuguese,RANGES
534521,The Beatles 09 - Relógio Disco De Vinil Decora...,unreliable,portuguese,WALL_CLOCKS
450844,Relógio De Parede Carrilhão Herweg Ref: 5352-084,reliable,portuguese,WALL_CLOCKS
352207,Aparadora Acabamento Maquina 100% Original Pan...,reliable,portuguese,HAIR_CLIPPERS
320466,Filhote Spitz Alemão Laranja Com Pedigree Cbkc,unreliable,portuguese,PUREBRED_DOGS
517042,Heladera Siam Hsi-rt60 Roja 420 Litros Retro C...,unreliable,spanish,REFRIGERATORS
519168,Teclado Korg Pa 600 Novíssimo Sem Detalhes,reliable,portuguese,MUSICAL_KEYBOARDS
407836,"Mala Berlim, Azul Marinho, M - Hg703m - Le Pos...",unreliable,portuguese,SUITCASES


In [7]:
df_dataset['clean_title'] = df_dataset.title.apply(unidecode)

In [8]:
df_dataset.sample(10, random_state=123)

Unnamed: 0,title,label_quality,language,category,clean_title
181848,Fogão A Gás 4 Bocas Industrial Innal Alta Pre...,reliable,portuguese,RANGES,Fogao A Gas 4 Bocas Industrial Innal Alta Pre...
478587,Heladera Saccol Mod. Hsa32 320 Litros,unreliable,spanish,REFRIGERATORS,Heladera Saccol Mod. Hsa32 320 Litros
606516,Fogão Com Porta Full Glass E Timer E Relógio D...,unreliable,portuguese,RANGES,Fogao Com Porta Full Glass E Timer E Relogio D...
534521,The Beatles 09 - Relógio Disco De Vinil Decora...,unreliable,portuguese,WALL_CLOCKS,The Beatles 09 - Relogio Disco De Vinil Decora...
450844,Relógio De Parede Carrilhão Herweg Ref: 5352-084,reliable,portuguese,WALL_CLOCKS,Relogio De Parede Carrilhao Herweg Ref: 5352-084
352207,Aparadora Acabamento Maquina 100% Original Pan...,reliable,portuguese,HAIR_CLIPPERS,Aparadora Acabamento Maquina 100% Original Pan...
320466,Filhote Spitz Alemão Laranja Com Pedigree Cbkc,unreliable,portuguese,PUREBRED_DOGS,Filhote Spitz Alemao Laranja Com Pedigree Cbkc
517042,Heladera Siam Hsi-rt60 Roja 420 Litros Retro C...,unreliable,spanish,REFRIGERATORS,Heladera Siam Hsi-rt60 Roja 420 Litros Retro C...
519168,Teclado Korg Pa 600 Novíssimo Sem Detalhes,reliable,portuguese,MUSICAL_KEYBOARDS,Teclado Korg Pa 600 Novissimo Sem Detalhes
407836,"Mala Berlim, Azul Marinho, M - Hg703m - Le Pos...",unreliable,portuguese,SUITCASES,"Mala Berlim, Azul Marinho, M - Hg703m - Le Pos..."


**Limpieza**

In [None]:
# Recorremos todos los titulos y le vamos aplicando la Normalizacion y luega el Stemming a cada uno
title_list=[]
for title in df_dataset.title:
    # Vamos a reemplzar los caracteres que no sean leras por espacios
    title=re.sub("[^a-zA-Z]"," ",str(title))
    # Pasamos todo a minúsculas
    title=title.lower()
    # Tokenizamos para separar las palabras del titular
    title = nltk.word_tokenize(title)
    # Eliminamos las palabras de menos de 3 letras
    #title = [palabra for palabra in titular if len(palabra)>3]

    # Sacamos las Stopwords
    # title = [COMPLETAR for COMPLETAR in COMPLETAR if not COMPLETAR in COMPLETAR]
     #title = word for word in title if not word in all_stopwords
    ## Hasta acá Normalizamos, ahora a stemmizar

    # Aplicamos la funcion para buscar la raiz de las palabras
     #title = [stemmer.stem(COMPLETAR) for COMPLETAR in COMPLETAR]
    # Por ultimo volvemos a unir el titular
     #title = " ".join(titular)

    # Vamos armando una lista con todos los titulares
    title_list.append(title)

In [None]:
title_list

## 3. Conclusiones

In [None]:
# TO DO

#### Material de ayuda para el desarrollo de este práctico:

1. Implementación en *keras* de *word embeddings*: https://stackabuse.com/python-for-nlp-word-embeddings-for-deep-learning-in-keras
2. Como utilizar *pre-trained word embeddings* en *keras*: https://keras.io/examples/nlp/pretrained_word_embeddings/
3. *Word Embeddings*: https://jalammar.github.io/illustrated-word2vec/
3. Curso de **procesamiento del lenguaje natural** con *keras*: https://www.coursera.org/learn/natural-language-processing-tensorflow/home/welcome