# DiploDatos 2021


### Categorización de publicaciones de productos realizadas en Mercado Libre

### 02 - Análisis y Curación

#### Condiciones generales que aplican a todos los prácticos:
   - Las notebooks tienen que ser 100% reproducibles, es decir al ejecutar las celdas tal cuál como se entrega la notebook se deben obtener los mismos resultados sin errores.
   - Código legible, haciendo buen uso de las celdas de la notebook y en lo posible seguir estándares de código para *Python* (https://www.python.org/dev/peps/pep-0008/).
   - Utilizar celdas tipo *Markdown* para ir guiando el análisis.
   - Limpiar el output de las celdas antes de entregar el notebook (ir a *Kernel* --> *Restart Kernel and Clear All Ouputs*).
   - Incluir conclusiones del análisis que se hizo en la sección "Conclusiones". Tratar de aportar valor en esta sección, ser creativo.

## 1. Consignas

#### Sección A:  Limpieza de texto / Preprocessing

Tener en cuenta lo siguiente: 

1. *Unidecode*

2. Pasar a minúsculas

3. Limpiar números

4. Limpiar símbolos **(** ' ! ¡ " @ % & * , . : ; < = > ? @ \ ^ _ { | } ~ \t \n [ ] ` $ **)**

5. Limpiar caracteres que suelen usarse como espacios **(** ' + ( ) - \ **)**

6. Reemplazar contracciones, por ejemplo, **c/u** por *cada uno*, **c/** por *con*, **p/** por *para*.

7. Etc.

#### Sección B: Tokenización & Secuencias

1. Utilizar métodos `fit_on_texts()`, `texts_to_sequences()`, y `pad_sequences()`:

- https://keras.io/api/preprocessing/text/#tokenizer-class

- https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences

#### Sección C: Label Encoding

1. Utilizar método `LabelEncoder()` de *sklearn*:

- https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

#### Sección D: Word Embeddings

Generar los *word embeddings* correspondientes, de las siguientes dos formas:

1. *Custom Word Embeddings*
2. *Loading Pretrained Word Embeddings* (**opcional**)

En ambos puntos el objetivos final es llegar a crear la *embedding layer* de *keras*:

- https://keras.io/api/layers/core_layers/embedding/

## 2. Código y análisis

Imports necesarios

In [1]:
import pandas as pd
import nltk
import re
from unidecode import unidecode

# Esto sirve para configurar NLTK. La primera vez puede tardar un poco...
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/mgobbi289/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/mgobbi289/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Lectura de dataset reducido

In [2]:
df_dataset = pd.read_csv('DataSet/dataset.csv')

Estudiamos el dataset brevemente antes de comenzar a operar sobre el mismo

In [3]:
df_dataset.describe()

Unnamed: 0,title,label_quality,language,category
count,646760,646760,646760,646760
unique,646019,2,2,20
top,Moog Subsequent 37,unreliable,portuguese,PANTS
freq,2,551878,328992,35973


In [4]:
print(f'Dimensiones: {df_dataset.shape}')

Dimensiones: (646760, 4)


In [5]:
print(f'Variables: {list(df_dataset.columns)}')

Variables: ['title', 'label_quality', 'language', 'category']


## Sección A

In [6]:
df_dataset.sample(10, random_state=123)

Unnamed: 0,title,label_quality,language,category
181848,Fogão A Gás 4 Bocas Industrial Innal Alta Pre...,reliable,portuguese,RANGES
478587,Heladera Saccol Mod. Hsa32 320 Litros,unreliable,spanish,REFRIGERATORS
606516,Fogão Com Porta Full Glass E Timer E Relógio D...,unreliable,portuguese,RANGES
534521,The Beatles 09 - Relógio Disco De Vinil Decora...,unreliable,portuguese,WALL_CLOCKS
450844,Relógio De Parede Carrilhão Herweg Ref: 5352-084,reliable,portuguese,WALL_CLOCKS
352207,Aparadora Acabamento Maquina 100% Original Pan...,reliable,portuguese,HAIR_CLIPPERS
320466,Filhote Spitz Alemão Laranja Com Pedigree Cbkc,unreliable,portuguese,PUREBRED_DOGS
517042,Heladera Siam Hsi-rt60 Roja 420 Litros Retro C...,unreliable,spanish,REFRIGERATORS
519168,Teclado Korg Pa 600 Novíssimo Sem Detalhes,reliable,portuguese,MUSICAL_KEYBOARDS
407836,"Mala Berlim, Azul Marinho, M - Hg703m - Le Pos...",unreliable,portuguese,SUITCASES


**Unidecode**

Principalmente, se eliminan los tildes (en ambos idiomas).

In [7]:
df_dataset['clean_title'] = df_dataset.title.apply(unidecode)

**Minúsculas**

Se pasa todo a minúscula (en ambos idiomas).

In [8]:
df_dataset['clean_title'] = df_dataset.clean_title.apply(lambda x: x.lower())

**Limpiar Números**

Se borran todos los números.

In [9]:
df_dataset['clean_title'] = df_dataset.clean_title.apply(lambda x: re.sub(r'[0-9]+', '', x))

**Contracciones**

In [None]:
## ACA DEBERIAMOS CAMBIAR LAS CONTRACCIONES NO ENCONTRE COMO TODAVIA ASI DESPUES SACAMOS TODOS LOS SIMBOLOS
df_dataset['clean_title']

**Limpiar Símbolos**

Se borran todos los símbolos que no sean letras.

In [10]:
df_dataset['clean_title'] = df_dataset.clean_title.apply(lambda x: re.sub('[^a-zA-Z]', ' ', x))

**Limpieza Definitiva**

In [11]:
df_dataset.sample(10, random_state=123)

Unnamed: 0,title,label_quality,language,category,clean_title
181848,Fogão A Gás 4 Bocas Industrial Innal Alta Pre...,reliable,portuguese,RANGES,fogao a gas bocas industrial innal alta pres...
478587,Heladera Saccol Mod. Hsa32 320 Litros,unreliable,spanish,REFRIGERATORS,heladera saccol mod hsa litros
606516,Fogão Com Porta Full Glass E Timer E Relógio D...,unreliable,portuguese,RANGES,fogao com porta full glass e timer e relogio d...
534521,The Beatles 09 - Relógio Disco De Vinil Decora...,unreliable,portuguese,WALL_CLOCKS,the beatles relogio disco de vinil decoraca...
450844,Relógio De Parede Carrilhão Herweg Ref: 5352-084,reliable,portuguese,WALL_CLOCKS,relogio de parede carrilhao herweg ref
352207,Aparadora Acabamento Maquina 100% Original Pan...,reliable,portuguese,HAIR_CLIPPERS,aparadora acabamento maquina original panaso...
320466,Filhote Spitz Alemão Laranja Com Pedigree Cbkc,unreliable,portuguese,PUREBRED_DOGS,filhote spitz alemao laranja com pedigree cbkc
517042,Heladera Siam Hsi-rt60 Roja 420 Litros Retro C...,unreliable,spanish,REFRIGERATORS,heladera siam hsi rt roja litros retro combi
519168,Teclado Korg Pa 600 Novíssimo Sem Detalhes,reliable,portuguese,MUSICAL_KEYBOARDS,teclado korg pa novissimo sem detalhes
407836,"Mala Berlim, Azul Marinho, M - Hg703m - Le Pos...",unreliable,portuguese,SUITCASES,mala berlim azul marinho m hgm le postiche


## Sección B

Simplemente estamos probando.
Vamos a utilizar solo un fragmento de nuestro conjunto de datos.

In [12]:
from nltk.tokenize import word_tokenize
from keras.preprocessing.text import one_hot
from keras.preprocessing.sequence import pad_sequences

relevant_cols = ['clean_title']

# Solo estamos probando, entonces vamos a utilizar algo reducido...
df = df_dataset.sample(10000, random_state=123)[relevant_cols]

df.sample(3, random_state=123)

Unnamed: 0,clean_title
257260,teclado arranjador yamaha psr s
72138,aparador maquina de nariz e pelos em recarrega...
633621,kit calcas ribana feminina listra lateral


Convertimos en un listado de *tokens*, cada uno de nuestros títulos.

In [13]:
df['tokenized_title'] = df.clean_title.apply(word_tokenize)

df.sample(3, random_state=123)

Unnamed: 0,clean_title,tokenized_title
257260,teclado arranjador yamaha psr s,"[teclado, arranjador, yamaha, psr, s]"
72138,aparador maquina de nariz e pelos em recarrega...,"[aparador, maquina, de, nariz, e, pelos, em, r..."
633621,kit calcas ribana feminina listra lateral,"[kit, calcas, ribana, feminina, listra, lateral]"


Contemos la cantidad de palabras únicas en nuestro conjunto de datos.
Es importante saber esta información al momento de condificar nuestro títulos en vectores numéricos.

In [14]:
all_words = []
for title in df.tokenized_title:
    all_words += title

unique_words = set(all_words)

print(f'Cantidad de tokens únicos {len(unique_words)}')

Cantidad de tokens únicos 9848


In [15]:
# Claramente este valor deberá ser ajustado al probar con el dataset entero...
vocab_length = 10000

Contemos ahora la longitud de cada vector de tokens, necesitamos saber cual es el título más largo.

In [16]:
df['tokenized_title_lenght'] = df.tokenized_title.apply(len)

df.sample(3, random_state=123)

Unnamed: 0,clean_title,tokenized_title,tokenized_title_lenght
257260,teclado arranjador yamaha psr s,"[teclado, arranjador, yamaha, psr, s]",5
72138,aparador maquina de nariz e pelos em recarrega...,"[aparador, maquina, de, nariz, e, pelos, em, r...",9
633621,kit calcas ribana feminina listra lateral,"[kit, calcas, ribana, feminina, listra, lateral]",6


In [17]:
max_index = df.tokenized_title_lenght.idxmax()

df.loc[[max_index]]

Unnamed: 0,clean_title,tokenized_title,tokenized_title_lenght
520866,kit com malas de bordo holly tamanho p e pp c...,"[kit, com, malas, de, bordo, holly, tamanho, p...",21


In [18]:
# Claramente este valor deberá ser ajustado al probar con el dataset entero...
longest_token = 21

Ahora convertimos nuestros títulos a vectores numéricos.

In [19]:
df['numeric_title'] = df.clean_title.apply(lambda x: one_hot(x, vocab_length))

df.sample(3, random_state=123)

Unnamed: 0,clean_title,tokenized_title,tokenized_title_lenght,numeric_title
257260,teclado arranjador yamaha psr s,"[teclado, arranjador, yamaha, psr, s]",5,"[4450, 9325, 2383, 4069, 5028]"
72138,aparador maquina de nariz e pelos em recarrega...,"[aparador, maquina, de, nariz, e, pelos, em, r...",9,"[8986, 986, 8264, 2690, 5380, 542, 9096, 5707,..."
633621,kit calcas ribana feminina listra lateral,"[kit, calcas, ribana, feminina, listra, lateral]",6,"[5197, 1195, 5079, 9575, 9710, 8189]"


Normalizamos todos los vectores a la misma longitud.

In [20]:
padded_titles = pad_sequences(df.numeric_title.values, longest_token, padding='post')

padded_titles.shape

(10000, 21)

## 3. Conclusiones

In [None]:
# TO DO

#### Material de ayuda para el desarrollo de este práctico:

1. Implementación en *keras* de *word embeddings*: https://stackabuse.com/python-for-nlp-word-embeddings-for-deep-learning-in-keras
2. Como utilizar *pre-trained word embeddings* en *keras*: https://keras.io/examples/nlp/pretrained_word_embeddings/
3. *Word Embeddings*: https://jalammar.github.io/illustrated-word2vec/
3. Curso de **procesamiento del lenguaje natural** con *keras*: https://www.coursera.org/learn/natural-language-processing-tensorflow/home/welcome