# DiploDatos 2021


### Categorización de publicaciones de productos realizadas en Mercado Libre

### 02 - Análisis y Curación

#### Condiciones generales que aplican a todos los prácticos:
   - Las notebooks tienen que ser 100% reproducibles, es decir al ejecutar las celdas tal cuál como se entrega la notebook se deben obtener los mismos resultados sin errores.
   - Código legible, haciendo buen uso de las celdas de la notebook y en lo posible seguir estándares de código para *Python* (https://www.python.org/dev/peps/pep-0008/).
   - Utilizar celdas tipo *Markdown* para ir guiando el análisis.
   - Limpiar el output de las celdas antes de entregar el notebook (ir a *Kernel* --> *Restart Kernel and Clear All Ouputs*).
   - Incluir conclusiones del análisis que se hizo en la sección "Conclusiones". Tratar de aportar valor en esta sección, ser creativo.

## 1. Consignas

#### Sección A:  Limpieza de texto / Preprocessing

Tener en cuenta lo siguiente: 

1. *Unidecode*

2. Pasar a minúsculas

3. Limpiar números

4. Limpiar símbolos **(** ' ! ¡ " @ % & * , . : ; < = > ? @ \ ^ _ { | } ~ \t \n [ ] ` $ **)**

5. Limpiar caracteres que suelen usarse como espacios **(** ' + ( ) - \ **)**

6. Reemplazar contracciones, por ejemplo, **c/u** por *cada uno*, **c/** por *con*, **p/** por *para*.

7. Etc.

#### Sección B: Tokenización & Secuencias

1. Utilizar métodos `fit_on_texts()`, `texts_to_sequences()`, y `pad_sequences()`:

- https://keras.io/api/preprocessing/text/#tokenizer-class

- https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences

#### Sección C: Label Encoding

1. Utilizar método `LabelEncoder()` de *sklearn*:

- https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

#### Sección D: Word Embeddings

Generar los *word embeddings* correspondientes, de las siguientes dos formas:

1. *Custom Word Embeddings*
2. *Loading Pretrained Word Embeddings* (**opcional**)

En ambos puntos el objetivos final es llegar a crear la *embedding layer* de *keras*:

- https://keras.io/api/layers/core_layers/embedding/

## 2. Código y análisis

Imports necesarios

In [17]:
import pandas as pd
import nltk
import re
from unidecode import unidecode

# Esto sirve para configurar NLTK. La primera vez puede tardar un poco...
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Elias\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Elias\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Lectura de dataset reducido

In [33]:
df_dataset = pd.read_csv('DataSet/dataset.csv')

Estudiamos el dataset brevemente antes de comenzar a operar sobre el mismo

In [34]:
df_dataset.describe()

Unnamed: 0,title,label_quality,language,category
count,646760,646760,646760,646760
unique,646019,2,2,20
top,Teclado Kurzweil Kp100,unreliable,portuguese,PANTS
freq,2,551878,328992,35973


In [35]:
print(f'Dimensiones: {df_dataset.shape}')

Dimensiones: (646760, 4)


In [36]:
print(f'Variables: {list(df_dataset.columns)}')

Variables: ['title', 'label_quality', 'language', 'category']


**Unidecode**

Principalmente, se eliminan los tildes (en ambos idiomas).

In [37]:
df_dataset.sample(10, random_state=123)

Unnamed: 0,title,label_quality,language,category
181848,Fogão A Gás 4 Bocas Industrial Innal Alta Pre...,reliable,portuguese,RANGES
478587,Heladera Saccol Mod. Hsa32 320 Litros,unreliable,spanish,REFRIGERATORS
606516,Fogão Com Porta Full Glass E Timer E Relógio D...,unreliable,portuguese,RANGES
534521,The Beatles 09 - Relógio Disco De Vinil Decora...,unreliable,portuguese,WALL_CLOCKS
450844,Relógio De Parede Carrilhão Herweg Ref: 5352-084,reliable,portuguese,WALL_CLOCKS
352207,Aparadora Acabamento Maquina 100% Original Pan...,reliable,portuguese,HAIR_CLIPPERS
320466,Filhote Spitz Alemão Laranja Com Pedigree Cbkc,unreliable,portuguese,PUREBRED_DOGS
517042,Heladera Siam Hsi-rt60 Roja 420 Litros Retro C...,unreliable,spanish,REFRIGERATORS
519168,Teclado Korg Pa 600 Novíssimo Sem Detalhes,reliable,portuguese,MUSICAL_KEYBOARDS
407836,"Mala Berlim, Azul Marinho, M - Hg703m - Le Pos...",unreliable,portuguese,SUITCASES


In [38]:
df_dataset['clean_title'] = df_dataset.title.apply(unidecode)

**Minuscula**

Principalmente, se pasa todo a minuscula (en ambos idiomas).

In [39]:
df_dataset = df_dataset.astype(str).apply(lambda x: x.str.lower())

**Limpiar numeros**

Principalmente, se pasa borran todos los numeros.

In [40]:
df_dataset['clean_title'] = df_dataset['clean_title'].astype(str).apply(lambda x: re.sub(r'[0-9]+', '', x))

In [41]:
## ACA DEBERIAMOS CAMBIAR LAS CONTRACCIONES NO ENCONTRE COMO TODAVIA ASI DESPUES SACAMOS TODOS LOS SIMBOLOS
df_dataset['clean_title']

0                                 galoneira semi industrial
1                       maquina de coser brother industrial
2           teclado casio wk-  teclas profissional standard
3                          heladera gafa  impecable urgente
4         butaca   cuotas sin interes!! para auto bebesi...
                                ...                        
646755                                  thank you malbec x 
646756    cachorros jack rusell terrier pelo corto ultim...
646757    colchao box casal castor vitagel euro one face xx
646758                   maquina de cortar el pelo. starex.
646759         trimmer detailer wahl + kit tijeras stylecut
Name: clean_title, Length: 646760, dtype: object

**Limpiar Simbolos**

Principalmente, se pasa borran todos los simbolos que no sean letras.

In [42]:
df_dataset['clean_title'] = df_dataset['clean_title'].astype(str).apply(lambda x: re.sub("[^a-zA-Z]"," ", x))

In [43]:
df_dataset.sample(10, random_state=123)

Unnamed: 0,title,label_quality,language,category,clean_title
181848,fogão a gás 4 bocas industrial innal alta pre...,reliable,portuguese,ranges,fogao a gas bocas industrial innal alta pres...
478587,heladera saccol mod. hsa32 320 litros,unreliable,spanish,refrigerators,heladera saccol mod hsa litros
606516,fogão com porta full glass e timer e relógio d...,unreliable,portuguese,ranges,fogao com porta full glass e timer e relogio d...
534521,the beatles 09 - relógio disco de vinil decora...,unreliable,portuguese,wall_clocks,the beatles relogio disco de vinil decoraca...
450844,relógio de parede carrilhão herweg ref: 5352-084,reliable,portuguese,wall_clocks,relogio de parede carrilhao herweg ref
352207,aparadora acabamento maquina 100% original pan...,reliable,portuguese,hair_clippers,aparadora acabamento maquina original panaso...
320466,filhote spitz alemão laranja com pedigree cbkc,unreliable,portuguese,purebred_dogs,filhote spitz alemao laranja com pedigree cbkc
517042,heladera siam hsi-rt60 roja 420 litros retro c...,unreliable,spanish,refrigerators,heladera siam hsi rt roja litros retro combi
519168,teclado korg pa 600 novíssimo sem detalhes,reliable,portuguese,musical_keyboards,teclado korg pa novissimo sem detalhes
407836,"mala berlim, azul marinho, m - hg703m - le pos...",unreliable,portuguese,suitcases,mala berlim azul marinho m hgm le postiche


## 3. Conclusiones

In [None]:
# TO DO

#### Material de ayuda para el desarrollo de este práctico:

1. Implementación en *keras* de *word embeddings*: https://stackabuse.com/python-for-nlp-word-embeddings-for-deep-learning-in-keras
2. Como utilizar *pre-trained word embeddings* en *keras*: https://keras.io/examples/nlp/pretrained_word_embeddings/
3. *Word Embeddings*: https://jalammar.github.io/illustrated-word2vec/
3. Curso de **procesamiento del lenguaje natural** con *keras*: https://www.coursera.org/learn/natural-language-processing-tensorflow/home/welcome