# DiploDatos 2021


### Categorización de publicaciones de productos realizadas en Mercado Libre

### 02 - Análisis y Curación

#### Condiciones generales que aplican a todos los prácticos:
   - Las notebooks tienen que ser 100% reproducibles, es decir al ejecutar las celdas tal cuál como se entrega la notebook se deben obtener los mismos resultados sin errores.
   - Código legible, haciendo buen uso de las celdas de la notebook y en lo posible seguir estándares de código para Python (https://www.python.org/dev/peps/pep-0008/).
   - Utilizar celdas tipo "Markdown" para ir guiando el análisis.
   - Limpiar el output de las celdas antes de entregar el notebook (ir a Kernel --> Restart Kernel and Clear All Ouputs).
   - Incluir conclusiones del análisis que se hizo en la sección "Conclusiones". Tratar de aportar valor en esta sección, ser creativo! 

## 1. Consignas

#### Sección A:  Limpieza de texto / Preprocessing

Tener en cuenta lo siguiente: 

1. Unidecode

2. Pasar a minúsculas

3. Limpiar números

4. Limpiar símbolos --> '!¡"@$%&*,.:;<=>?@[\\]^_`{|}~\t\n'

5. Limpiar caracteres que sueles usarse como espacios --> '+()-\''

6. Reemplazar "contracciones", por ejemplo:
        -'c/u ' por 'cada uno'
        -'c/' por 'con'
        -'p/' por 'para'
        
        
7. Etc! Pueden sumar mas steps

#### Sección B: Tokenización & Secuencias

1. Utilizar métodos *fit_on_texts()*, *texts_to_sequences()* y *pad_sequences()*:

- https://keras.io/api/preprocessing/text/#tokenizer-class

- https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences

#### Sección C: Label Encoding

1. Utilizar método *LabelEncoder()* de sklearn:

- https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

#### Sección D: Word Embeddings

Generar los word embeddings correspondientes, de las siguientes 2 formas: 

1. Custom Word Embeddings
2. Loading Pretrained Word Embeddings (opcional)

En ambos puntos el objetivos final es llegar a crear la embedding layer de keras:

- https://keras.io/api/layers/core_layers/embedding/

## 2. Código y análisis

Imports necesarios

In [24]:
import pandas as pd
import re
import nltk

#Esto sirve para configurar NLTK. La primera vez puede tardar un poco
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Elias\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Elias\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

Lectura de dataset reducido

In [25]:
df_dataset =  pd.read_csv('DataSet/dataset.csv')
#df_dataset.title

In [26]:
# Recorremos todos los titulos y le vamos aplicando la Normalizacion y luega el Stemming a cada uno
title_list=[]
for title in df_dataset.title:
    # Vamos a reemplzar los caracteres que no sean leras por espacios
    title=re.sub("[^a-zA-Z]"," ",str(title))
    # Pasamos todo a minúsculas
    title=title.lower()
    # Tokenizamos para separar las palabras del titular
    title = nltk.word_tokenize(title)
    # Eliminamos las palabras de menos de 3 letras
    #title = [palabra for palabra in titular if len(palabra)>3]
    
    # Sacamos las Stopwords
    # title = [COMPLETAR for COMPLETAR in COMPLETAR if not COMPLETAR in COMPLETAR]
     #title = word for word in title if not word in all_stopwords
    ## Hasta acá Normalizamos, ahora a stemmizar
    
    # Aplicamos la funcion para buscar la raiz de las palabras
     #title = [stemmer.stem(COMPLETAR) for COMPLETAR in COMPLETAR]
    # Por ultimo volvemos a unir el titular
     #title = " ".join(titular)
    
    # Vamos armando una lista con todos los titulares
    title_list.append(title)

In [27]:
title_list

[['galoneira', 'semi', 'industrial'],
 ['m', 'quina', 'de', 'coser', 'brother', 'industrial'],
 ['teclado', 'casio', 'wk', 'teclas', 'profissional', 'standard'],
 ['heladera', 'gafa', 'impecable', 'urgente'],
 ['butaca',
  'cuotas',
  'sin',
  'interes',
  'para',
  'auto',
  'bebesit',
  'hasta',
  'kg'],
 ['reloj', 'de', 'pared', 'varios', 'modelos'],
 ['teclado', 'sintetizador', 'moxf', 'preto', 'yamaha'],
 ['coche',
  'travel',
  'system',
  'graco',
  'modes',
  'trinidad',
  'c',
  'huevito',
  'base'],
 ['bermuda',
  'les',
  'mills',
  'mujer',
  'nuevo',
  'exclusivo',
  'importado',
  'miami',
  'usa'],
 ['geladeira', 'eletrolux', 'rd'],
 ['reloj',
  'pared',
  'vox',
  'tronic',
  'blanco',
  'numeros',
  'cm',
  'garantia',
  'oficial'],
 ['conjunto', 'mala', 'de', 'viagem', 'p', 'm', 'com', 'rodinha', 'batiki'],
 ['m',
  'quina',
  'de',
  'costura',
  'singer',
  'stylist',
  'com',
  'visor',
  'lcd',
  'e',
  'luz'],
 ['rottwalier', 'femea'],
 ['carrinho', 'de', 'beb', 

## 3. Conclusiones

In [None]:
# TO DO

#### Material de ayuda para el desarrollo de este práctico:

1. Implementación en keras de word embeddings: https://stackabuse.com/python-for-nlp-word-embeddings-for-deep-learning-in-keras
2. Como utilizar pre-trained word embeddings en Keras: https://keras.io/examples/nlp/pretrained_word_embeddings/
3. Word Embeddings: https://jalammar.github.io/illustrated-word2vec/
3. Curso de procesamiento del lenguaje natural con Keras: https://www.coursera.org/learn/natural-language-processing-tensorflow/home/welcome