# DiploDatos 2021


### Categorización de publicaciones de productos realizadas en Mercado Libre

### 01 - Análisis y Visualización

#### Condiciones generales que aplican a todos los prácticos:
   - Las notebooks tienen que ser 100% reproducibles, es decir al ejecutar las celdas tal cuál como se entrega la notebook se deben obtener los mismos resultados sin errores.
   - Código legible, haciendo buen uso de las celdas de la notebook y en lo posible seguir estándares de código para Python (https://www.python.org/dev/peps/pep-0008/).
   - Utilizar celdas tipo "Markdown" para ir guiando el análisis.
   - Limpiar el output de las celdas antes de entregar el notebook (ir a Kernel --> Restart Kernel and Clear All Ouputs).
   - Incluir conclusiones del análisis que se hizo en la sección "Conclusiones". Tratar de aportar valor en esta sección, ser creativo! 

## 1. Consignas

#### Sección A:  Estadísticas básicas & Visualizaciones

Por cada uno de los siguientes puntos realizar un análisis para poder responder el enunciado/pregunta y generar alguna gráfica para visualizar los resultados:

1. Cuántas publicaciones de items hay dentro de cada categoría.
2. Proporción de publicaciones en español y portugues dentro de cada categoría.
3. Proporción de label quality dentro de cada categoría.

TODO: ¿Relación entre label quality vs categoría, aparte de solo la proporción?

4. Relación entre el label quality y el idioma.

#### Sección B: Estadísticas de las publicaciones & Visualizaciones

Por cada uno de los siguientes puntos realizar un análisis para poder responder el enunciado/pregunta y generar alguna gráfica para visualizar los resultados:

1. Cantidad promedio de palabras del título de la publicacion por categoría.
2. Análisis general de stopwords, números, caracteres especiales, etc. Puede ser un recuento promedio por publicación, no es necesario realizar una gráfica en este punto.
3. Palabras más frecuentes dentro de cada categoría (sin incluir stopwords, números, caracteres especiales, etc).

Tener en cuenta librerías como *NLTK* y *spaCy* para el procesamiento de texto.

## 2. Código y análisis

Imports necesarios

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn
import spacy
import nltk

# pip install seaborn
# pip install --user -U nltk
# pip install -U spacy

Lectura de dataset reducido

In [2]:
df_dataset = pd.read_csv('../../dataset/reduced_dataset.csv')

In [3]:
df_dataset.head(20)

Unnamed: 0,title,label_quality,language,category
0,Galoneira Semi Industrial,unreliable,portuguese,SEWING_MACHINES
1,Máquina De Coser Brother Industrial,unreliable,spanish,SEWING_MACHINES
2,Teclado Casio Wk-240 76 Teclas Profissional St...,unreliable,portuguese,MUSICAL_KEYBOARDS
3,Heladera Gafa 380 Impecable Urgente,unreliable,spanish,REFRIGERATORS
4,Butaca 6 Cuotas Sin Interes!! Para Auto Bebes...,unreliable,spanish,BABY_CAR_SEATS
5,Reloj De Pared - Varios Modelos,unreliable,spanish,WALL_CLOCKS
6,Teclado Sintetizador Moxf8 Preto Yamaha,unreliable,portuguese,MUSICAL_KEYBOARDS
7,Coche Travel System Graco Modes Trinidad C/ Hu...,unreliable,spanish,BABY_STROLLERS
8,Bermuda Les Mills Mujer Nuevo Exclusivo Import...,unreliable,spanish,SHORTS
9,Geladeira Eletrolux Rd30,unreliable,portuguese,REFRIGERATORS


## Cuántas publicaciones de items hay dentro de cada categoría.

In [9]:
df_dataset.groupby("category").size()

category
BABY_CAR_SEATS        34163
BABY_STROLLERS        31353
COFFEE_MAKERS         35104
ELECTRIC_DRILLS       30820
HAIR_CLIPPERS         32372
KITCHEN_SINKS         30635
MATTRESSES            32967
MEMORY_CARDS          31564
MOTORCYCLE_JACKETS    32615
MUSICAL_KEYBOARDS     33222
PANTS                 35973
PUREBRED_DOGS         32928
RANGES                32645
REFRIGERATORS         32635
ROLLER_SKATES         31371
SEWING_MACHINES       31129
SHORTS                31685
SUITCASES             31580
WALL_CLOCKS           30600
WINES                 31399
dtype: int64

## Proporción de publicaciones en español y portugues dentro de cada categoría.

In [74]:
def proportion(df, col1, col2):
    
    df_proportion = df_dataset.groupby([col1, col2]) \
        .agg(count=(col2, "count")) \
        .join(df_dataset.groupby(col1).size() \
        .to_frame()) \
        .rename(columns={0: "total"})

    df_proportion["proportion"] = df_proportion["count"] / df_proportion["total"]
    return df_proportion

proportion(df_dataset, "category", "language")

Unnamed: 0_level_0,Unnamed: 1_level_0,count,total,proportion
category,language,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABY_CAR_SEATS,portuguese,16290,34163,0.476832
BABY_CAR_SEATS,spanish,17873,34163,0.523168
BABY_STROLLERS,portuguese,16244,31353,0.5181
BABY_STROLLERS,spanish,15109,31353,0.4819
COFFEE_MAKERS,portuguese,17607,35104,0.501567
COFFEE_MAKERS,spanish,17497,35104,0.498433
ELECTRIC_DRILLS,portuguese,15044,30820,0.488125
ELECTRIC_DRILLS,spanish,15776,30820,0.511875
HAIR_CLIPPERS,portuguese,16474,32372,0.508897
HAIR_CLIPPERS,spanish,15898,32372,0.491103


## 3. Proporción de label quality dentro de cada categoría.


In [109]:
df_proportion = proportion(df_dataset, "category", "label_quality").reset_index()
df_proportion

Unnamed: 0,category,label_quality,count,total,proportion
0,BABY_CAR_SEATS,reliable,5644,34163,0.165208
1,BABY_CAR_SEATS,unreliable,28519,34163,0.834792
2,BABY_STROLLERS,reliable,5705,31353,0.18196
3,BABY_STROLLERS,unreliable,25648,31353,0.81804
4,COFFEE_MAKERS,reliable,5467,35104,0.155737
5,COFFEE_MAKERS,unreliable,29637,35104,0.844263
6,ELECTRIC_DRILLS,reliable,3061,30820,0.099319
7,ELECTRIC_DRILLS,unreliable,27759,30820,0.900681
8,HAIR_CLIPPERS,reliable,4833,32372,0.149296
9,HAIR_CLIPPERS,unreliable,27539,32372,0.850704


In [110]:
fig = plt.figure(figsize=(8,6))
seaborn.barplot(
    y=df_proportion.count,
    x=df_proportion.category,
    hue=df_proportion.label_quality,
    ci=None,
    color="b",
)
plt.xticks(rotation=45)
plt.ticklabel_format(style='plain', axis='y')

AttributeError: 'bool' object has no attribute 'all'

<Figure size 576x432 with 0 Axes>

## Relación entre el label quality y el idioma.

In [77]:
proportion(df_dataset, "language", "label_quality")

Unnamed: 0_level_0,Unnamed: 1_level_0,count,total,proportion
language,label_quality,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
portuguese,reliable,50519,328992,0.153557
portuguese,unreliable,278473,328992,0.846443
spanish,reliable,44363,317768,0.139608
spanish,unreliable,273405,317768,0.860392


In [80]:
pd.crosstab(
    df_dataset.language,
    df_dataset.label_quality
) / len(df_dataset)

label_quality,reliable,unreliable
language,Unnamed: 1_level_1,Unnamed: 2_level_1
portuguese,0.078111,0.430566
spanish,0.068593,0.42273


## Cantidad promedio de palabras del título de la publicacion por categoría.

In [74]:
df_word_count = df_dataset.title.apply(lambda s: len(s.split(' '))) \
    .to_frame()\
    .rename(columns={"title": "word_count"})

In [101]:
df_dataset[["title", "category"]] \
    .join(df_word_count) \
    .groupby("category").agg(
        avg_word_count=("word_count", "mean")
)

Unnamed: 0_level_0,avg_word_count
category,Unnamed: 1_level_1
BABY_CAR_SEATS,8.02813
BABY_STROLLERS,7.412146
COFFEE_MAKERS,7.370983
ELECTRIC_DRILLS,8.384296
HAIR_CLIPPERS,8.181577
KITCHEN_SINKS,8.970034
MATTRESSES,8.094033
MEMORY_CARDS,9.346059
MOTORCYCLE_JACKETS,7.540702
MUSICAL_KEYBOARDS,7.032719


In [77]:
df_dataset.join(df_word_count).describe()

Unnamed: 0,word_count
count,646760.0
mean,7.704054
std,2.509832
min,1.0
25%,6.0
50%,8.0
75%,9.0
max,113.0


## Cantidad de stopwords por titulo

In [84]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
stop_words_sp = set(stopwords.words('spanish'))
stop_words_pg = set(stopwords.words('portuguese'))
stop_words = stop_words_sp | stop_words_pg
stop_words

count_stopwords = lambda title: sum(
    w in stop_words for w in word_tokenize(title)
)

len(df_dataset[df_dataset.title.apply(count_stopwords) > 0]) / len(df_dataset)


[nltk_data] Downloading package stopwords to
[nltk_data]     /home/benjamin/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


0.004213309419259076

In [83]:
df_stopword_vs_wordcount = df_dataset.title \
    .apply(count_stopwords) \
    .to_frame()\
    .rename(columns={"title": "nof_stopwords"}) \
    .join(df_word_count)

df_stopword_vs_wordcount.nof_stopwords.mean() / df_stopword_vs_wordcount.word_count.mean() 

0.0005613451732945002

## 3. Conclusiones

In [None]:
# TO DO