# Clusters de sapatos

## Introdução

Um dos maiores problemas do e-commerce é agrupar produtos baseado na visão do usuário e não em características como cor, preço e fabricante. Uma necessidade é corrigir preços.

Uma das formas de atacar este problema é usando as features conhecidas (preço, cores, fabricante, categorias da estrutura mercadológica, etc) par agerar um vetor que represente o produto, e encontrar clusters que os agrupem usando alguma métrica de distância vetorial.

Vamos atacar este problema com um dataset de sapatos.

## Dados

Temos um conjunto de dados de registros de vendas de sapatos, cada sapato está identificado por um *id* único, e as linhas o apresentam em diversas ofertas de lojas onlne com cores, a categorização do site em que é ofertado, condição da oferta (novo ou usado), marca e preço cobrado.

In [5]:
import pandas as pd
df = pd.read_json("shoes.json", orient="records", lines=True)

In [7]:
df.head(10)

Unnamed: 0,id,brand,categories,colors,condition,isSale,price
0,AVpfEf_hLJeJML431ueH,Naturalizer,"[Clothing, Heels, All Women's Shoes, Shoes, Sa...","[Silver, Cream]",USED,False,55.99
1,AVpi74XfLJeJML43qZAc,MUK LUKS,"[Clothing, All Women's Shoes, Women's Casual S...",[Grey],NEW,True,41.125
2,AVpi74XfLJeJML43qZAc,MUK LUKS,"[Clothing, All Women's Shoes, Women's Casual S...",[Grey],NEW,False,35.25
3,AVpjXyCc1cnluZ0-V-Gj,MUK LUKS,"[Clothing, All Women's Shoes, Shoes, Women's S...",[Black],NEW,False,24.75
4,AVphGKLPilAPnD_x1Nrm,MUK LUKS,"[Clothing, All Women's Shoes, Shoes, Women's S...",[Grey],NEW,True,31.695
5,AVpg91ziilAPnD_xziOo,Soft Ones,"[Clothing, All Womens Shoes, All Women's Shoes...",[Brown],NEW,True,10.95
6,AVpjGKXyLJeJML43r8BH,MUK LUKS,"[Clothing, Women's Casual Shoes, All Women's S...","[Navy, Burgundy, Brown, Purple, Black, Natural...",USED,False,18.395
7,AVpjGKXyLJeJML43r8BH,MUK LUKS,"[Clothing, Women's Casual Shoes, All Women's S...","[Navy, Burgundy, Brown, Purple, Black, Natural...",USED,False,18.395
8,AVpfLXyhilAPnD_xWmNc,MUK LUKS,"[Clothing, Shoes, Women's Shoes, All Women's S...","[Grey, Navy]",NEW,True,49.44
9,AVpfeWdJ1cnluZ0-lXYU,MUK LUKS,"[Clothing, All Women's Shoes, Shoes, Women's B...",[Brown],NEW,True,53.495


As colunas seguintes estão presentes:

* id: Código identificador de cada sapato
* brand: Marca do sapato
* categories: Categorias em que o sapato foi alocado no e-commerce onde a oferta é apresentada
* colors: Cores disponíveis
* condition: Se está usado ou novo.
* price: Preço cobrado pelo e-commerce em que está sendo ofertado.

## Desafio

1. Você deve usar o algoritmo de sua preferência para agrupar os sapatos de acordo com *condition*, *categories* e *colors* disponíveis gerando 4 clusters.

2. Para cada cluster encontrado, você deve calcular o preço médio e o desvio padrão de preço.

3. Como bônus, você pode apresentar os clusters num gráfico, mas essa etapa não é obrigatória.

Para tanto, tenha em mente as seguintes observações:

1. Um produto pode ser ofertado em mais de uma loja, portanto, pode aparecer mais de uma vez no conjunto de dados e ter valores para *categories*, *colors* e *condition* diferentes, você precisa reunir estes dados e criar um único registro para cada id.

2. Campos como *brand*, *categories*, *colors* e *condition* são **categóricos**, dependêndo do algoritmo utilizado você vai precisar aplicar alguma técnica como [codificação one-hot](https://medium.com/@arthurlambletvaz/one-hot-encoding-o-que-%C3%A9-cd2e8d302ae0) quando (e se) for utilizá-los.