# TP2: Estimación de peso y dimensiones de los envíos de Mercado Libre

# Materia: Análisis y curación de datos

## Análisis del dataset

Se pide: A partir de lo visto en la teoría de la materia y del segundo laboratorio, diagramar una comunicación en formato textual o interactivo describiendo la solución de las actividades propuestas a continuación. Al final de las mismas se proveen actividades opcionales (no obligatorias) que pueden resultar de interés.

### Actividades Propuestas:
    1.	Eliminar valores cuyo status sea `404` , luego eliminar la columna `status` del dataset ya que solo es útil para limpieza.

    2.	Eliminar los valores NaN de las columnas con prefijo `SHP_`. Estas son aquellas que representan o peso o dimensiones de un item.

    3.	Agrupar por item id y calcular mediana de peso y medidas. De esta forma debería quedar una única fila por cada item_id.

    4.	Parsear la columna de atributos y extraer a columnas propias aquellos atributos cuyo `id` sea `BRAND` o `MODEL`. Estos atributos representan marca o modelo que el vendedor del item ingresó en la publicación. [Opcional] No es necesario limitarse a estos dos atributos, se puede probar quedarse con los N atributos más frecuentes.

    5.	Transformar variables categóricas en números (Se recomienda OneHotEncoding) para las columnas (Sugerencia: arrancar con un sample de ~10K items)

        a.	`CATALOG_PRODUCT_ID`
        b.	`CONDITION`
        c.	`DOMAIN_ID`
        d.	`SELLER_ID`
        e.	`BRAND` (extraída en 4)
        f.	`MODEL`(extraída en 4)

    6.	En caso de tener alguna variable no medida (en nuestro caso `PRICE`) imputar sus valores utilizando kNN.

    7.	Medir las distribuciones de las variables como histogramas, realizar normalizaciones e identificar outliers con los métodos vistos en clase. Hacer análisis de estos outliers y considerar si sería correcto o no eliminarlos del dataset. Sugerencia: Identificar outliers de las columnas `SHP_WEIGHT` y `SHP_VOLUME`, donde `SHP_VOLUME` se define como el producto de las dimensiones.

    8.	[Opcional] Si están interesados en usar texto y técnicas de NLP sobre el título:
        a.	Realizar preprocesamiento del texto, se recomienda leer este artículo.
        b.	Para convertir el título en vectores se recomienda ver tf-idf. wiki, sklearn.

    9.	[Opcional] Aplicar PCA y decidir si existe un subespacio del espacio de features donde viven los datos y son bien descriptos. Graficar.

    10.	[Opcional] Aplicar Mixturas Gaussianas (GMM) para hacer clustering. 

La comunicación debe estar apuntada a un público técnico pero sin conocimiento del tema particular, como por ejemplo, sus compañeros de clase o stakeholders del proyecto. Idealmente, además del documento se debería generar una presentación corta para stakeholders explicando el análisis realizado sobre los datos y las conclusiones obtenidas de tal análisis.

Se evaluarán los siguientes aspectos:

    ●	El informe debe contener un mensaje claro y presentado de forma concisa.
    ●	Los gráficos deben aplicar los conceptos de percepción visual vistos en clase.
    ●	Se debe describir o estimar la significancia estadística de su trabajo.


In [1]:
# pip install scikit-learn

In [2]:
import pandas as pd
import random
import matplotlib.pyplot as plt
import numpy as np
import seaborn
import scipy as sc
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelBinarizer
from ast import literal_eval
from pandas.io.json import json_normalize
#import json

In [3]:
random.seed(0)

El dataset corresponde a un muestreo de envíos durante tres meses de 2018 en MLB (Mercado Libre Brasil), filtrados según métodos de envíos y por carriers (empresas de correos a cargo del envío propiamente dicho). A su vez, fue muestreado de forma no uniforme para romper de forma manual la distribución de los datos.
Los datos son:[meli_dataset_20190426.csv] (https://drive.google.com/open?id=1tNUKD1lf1z8C7LPpCruiDl6SKBAHb79v).

In [4]:
DATASET = 'meli_dataset_20190426.csv'

In [5]:
df_original = pd.read_csv(DATASET, low_memory=False)

In [6]:
df= df_original

In [7]:
df = df.head(10000)

In [8]:
df.columns

Index(['ITEM_ID', 'SHP_WEIGHT', 'SHP_LENGTH', 'SHP_WIDTH', 'SHP_HEIGHT',
       'ATTRIBUTES', 'CATALOG_PRODUCT_ID', 'CONDITION', 'DOMAIN_ID', 'PRICE',
       'SELLER_ID', 'STATUS', 'TITLE'],
      dtype='object')

#### ¿Qué significa cada columna?

* ITEM_ID: id unívoco de cada item publicado. (Ofuscado)
* SHP_WEIGHT: peso del paquete informado por el correo.
* SHP_LENGTH: largo del paquete informado por el correo.
* SHP_WIDTH: ancho del paquete informado por el correo.
* SHP_HEIGHT: altura del paquete informado por el correo.
* ATTRIBUTES: atributos como marca y modelo, entre otros, en formato json-lines
* CATALOG_PRODUCT_ID: id del catálogo (ofuscado).
* CONDITION: condición de venta (nuevo o usado).
* DOMAIN_ID: id de la categoría a la que pertenece la publicación.
* PRICE: precio en reales.
* SELLER_ID: id del vendedor (ofuscado).
* STATUS: estado de la publicación (activa, cerrada, pausada, etc.)
* TITLE: título de la publicación.

In [9]:
df.sample(5)

Unnamed: 0,ITEM_ID,SHP_WEIGHT,SHP_LENGTH,SHP_WIDTH,SHP_HEIGHT,ATTRIBUTES,CATALOG_PRODUCT_ID,CONDITION,DOMAIN_ID,PRICE,SELLER_ID,STATUS,TITLE
2318,JFM04MT51C,,,,,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-MOTORCYCLE_REARVIEW_MIRRORS,85.0,JO7VRVUB6V,active,Retrovisor Gs 650 F800 Bmw Titan Cb Xre Rosca ...
4869,N6UTS0VOQY,,,,,,H53U1H7Q5G,,,,ZZCQI0F60G,under_review,Camisa Dry Fit Masculina Cores Diversas Atacad...
6867,GWL3IS38BW,450.0,20.0,15.0,10.0,,H53U1H7Q5G,,,,LNS8XIJ5ZU,under_review,Tv Box Mx9 4k Android 7 2gb Ram Hdmi Wi-fi You...
9072,IC83MFPBGA,790.0,25.0,15.0,10.0,,H53U1H7Q5G,,,,JFUNO93YYC,under_review,Máquina De Corte Andis Envy Li Cordless Sem Fi...
6159,DLXSVB9EZW,,,,,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-TOOL_ACCESSORIES_AND_SPARES,55.9,ALDW2HR7S7,active,Kit 5 Brocas Fresas Forstner Madeira 15 20 25...


In [10]:
df.dtypes

ITEM_ID                object
SHP_WEIGHT            float64
SHP_LENGTH            float64
SHP_WIDTH             float64
SHP_HEIGHT            float64
ATTRIBUTES             object
CATALOG_PRODUCT_ID     object
CONDITION              object
DOMAIN_ID              object
PRICE                 float64
SELLER_ID              object
STATUS                 object
TITLE                  object
dtype: object

## Actividad 1:

Eliminar valores cuyo status sea `404` , luego eliminar la columna `status` del dataset ya que solo es útil para limpieza.

In [11]:
# df.filter(["STATUS"])!= "404"

df = df[df.STATUS != "404"]
df = df.drop(columns=['STATUS'])
df.sample(5)

Unnamed: 0,ITEM_ID,SHP_WEIGHT,SHP_LENGTH,SHP_WIDTH,SHP_HEIGHT,ATTRIBUTES,CATALOG_PRODUCT_ID,CONDITION,DOMAIN_ID,PRICE,SELLER_ID,TITLE
3733,BRYX8VIR0V,,,,,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-AUDIO_AND_VIDEO_CONNECTORS,29.99,R9P7XSOBC5,02 Soquete Socket Lga 1155 Dt Bgadesk Original...
9314,OXD96CD19W,100.0,16.0,16.0,5.0,,H53U1H7Q5G,,,,EN79FAMVHD,Tela Touch Display Samsung J510 J5 2016 Origin...
3500,JTR3TH85SV,,,,,,H53U1H7Q5G,,,,FGOEDLBB99,Kit Sandália Rasteira Melissa Com 10 Pares Enf...
3384,QAJ7HVTLFA,160.0,16.0,15.0,10.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-CAR_OIL_FILTERS,110.0,B4QOJAUV4A,Filtro Óleo De Câmbio Dsg Jetta / Passat / Audi
3355,IO2PJAQO43,620.0,20.0,19.0,18.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",V8E85HCRII,new,MLB-VIDEO_GAME_CONTROLLERS,285.49,XULFTOUXF9,Controle Xbox One S Original Microsoft Slim Br...


## Actividad 2:

Eliminar los valores NaN de las columnas con prefijo `SHP_`. Estas son aquellas que representan o peso o dimensiones de un item.

In [12]:
# df = df.dropna(subset=['SHP_WEIGHT'])
# df = df.dropna(subset=['SHP_LENGTH'])
# df = df.dropna(subset=['SHP_WIDTH'])
# df = df.dropna(subset=['SHP_HEIGHT'])

# o bien:
df = df.dropna(subset=['SHP_WEIGHT', 'SHP_LENGTH', 'SHP_WIDTH', 'SHP_HEIGHT'])

#o bien

# df= df.dropna(df.filter(regex ='SHP_'))

#df.sample(3)

## Actividad 3:

Agrupar por item id y calcular mediana de peso y medidas. De esta forma debería quedar una única fila por cada item_id.

In [13]:
# Agrupamos por item_id
df_grouped = df.groupby(['ITEM_ID'], as_index=False).median()
#Ordenamos el dataframe por item_id
df.sort_values('ITEM_ID', inplace = True)
# Eliminamos filas con item_id duplicados
df.drop_duplicates(subset='ITEM_ID', keep=False, inplace=True)
# Actualizamos dataframe original con la mediana de pesos y medidas
df.set_index('ITEM_ID', inplace=True)
df.update(df_grouped.set_index('ITEM_ID', inplace=True))
df.reset_index()

Unnamed: 0,ITEM_ID,SHP_WEIGHT,SHP_LENGTH,SHP_WIDTH,SHP_HEIGHT,ATTRIBUTES,CATALOG_PRODUCT_ID,CONDITION,DOMAIN_ID,PRICE,SELLER_ID,TITLE
0,A0BKGTRNTM,775.0,50.0,20.0,10.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-ENGINE_GASKET_SETS,750.00,QD3YJ9751S,Jogo De Junta Completo Civic 93hfa55507z200167
1,A0JIHFAMOP,6100.0,70.0,25.0,5.0,"[{'id': 'BEDDING_SET_SIZE', 'name': 'Tamanho',...",H53U1H7Q5G,new,MLB-BEDDING_SETS,119.90,J3EY3QAB29,Mosquiteiro De Armação Infantil Solteiro Completo
2,A0NG260OMQ,464.0,20.0,11.0,10.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-AUTOMOBILE_FUEL_PUMPS,349.90,NO4W1R9S3D,Refil Bomba Combustível Gasolina Hyundai Vera ...
3,A0WL6O455O,150.0,25.0,25.0,11.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-PENDRIVES,21.99,KIQX6YQZI4,Pen Drive 8gb Multilaser Twist Original Lacrado
4,A1957258HH,3719.0,42.0,34.0,13.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",GITRVCM7WO,used,MLB-GAME_CONSOLES,849.00,ZQIKYCCZ7E,Playstation 3-ps3+brinde Hdmi + 9 Jogos
5,A1FGLFZMVL,729.0,25.0,25.0,5.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-SHORTS,148.90,KAKDL9XJW3,Shorts Masculino Bermuda Praia Estampado Kit 5...
6,A1JOTAU8V2,1750.0,41.0,41.0,28.0,"[{'id': 'AMBIENTS', 'name': 'Ambientes', 'valu...",H53U1H7Q5G,new,MLB-CEILING_LIGHTS,130.00,P0XSEGDPNX,Kit 2 Pendentes Arandela Chapéu Chinês
7,A1LOUCXG9G,150.0,25.0,25.0,5.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-FOOTBALL_SHIRTS,57.90,K2T5AAE8TW,Kit Brasil + Kit Palmeiras 2018 Brasileira Cam...
8,A2C66XB6P7,3084.0,65.0,20.0,5.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-TRANSISTORS,162.00,ZJ1TIFHVWB,"Dissipador De Calor De Aluminio 17,2cm Largura..."
9,A2KCXCBL57,640.0,21.5,18.4,14.3,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-MUGS,63.60,DM7LDQI5CB,2 Xícara De Café Expresso Flashy Roxa - Ref 7268


## Actividad 4:

Parsear la columna de atributos y extraer a columnas propias aquellos atributos cuyo `id` sea `BRAND` o `MODEL`. Estos atributos representan marca o modelo que el vendedor del item ingresó en la publicación. [Opcional] No es necesario limitarse a estos dos atributos, se puede probar quedarse con los N atributos más frecuentes.

In [14]:
def attribute_to_list(attribute):
    if attribute:
        return literal_eval(attribute)
    else:
        return []

In [15]:
# myString = df["ATTRIBUTES"][1].strip('[ ]')
# attribute_to_list(myString)
# json_normalize(attribute_to_list(myString))

In [16]:
#attribute_to_list(df["ATTRIBUTES"][1])

In [17]:
json_normalize(attribute_to_list(df["ATTRIBUTES"][1]))

Unnamed: 0,attribute_group_id,attribute_group_name,id,name,value_id,value_name
0,OTHERS,Outros,BEDDING_SET_SIZE,Tamanho,5774457.0,Solteiro
1,OTHERS,Outros,BEDDING_TYPE,Tipo de roupa de cama,,MOSQUITEIRO
2,OTHERS,Outros,BRAND,Marca,,CAMELO
3,OTHERS,Outros,GTIN,Código universal de produto,-1.0,
4,OTHERS,Outros,ITEM_CONDITION,Condição do item,2230284.0,Novo
5,OTHERS,Outros,MODEL,Modelo,3176642.0,Solteiro


In [18]:
#datos = myString.replace("'", '"')

# FALTA EXTRAER BRAND Y MODEL EN CADA CASO Y LUEGO ITERAR!!!!!!!!!!!!!!!!

## Actividad 5:

Transformar variables categóricas en números (Se recomienda OneHotEncoding) para las columnas (Sugerencia: arrancar con un sample de ~10K items)

In [19]:
df.sample(2)
# luego agregar las variables generadas a partir de atributes

Unnamed: 0_level_0,SHP_WEIGHT,SHP_LENGTH,SHP_WIDTH,SHP_HEIGHT,ATTRIBUTES,CATALOG_PRODUCT_ID,CONDITION,DOMAIN_ID,PRICE,SELLER_ID,TITLE
ITEM_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
U6NI92WT84,306.0,66.0,14.0,14.0,"[{'id': 'EAN', 'name': 'EAN', 'value_id': None...",H53U1H7Q5G,new,MLB-COLLECTIBLE_PRODUCTS,70.0,MZ4QB55VPU,Adesivo Recortado Parede Quebrada Rota 66 Rodovia
DMCDU0W932,1300.0,25.0,11.0,5.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,used,MLB-MOBILE_DEVICE_CHARGERS,6.0,XOO89UQKJD,Carregador Original Nokia Pino Fino C3/e71-72-...


In [20]:
# Exploración de cantidad de categorías distintas
print(pd.DataFrame(df.CATALOG_PRODUCT_ID.unique()).count())
print(pd.DataFrame(df.CONDITION.unique()).count())
print(pd.DataFrame(df.DOMAIN_ID.unique()).count())
print(pd.DataFrame(df.SELLER_ID.unique()).count())
print(pd.DataFrame(df.TITLE.unique()).count())

0    426
dtype: int64
0    3
dtype: int64
0    882
dtype: int64
0    3180
dtype: int64
0    3975
dtype: int64


In [21]:
column = 'CATALOG_PRODUCT_ID'
lb = LabelBinarizer()
lb_results = lb.fit_transform(df[column])
#pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_)).head(10)
CATALOG_PRODUCT_ID_ENCODED = pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_))
CATALOG_PRODUCT_ID_ENCODED.sample(5)

Unnamed: 0,CATALOG_PRODUCT_ID_A0RY70BE19,CATALOG_PRODUCT_ID_A2H2JJFBXM,CATALOG_PRODUCT_ID_A4M0AP2TSK,CATALOG_PRODUCT_ID_A6X73QCLS9,CATALOG_PRODUCT_ID_A7Y7QKJ7EF,CATALOG_PRODUCT_ID_ADKMKF0FVM,CATALOG_PRODUCT_ID_AF4WQUGCVH,CATALOG_PRODUCT_ID_AFPLIBE9VN,CATALOG_PRODUCT_ID_AG9UI846DP,CATALOG_PRODUCT_ID_AGE41D6OTF,...,CATALOG_PRODUCT_ID_ZCRDDN2XDD,CATALOG_PRODUCT_ID_ZD9PH6CQGT,CATALOG_PRODUCT_ID_ZE1SAQN048,CATALOG_PRODUCT_ID_ZHPQEDV8OO,CATALOG_PRODUCT_ID_ZK6EHO4XIX,CATALOG_PRODUCT_ID_ZNCNVOCZCI,CATALOG_PRODUCT_ID_ZOLFL65EFH,CATALOG_PRODUCT_ID_ZSQJ90IBB0,CATALOG_PRODUCT_ID_ZUZF6Q39W8,CATALOG_PRODUCT_ID_ZZDRE28WA4
1196,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2382,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3335,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2519,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1969,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [22]:
df["CONDITION"]

ITEM_ID
A0BKGTRNTM     new
A0JIHFAMOP     new
A0NG260OMQ     new
A0WL6O455O     new
A1957258HH    used
A1FGLFZMVL     new
A1JOTAU8V2     new
A1LOUCXG9G     new
A2C66XB6P7     new
A2KCXCBL57     new
A2RQ980UVM     new
A3MNDIW032     NaN
A43U8UOWPI     new
A4G70EIGUH     new
A4N2QZXPXK     new
A56OPIMS0D     new
A5IQMUAC28     new
A5M6IPYV6M     new
A5VAXDE1G8     new
A61JSUNHMI     new
A6TAE435H1     new
A7EZZ96IDB     NaN
A7F2YZUXKV     new
A87VLI4UUY     new
A8GKANTGUK     new
A8IVK9CICB     new
A8Y5P3MCVJ     new
A9495T93S4     NaN
A9CQEUN6IU     new
A9GGUJPPSA     new
              ... 
ZU48DBNUUA     NaN
ZU4ZP1JHMN     new
ZU718W1552     NaN
ZUP27NZFS3     new
ZUXD6OD8M8     new
ZV3JHGL1ID     new
ZV3X8Y08U4     new
ZVI8QNVYMF     new
ZVPL70J9OG     NaN
ZW5TA6CP0X     new
ZWA6IVO4NM     NaN
ZWOU76VN42     new
ZWRX53K52L     new
ZWT684RYRA     NaN
ZWWQQV4FWN     new
ZX4STUTFBN     new
ZXIAW22XI3     new
ZXT4P7WYU5     new
ZXVQ7O6NDG     new
ZXY1TK6LFC     new
ZXZXFADE2B     new
ZYD4

In [23]:
column = "CONDITION"
lb = LabelBinarizer()
lb_results = lb.fit_transform(df[column].astype(str))
pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_)).head(10)
CONDITION_ENCODED = pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_))
CONDITION_ENCODED.sample(5)

Unnamed: 0,CONDITION_nan,CONDITION_new,CONDITION_not_specified,CONDITION_used
2624,0,1,0,0
2389,0,1,0,0
2372,0,1,0,0
3013,0,1,0,0
3236,0,1,0,0


In [24]:
column = 'DOMAIN_ID'
lb = LabelBinarizer()
lb_results = lb.fit_transform(df[column].astype(str))
#pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_)).head(10)
DOMAIN_ID_ENCODED = pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_))
DOMAIN_ID_ENCODED.sample(5)

Unnamed: 0,DOMAIN_ID_MLB-ABS_SENSORS,DOMAIN_ID_MLB-ACOUSTIC_GUITARS,DOMAIN_ID_MLB-ACTION_FIGURES,DOMAIN_ID_MLB-ADHESIVE_TAPES,DOMAIN_ID_MLB-AEROBICS_AND_FITNESS_EQUIPMENT,DOMAIN_ID_MLB-AIRGUN_PELLETS,DOMAIN_ID_MLB-AIRSOFT_GUNS,DOMAIN_ID_MLB-AIR_CONDITIONER_REMOTE_CONTROLS,DOMAIN_ID_MLB-AIR_FRESHENERS,DOMAIN_ID_MLB-ALARMS_AND_SENSORS,...,DOMAIN_ID_MLB-WIRELESS_ANTENNAS,DOMAIN_ID_MLB-WIRELESS_CHARGERS,DOMAIN_ID_MLB-WIRELESS_FM_TRANSMITTERS,DOMAIN_ID_MLB-WIRE_STRIPPERS,DOMAIN_ID_MLB-WOMEN_SWIMWEAR,DOMAIN_ID_MLB-WRENCHES,DOMAIN_ID_MLB-WRENCH_SETS,DOMAIN_ID_MLB-WRISTWATCHES,DOMAIN_ID_MLB-XENON_KITS,DOMAIN_ID_nan
704,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2514,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2612,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
354,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1705,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [25]:
column = 'SELLER_ID'
lb = LabelBinarizer()
lb_results = lb.fit_transform(df[column].astype(str))
#pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_)).head(10)
SELLER_ID_ENCODED = pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_))
SELLER_ID_ENCODED.sample(5)

Unnamed: 0,SELLER_ID_A0C377D6IK,SELLER_ID_A0G4VA0XM9,SELLER_ID_A0GTKIHE1A,SELLER_ID_A0KW5KL0S5,SELLER_ID_A115K1RP2T,SELLER_ID_A1QE03ELPN,SELLER_ID_A2K70P3I18,SELLER_ID_A2PJ265JWZ,SELLER_ID_A3I3O11AE1,SELLER_ID_A4SE36Z2TG,...,SELLER_ID_ZU5MPG54HI,SELLER_ID_ZUM6UCCICB,SELLER_ID_ZVW99W8TBU,SELLER_ID_ZW0R4QP48J,SELLER_ID_ZWDY6BPHGS,SELLER_ID_ZXCKFJHKGT,SELLER_ID_ZXFTE5ZZ00,SELLER_ID_ZY07CQVW6O,SELLER_ID_ZYUC8GTM87,SELLER_ID_ZZCYH6OP0M
2386,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2969,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2114,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
950,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
185,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [26]:
column = 'TITLE'
lb = LabelBinarizer()
lb_results = lb.fit_transform(df[column].astype(str))
#pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_)).head(10)
TITLE_ENCODED = pd.DataFrame(lb_results, columns=(column + '_') + pd.Series(lb.classes_))
TITLE_ENCODED.sample(5)

Unnamed: 0,TITLE_ Unifi Ponto De Acesso Ao Ar Livre 802.11ac,TITLE_ 10 Regata Masculina Dry Fit Poliester Esportes Academia,TITLE_ 3 Composto Natural Dieta Multi Ervas 60 Caps,TITLE_ Blusa Listra Tecido Moletom Ref.15349,TITLE_ Bota Coturno Feminina Atacado 7 Pares Revenda,TITLE_ Bota Feminina Montaria Cano Alto Full Jln741,TITLE_ Bucha Do Eixo E Do Amortecedor Traseiro Do Peugeot 206 Heat,TITLE_ Caixa De Som Xtreme Mini Bluetooth Usb 40w Primeira Linha,TITLE_ Calça Feminina Cirre Nervurada Nervuras Cintura Alta Justa,TITLE_ Camisa Long Line Oversized Swag Masculina,...,TITLE_Óculos Oakley Tailend Lente Ice Thug + Brindes + F Grátis,TITLE_Óculos Para Maquiagem Lente Giratória +3 Unidade,TITLE_Óleo 5100 4t 15w50 1 Litro - Motul,TITLE_Óleo Castrol 5w40 Magnatec Stop Start Kit C/ 5,TITLE_Óleo Castrol 5w40 Magnatec Stop Start Kit C/4,"TITLE_Óleo Coco Extra Virgem Ladir 3, Lt + 1 Kg Sal + Vinagre Maçã",TITLE_Óleo Do Motor Incol Alta Performance 25w60 Sl 1l,TITLE_Óleo Do Motor Ipiranga F1 Master 15w40 Sl Semissintético 1l,TITLE_Óleo Pentosin Hc 5w40 Sintético Pentosynth Kit C/5 Promoção,TITLE_Ônibus 1/50 Na Caixa Viagem Internacional Escolar Caravana
2044,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2633,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
962,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2236,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2416,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [27]:
#data= df.CATALOG_PRODUCT_ID
#values = np.array(data)
#print(values)
# integer encode
#label_encoder = LabelEncoder()
#integer_encoded = label_encoder.fit_transform(values)
#print(integer_encoded)
# binary encode
#onehot_encoder = OneHotEncoder(sparse=False)
#integer_encoded = integer_encoded.reshape(len(integer_encoded), 1)
#onehot_encoded = onehot_encoder.fit_transform(integer_encoded)
#print(onehot_encoded)

## Actividad 6: 

En caso de tener alguna variable no medida (en nuestro caso `PRICE`) imputar sus valores utilizando kNN.

In [29]:
from fancyimpute import KNN 
train_cols = list(df)
train = pd.DataFrame(KNN(k=5).complete(train))
train.columns = train_cols

ModuleNotFoundError: No module named 'fancyimpute'

In [30]:
list(df)

['SHP_WEIGHT',
 'SHP_LENGTH',
 'SHP_WIDTH',
 'SHP_HEIGHT',
 'ATTRIBUTES',
 'CATALOG_PRODUCT_ID',
 'CONDITION',
 'DOMAIN_ID',
 'PRICE',
 'SELLER_ID',
 'TITLE']

## Actividad 7:

Medir las distribuciones de las variables como histogramas, realizar normalizaciones e identificar outliers con los métodos vistos en clase. Hacer análisis de estos outliers y considerar si sería correcto o no eliminarlos del dataset. Sugerencia: Identificar outliers de las columnas `SHP_WEIGHT` y `SHP_VOLUME`, donde `SHP_VOLUME` se define como el producto de las dimensiones.

In [31]:
# creación de la variable SHP_VOLUME
df["SHP_VOLUME"] = df["SHP_LENGTH"] * df["SHP_WIDTH"] * df["SHP_HEIGHT"]

In [32]:
df.sample(3)

Unnamed: 0_level_0,SHP_WEIGHT,SHP_LENGTH,SHP_WIDTH,SHP_HEIGHT,ATTRIBUTES,CATALOG_PRODUCT_ID,CONDITION,DOMAIN_ID,PRICE,SELLER_ID,TITLE,SHP_VOLUME
ITEM_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
DBLHO51K70,470.0,20.0,16.0,11.0,"[{'id': 'ALPHANUMERIC_MODEL', 'name': 'Modelo ...",H53U1H7Q5G,new,MLB-SPEAKERS,31.9,LOO0BZ4B9U,Caixa De Som Bluetooth Portátil 15w Mp3 Rádio ...,3520.0
LX43KDK9BL,100.0,25.0,11.0,5.0,"[{'id': 'BRAND', 'name': 'Marca da película', ...",H53U1H7Q5G,new,MLB-CELLPHONE_AND_TABLET_SCREEN_PROTECTORS,18.99,MB4PVRMGL8,Película Vidro Temperado Sony Xperia Xa1 Ultra...,1375.0
UJJ88F3V9K,3556.0,25.0,11.0,5.0,"[{'id': 'BRAND', 'name': 'Marca', 'value_id': ...",H53U1H7Q5G,new,MLB-ELECTRONIC_ENTRANCE_INTERCOMS,447.02,F58FWUVIWA,Kit Porteiro Eletronico C/ Video Monitor Cftv ...,1375.0
