# Análise da hipótese: atributos mais influentes no preço

Nesta análise será utilizado o modelo de Random Forest como metodologia para identificar qual ou quais os atributos mais relevantes para a definição do preço de um produto, segundo os dados do dataset.

## Configuração do ambiente de trabalho

Importação das bibliotecas e pacotes necessários

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import LabelEncoder

Leitura dos dados.

Como o objetivo aqui é a avaliação de parâmetros e não a construção de um modelo, embora o Random Forest possa ser utilizado para tal, será utilizada toda a base de dados disponível.

In [48]:
dados = pd.read_csv('../data/processed/train_data_prep02.csv')

## Configuração dos dados.

Como existe uma grande quantidade de atributos optou-se por utlizar o LabelEncoder.

In [50]:
le_cat1 = LabelEncoder()
le_cat2 = LabelEncoder()
le_cat3 = LabelEncoder()
le_brand = LabelEncoder()

le_cat1 = le_cat1.fit(dados.category_1)
le_cat2 = le_cat2.fit(dados.category_2)
le_cat3 = le_cat3.fit(dados.category_3)

le_brand = le_brand.fit(dados.brand_name)

dados['category_1'] = le_cat1.transform(dados.category_1)
dados['category_2'] = le_cat2.transform(dados.category_2)
dados['category_3'] = le_cat3.transform(dados.category_3)
dados['brand_name'] = le_brand.transform(dados.brand_name)

In [51]:
dados.head()

Unnamed: 0,name,category_1,category_2,category_3,item_condition_id,brand_name,price,shipping,item_description,date,stock
0,mlb cincinnati reds t shirt size xl,5,103,763,3,3070,10.0,1,no description yet,18-6-2018,27
1,razer blackwidow chroma keyboard,1,30,212,3,3556,52.0,0,this keyboard is in great condition and works ...,18-3-2018,15
2,ava viv blouse,10,104,94,1,4179,10.0,1,adorable top with a hint of lace and a key hol...,26-10-2018,14
3,leather horse statues,3,55,404,1,3070,35.0,1,new with tags leather horses retail for each s...,21-2-2018,1
4,24k gold plated rose,10,58,536,1,3070,44.0,0,complete with certificate of authenticity,17-4-2018,13


## Construção e fit do modelo

Foram utilizados apenas os atributos categóricos.

In [52]:
rfr = RandomForestRegressor(random_state=101, n_jobs=-1)

X = dados[['category_1', 'category_2', 'category_3', 'brand_name', 'item_condition_id', 'shipping']]
y = dados['price']

rfr.fit(X, y)

## Importância das features

In [56]:
features = ['category_1', 'category_2', 'category_3', 'brand_name', 'item_condition_id', 'shipping']
for i, weight in enumerate(rfr.feature_importances_):
    print(features[i], round(weight, 3))


category_1 0.046
category_2 0.146
category_3 0.272
brand_name 0.402
item_condition_id 0.103
shipping 0.031


## Conclusões

Os resultados mostram que as features de maior peso para a definição do valor dos produtos são: `brand_name` e `category_3`.