# Análise de Visualização de Comércio Eletrônico (Ecommerce)
- Para essa segunda etapa do projeto, irei realizar a Normalização dos dados e Engenharia de Features: 
  - Campos adicionas de escala, utilizando o MinMaxScaler; 
  - Campo de frequência para Material. 

## 1.0 Bibliotecas e Leitura de Dados 📋

In [2]:
# Bibliotecas utilizadas
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

In [3]:
# Leitura de base de dados tratados
df = pd.read_csv('ecommerce_tratado.csv')
df.head()

Unnamed: 0,Título,Nota,N_Avaliações,Desconto,Marca,Material,Gênero,Temporada,Review1,Review2,Review3,Qtd_Vendidos,Preço,Marca_Cod,Material_Cod,Temporada_Cod,Marca_Freq
0,Pijama Cirurgico Scrub Roupa Privativa Hospit...,4.0,273.0,0.0,toronto uniformes profissionais,poliéster,Sem gênero,não definido,"Preço justo , bem feito acabamento ok. Única s...","Tamanho bom, costuras de qualidade, porém teci...","Muito bom, só poderia ter os cortes na lateral...",1000,69.9,781,122,1,0.002274
1,Kit 10 Cuecas Boxer Lupo Cueca Box Algodão Mas...,4.5,3034.0,18.0,lupo,algodão,Masculino,outono/inverno,As cuecas são boas; porém você percebe na cost...,"Pelo preço promocional, com ctz tem algum defe...","Serviram muito bem, porém é nítido que o pano ...",10000,232.89,463,25,3,0.042292
2,Kit Com 10 Cuecas Boxer Algodão Sem Costura Zo...,4.7,5682.0,20.0,zorba,algodão,Masculino,não definido,O tecido é bom e são confortáveis. Só que a nu...,Vendo comentários de outros consumidores vejo ...,"Produto não é nem de longe original, tecido gr...",50000,199.9,838,25,1,0.009095
3,Kit 10 Cuecas Boxer Mash Algodão Cotton Box Or...,4.6,1700.0,22.0,mash,algodão,Masculino,primavera/verão,"As cuecas são boas, porém meu marido usa g e p...","E o tamanho certo, mas em baixo dela, fica mui...",Produto não parece.\nOriginal e veio 2 modelos...,10000,229.39,494,25,7,0.010914
4,Kit 3 Short Jeans Feminino Cintura Alta Barato...,4.4,507.0,9.0,menina linda,jean,Feminino,primavera/verão,Estou encantada com essas peças!.\nOs shorts s...,"Recomendo, tecido confortável, igual a foto.","Gostei muito dos shorts, material bom, para us...",1000,129.2,509,74,7,0.010005


## 2.0 Normalização 🎲

### 2.1 Marca, Material, Gênero e Temporada
- Normalização de campos de texto a fim de deixar os registros de nomes com a primeira letra em maiúsculo.

In [4]:
# Atualizando registros com a primeira letra em maiúsculo
df['Marca'] = df['Marca'].str.title()
df['Material'] = df['Material'].str.title()
df['Temporada'] = df['Temporada'].str.title()
df['Gênero'] = df['Gênero'].str.title()

In [5]:
# Visualização
df[['Marca', 'Material', 'Temporada', 'Gênero']].drop_duplicates()

Unnamed: 0,Marca,Material,Temporada,Gênero
0,Toronto Uniformes Profissionais,Poliéster,Não Definido,Sem Gênero
1,Lupo,Algodão,Outono/Inverno,Masculino
2,Zorba,Algodão,Não Definido,Masculino
3,Mash,Algodão,Primavera/Verão,Masculino
4,Menina Linda,Jean,Primavera/Verão,Feminino
...,...,...,...,...
1755,Feminina Academia Atacado,Poliéster,Primavera/Verão,Feminino
1757,Levi'S,Algodão Com Elastano,Outono/Inverno,Masculino
1759,Destaq,Algodão,Não Definido,Sem Gênero Infantil
1760,Inoffensive,Indeterminado,Não Definido,Feminino


### 2.2 MinMaxScaler
- Como mencionado na etapa anterior, irei realizar novamente o processo de criação dos campos utilizando o MinMaxScaler, pois as variáveis originais tiveram alteração de tratamento e, por isso, ele tipo de trabalho deveria ser realizado novamente;
- Com isso, será criada escalas para Nota, N_Avaliações, Desconto e Preço, a fim de fazer visualizações interessantes na próxima etapa.

In [6]:
# Chamando a classe do Scaler
minmax = MinMaxScaler()

# Criando variáveis com o Scaler
df['Nota_MinMax'] = minmax.fit_transform(df[['Nota']])
df['N_Avaliações_MinMax'] = minmax.fit_transform(df[['N_Avaliações']])
df['Desconto_MinMax'] = minmax.fit_transform(df[['Desconto']])
df['Preço_MinMax'] = minmax.fit_transform(df[['Preço']])

## 3.0 Engenharia de Features 🎲

### 3.1 Frequência
- Na última etapa, eu tive que fazer a exclusão do campo ‘Material_Freq’, pois precisei fazer tratamento da variável original Material (o que não foi necessário para ‘Marca_Freq’);
- Por causa disso, nessa etapa irei refazer esse campo a fim de ter-se mais uma informação interessante para este projeto.

In [7]:
# Adicionando variável para frequência de Material
material_freq = df['Material'].value_counts() / len(df)
df['Material_Freq'] = df['Material'].map(material_freq)

## 4.0 Salvando Dados Preparados 🎲

In [9]:
# Informações Adicionadas
print('Quantidade de Linhas:', df.shape[0])
print('Quantidade de Colunas:', df.shape[1])
print('Adição dos Campos:\n{}'.format(df[['Nota_MinMax', 'N_Avaliações_MinMax', 'Desconto_MinMax', 'Preço_MinMax', 'Material_Freq']].columns.to_list()))

Quantidade de Linhas: 1763
Quantidade de Colunas: 22
Adição dos Campos:
['Nota_MinMax', 'N_Avaliações_MinMax', 'Desconto_MinMax', 'Preço_MinMax', 'Material_Freq']


In [10]:
df.to_csv('ecommerce_preparados.csv', index=False)