<a href="https://colab.research.google.com/github/Douglasepol/H-M-Fashion-Parquet-Performance/blob/main/H%26M_Fashion_Parquet_Performance.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# H&M Fashion Parquet Performance

Os varejistas de moda estão cada vez mais recorrendo à inteligência artificial (IA) para obter ajuda na busca de oferecer aos clientes o que eles desejam. O varejo orientado por IA permite que as marcas atendam às demandas modernas dos clientes, personalizando a experiência de compra.

À medida que mais empresas de varejo levam seus negócios das lojas tradicionais de varejo para o comércio eletrônico, elas podem obter mais informações sobre as preferências de seus clientes para atender à demanda.

O Grupo H&M é uma empresa multinacional sueca de moda presente em 74 países, com mais de 5000 lojas e tem investido fortemente em inteligência artificial para acompanhar os ciclos da moda.

Este notebook tem como objetivo analisar uma base de dados que apresenta registros de vendas de roupas. Os dados são referentes a comercialização de peças da H&M. 

O dataset está disponível no link (www.kaggle.com/datasets/tbierhance/hm-fashion-recommendation-parquet)

O notebook está subdividido nas seguintes etapas:

1) Aquisição dos dados

2) Análise exploratória

3) Descoberta de Insights

4) Apresentação de Insights em um dashboard do Power BI

In [2]:
#Bibliotecas utilizadas

import pandas as pd
import seaborn as sns
from sklearn.feature_selection import SelectKBest
import matplotlib.pyplot as plt

## 1) Aquisição de Dados

Importante destacar que o arquivos referentes ao dataset possuem uma extensão .parquet, para importá-los foi utilizado o método read_parquet() da biblioteca Pandas.

In [3]:
#Para essa análise será utilizado apenas os arquivos referentes aos consumidores, os artigos vendidos e as vendas realizadas
customers = pd.read_parquet('/content/drive/MyDrive/Colab Notebooks/H&M Fashion Parquet Performance/data/customers.parquet')
articles = pd.read_parquet('/content/drive/MyDrive/Colab Notebooks/H&M Fashion Parquet Performance/data/articles.parquet')
sales = pd.read_parquet('/content/drive/MyDrive/Colab Notebooks/H&M Fashion Parquet Performance/data/sales.parquet')

In [4]:
customers.describe()

Unnamed: 0,customer_id,age,postal_code
count,1371980.0,1371980.0,1371980.0
mean,685989.5,35.95475,166431.1
std,396056.7,14.7812,102526.1
min,0.0,-1.0,0.0
25%,342994.8,24.0,63142.0
50%,685989.5,31.0,159688.0
75%,1028984.0,49.0,256201.0
max,1371979.0,99.0,352898.0


Nos registros dos cunsumidores existem informações de idade com valores menor que 0. Tal fato pode ser consequência de inconsistência no processo de cadastro ou algum outro motivo.

Para eliminar essa inconsistência, todos os registros com idade menor que 16 serão eliminados.

In [5]:
customers = customers[customers.age > 15]
customers.describe()

Unnamed: 0,customer_id,age,postal_code
count,1356119.0,1356119.0,1356119.0
mean,686002.0,36.38696,166513.2
std,396040.5,14.31363,102535.0
min,0.0,16.0,0.0
25%,343070.5,24.0,63360.0
50%,685976.0,32.0,159809.0
75%,1028974.0,49.0,256291.0
max,1371979.0,99.0,352898.0


In [6]:
sales.describe()

Unnamed: 0,yearday,week,customer_id,article_id,price
count,31788320.0,31788320.0,31788320.0,31788320.0,31788320.0
mean,360.7276,51.26595,685207.5,696227200.0,14.65078
std,211.3269,30.18897,396002.4,133448000.0,10.87962
min,0.0,0.0,0.0,108775000.0,0.01
25%,189.0,27.0,342733.0,632803000.0,9.33
50%,339.0,48.0,684801.0,714582000.0,14.99
75%,556.0,79.0,1027363.0,786524000.0,19.99
max,733.0,104.0,1371979.0,956217000.0,349.0


In [7]:
articles.describe()

Unnamed: 0,article_id,product_code,department_no
count,105542.0,105542.0,105542.0
mean,698424600.0,698424.563378,4532.777833
std,128462400.0,128462.384432,2712.692011
min,108775000.0,108775.0,1201.0
25%,616992500.0,616992.5,1676.0
50%,702213000.0,702213.0,4222.0
75%,796703000.0,796703.0,7389.0
max,959461000.0,959461.0,9989.0


## 2) Análise Exploratória

É possível analisar os dados com os arquivos em dataframes separados ou juntos, em um único dataframe.

Para essa análise, será utilizado o método merge() para realizar uma **união interna** e concentrar em apenas um dataframe todos os dados relacionados às vendas realizadas.

In [8]:
df_full = pd.merge(customers, sales, on='customer_id', how='inner')
df_full = pd.merge(df_full, articles, on='article_id', how='inner')

In [9]:
df_full.tail()

Unnamed: 0,customer_id,FN,Active,club_member_status,fashion_news_frequency,age,postal_code,t_dat,yearday,week,...,department_name,detail_desc,product_type,graphical_appearance,colour_group,perceived_colour_value,perceived_colour_master,index,index_group,garment_group
31648061,1371471,True,True,ACTIVE,Regularly,22,71535,2018-09-26,6,1,...,Other Accessories,Laptop sleeve with a zip at the top. Lined. Si...,Bag,Metallic,Light Purple,Light,Lilac Purple,Divided,Divided,Accessories
31648062,1371692,True,True,ACTIVE,Regularly,41,307168,2018-11-20,61,8,...,Jersey Basic,"Short, fitted off-the-shoulder dress in jersey...",Dress,Stripe,White,Light,White,Ladieswear,Ladieswear,Jersey Basic
31648063,1371732,True,True,ACTIVE,Regularly,33,183457,2018-10-17,27,4,...,Kids Girl Trouser,3/4-length trousers in crinkled organic cotton...,Trousers,Solid,Dark Orange,Medium Dusty,Brown,Children Sizes 92-140,Baby/Children,Trousers
31648064,1371737,False,False,ACTIVE,NONE,27,84413,2019-03-18,179,25,...,Ladies Sport Bras,Sleeveless sports top in fast-drying functiona...,Vest top,Front print,Light Orange,Dusty Light,Orange,Sport,Sport,Jersey Fancy
31648065,1371893,False,False,ACTIVE,NONE,31,240211,2018-10-01,11,1,...,Kids Boy Knitwear,"Jumper in a soft, fine cotton knit with long s...",Sweater,Stripe,Dark Blue,Dark,Blue,Children Sizes 92-140,Baby/Children,Knitwear


In [10]:
df_full.isnull().sum()

customer_id                     0
FN                              0
Active                          0
club_member_status          48505
fashion_news_frequency     128074
age                             0
postal_code                     0
t_dat                           0
yearday                         0
week                            0
day_name                        0
article_id                      0
price                           0
online_channel                  0
product_code                    0
prod_name                       0
product_group_name              0
department_no                   0
department_name                 0
detail_desc                114377
product_type                    0
graphical_appearance            0
colour_group                    0
perceived_colour_value          0
perceived_colour_master         0
index                           0
index_group                     0
garment_group                   0
dtype: int64

In [11]:
df_full.describe()

Unnamed: 0,customer_id,age,postal_code,yearday,week,article_id,price,product_code,department_no
count,31648070.0,31648070.0,31648070.0,31648070.0,31648070.0,31648070.0,31648070.0,31648070.0,31648070.0
mean,685193.5,36.03827,174334.2,360.8885,51.28895,696317800.0,14.93987,696317.8,2851.068
std,396000.6,12.98003,101860.3,211.3,30.18511,133418000.0,11.00164,133418.0,2081.343
min,0.0,16.0,0.0,0.0,0.0,108775000.0,0.01,108775.0,1201.0
25%,342740.0,25.0,83387.0,189.0,27.0,632982000.0,9.33,632982.0,1610.0
50%,684806.0,31.0,173241.0,339.0,48.0,714707000.0,14.99,714707.0,1717.0
75%,1027340.0,47.0,262824.0,556.0,79.0,786743000.0,19.99,786743.0,3937.0
max,1371979.0,99.0,352898.0,733.0,104.0,956217000.0,349.0,956217.0,9989.0


## 3) Descoberta de Insights

Nessa etapa algumas questões são elencadas e respondidas por meio de gráficos.

1) Qual o preço total arrecadado na venda de todos os produtos?

In [12]:
df_full.price.sum()

519696450.0

2) Qual o preço arrecadado na venda dos produtos por segmento?

In [13]:
df = df_full.groupby(["product_group_name"])["price"].sum()
df

product_group_name
Accessories              1.461792e+07
Bags                     1.432700e+05
Cosmetic                 5.140130e+03
Fun                      2.621000e+01
Furniture                3.013200e+03
Garment Full body        7.552043e+07
Garment Lower body       1.361586e+08
Garment Upper body       1.991044e+08
Garment and Shoe care    2.878050e+03
Interior textile         7.181500e+02
Items                    3.613516e+04
Nightwear                5.192148e+06
Shoes                    1.698316e+07
Socks & Tights           4.578942e+06
Stationery               4.250100e+02
Swimwear                 3.387202e+07
Underwear                3.194222e+07
Underwear/nightwear      9.067320e+03
Unknown                  1.525940e+06
Name: price, dtype: float32

3) Qual o maior valor, gasto por faixa etária?

In [14]:
df = df_full.groupby(['age'])["price"].max()
df

age
16     99.000000
17    149.000000
18    179.000000
19    161.100006
20    249.000000
         ...    
95     59.990002
96     27.200001
97     49.990002
98     79.989998
99     35.990002
Name: price, Length: 84, dtype: float32

4) Qual o menor valor, gasto por faixa etária?

In [15]:
df = df_full.groupby(['age'])["price"].min()
df

age
16    0.87
17    0.41
18    0.26
19    0.25
20    0.12
      ... 
95    2.99
96    4.99
97    4.99
98    2.99
99    1.80
Name: price, Length: 84, dtype: float32

### Correlação entre variáveis

Para ter uma boa interpretação do significado dos dados, é necessário analisar a correlação entre as variáveis (features/características).

A análise de correlação quantifica a dependência entre duas variáveis.

In [33]:
sns.heatmap(df_full.corr(), annot = True, fmt='.2g') # O parâmetro annot = True faz com que os valores fiquem visíveis no mapa.
plt.show()

### Seleção de features

Uma vez que o dataset apresenta uma série de features que podem dificultar o processo de análise sobre qual feature é mais relevante, é possível utilizar uma ferramenta que classifica as features de acordo com seu nível de relevância em relação a uma feature alvo.

Essa classificação pode servir de grande ajuda ao considerar a construção de modelos de Machine Learning para tarefas de classificação, previsão ou agrupamento.


In [None]:
features = df_full.drop(['price'],1)
label = df_full['price']

features_list = ('customer_id', 'FN', 'Active', 'club_member_status',
                 'fashion_news_frequency', 'age', 'postal_code', 't_dat', 'yearday',
                 'week', 'day_name', 'article_id', 'price', 'online_channel',
                 'product_code', 'prod_name', 'product_group_name', 'department_no',
                 'department_name', 'detail_desc', 'product_type',
                 'graphical_appearance', 'colour_group', 'perceived_colour_value',
                 'perceived_colour_master', 'index', 'index_group', 'garment_group')

k_best_features = SelectKBest(k='all')
k_best_features.fit_transform(features, label)
k_best_features_scores = k_best_features.scores_
raw_pairs = zip(features_list[1:], k_best_features_scores)
ordered_pairs = list(reversed(sorted(raw_pairs, key=lambda x: x[1])))

k_best_features_final = dict(ordered_pairs[:15])
best_features = k_best_features_final.keys()
print ('')
print ("Melhores features:")
print (k_best_features_final)


## 4) Apresentação de Insights em um dashboard do Power BI

Link para dashboard do Power BI: https://app.powerbi.com/view?r=eyJrIjoiNmNlZGFhN2YtNzA5Zi00NmEwLTk4MDAtMThkYWU0YWI5YjE1IiwidCI6ImQ0MmJlNTIzLTg5ZDQtNGUwMi1hNjJiLWE0MzFhZGZmOTMyMSJ9&pageName=ReportSection