In [39]:
#!pip install beautifulsoup4



# Business Understanding

### 1 - Problema de Negócio
    - Qual o melhor preço de venda para calças?
    
### Saída: (Produto Final)
    1. A resposta para a pergunta
        - Mediana dos preços dos concorrentes
        
    2. Formato da entrega
        - Tabela ou gráfico
        
    3. Local da entrega
        - App streamlit
        
### Processo (Passo a Passo)
    1. Passo a passo para construir o cálculo da mediana ou média
        - Realizar o cálculo da mediana sobre o produto, tipo e cor
        
    2. Definir o formato da entrega (visualizaçao, tabela, frase)
        - Gráficos de barras com a mediana dos preços dos produtos, por tipo e cor dos últimos 30 dias.
        - Tabela com as seguintes colunas: id | product_name | product_type | product_color | product_price
        - Definiçao do schema: colunas e seu tipo
        - Definição da infraestrutura de armazenamento (SQLITE3)
        - Design do ETL (Scripts de Extração, Transformação e Carga)
        - Planejamento de agendamento dos scripts (dependência entre os scripts)
        - Fazer as visualizações
        - Entrega do produto final
        
    3. Decidir o local de entrega (powerBi, telegram, email, streamlit, intranet)
        - App com Streamlit      

### Entrada (fonte de dados)
    1. Fonte de dados:
        - Site da H&M
        - Site da Macys
        
    2. Ferramentas:
        - Pyhton 3.8.0
        - Bibliotecas de webscrapping (BS4, Selenium)
        - Pycharm
        - Jupyter Notebook (análises e prototipagens)
        - Crontjob, Airflow
        - Streamlit

### 2 - Problema de Negócio
    - Quantos tipos de calças e suas cores para o produto inicial?
    
### Saída: (Produto Final)
    1. A resposta para a pergunta
        - Tipos e cores de calças mais frequentes por concorrentes
        
    2. Formato da entrega
        - Lista/Tabela/Gráfico
        
    3. Local da entrega
        - App streamlit
        
### Processo (Passo a Passo)
    1. Passo a passo para construir o cálculo da mediana ou média
        - Realizar webscrapping identificando tipo e cor mais frequentes nos sites dos concorrentes
        
    2. Definir o formato da entrega (visualizaçao, tabela, frase)
        - Gráficos de barras com a frequência dos produtos, por tipo e cor dos últimos 30 dias.
        - Tabela com as seguintes colunas: id | product_name | product_type | product_color | supplier
        - Definiçao do schema: colunas e seu tipo
        - Definição da infraestrutura de armazenamento (SQLITE3)
        - Design do ETL (Scripts de Extração, Transformação e Carga)
        - Planejamento de agendamento dos scripts (dependência entre os scripts)
        - Fazer as visualizações
        - Entrega do produto final
        
    3. Decidir o local de entrega (powerBi, telegram, email, Streamlit, intranet)
        - App com Streamlit      

### Entrada (fonte de dados)
    1. Fonte de dados:
        - Site da H&M
        - Site da Macys
        
    2. Ferramentas:
        - Pyhton 3.8.0
        - Bibliotecas de webscrapping (BS4, Selenium)
        - Pycharm
        - Jupyter Notebook (análises e prototipagens)
        - Crontjob, Airflow
        - Streamlit

### 3 - Problema de Negócio
    - Quais as matérias-primas para confecionar as calças?
    
### Saída: (Produto Final)
    1. A resposta para a pergunta
        - MP mais frequentes por tipo de calça
        
    2. Formato da entrega
        - Lista/Tabela/Gráfico
        
    3. Local da entrega
        - App streamlit
        
### Processo (Passo a Passo)
    1. Passo a passo para construir o cálculo da mediana ou média
        - Realizar webscrapping identificando as MP mais frequentes usadas por tipo de calças
        
    2. Definir o formato da entrega (visualizaçao, tabela, frase)
        - Gráficos de barras com as MP dos produtos dos últimos 30 dias.
        - Tabela com as seguintes colunas: id | product_name | product_type | product_composition
        - Definiçao do schema: colunas e seu tipo
        - Definição da infraestrutura de armazenamento (SQLITE3)
        - Design do ETL (Scripts de Extração, Transformação e Carga)
        - Planejamento de agendamento dos scripts (dependência entre os scripts)
        - Fazer as visualizações
        - Entrega do produto final
        
    3. Decidir o local de entrega (powerBi, telegram, email, Streamlit, intranet)
        - App com Streamlit      

### Entrada (fonte de dados)
    1. Fonte de dados:
        - Site da H&M
        - Site da Macys
        
    2. Ferramentas:
        - Pyhton 3.8.0
        - Bibliotecas de webscrapping (BS4, Selenium)
        - Pycharm
        - Jupyter Notebook (análises e prototipagens)
        - Crontjob, Airflow
        - Streamlit

# Showcase

In [40]:
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import pandas as pd
import numpy as np

In [113]:
url = 'https://www2.hm.com/en_us/men/products/jeans.html'
    
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
page = requests.get (url, headers=headers)

soup = BeautifulSoup (page.text, 'html.parser')

In [114]:
products = soup.find ('ul', class_= 'products-listing small')
products_list = products.find_all ('article', class_ = 'hm-product-item')

#product id
products_id = [p.get('data-articlecode') for p in products_list]

#product category
products_category = [p.get('data-category') for p in products_list]

In [115]:
#products name
products_list = products.find_all ('a', class_ = 'title')
products_name = [p.get_tex() for p in products_list]

In [116]:
#product price
products_list = products.find_all ('span', class_ = 'price regular')
products_price = [p.get_text() for p in products_list]

In [117]:
#dataframe
data = pd.DataFrame([products_id, products_category, products_name, products_price]).T
data.columns = ['product_id', 'product_category', 'product_name', 'product_price']

#scrapy datetime
data['scrapy_datetime'] = datetime.now().strftime('%Y-%m-%d %H: %M: %S')

In [118]:
data

Unnamed: 0,product_id,product_category,product_name,product_price,scrapy_datetime
0,690449022,men_jeans_ripped,,$ 39.99,2021-09-11 20: 43: 05
1,427159006,men_jeans_ripped,,$ 39.99,2021-09-11 20: 43: 05
2,730863005,men_jeans_skinny,,$ 29.99,2021-09-11 20: 43: 05
3,636207006,men_jeans_slim,,$ 19.99,2021-09-11 20: 43: 05
4,636207010,men_jeans_slim,,$ 19.99,2021-09-11 20: 43: 05
5,720504008,men_jeans_skinny,,$ 24.99,2021-09-11 20: 43: 05
6,985159001,men_jeans_skinny,,$ 19.99,2021-09-11 20: 43: 05
7,690449051,men_jeans_ripped,,$ 39.99,2021-09-11 20: 43: 05
8,985197001,men_jeans_slim,,$ 19.99,2021-09-11 20: 43: 05
9,690449043,men_jeans_ripped,,$ 39.99,2021-09-11 20: 43: 05


# Pagination

In [50]:
url = 'https://www2.hm.com/en_us/men/products/jeans.html'
    
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
page = requests.get (url, headers=headers)

soup = BeautifulSoup (page.text, 'html.parser')

In [54]:
total_item = soup.find_all ('h2', class_='load-more-heading')[0].get('data-total')
total_item

page_number = np.round(int(total_item)/36)

url2 = url + "?page-size=" + str(int(page_number*36))

'85'

# One product

In [86]:
#API request
url = 'https://www2.hm.com/en_us/productpage.0636207006.html'
    
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
page = requests.get (url, headers=headers)

#beautiful soup object
soup = BeautifulSoup (page.text, 'html.parser')

In [93]:
#color product
product_list = soup.find_all('a', class_='filter-option miniature')
product_color = [p.get('data-color') for p in product_list]

product_id = [p.get('data-articlecode') for p in product_list]

df_color = pd.DataFrame([product_id, product_color]).T
df_color.columns = ['product_id', 'product_color']

#generate style id + color id
df_color['style_id'] = df_color['product_id'].apply(lambda x: x[:-3])
df_color['color_id'] = df_color['product_id'].apply(lambda x: x[-3:])

In [95]:
product_composition_list = soup.find_all ('div', class_='pdp-description-list-item')
product_composition = [list(filter(None, p.get_text().split('\n'))) for p in product_composition_list]

#rename df
df_composition = pd.DataFrame(product_composition).T
df_composition.columns = df_composition.iloc[0]

#delete first row
df_composition = df_composition.iloc[1:].fillna(method='ffill')

#generate style id+color id
df_composition['style_id'] = df_composition['Art. No.'].apply(lambda x: x[:-3])
df_composition['color_id'] = df_composition['Art. No.'].apply(lambda x: x[-3:])

#merge data color + decomposition
data_sku = pd.merge(df_color, df_composition[['style_id', 'Fit', 'Composition']], how='left', on='style_id')

# Multiple products

In [119]:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}

#unique features
aux = []

cols = ['Art. No.', 'Composition', 'Fit', 'Size']
df_pattern = pd.DataFrame(columns=cols)

#empty dataframe
df_detail = pd.DataFrame()

for i in range(len(data)):
    #API request
    url = 'https://www2.hm.com/en_us/productpage.' + data.loc[i, 'product_id'] + '.html'
    
    page = requests.get (url, headers=headers)
    
    #beautiful soup object
    soup = BeautifulSoup (page.text, 'html.parser')
    
    
    #color product
    product_list = soup.find_all('a', class_='filter-option miniature')
    product_color = [p.get('data-color') for p in product_list]
    product_id = [p.get('data-articlecode') for p in product_list]
    
    df_color = pd.DataFrame([product_id, product_color]).T
    df_color.columns = ['product_id', 'product_color']
    
    #generate style id + color id
    df_color['style_id'] = df_color['product_id'].apply(lambda x: x[:-3])
    df_color['color_id'] = df_color['product_id'].apply(lambda x: x[-3:])


    product_composition_list = soup.find_all ('div', class_='pdp-description-list-item')
    product_composition = [list(filter(None, p.get_text().split('\n'))) for p in product_composition_list]

    #rename df
    df_composition = pd.DataFrame(product_composition).T
    df_composition.columns = df_composition.iloc[0]

    #delete first row
    df_composition = df_composition.iloc[1:].fillna(method='ffill')

    #garantee same size of attributes
    df_composition = pd.concat([df_pattern, df_composition], axis=0)
    
    #generate style id+color id
    df_composition['style_id'] = df_composition['Art. No.'].apply(lambda x: x[:-3])
    df_composition['color_id'] = df_composition['Art. No.'].apply(lambda x: x[-3:])

    aux = aux + df_composition.columns.tolist()
    
    #merge data color + decomposition
    data_sku = pd.merge(df_color, df_composition[['style_id', 'Fit', 'Composition', 'Size']], how='left', on='style_id')
    
    #all products
    df_detail = pd.concat([df_detail, data_sku], axis=0)

In [124]:
data['style_id'] = data['product_id'].apply(lambda x: x[:-3])
data['color_id'] = data['product_id'].apply(lambda x: x[-3:])

data_raw = pd.merge(data, df_detail[['style_id', 'product_color', 'Fit', 'Composition', 'Size']], how = 'left', on = 'style_id') 

In [125]:
data_raw

Unnamed: 0,product_id,product_category,product_name,product_price,scrapy_datetime,style_id,color_id,product_color,Fit,Composition,Size
0,0690449022,men_jeans_ripped,,$ 39.99,2021-09-11 20: 43: 05,0690449,022,Light denim blue/trashed,Skinny fit,Lining: Polyester 100%,"The model is 184cm/6'0"" and wears a size 31/32"
1,0690449022,men_jeans_ripped,,$ 39.99,2021-09-11 20: 43: 05,0690449,022,Light denim blue/trashed,Skinny fit,"Cotton 98%, Elastane 2%","The model is 184cm/6'0"" and wears a size 31/32"
2,0690449022,men_jeans_ripped,,$ 39.99,2021-09-11 20: 43: 05,0690449,022,Denim blue,Skinny fit,Lining: Polyester 100%,"The model is 184cm/6'0"" and wears a size 31/32"
3,0690449022,men_jeans_ripped,,$ 39.99,2021-09-11 20: 43: 05,0690449,022,Denim blue,Skinny fit,"Cotton 98%, Elastane 2%","The model is 184cm/6'0"" and wears a size 31/32"
4,0690449022,men_jeans_ripped,,$ 39.99,2021-09-11 20: 43: 05,0690449,022,Black/washed,Skinny fit,Lining: Polyester 100%,"The model is 184cm/6'0"" and wears a size 31/32"
...,...,...,...,...,...,...,...,...,...,...,...
1464,1004199003,men_jeans_skinny,,$ 29.99,2021-09-11 20: 43: 05,1004199,003,Denim blue,Skinny fit,"Cotton 99%, Elastane 1%",
1465,1004199003,men_jeans_skinny,,$ 29.99,2021-09-11 20: 43: 05,1004199,003,Light denim blue,Skinny fit,"Pocket lining: Polyester 65%, Cotton 35%",
1466,1004199003,men_jeans_skinny,,$ 29.99,2021-09-11 20: 43: 05,1004199,003,Light denim blue,Skinny fit,"Shell: Cotton 99%, Elastane 1%",
1467,1004199003,men_jeans_skinny,,$ 29.99,2021-09-11 20: 43: 05,1004199,003,Black,Skinny fit,"Pocket lining: Polyester 65%, Cotton 35%",
