# Problema de Negócio

In [179]:
# Uma empresa quer entrar no mercado americano de moda com calça jeans masculina, mas desejam saber:
    # Qual o melhor preço de venda para a calça?
    # Quantos tipos de e cores para o produto inicial?
    # Qual a matéria prima necessária para fabricar?

# Para analisar isso, devemos analisar duas concorrentes da empresa: H&M e Macy's

# Entendimento de Negócio

### Primeira Pergunta

In [180]:
# 1 - Encontrar a causa raíz dessa questão (Identificar o contexto para assim achar o real problema):
    # Analisando com o time de negócio, chegamos à conclusão que:
    # O contexto atual é: não tem expertise no mercado, fazendo com que ela não saiba precificar
    # A causa raíz é: Dificuldade de Precificação
    
# 2 - Definir um escopo (plano) fechado para uma pergunta aberta:
    # A minha solução será a mediana de preço das concorrentes nos últimos 30 dias 
    # Esse preço será para cada cor, estilo, material de cada calça jeans

### Segunda Pergunta

In [181]:
# 1 - Encontrar a causa raíz dessa questão (Identificar o contexto para assim achar o real problema):
    # Analisando com o time de negócio, chegamos à conclusão que:
    # O contexto atual é: não tem expertise no mercado, fazendo com que ela não qual calça vender
    # A causa raíz é: Dificuldade em saber qual produto vender, como cor e estilo
    
# 2 - Definir um escopo (plano) fechado para uma pergunta aberta:
    # A minha solução será as cores e estilos de calças vendidos pelos concorrentes nos últimos 30 dias 

### Terceira Pergunta

In [182]:
# 1 - Encontrar a causa raíz dessa questão (Identificar o contexto para assim achar o real problema):
    # Analisando com o time de negócio, chegamos à conclusão que:
    # O contexto atual é: não tem expertise no mercado, fazendo com que ela não saiba de que material fabricar
    # A causa raíz é: Dificuldade em saber qual produto vender, em especial, ao material da calça.
    
# 2 - Definir um escopo (plano) fechado para uma pergunta aberta:
    # A minha solução será apresentar os materiais que são fabricados as calças dos concorrentes nos últimos 30 dias 

### Escopo

In [183]:
# 3 - Quebrar esse plano em tarefas menores ordenadas logicamente e realizar no método cíclico:
    # 1 = Montar um database com as colunas: "name", "type", "color", "price","material" com webscraping na H&M e Macys
    # 2 = Definir o schema: as colunas e os seus tipos
    # 3 = Vamos escolher a infraestrutura do SQLite3
    # 4 = Design do ETL (Scripts de Extração, Transformação e Carga)
    # 5 = Fazer a mediana das calças separadas por categorias
    # 6 = Fazer agrupamento das categorias das calças
    # 7 = Fazer a visualização do produto final em um gráfico ou tabela
    # 8 = Entregar o produto final através do streamlit

# Coleta de Dados

In [184]:
# O que precisamos é: do nome, cor, preço, material e das características, das jeans (fit and atyle)
# Faremos o webscraping no site da macys e da H&M

In [17]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

In [18]:
# Conseguindo o HTML
html = requests.get('https://www2.hm.com/en_us/men/products/jeans.html', headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'})
soup = BeautifulSoup(html.text,'html.parser')

# Conseguindo todas as vitrines (Paginação)
qtd_produtos = int(soup.find('h2',class_='load-more-heading')['data-total'])
html = requests.get('https://www2.hm.com/en_us/men/products/jeans.html?sort=stock&image-size=small&image=model&offset=0&page-size='+str(qtd_produtos), headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'})
soup = BeautifulSoup(html.text,'html.parser')

In [19]:
# Achar cada vitrine
produtos = soup.findAll('article',class_='hm-product-item')

# Conseguindo o link de cada vitrine
links = []
for produto in produtos:
    links.append('https://www2.hm.com/'+produto.find('a')['href'])

In [20]:
# Achar o código do produto
lst_codigo = []

for link in links:
    html = requests.get(link, headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'})
    soup = BeautifulSoup(html.text,'html.parser')

    for c in range(len(soup.findAll('a',class_='filter-option miniature'))):
        lst_codigo.append(soup.findAll('a',class_='filter-option miniature')[c]['data-articlecode'])
    for c in range(len(soup.findAll('a',class_='filter-option miniature active'))):
        lst_codigo.append(soup.findAll('a',class_='filter-option miniature active')[c]['data-articlecode'])

In [21]:
# Aparecem vitrines repetidas com cores distintas, removendo os duplicates
dados = pd.DataFrame(lst_codigo,columns=['id'])
dados.drop_duplicates(subset=['id'],inplace=True)
dados.reset_index(inplace=True,drop=True)

In [22]:
# Links
links = []
for cod in dados['id']:
    links.append('https://www2.hm.com/en_us/productpage.'+ cod +'.html')
dados['link'] = links

In [23]:
# Nome
lst_name = []
for link in dados['link']:
    html = requests.get(link, headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'})
    soup = BeautifulSoup(html.text,'html.parser')
    lst_name.append(' '.join(soup.find('h1',class_='primary product-item-headline').string.split()))
dados['name'] = lst_name

In [24]:
# Cores
cores = []
for link in dados['link']:
    html = requests.get(link, headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'})
    soup = BeautifulSoup(html.text,'html.parser')
    cor = soup.find('a',class_='filter-option miniature active')['data-color']
    cores.append(cor)
dados['color'] = cores

In [25]:
# Características
descricao = {}
lst = []
for link in dados['link']:
    html = requests.get(link, headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'})
    soup = BeautifulSoup(html.text,'html.parser')
    for x in soup.findAll('div',class_='pdp-description-list-item'):
        if x.select('li') == []:
            keys = str(x.select('dt'))
            values = str(x.select('dd'))
            descricao[keys] = values
        else:
            keys = str(x.select('dt'))
            values = str(x.select('li'))
            descricao[keys] = values
    lst.append(descricao.copy())
    descricao.clear()
descricao = pd.DataFrame(lst)
descricao.drop('[<dt>Art. No.</dt>]',1,inplace=True)
dados = pd.concat([dados,descricao],axis=1)

KeyboardInterrupt: 

In [None]:
# Descrição
descs = []
for link in dados['link']:
    html = requests.get(link, headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'})
    soup = BeautifulSoup(html.text,'html.parser')
    desc = soup.find('p',class_='pdp-description-text').get_text()
    descs.append(desc)
dados['description'] = descs

In [None]:
# Preço

# Conseguindo um representante para cada id cluster
id_representante = []
precos = []
for c in range(dados.shape[0]):
    if c+1 != dados.shape[0]:
        if dados['id'][c][:-2] != dados['id'][c+1][:-2]:
            id_representante.append(dados['id'][c])
    if c+1 == (dados.shape[0]-1):
        id_representante.append(dados['id'][c])

# Conseguindo o preço de cada representante
for representante in id_representante:
    link = 'https://www2.hm.com/en_us/productpage.'+ representante +'.html'
    html = requests.get(link, headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'})
    soup = BeautifulSoup(html.text,'html.parser')
    preco = soup.find('div',class_='primary-row product-item-price').get_text().split()[0]
    precos.append(preco)
    
# Relacionando o representante com seu grupo e dando a ele um preço
df_aux = pd.DataFrame([id_representante,precos]).T
df_aux[0] = df_aux[0].apply(lambda x: x[:-2])

p = []
for c in range(dados.shape[0]):
    for x in range(df_aux.shape[0]):
        if dados['id'][c][:-2] == df_aux[0][x]:
            p.append(df_aux[1][x])
dados['price'] = p

In [None]:
dados.to_csv('dados_h&m_v4.csv',index=False)

# Limpeza de Dados

In [40]:
import pandas as pd
import numpy as np
import re

dados = pd.read_csv('dados_h&m_v4.csv')
dados.rename(columns={'[<dt>Fit</dt>]':'fit','[<dt>Composition</dt>]':'composition','[<dt>Size</dt>]':'size','[<dt>More sustainable materials</dt>]':'more sustainable materials','[<dt>Product safety</dt>]':'product safety'},inplace=True)

# name
dados['name'] = dados['name'].apply(lambda x: x.replace(' ','_').lower())

# color
dados['color'] = dados['color'].apply(lambda x: x.replace(' ','_').lower())
dados['color'] = dados['color'].apply(lambda x: x.replace('-','_').lower())

# fit
dados['fit'] = dados['fit'].apply(lambda x: (re.search('>(.+)<',x).group(1)))
dados['fit'] = dados['fit'].apply(lambda x: x.replace(' ','_').lower())

#composition
dados['composition'] = dados['composition'].apply(lambda x: (re.search('>(.+)<',x).group(1)))
dados['composition'] = dados['composition'].apply(lambda x: x.replace('</li>',''))
dados['composition'] = dados['composition'].apply(lambda x: x.replace('<li>',''))
for c in range(dados.shape[0]):
    try:
        dados.loc[c,'composition'] = (re.search('Lining: .+?, (.+)',dados.loc[c,'composition'])).group(1)
    except:
         dados.loc[c,'composition'] = dados.loc[c,'composition']
    try:
         dados.loc[c,'composition'] = re.search('(.+), Lining',dados.loc[c,'composition']).group(1)
    except:
         dados.loc[c,'composition'] = dados.loc[c,'composition']
    try:
         dados.loc[c,'composition'] = re.search('Pocket lining.+, Shell: (.+)',dados.loc[c,'composition']).group(1)
    except:
         dados.loc[c,'composition'] = dados.loc[c,'composition']
    try:
         dados.loc[c,'composition'] = re.search('Shell: (.+), P',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'composition'] = dados.loc[c,'composition']
    try:
        dados.loc[c,'composition'] = re.search('(.+), Pocket lining:.+',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'composition'] = dados.loc[c,'composition']
    try:
        dados.loc[c,'composition'] = re.search('Pocket:.+, Shell: (.+)',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'composition'] = dados.loc[c,'composition']
    try:
        dados.loc[c,'composition'] = re.search('Pocket lining: Polyester 65%, Cotton 35%, (.+)',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'composition'] = dados.loc[c,'composition']
    try:
        dados.loc[c,'composition'] = re.search('Pocket lining: .+100%, (.+)',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'composition'] = dados.loc[c,'composition']
    try:
        dados.loc[c,'cotton'] = re.search('Cotton (.+?)%',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'cotton'] = '0'
    try:
        dados.loc[c,'elastane'] = re.search('Elastane (.+)%',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'elastane'] = '0'
    try:
        dados.loc[c,'elasterell-p'] = re.search('Elasterell-P (.+)%,',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'elasterell-p'] = '0'
    try:
        dados.loc[c,'polyester1'] = re.search(', Polyester (.+)%, M',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'polyester1'] = '0'
    try:
        dados.loc[c,'polyester2'] = re.search(', Polyester (.+)%, V',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'polyester2'] = '0'
    try:
        dados.loc[c,'polyester3'] = re.search('Polyester (.+)%,',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'polyester3'] = '0'
    try:
        dados.loc[c,'viscose'] = re.search('Viscose (.+)%,',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'viscose'] = '0'
    try:
        dados.loc[c,'modal'] = re.search('Modal (.+)%,',dados.loc[c,'composition']).group(1)
    except:
        dados.loc[c,'modal'] = '0'
dados.loc[94,'polyester3'] = '0'
dados.loc[171,'polyester3'] = '0'
dados['polyester1'] = dados['polyester1'].astype(int)
dados['polyester2'] = dados['polyester2'].astype(int)
dados['polyester3'] = dados['polyester3'].astype(int)
dados['cotton'] = dados['cotton'].astype(int)/100
dados['elastane'] = dados['elastane'].astype(int)/100
dados['elasterell-p'] = dados['elasterell-p'].astype(int)/100
dados['viscose'] = dados['viscose'].astype(int)/100
dados['modal'] = dados['modal'].astype(int)/100
dados['polyester'] = (((dados[['polyester1','polyester2','polyester3']])).sum(axis=1))/100
dados.drop('composition',1,inplace=True)

dados.drop(['polyester1','polyester2','polyester3'],1,inplace=True)

# product safety
dados.drop('product safety',1,inplace=True)

# more sustainable materials
dados['more sustainable materials'].fillna('No',inplace=True)
dados['more sustainable materials'] = dados['more sustainable materials'].apply(lambda x: re.search('>(.+)<',x).group(1) if x!= 'No' else x)
dados['more sustainable materials'] = dados['more sustainable materials'].apply(lambda x: x.replace('</li>',''))
dados['more sustainable materials'] = dados['more sustainable materials'].apply(lambda x: x.replace('<li>',''))
dados['more sustainable materials'] = dados['more sustainable materials'].apply(lambda x: x.replace('Recycled',''))
for c in range(dados.shape[0]):
    try:
        dados.loc[c,'more sustainable materials'] = re.search(' (.+)',dados.loc[c,'more sustainable materials']).group(1)
    except:
        dados.loc[c,'more sustainable materials'] = dados.loc[c,'more sustainable materials']
dados['more sustainable materials'] = dados['more sustainable materials'].apply(lambda x: x.title())
dados['more sustainable materials'] = dados['more sustainable materials'].apply(lambda x: x.replace(',  ',', '))
dados.rename(columns={'more sustainable materials':'recycled materials'},inplace=True)
for c in range(dados.shape[0]):
    try:
        dados.loc[c,'recycled cotton'] = re.search('Cotton (.+?)%',dados.loc[c,'recycled materials']).group(1)
    except:
        dados.loc[c,'recycled cotton'] = '0'
    try:
        dados.loc[c,'recycled polyester'] = re.search('Polyester (.+?)%',dados.loc[c,'recycled materials']).group(1)
    except:
        dados.loc[c,'recycled polyester'] = '0'
dados.drop('recycled materials',1,inplace=True)
dados['recycled cotton'] = dados['recycled cotton'].astype('float')/100
dados['recycled polyester'] = dados['recycled polyester'].astype('float')/100

# size
dados.drop('size',1,inplace=True)

# price
dados['price'] = dados['price'].apply(lambda x: float(x.split('$')[-1]))

# id group
dados['id_group'] = dados['id'].apply(lambda x: int(str(x)[:7]))

dados.rename(columns={'elasterell-p':'elasterell_p','recycled cotton':'recycled_cotton','recycled polyester':'recycled_polyester'},inplace=True)
dados.to_csv('dados_h&m_v5.csv',index=False)

# Exportando para um Database

In [1]:
import pandas as pd
dados = pd.read_csv('dados_h&m_v5.csv')

In [2]:
# Criando database
import sqlite3

conn = sqlite3.connect('db_hm.sqlite')

In [3]:
# Criando table
query = """ CREATE TABLE hm_products (
id                      INTEGER,
link                   TEXT,
name                   TEXT,
color                  TEXT,
fit                    TEXT,
description            TEXT,
price                 REAL,
cotton                REAL,
elastane              REAL,
elasterell_p          REAL,
viscose               REAL,
modal                 REAL,
polyester             REAL,
recycled_cotton       REAL,
recycled_polyester    REAL,
id_group                INTEGER
) """

conn.execute(query)
conn.commit()
conn.close()

In [4]:
# Exportando os dados para o database
from sqlalchemy import create_engine
engine = create_engine( 'sqlite:///db_hm.sqlite', echo=False )
conn = engine.connect()
dados.to_sql('hm_products',conn,index=False,if_exists='append')

# Importando de um Database

In [5]:
import pandas as pd
import sqlalchemy as sq
engine = sq.create_engine('sqlite:///db_hm.sqlite',echo=False)
conn = engine.connect()

In [6]:
dados = pd.read_sql_table('hm_products',conn)
dados

Unnamed: 0,id,link,name,color,fit,description,price,cotton,elastane,elasterell_p,viscose,modal,polyester,recycled_cotton,recycled_polyester,id_group
0,690449001,https://www2.hm.com/en_us/productpage.06904490...,skinny_jeans,light_denim_blue/trashed,skinny_fit,5-pocket jeans in washed stretch denim with he...,39.99,0.99,0.01,0.0,0.0,0.0,0.0,0.0,0.0,6904490
1,690449002,https://www2.hm.com/en_us/productpage.06904490...,skinny_jeans,denim_blue,skinny_fit,5-pocket jeans in washed stretch denim with he...,39.99,0.98,0.02,0.0,0.0,0.0,0.0,0.0,0.0,6904490
2,690449006,https://www2.hm.com/en_us/productpage.06904490...,skinny_jeans,black/washed,skinny_fit,5-pocket jeans in washed stretch denim with he...,39.99,0.98,0.02,0.0,0.0,0.0,0.0,0.0,0.0,6904490
3,690449007,https://www2.hm.com/en_us/productpage.06904490...,skinny_jeans,light_denim_blue,skinny_fit,5-pocket jeans in washed stretch denim with he...,39.99,0.98,0.02,0.0,0.0,0.0,0.0,0.0,0.0,6904490
4,690449009,https://www2.hm.com/en_us/productpage.06904490...,skinny_jeans,black_washed_out,skinny_fit,5-pocket jeans in washed stretch denim with he...,39.99,0.99,0.01,0.0,0.0,0.0,0.0,0.0,0.0,6904490
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
187,865734001,https://www2.hm.com/en_us/productpage.08657340...,relaxed_tapered_pull-on_jeans,light_denim_blue,relaxed_fit,"Ankle-length, 5-pocket jeans in thick cotton d...",22.99,1.00,0.00,0.0,0.0,0.0,0.0,0.0,0.0,8657340
188,865734002,https://www2.hm.com/en_us/productpage.08657340...,relaxed_tapered_pull-on_jeans,denim_blue,relaxed_fit,"Ankle-length, 5-pocket jeans in thick cotton d...",22.99,1.00,0.00,0.0,0.0,0.0,0.0,0.2,0.0,8657340
189,865734006,https://www2.hm.com/en_us/productpage.08657340...,relaxed_tapered_pull-on_jeans,gray,relaxed_fit,"Ankle-length, 5-pocket jeans in thick cotton d...",22.99,1.00,0.00,0.0,0.0,0.0,0.0,0.0,0.0,8657340
190,865734007,https://www2.hm.com/en_us/productpage.08657340...,relaxed_tapered_pull-on_jeans,pale_denim_blue,relaxed_fit,"Ankle-length, 5-pocket jeans in thick cotton d...",22.99,1.00,0.00,0.0,0.0,0.0,0.0,0.2,0.0,8657340
