# Hackathon Santander

A pergunta mais importante a ser feita durante todo esse desafio écomo podemos ajudar os pequenos empreendedores e a sociedade em geral a superarem essa crise que está sendo gerada pela pandemia?

Não sabemos a resposta precisa para tal pergunta, mas analisando diversos dados de instuições brasileiras é possível obter insights sobre como ajudar os pequenos empreendedores

In [None]:
# Bibliotecas para a aplicação

import pandas as pd
import matplotlib.pyplot as plt
from pytrends.request import TrendReq
import plotly.express as px
import plotly.offline as pyo
import plotly.graph_objs as go
from plotly.subplots import make_subplots
import folium
import json
from branca.colormap import linear

# Set notebook mode to work in offline
pyo.init_notebook_mode()

%matplotlib inline

# Primeira Análise: Correlação entre a base de dados da OList e da ferramenta Google Trends

## Dados da empresa OList 

Antes de tudo. O que é a OList? 

Pegando a própria descrição do site deles.

"Cadastre os produtos na plataforma olist e passe a vender na nossa loja dentro dos <strong>principais canais online do Brasil</strong>. Nossa alta reputação permite que os lojistas parceiros do olist ocupem posições de destaque dentro dos maiores marketplaces, aumentando assim as suas chances de venda."

Utilizando essa base de dados da OList conseguimos ter insights de quais são as categorias mais procuradas pelos clientes assim como as categorias de produtos menos procuradas. 

<strong>E porque isso é importante?</strong> 

Conseguindo saber quais categorias de produtos são as menos vendidas podemos utilizar o <strong>Google Trends</strong>  para pesquisar como essas categorias vem sendo pesquisadas durante a pandemia. Interligando essas duas bases de dados, tanto do e-commerce OList quanto do Google trends podemos ter resultados valiosos para os pequenos empreeendores brasileiros.

### Base de dados da OList

Logo abaixo é possível visualizar uma prévia da base de dados da OList

In [None]:
df_olist_prod = pd.read_csv('../Dados/DadosOList/55151_195341_bundle_archive/olist_products_dataset.csv')
df_olist_prod.head()

### Data cleaning da Base de dados

A seguir realizamos uma série de operações para conseguirmos as categorias apresentadas na base de dados da OList. Além disso, para melhorar a pesquisa no Google trands, alteramos nomes de algumas categorias de forma a conseguir resultados mais precisos. 

<strong>Exemplo</strong>: uma categoria da base de dados se chamava <em>"construcao ferramentas jardim"</em> ao invés de pesquisar esse resultado no Google trends, alteramos para <em>"ferramentas de jardim"</em>. 

In [None]:
df_dg_prod = df_olist_prod.groupby(by='product_category_name').sum()
df_dg_prod.head()

In [None]:
arr_prod_category = df_dg_prod.index

## remover underlines
arr_prod_category = [word.replace('_', ' ') for word in arr_prod_category] 

## retirar numeros
for i in range(len(arr_prod_category)):
    arr_prod_category[i] = ''.join([c for c in arr_prod_category[i] if not c.isdigit()])
    
## remover white spaces
arr_prod_category = [word.strip() for word in arr_prod_category] 

## remover duplicates
res = [] 
for i in arr_prod_category: 
    if i not in res: 
        res.append(i) 
arr_prod_category = res

## remover elementos não essenciais para a análise
el = ['cds dvds musicais', 'dvds blu ray', 'cine foto', 'construcao ferramentas iluminacao', 
        'construcao ferramentas construcao', 'construcao ferramentas ferramentas',
        'construcao ferramentas jardim', 'construcao ferramentas seguranca', 'ferramentas jardim',
        'livros interesse geral', 'portateis cozinha e preparadores de alimentos', 'moveis colchao e estofado',
        'moveis cozinha area de servico jantar e jardim', 'portateis casa forno e cafe', 'sinalizacao e seguranca',
        'tablets impressao imagem', 'relogios presentes', 'pcs', 'cama mesa banho', 'beleza saude']
for i in el:
    arr_prod_category.remove(i)
arr_prod_category = [ x for x in arr_prod_category if "underwear" not in x ]

## alterar escrita de elementos para uma melhor pesquisa
add = ['ferramentas de construcao', 'materiais de iluminacao', 'ferramentas de jardim',
              'ferramentas de segurança', 'underwear', 'roupa de praia', 'livros', 
              'colchão', 'estofado', 'forno', 'cafe', 'sinalização',
              'tablets', 'relogios', 'computadores', 'cama', 'mesa', 'produtos de banho',
              'produtos de beleza']

## remover a palavra fashion
arr_prod_category = [word.replace('fashion', '') for word in arr_prod_category] 

for i in add:
    arr_prod_category.append(i)
    
## remover white spaces
arr_prod_category = [word.strip() for word in arr_prod_category] 

print(arr_prod_category)

Abaixo podemos ver todas as categorias da base dados do OList

In [None]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):  # more options can be specified also
    print(pd.DataFrame(arr_prod_category, columns=['Categorias']) )

## Gráfico do Google Trends para cada categoria

Cruiamos uma função para mostrar a quantidade de pesquisas relacionadas a cada categoria de produto. 
Interelacionamos as categorias da tabela do OList junto com o Google Trends para que tenhamos uma noção 
de demanda por aquele produto no tempo. 

In [None]:
def plotInterestOverTime(arr_prod_category, start_date):
    pytrend = TrendReq()
    fig = go.Figure()
    
    j = 0
    for i in arr_prod_category:
        pytrend.build_payload(kw_list=[i])
        
        df_py_trend = pytrend.interest_over_time()
        
        df_py_trend.index = pd.to_datetime(df_py_trend.index)
        df_py_trend['month'] = df_py_trend.index.month
        df_py_trend['year'] = df_py_trend.index.year
        df_py_trend['Date'] = pd.to_datetime(df_py_trend[['year', 'month']].assign(DAY=1))

        ## Filtrar data
        df_py_trend = df_py_trend[df_py_trend['Date'] >= start_date]

        fig.add_trace(go.Scatter(x=df_py_trend.index, y=df_py_trend[i],
                    mode='lines',
                    name=arr_prod_category[j]))
        
        j+=1
        
    fig.show()


### Gráfico do Google Trends para cada categoria de 2018 até 2020

Como temos muitas categorias a serem plotadas o gráfico abaixo fica difícil de ser visualizado e sem muitas informações. Seguindo as recomendações do artigo <strong>Graphic Lies, Misleading Visuals</strong> citado nas referências abaixo, criamos outros gráficos com menos informações. Contudo, as informações são mais valiosas e mais precisas.

In [None]:
plotInterestOverTime(arr_prod_category, '2018-01-01')

## Gráfico do Google Trends para cada categoria de 2018 até 2020 FILTRADO

Sabendo que os dados da OList são de 2018, e sabendo que utilizamos os resultados do Google trends para visualizar a sua demanda com relação ao tempo, o nosso filtro e os nossos gráficos tem como objetivo observar os seguintes pontos:

- Quais categorias de produtos na base de dados da OList que estavam em <strong>alta</strong> no período de criação da tabela continuaram em <strong>alta</strong> durante o período da pandemia.
- Quais categorias de produtos na base de dados da OList que estavam em <strong>baixa</strong> no período de criação da tabela passaram a estar em <strong>alta</strong> durante o período da pandemia.
- Quais categorias de produtos na base de dados da OList que estavam em <strong>alta</strong> no período de criação da tabela passaram a estar em <strong>baixa</strong> durante o período da pandemia.
- Quais categorias de produtos na base de dados da OList que estavam em <strong>baixa</strong> no período de criação da tabela passaram a estar em <strong>baixa</strong> durante o período da pandemia.

Logo, para conserguirmos observar tais resultados. Escolhemos da tabela da OList 5 categorias de produtos entre as 10 mais vendidas e 5 categorias de produtos entre as 20 menos vendidas. 


## Tableu

Para conseguir obter quais produtos eram mais desejados na OList e quais eram menos desejados utilizou-se a ferramenta Tableu. O qual pode ser visualizado sobre o link abaixo.

LINK: https://public.tableau.com/profile/denis.dinardi#!/vizhome/Anlisedevendas-OLIST/Anlisedevendas?publish=yes

### Gráfico do Google Trends para cada categoria entre as menos procuradas na tabela da OList de 2018 até 2020 

In [None]:
produtos_menos_desejados = ['artigos de natal', 'flores', 'instrumentos musicais', 'artigos de festa',
                            'artes e artesanato']
plotInterestOverTime(produtos_menos_desejados, '2018-01-01')

### Gráfico do Google Trends para cada categoria entre as menos procuradas na tabela da OList de 2018 até 2020 

In [None]:
produtos_mais_desejados = ['produtos de banho', 'cama', 'mesa', 'móveis', 'produtos de beleza']
plotInterestOverTime(produtos_mais_desejados, '2018-01-01')

## Análise mais <em>profunda</em> de nossos resultados

Para obter insights ainda mais precisos sobre a demanda de cada produto durante o tempo é preciso entender o quanto cada categoria cresceu / diminuiu durante a pandemia. 

Para cada uma das categorias tanto das categorias mais procuradas quando para as menos procuradas na base de dados da OList criamos gráficos do tipo BoxPlot. Os quais irão nos informar de um ponto de vista mais preciso a diferença entre uma categoria e outra. 

<strong>O boxplot (gráfico de caixa)</strong> é um gráfico utilizado para avaliar a distribuição empírica do dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor não superior ao limite superior. 

In [None]:
def plotTrendBoxPlot(arr_prod_category, start_date):
    pytrend = TrendReq()
    fig = go.Figure()
    
    j = 0
    for i in arr_prod_category:
        pytrend.build_payload(kw_list=[i])
        
        df_py_trend = pytrend.interest_over_time()
        
        df_py_trend.index = pd.to_datetime(df_py_trend.index)
        df_py_trend['month'] = df_py_trend.index.month
        df_py_trend['year'] = df_py_trend.index.year
        df_py_trend['Date'] = pd.to_datetime(df_py_trend[['year', 'month']].assign(DAY=1))

        ## Filtrar data
        df_py_trend = df_py_trend[df_py_trend['Date'] >= start_date]

        fig.add_trace(go.Box(y=df_py_trend[i].describe(), name=arr_prod_category[j]))
        
        j+=1
        
    fig.show()

### Box Plot de cada categoria, entre as mais procuradas e menos procuradas

In [None]:
arr = []
arr.extend(produtos_menos_desejados)
arr.extend(produtos_mais_desejados)
print(arr)

In [None]:
plotTrendBoxPlot(arr, '2018-01-01')

# Resultados da correlação entre a base de dados da OList e do Google Trends

Para que possamos mostrar os nossos resultados criamos uma figura com gráfico de linha de box plot lado a lado para discorrer mais precisamente sobre os nossos dados

In [None]:
def plotLineBoxPerCategory(category, date):
    pytrend = TrendReq()
    pytrend.build_payload(kw_list=[category])
    df_py_trend = pytrend.interest_over_time()
    
    df_py_trend.index = pd.to_datetime(df_py_trend.index)
    df_py_trend['month'] = df_py_trend.index.month
    df_py_trend['year'] = df_py_trend.index.year
    df_py_trend['Date'] = pd.to_datetime(df_py_trend[['year', 'month']].assign(DAY=1))

    ## Filtrar data
    df_py_trend = df_py_trend[df_py_trend['Date'] >= start_date]
    
    fig = make_subplots(rows=1, cols=2)
    
    ###### Gráfico de linha
    fig.add_trace(go.Scatter(x=df_py_trend.index, y=df_py_trend[category],
            mode='lines',
            name=category),
            row=1, col=1)
    
    ###### Box Plot
    fig.add_trace(go.Box(y=df_py_trend[category].describe(), name=category),
                 row=1, col=2)
    
    fig.update_layout(height=600, width=1000, title_text="Line and Box plot per category")
    fig.show()


### Artigos de natal

É perceptível que os artigos de natal tiveram um pico de pesquisa no final do ano de 2018/2019, o que ja era esperado dado que estavámos perto do período do Natal. Tais picos justificam o outlier(ponto isolado) no gráfico a direita (Box Plot). É notado também que houve um leve decrescimento no periódo da quarentena, mas nada muito chamativo. Portanto:

Essa é uma categoria a qual está entre as <strong>menos procuradas</strong> na tabela da OList, e continou com uma <strong>baixa</strong> demanda durante o perído da quarentena. 

In [None]:
plotLineBoxPerCategory('artigos de natal', '2018-01-01')

### Flores

É perceptível que flores tiveram um pico de pesquisa em Maio de 2020. Vale destacar que esse pico foi o maior registrado nos últimos anos. Como pode ser visto pelo limite superior do box plot que nos indica uma procura máxima com o valor de 100. Além disso, houveram duas queda bruscas em Janeiro e Março. E no restante dos meses tivemos uma flutuação na demanda por esse produto. Portanto:

Essa é uma categoria a qual está entre as <strong>menos procuradas</strong> na tabela da OList, e apresentou um <strong>aumento</strong> em sua demanda durante o perído de Março, e apresentou <strong>também</strong> uma <strong>baixa</strong> no período de Março. 

In [None]:
plotLineBoxPerCategory('flores', '2018-01-01')

### Instrumentos musicais

Essa categoria de produto apresentou um crescimento enorme durante o perído da quarentena. Nos primeiros meses de Jan/2020 até Março/2020 houve uma queda, mas logo em seguida a sua demanda atingiu o seu maior valor em 2 anos.

Essa é uma categoria a qual está entre as <strong>menos procuradas</strong> na tabela da OList, e apresentou um <strong>aumento</strong> em sua demanda durante todo o período da quarentena.

In [None]:
plotLineBoxPerCategory('instrumentos musicais', '2018-01-01')

### Artigos de festa

A categoria de artigos de festa sofreu uma queda em sua demanda durante o período da quarentena. Esse comportamento já era esperado dado que a indústria do entretenimento sofreu muito com as consequências do Covid19.

Essa é uma categoria a qual está entre as <strong>menos procuradas</strong> na tabela da OList, e apresentou uma <strong>baixa</strong> em sua demanda durante o período da quarentena. 


In [None]:
plotLineBoxPerCategory('artigos de festa', '2018-01-01')

## Artes e artesanato

Essa é uma categoria a qual está entre as <strong>menos procuradas</strong> na tabela da OList, e apresentou uma demanda <strong>constante</strong> durante o período da quarentena. 

In [None]:
plotLineBoxPerCategory('artes e artesanato', '2018-01-01')

## Produtos de banho

Essa é uma categoria a qual está entre as <strong>mais procuradas</strong> na tabela da OList, e apresentou uma demanda <strong>maior</strong> durante o período da quarentena. 

In [None]:
plotLineBoxPerCategory('produtos de banho', '2018-01-01')

## Cama

Pela análise do Box plot, podemos perceber que a média de procura por camas está muito abaixo do valor de seu pico durante a quarentena. 

Essa é uma categoria a qual está entre as <strong>mais procuradas</strong> na tabela da OList, e apresentou um crescimento em demanda <strong>muito maior</strong> durante o período da quarentena. 

In [None]:
plotLineBoxPerCategory('cama', '2018-01-01')

## Mesa

Essa categoria apresentou um comportamento curioso, dado que os seus menores e maiores valores durante os dois ultimos anos ocorreu durante a quarentena. Tal fato pode ser observado com mais detalhe ao se analisar a média do Box PLot que pernasse quase centralizada


Essa é uma categoria a qual está entre as <strong>mais procuradas</strong> na tabela da OList. Apresentou um <strong>crescimento</strong> durante o período de Maio/2020, contudo apresentou também um <strong>decrescimento</strong> durante o período de Março.

In [None]:
plotLineBoxPerCategory('mesa', '2018-01-01')

## Móveis


Pela análise do Box plot, podemos perceber que a média de procura por móveis está muito abaixo do valor de seu pico durante a quarentena. 

Essa é uma categoria a qual está entre as <strong>mais procuradas</strong> na tabela da OList, e apresentou um crescimento em demanda <strong>muito maior</strong> durante o período da quarentena. 

In [None]:
plotLineBoxPerCategory('móveis', '2018-01-01')

## Produtos de beleza

Essa categoria de produto apresentou um comportamento interessante, dado que a sua demanda aumentou durante o período da quarentena, mas ao invés de cair se manteve constante. Pode ser visualizado pelo vox plot que não temos um valor máximo muito distante da média, a média foi elevada pelo número de procuras ter aumentado como um todo no perído Abril/2020 até Jul/2020

Essa é uma categoria a qual está entre as <strong>mais procuradas</strong> na tabela da OList, e apresentou um crescimento em demanda <strong>pouco maior</strong> durante o período da quarentena, contudo manteve suas procuras em uma média mais alta. 


In [None]:
plotLineBoxPerCategory('produtos de beleza', '2018-01-01')

## Análise da correlação entre a tabela da OList de do serviço Google Trends em um ponto de vista estadual

Definição da dicionário de estados

In [None]:
state_dict = {
    'AC': 'Acre',
    'AL': 'Alagoas',
    'AP': 'Amapá',
    'AM': 'Amazonas',
    'BA': 'Bahia',
    'CE': 'Ceará',
    'DF': 'Distrito Federal',
    'ES': 'Espírito Santo',
    'GO': 'Goiás',
    'MA': 'Maranhão',
    'MT': 'Mato Grosso',
    'MS': 'Mato Grosso do Sul',
    'MG': 'Minas Gerais',
    'PA': 'Pará',
    'PB': 'Paraíba',
    'PR': 'Paraná',
    'PE': 'Pernambuco',
    'PI': 'Piauí',
    'RJ': 'Rio de Janeiro',
    'RN': 'Rio Grande do Norte',
    'RS': 'Rio Grande do Sul',
    'RO': 'Rondônia',
    'RR': 'Roraima',
    'SC': 'Santa Catarina',
    'SP': 'São Paulo',
    'SE': 'Sergipe',
    'TO': 'Tocantins'
}

Abaixo temos algumas funções utilizadas para criar o mapa de calor. Logo, em seguida temos o mapa de calor para cada categoria de produto seccionado por ano.

In [None]:
def stateTrendsDataFrame(start_date, end_date, category, state_dict):
    df = pd.DataFrame()
    frames = []
    
    for k, v in state_dict.items():
        kw_list = [category]
        estado = 'BR-' + k
        pytrend = TrendReq()
        pytrend.build_payload(kw_list, cat=0, timeframe='today 5-y', geo=estado, gprop='')
        df_trends_estado = pytrend.interest_over_time()
        
        if not df_trends_estado.empty:
            df_trends_estado['estado'] = k

            df_trends_estado.index = pd.to_datetime(df_trends_estado.index)
            df_trends_estado['month'] = df_trends_estado.index.month
            df_trends_estado['year'] = df_trends_estado.index.year
            df_trends_estado['Date'] = pd.to_datetime(df_trends_estado[['year', 'month']].assign(DAY=1))

            ## Filtrar data
            df_trends_estado = df_trends_estado[df_trends_estado['Date'] >= start_date]
            df_trends_estado = df_trends_estado[df_trends_estado['Date'] < end_date]
            df_trends_estado = df_trends_estado.groupby(by=['year', 'estado']).mean()
            df_trends_estado = df_trends_estado[[category]]
            df_trends_estado = df_trends_estado.reset_index()

            frames.append(df_trends_estado)
        else:
            df_trends_estado_ = pd.DataFrame()
            dic = {
                'year': [start_date[:4]],
                'estado': k,
                category: [0]
            }

            df_trends_estado_ = pd.DataFrame(dic, columns = ['year', 'estado', category])
            df_trends_estado_ = df_trends_estado_.groupby(by=['year', 'estado']).mean()
            df_trends_estado_ = df_trends_estado_.reset_index()

            frames.append(df_trends_estado_)
    
    df = pd.concat(frames)
    
    return df 

In [None]:
category = 'produtos de beleza'

#### Dados de 2018
start_date = '2018-01-01'
end_date = '2019-01-01'
df_trends_estado_2018 = stateTrendsDataFrame(start_date, end_date, category, state_dict)

#### Dados de 2019
start_date = '2019-01-01'
end_date = '2020-01-01'
df_trends_estado_2019 = stateTrendsDataFrame(start_date, end_date, category, state_dict)

#### Dados de 2020
start_date = '2020-01-01'
end_date = '2020-07-01'
df_trends_estado_2020 = stateTrendsDataFrame(start_date, end_date, category, state_dict)

In [None]:
df_trends_estado_2018_cp = df_trends_estado_2018.copy()
df_trends_estado_2019_cp = df_trends_estado_2019.copy()
df_trends_estado_2020_cp = df_trends_estado_2020.copy()
df_arr = [df_trends_estado_2018_cp, df_trends_estado_2019_cp, df_trends_estado_2020_cp]

In [None]:
def catergoryMap(category, df_arr, year):
    
    for df in df_arr:
        max_arr = []
        max_arr.append(df[category].max())
    maximum = max(max_arr)

    colormap = linear.YlOrRd_09.scale(0,maximum)
        
    mapa = folium.Map(
        width=600, height=400,
        location=[-15.77972, -47.92972], 
        zoom_start=4
    )
    
    j = 1
    for df in df_arr:
        df = df.set_index('estado')[category]
        folium.GeoJson(
            geo_json_data,
            name=year,
            style_function=lambda feature: {
                'fillColor': colormap(df[feature['id']]),
                'color': 'black',
                'weight': 0.3,
            }

        ).add_to(mapa)
        colormap.caption = 'Interesse em {} por estado em {}'.format(category, year)
        colormap.add_to(mapa)
        
        year += j
    folium.LayerControl(collapsed=False).add_to(mapa)

    return mapa

In [None]:
def plotCategory(category):
    #### Dados de 2018
    start_date = '2018-01-01'
    end_date = '2019-01-01'
    df_trends_estado_2018 = stateTrendsDataFrame(start_date, end_date, category, state_dict)

    #### Dados de 2019
    start_date = '2019-01-01'
    end_date = '2020-01-01'
    df_trends_estado_2019 = stateTrendsDataFrame(start_date, end_date, category, state_dict)

    #### Dados de 2020
    start_date = '2020-01-01'
    end_date = '2020-07-01'
    df_trends_estado_2020 = stateTrendsDataFrame(start_date, end_date, category, state_dict)
    
    df_trends_estado_2018_cp = df_trends_estado_2018.copy()
    df_trends_estado_2019_cp = df_trends_estado_2019.copy()
    df_trends_estado_2020_cp = df_trends_estado_2020.copy()
    df_arr = [df_trends_estado_2018_cp, df_trends_estado_2019_cp, df_trends_estado_2020_cp]
    
    return catergoryMap(category, df_arr, 2018)

## Intruções

Os mapas abaixo possuem uma funcionalidade para marcar o ano que o usuário deseja ver. O gráfico começa fazendo um overlap de todos os anos por região. Logo, para analisar o comportamento de cada categoria de produto por região, basta selecionar o ano desejado Ex: 2018/2019/2020

### Artigos de natal

In [None]:
plotCategory('artigos de natal')

### Flores

In [None]:
plotCategory('flores')

### Instrumentos musicais

In [None]:
plotCategory('intrumentos musicais')

### Artigos de festa

In [None]:
plotCategory('artigos de festa')

### Artes e artesanato

In [None]:
plotCategory('artes e artesanato')

### Produtos de banho

In [None]:
plotCategory('produtos de banho')

### Cama

In [None]:
plotCategory('cama')

### Mesa

In [None]:
plotCategory('mesa')

### Móveis

In [None]:
plotCategory('móveis')

### Produtos de beleza


In [None]:
plotCategory('produto de beleza')

# Conclusão da correlação entre a tabela da OList e do serviço Google trends

Foi selecionados 10 categorias de produtos para realizarmos as nossas análises. Escolhemos categorias de produtos entre as mais procuradas e as menos procuradas em um dos maiores market places do Brasil. Alguns resultados por categorias de produtos já eram esperadas, contudo outras nos chamaram atenção dado o seu crescimento em sua demanda inusitado ou um crescimento em sua demanda de maneira muito abrusca.


Com os insights obtidos acima podemos auxiliar e muito todos os empreendedores e pequenas empresas que comercializam esses produtos. 

<strong>Como?</strong>

É muito comum o pequeno(a) empreendedor se basear em suas decisões de negócio na sua intuição ou em sua experiência de mercado. Com as análises feitas podemos perceber de maneira muito mais precisa e realista o que aconteceu com as categorias de produtos nos últimos dois anos. Assim, podemos levar informações valiosas que ajuarão e muito os pequenos a médio empreendedores