# Desafio Conceitual (Extra - Construir Histograma usando BarPlot


## Case baseado no desafio do Kaggle: "Instacart Market Basket Analysis"

Esse desafio é baseado em uma competição do Kaggle ([https://www.kaggle.com](https://www.kaggle.com)) de 2017, onde é pedido para fazer a predição de se um produto será comprado por dado usuário no carrinho atual, baseado em suas compras anteriores.

Link para o desafio: [https://www.kaggle.com/c/instacart-market-basket-analysis](https://www.kaggle.com/c/instacart-market-basket-analysis)

## Origem dos Dados:

Os dados mostrados nesse desafio são uma amostra extraída do dataset disponibilizado gratuitamente pela empresa Instacart ([https://www.instacart.com/](https://www.instacart.com/)) **\***. São dados reais do banco de dados da empresa, que foram anonimizados para o uso por pesquisadores e em competições de Data Science.

 
###### * “The Instacart Online Grocery Shopping Dataset 2017”, Accessed from [https://www.instacart.com/datasets/grocery-shopping-2017](https://www.instacart.com/datasets/grocery-shopping-2017) on March 10, 2017.

___

# Imports

In [None]:
import numpy as np
import os
import pandas as pd

In [None]:
""" habilitando plots no notebook """
%matplotlib inline

In [None]:
""" plot libs """
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
""" Configurando o Matplotlib para o modo manual """
plt.interactive(False)

# Objetivo :

Analisar o dataset (o mesmo construído na Aula 07) e responder às questões em cada item usando gráficos.

# Importante:

Todos os gráficos devem conter:
* Título
* Rótulos do Eixo X e do Eixo Y

Se mais de um gráfico for plotado em uma única janela, eles devem ter:
* Cores diferentes
* Legenda
* Transparência (na sobreposição)

# Dataset:

O dataset utilizado nesse desafio é um sub-conjunto daquele construído na Aula 7. Para essa aula, será necessário carregar apenas duas colunas: `user_id` e `product_name`.

## Carregando os dados

In [None]:
""" Nota sobre o Warning: 
    O código abaixo levanta um Warning gerado por uma chamada interna do pandas conflitando com o Numpy.
    Não há necessidade de tratar esse Warning no momento, o comportamento do 'read_csv' é funcional para o que queremos.
"""
dataset = pd.read_csv(
    os.path.join("data", "dataset.csv"),
    usecols=["user_id", "product_name"],
    sep=",",
    index_col=0,
    encoding="utf-8"
)

## Extração dos dados específicos

In [None]:
product_count = dataset.groupby("user_id").product_name.count()

In [None]:
product_count.describe()

In [None]:
product_count.head(10)

# Deafio Extra: Construindo um Histograma

O `histograma` é uma ferramenta bem poderosa, que mostra a distribuição dos dados usando uma contagem simples de `buckets`. Essa função já é dada pelas principais bibliotecas, mas o desafio agora é criar esse plot a partir das funções básicas do `matplotlib`.

## Agrupando os dados em `Buckets`

A primeira parte é a criação dos `buckets`. Isso é feito definindo quanto `buckets` serão utilizados e distribuindo os dados entre eles.

In [None]:
""" Definição dos Buckets """
bins = 10  # definição da quantidade de buckets

limits = np.linspace(product_count.min(), product_count.max(), bins+1)
limits

In [None]:
""" Agrupamento dos dados """
histogram = {}

for p, q in zip(limits[:-1], limits[1:]):
    label = (p + q) / 2
    histogram[label] = ((product_count >= p) & (product_count < q)).sum()

histogram = pd.Series(histogram)
histogram

## Construindo o Gráfico de Barras (`Bar Plot`)

O gráfico de barras não foi dado na Pré-Aula, mas é uma das ferramentas básicas para a construção de gráficos importantes para um cientista de dados. 

Use uma das duas referências abaixo para construir o `histograma` da distribuição de quantidade de produtos por usuário:

1. [Pandas (nível fácil)](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html)
2. [Matplotlib Puro (nível hard)](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.bar.html)

Ambos os gráficos devem ter:
- Tamanho da Figura = 12 x 8
- Título
- Rótulos nos eixos X e Y
- As barras devem ter largura cheia, i.e. devem tocar as barras vizinhas.
- Todas as Barras devem ter a mesma cor

In [None]:
""" Escreva a a Solução Aqui """    

## Comparando diferentes números de Buckets

Usando o método `hist` do `pandas`, plotar o histograma com `bins=20` **por cima da mesma figura construída anteriormente**. 

O gráfico composto deve ter as seguintes características:
- O gráfico original (`bins=10`) deve ser plotado primeiro, em **azul**;
- O gráfico gerado pelo médoto `hist` deve ser plotado por cima do original, em **vermelho**;
- Ambos os gráficos devem estar visíveis (usar **transparência**);
- Deve haver uma legenda identificando os dois gráficos.


In [None]:
""" Escreva a a Solução Aqui """    