# Desafio (Parte 1) - Distribuição de Produtos por Usuário

## Case baseado no desafio do Kaggle: "Instacart Market Basket Analysis"

Esse desafio é baseado em uma competição do Kaggle ([https://www.kaggle.com](https://www.kaggle.com)) de 2017, onde é pedido para fazer a predição de se um produto será comprado por dado usuário no carrinho atual, baseado em suas compras anteriores.

Não está no escopo da aula 



Link para o desafio: [https://www.kaggle.com/c/instacart-market-basket-analysis](https://www.kaggle.com/c/instacart-market-basket-analysis)

## Origem dos Dados:

Os dados mostrados nesse desafio são uma amostra extraída do dataset disponibilizado gratuitamente pela empresa Instacart ([https://www.instacart.com/](https://www.instacart.com/)) **\***. São dados reais do banco de dados da empresa, que foram anonimizados para o uso por pesquisadores e em competições de Data Science.

 
###### * “The Instacart Online Grocery Shopping Dataset 2017”, Accessed from [https://www.instacart.com/datasets/grocery-shopping-2017](https://www.instacart.com/datasets/grocery-shopping-2017) on March 10, 2017.

___

# Imports

In [None]:
import numpy as np
import os
import pandas as pd

In [None]:
""" habilitando plots no notebook """
%matplotlib inline

In [None]:
""" plot libs """
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
""" Configurando o Matplotlib para o modo manual """
plt.interactive(False)

# Objetivo :

Analisar o dataset (o mesmo construído na Aula 07) e responder às questões em cada item usando gráficos.

# Importante:

Todos os gráficos devem conter:
* Título
* Rótulos do Eixo X e do Eixo Y

Se mais de um gráfico for plotado em uma única janela, eles devem ter:
* Cores diferentes
* Legenda
* Transparência (na sobreposição)

# Dataset:

O dataset utilizado nesse desafio é um sub-conjunto daquele construído na Aula 7. Para essa aula, será necessário carregar apenas duas colunas: `user_id` e `product_name`.

## Carregando os dados

In [None]:
""" Nota sobre o Warning: 
    O código abaixo levanta um Warning gerado por uma chamada interna do pandas conflitando com o Numpy.
    Não há necessidade de tratar esse Warning no momento, o comportamento do 'read_csv' é funcional para o que queremos.
"""
dataset = pd.read_csv(
    os.path.join("data", "dataset.csv"),
    usecols=["user_id", "product_name"],
    sep=",",
    index_col=0,
    encoding="utf-8"
)

## Extração dos dados específicos

In [None]:
product_count = dataset.groupby("user_id").product_name.count()

In [None]:
product_count.describe()

In [None]:
product_count.head(10)

# Problemas

## A) Visualização da Distribuição Original

Avalie a distribuição de dados do `Número de Produtos` por `Usuário`, respondendo a cada item. 

### A.1) Visualização

Construa uma visualização composta que mostre a distribuição de dados e os outliers.

Depois, responda às perguntas:
* Qual o tipo dessa distribuição? 
* Existem Outliers? Descreva-os.

In [None]:
""" Escreva a a Solução Aqui """    

### A.2) Cortes

Proponha cortes de usuários de forma que não se percam muitos dados e que a distribuição seja mantida. 

Adicione os cortes à visualização usando `segmentos pontilhados de reta` e `textos com os valores dos cortes`.

In [None]:
""" Escreva a a Solução Aqui """    

### A.3) Nova Distribuição

Elimine os outliers e construa outro plot da nova distribuição.

In [None]:
""" Escreva a a Solução Aqui """    

## B) Visualização da Distribuição Transformada

Uma técnica que é muito usada para compreender melhor dados de uma distribuição como essa é  a aplicação do `logaritmo` aos dados originais. Para saber mais sobre essa função matemática, consulte [esta referência](https://pt.wikibooks.org/wiki/Matem%C3%A1tica_elementar/Logaritmos).

Aplique o `logaritmo de base 10` à massa de dados e responda aos itens:

B.1) Construa uma visualização composta que mostre a distribuição de dados e os outliers.

B.2) Responda às perguntas:
* Qual o tipo dessa distribuição? 
* Existem Outliers? Descreva-os.

B.3) Proponha cortes de usuários de forma que não se percam muitos dados e que a distribuição seja mantida. Adicione os cortes à visualização usando `segmentos pontilhados de reta` e `textos com os valores dos cortes`.

B.4) Elimine os outliers e construa outro plot da nova distribuição.

### Transformação dos dados

In [None]:
product_count_log = product_count.map(np.log10)

In [None]:
product_count_log.describe()

In [None]:
product_count_log.head()

### B.1) Visualização

Construa uma visualização composta que mostre a distribuição de dados e os outliers.

Depois, responda às perguntas:
* Qual o tipo dessa distribuição? 
* Existem Outliers? Descreva-os.

In [None]:
""" Escreva a a Solução Aqui """    

### B.2) Cortes

Proponha cortes de usuários de forma que não se percam muitos dados e que a distribuição seja mantida. 

Adicione os cortes à visualização usando `segmentos pontilhados de reta` e `textos com os valores dos cortes`.

In [None]:
""" Escreva a a Solução Aqui """    

### B.3) Nova Distribuição

Elimine os outliers e construa outro plot da nova distribuição.

In [None]:
""" Escreva a a Solução Aqui """    