# Desafio (Parte 2) - Extraindo Informações

## Case baseado no desafio do Kaggle: "Instacart Market Basket Analysis"

Esse desafio é baseado em uma competição do Kaggle ([https://www.kaggle.com](https://www.kaggle.com)) de 2017, onde é pedido para fazer a predição de se um produto será comprado por dado usuário no carrinho atual, baseado em suas compras anteriores.

Não está no escopo da aula 



Link para o desafio: [https://www.kaggle.com/c/instacart-market-basket-analysis](https://www.kaggle.com/c/instacart-market-basket-analysis)

## Origem dos Dados:

Os dados mostrados nesse desafio são uma amostra extraída do dataset disponibilizado gratuitamente pela empresa Instacart ([https://www.instacart.com/](https://www.instacart.com/)) **\***. São dados reais do banco de dados da empresa, que foram anonimizados para o uso por pesquisadores e em competições de Data Science.

 
###### * “The Instacart Online Grocery Shopping Dataset 2017”, Accessed from [https://www.instacart.com/datasets/grocery-shopping-2017](https://www.instacart.com/datasets/grocery-shopping-2017) on March 10, 2017.

## Tabelas e Colunas Importantes

As Tabelas e suas respectivas colunas estão mostradas abaixo, junto com a descrição do significado de cada coluna:

* Colunas da Tabela `orders`:

    * ´order_id´: order identifier
    * ´user_id´: customer identifier
    * ´eval_set´: which evaluation set this order belongs in (see SET described below)
    * ´order_number´: the order sequence number for this user (1 = first, n = nth)
    * ´order_dow´: the day of the week the order was placed on
    * ´order_hour_of_day´: the hour of the day the order was placed on
    * ´days_since_prior´: days since the last order, capped at 30 (with NAs for order_number = 1)
    
* Colunas da Tabela `products (50k rows):

    * ´product_id´: product identifier
    * ´product_name´: name of the product
    * ´aisle_id´: foreign key
    * ´department_id´: foreign key

* Colunas da Tabela `aisles (134 rows):

    * ´aisle_id´: aisle identifier
    * ´aisle´: the name of the aisle

* Colunas da Tabela `deptartments (21 rows):

    * ´department_id´: department identifier
    * ´department´: the name of the department

* Colunas da Tabela `order_products__SET (30m+ rows):

    * ´order_id´: foreign key
    * ´product_id´: foreign key
    * ´add_to_cart_order´: order in which each product was added to cart
    * ´reordered´: 1 if this product has been ordered by this user in the past, 0 otherwise

___

# Import

In [1]:
import os
import pandas as pd

# Objetivo:

Analisar o dataset gerado na Seção 3 e responder às questões.

# Dataset

In [2]:
file_name = os.path.join("data", "dataset.csv")

In [3]:
dataset = pd.read_csv(file_name,
                      sep=",",
                      index_col=0,
                      encoding="utf-8")

  mask |= (ar1 == a)


In [4]:
""" Facilitando a vida """
# baseado em uma thread do Kaggle sobre esse desafio, os dias da semana são definidos na seguinte ordem:
week_days = ["saturday", "sunday", "monday", "tuesday", "wednesday", "thursday", "friday"]

# traduzindo no dataset
dataset.order_dow = dataset.order_dow.map(lambda wd: week_days[wd])

In [5]:
dataset.head()

Unnamed: 0_level_0,user_id,order_dow,department,aisle,product_name
order_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1187899,1,wednesday,beverages,soft drinks,Soda
2757217,67,saturday,beverages,soft drinks,Soda
632715,676,saturday,beverages,soft drinks,Soda
1167274,760,wednesday,beverages,soft drinks,Soda
3347074,804,tuesday,beverages,soft drinks,Soda


# Questões 

## A) Quantos usuários únicos fizeram pedidos?

In [6]:
unique_users = dataset['user_id'].nunique()
print(unique_users)

117221


## B) Qual o produto que apareceu em mais pedidos?

In [7]:
top_products = dataset['product_name'].value_counts()
top_products.head(1)

Banana    16784
Name: product_name, dtype: int64

## C) Quais os usuários que fizeram mais e menos pedidos?

In [25]:
user = dataset['user_id'].value_counts()
print(user.head(10))
print(user.tail(10))

149753    80
63458     77
83993     76
169647    75
104741    74
31611     74
181991    72
59321     72
82931     70
7430      70
Name: user_id, dtype: int64
136000    1
119608    1
166385    1
91532     1
103216    1
95020     1
122267    1
124316    1
126365    1
174618    1
Name: user_id, dtype: int64


## D) Qual a média e o desvio padrão da quantidade de produtos presentes em um pedido um usuário?

In [54]:
groupped_columns = ['order_id','user_id','order_dow']
df = dataset.groupby(groupped_columns)['product_name'].count()
df = df.reset_index()
df.rename(columns={'product_name':'product_qty'},
          inplace=True)
df.head()

Unnamed: 0,order_id,user_id,order_dow,product_qty
0,1,112108,wednesday,8
1,36,79431,friday,8
2,38,42756,friday,9
3,96,17227,friday,7
4,98,56463,tuesday,49


In [58]:
product_qty_avg = df['product_qty'].mean()
product_qty_stddev = df['product_qty'].std()
print('Average: ', product_qty_avg)
print('Standard Derivation: ', product_qty_stddev)

Average:  10.564190716680459
Standard Derivation:  7.945046845800925


## E) Qual a média, a mediana, o mínimo e o máximo da quantidade de corredores (`aisles`) por departmento (`department`)?


In [59]:
groupped_columns = ['department']
df2 = dataset.groupby(groupped_columns)['aisle'].count()
df2 = df2.reset_index()
df2.rename(columns={'aisle':'aisle_qty'},
          inplace=True)
df2.head()

Unnamed: 0,department,aisle_qty
0,alcohol,5007
1,babies,13324
2,bakery,43259
3,beverages,102005
4,breakfast,26456


In [60]:
print(df2['aisle_qty'].mean())
print(df2['aisle_qty'].median())
print(df2['aisle_qty'].min())
print(df2['aisle_qty'].max())

58968.80952380953
32299.0
1218
365640


## F) Qual o dia da semana em que ocorrem mais pedidos de produtos para cada departmento (`department`)?

In [None]:
groupped_columns = ['department']
df2 = dataset.groupby(groupped_columns)['aisle'].count()
df2 = df2.reset_index()
df2.rename(columns={'aisle':'aisle_qty'},
          inplace=True)
df2.head()

##  G) Quais foram os 5% piores e os 5% melhores corredores (`aisle`) em termos de vendas? 

In [None]:
""" Entre com o Código aqui """

##  H) Quais foram os 5 produtos mais comprados de cada departamento na terça-feira? 

### Mostre em uma tabela como no exemplo:

| departamento | 1o produto | 2o produto | 3o produto | 4o produto | 5o produto |
|:------------ |:---------- |:---------- |:---------- |:---------- |:---------- |
| depart 01    | prod A     | prod W     | prod L     | prod H     | prod D     |
| depart 02    | prod X     | prod Q     | prod B     | prod S     | prod P     |
| ...          | ...        | ...        | ...        | ...        | ...        |


In [None]:
""" Entre com o Código aqui """

## I) Quais são os 2 corredores (`aisles`) que são visitados juntos no mesmo pedido mais vezes em uma sexta-feira?

In [None]:
""" Entre com o Código aqui """

## J) Quais as duplas de produtos que mais saem juntas no pedido (`order_id`) de um usuário em uma sexta-feira?

In [None]:
""" Entre com o Código aqui """