# Desafio (Parte 2) - Extraindo Informações

## Case baseado no desafio do Kaggle: "Instacart Market Basket Analysis"

Esse desafio é baseado em uma competição do Kaggle ([https://www.kaggle.com](https://www.kaggle.com)) de 2017, onde é pedido para fazer a predição de se um produto será comprado por dado usuário no carrinho atual, baseado em suas compras anteriores.

Não está no escopo da aula 



Link para o desafio: [https://www.kaggle.com/c/instacart-market-basket-analysis](https://www.kaggle.com/c/instacart-market-basket-analysis)

## Origem dos Dados:

Os dados mostrados nesse desafio são uma amostra extraída do dataset disponibilizado gratuitamente pela empresa Instacart ([https://www.instacart.com/](https://www.instacart.com/)) **\***. São dados reais do banco de dados da empresa, que foram anonimizados para o uso por pesquisadores e em competições de Data Science.

 
###### * “The Instacart Online Grocery Shopping Dataset 2017”, Accessed from [https://www.instacart.com/datasets/grocery-shopping-2017](https://www.instacart.com/datasets/grocery-shopping-2017) on March 10, 2017.

## Tabelas e Colunas Importantes

As Tabelas e suas respectivas colunas estão mostradas abaixo, junto com a descrição do significado de cada coluna:

* Colunas da Tabela `orders`:

    * ´order_id´: order identifier
    * ´user_id´: customer identifier
    * ´eval_set´: which evaluation set this order belongs in (see SET described below)
    * ´order_number´: the order sequence number for this user (1 = first, n = nth)
    * ´order_dow´: the day of the week the order was placed on
    * ´order_hour_of_day´: the hour of the day the order was placed on
    * ´days_since_prior´: days since the last order, capped at 30 (with NAs for order_number = 1)
    
* Colunas da Tabela `products (50k rows):

    * ´product_id´: product identifier
    * ´product_name´: name of the product
    * ´aisle_id´: foreign key
    * ´department_id´: foreign key

* Colunas da Tabela `aisles (134 rows):

    * ´aisle_id´: aisle identifier
    * ´aisle´: the name of the aisle

* Colunas da Tabela `deptartments (21 rows):

    * ´department_id´: department identifier
    * ´department´: the name of the department

* Colunas da Tabela `order_products__SET (30m+ rows):

    * ´order_id´: foreign key
    * ´product_id´: foreign key
    * ´add_to_cart_order´: order in which each product was added to cart
    * ´reordered´: 1 if this product has been ordered by this user in the past, 0 otherwise

___

# Import

In [1]:
import os
import pandas as pd

# Objetivo:

Analisar o dataset gerado na Seção 3 e responder às questões.

# Dataset

In [2]:
file_name = os.path.join("data", "dataset.csv")

In [3]:
dataset = pd.read_csv(file_name, sep=",", index_col=0, encoding="utf-8")

  mask |= (ar1 == a)


In [4]:
dataset.head()

Unnamed: 0,order_id,user_id,order_dow,product_name,aisle,department
10,1187899,1,4,Soda,soft drinks,beverages
11,1187899,1,4,Organic String Cheese,packaged cheese,dairy eggs
12,1187899,1,4,0% Greek Strained Yogurt,yogurt,dairy eggs
13,1187899,1,4,XL Pick-A-Size Paper Towel Rolls,paper goods,household
14,1187899,1,4,Milk Chocolate Almonds,candy chocolate,snacks


In [5]:
""" Facilitando a vida """
# baseado em uma thread do Kaggle sobre esse desafio, os dias da semana são definidos na seguinte ordem:
week_days = ["saturday", "sunday", "monday", "tuesday", "wednesday", "thursday", "friday"]

# traduzindo no dataset
dataset.order_dow = dataset.order_dow.map(lambda wd: week_days[wd])

In [7]:
df = dataset.head()
df

Unnamed: 0,order_id,user_id,order_dow,product_name,aisle,department
10,1187899,1,wednesday,Soda,soft drinks,beverages
11,1187899,1,wednesday,Organic String Cheese,packaged cheese,dairy eggs
12,1187899,1,wednesday,0% Greek Strained Yogurt,yogurt,dairy eggs
13,1187899,1,wednesday,XL Pick-A-Size Paper Towel Rolls,paper goods,household
14,1187899,1,wednesday,Milk Chocolate Almonds,candy chocolate,snacks


# Questões 

## A) Quantos usuários únicos fizeram pedidos?

In [24]:
dataset.shape

(1238345, 6)

In [28]:
""" Entre com o Código aqui """
len(dataset["user_id"].unique())

117221

In [27]:
a = dataset.groupby("user_id")
a.count()

Unnamed: 0_level_0,order_id,order_dow,product_name,aisle,department
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,11,11,11,11,11
2,31,31,31,31,31
5,9,9,9,9,9
7,9,9,9,9,9
8,18,18,18,18,18
9,22,22,22,22,22
10,4,4,4,4,4
13,5,5,5,5,5
14,11,11,11,11,11
17,6,6,6,6,6


## B) Qual o produto que apareceu em mais pedidos?

In [33]:
dataset.product_name.value_counts()

Banana                                                16784
Bag of Organic Bananas                                13790
Organic Strawberries                                   9740
Organic Baby Spinach                                   8734
Large Lemon                                            7254
Organic Avocado                                        6642
Organic Hass Avocado                                   6545
Strawberries                                           5775
Limes                                                  5383
Organic Raspberries                                    5002
Organic Blueberries                                    4473
Organic Whole Milk                                     4384
Organic Cucumber                                       4122
Organic Zucchini                                       4108
Organic Yellow Onion                                   3790
Organic Garlic                                         3686
Seedless Red Grapes                     

In [35]:
g = dataset.groupby(["order_id", "product_name"])
g

<pandas.core.groupby.DataFrameGroupBy object at 0x000001B700188E80>

In [40]:
df = g.count()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,user_id,order_dow,aisle,department
order_id,product_name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Bag of Organic Bananas,1,1,1,1
1,Bulgarian Yogurt,1,1,1,1
1,Cucumber Kirby,1,1,1,1
1,Lightly Smoked Sardines in Olive Oil,1,1,1,1
1,Organic 4% Milk Fat Whole Milk Cottage Cheese,1,1,1,1
1,Organic Celery Hearts,1,1,1,1
1,Organic Hass Avocado,1,1,1,1
1,Organic Whole String Cheese,1,1,1,1
36,Asparagus,1,1,1,1
36,Cage Free Extra Large Grade AA Eggs,1,1,1,1


In [47]:
resp_uniq = df.reset_index().product_name.value_counts()
resp_moda = dataset.product_name.value_counts()

In [53]:
index = resp_uniq.sort_index() != resp_moda.sort_index()
index

#2 Coffee Filters                                                       False
#2 Cone White Coffee Filters                                            False
#2 Mechanical Pencils                                                   False
#4 Natural Brown Coffee Filters                                         False
& Go! Hazelnut Spread + Pretzel Sticks                                  False
0 Calorie Acai Raspberry Water Beverage                                 False
0 Calorie Fuji Apple Pear Water Beverage                                False
0 Calorie Strawberry Dragonfruit Water Beverage                         False
0% Fat Black Cherry Greek Yogurt y                                      False
0% Fat Blueberry Greek Yogurt                                           False
0% Fat Free Organic Milk                                                False
0% Fat Greek Yogurt Black Cherry on the Bottom                          False
0% Fat Greek Yogurt Vanilla                                     

In [54]:
index.any()

False

In [52]:
resp_uniq[index]

Series([], Name: product_name, dtype: int64)

In [52]:
resp_uniq[index]

Series([], Name: product_name, dtype: int64)

In [None]:
""" Entre com o Código aqui """

## C) Quais os usuários que fizeram mais e menos pedidos?

In [62]:
""" Entre com o Código aqui """
g = dataset.groupby("user_id")
tmp = g.order_id.count()
tmp = tmp.sort_values(ascending=False)
tmp.head().append(tmp.tail())

user_id
149753    80
63458     77
83993     76
169647    75
104741    74
8761       1
40204      1
97749      1
19319      1
173983     1
Name: order_id, dtype: int64

## D) Qual a média e o desvio padrão da quantidade de produtos presentes em um pedido um usuário?

In [70]:
dataset.user_id.unique().shape

(117221,)

In [71]:
dataset.order_id.unique().shape

(117221,)

In [77]:
""" Entre com o Código aqui """
g = dataset.groupby(["order_id"])
tmp = g.product_name.count()
tmp.describe()

count    117221.000000
mean         10.564191
std           7.945047
min           1.000000
25%           5.000000
50%           9.000000
75%          14.000000
max          80.000000
Name: product_name, dtype: float64

In [76]:
g = dataset.groupby(["user_id"])
tmp = g.product_name.count()
tmp.describe()

count    117221.000000
mean         10.564191
std           7.945047
min           1.000000
25%           5.000000
50%           9.000000
75%          14.000000
max          80.000000
Name: product_name, dtype: float64

## E) Qual a média, a mediana, o mínimo e o máximo da quantidade de corredores (`aisles`) por departmento (`department`)?


In [78]:
""" Entre com o Código aqui """
dataset.department.unique().shape

(21,)

In [80]:
""" Entre com o Código aqui """
dataset.aisle.unique().shape

(134,)

In [88]:
tmp = dataset.groupby(["department", "aisle"])
tmp = tmp.count().reset_index()[["department", "aisle"]]
tmp.head()

Unnamed: 0,department,aisle
0,alcohol,beers coolers
1,alcohol,red wines
2,alcohol,specialty wines champagnes
3,alcohol,spirits
4,alcohol,white wines


In [87]:
tmp.groupby("department").aisle.count().describe()

count    21.000000
mean      6.380952
std       4.128876
min       1.000000
25%       4.000000
50%       5.000000
75%      10.000000
max      17.000000
Name: aisle, dtype: float64

## F) Qual o dia da semana em que ocorrem mais pedidos de produtos para cada departmento (`department`)?

In [None]:
""" Entre com o Código aqui """

##  G) Quais foram os 5% piores e os 5% melhores corredores (`aisle`) em termos de vendas? 

In [None]:
""" Entre com o Código aqui """

##  H) Quais foram os 5 produtos mais comprados de cada departamento na terça-feira? 

### Mostre em uma tabela como no exemplo:

| departamento | 1o produto | 2o produto | 3o produto | 4o produto | 5o produto |
|:------------ |:---------- |:---------- |:---------- |:---------- |:---------- |
| depart 01    | prod A     | prod W     | prod L     | prod H     | prod D     |
| depart 02    | prod X     | prod Q     | prod B     | prod S     | prod P     |
| ...          | ...        | ...        | ...        | ...        | ...        |


In [None]:
""" Entre com o Código aqui """

## I) Quais são os 2 corredores (`aisles`) que são visitados juntos no mesmo pedido mais vezes em uma sexta-feira?

In [None]:
""" Entre com o Código aqui """

## J) Quais as duplas de produtos que mais saem juntas no pedido (`order_id`) de um usuário em uma sexta-feira?

In [None]:
""" Entre com o Código aqui """