<img src = "https://images2.imgbox.com/a5/72/7ZbDUHlf_o.jpg" width="200">

### Perguntas:
---
- Quais são os cinco produtos com maior quantidade de reviews?
- Quais são os cinco produtos com maior rating médio?
- Assuma que qualquer review com rating maior que 3 é positivo. (3.5, 4, 4.5, 5.0). Qual percentual de reviews positivos para os cinco produtos com maior quantidade de reviews?
- De acordo com a pergunta acima, qual percentual de reviews positivos para os cinco produtos com maior rating médio?
- Quanto menos reviews, mais fácil ter um percentual maior de reviews positivos. Para comparar melhor os melhores produtos, vamos usar uma regra: qual seria o percentual de reviews positivos de todos os produtos, se eu adicionasse 1 review positivo e 1 review negativo? (fonte: https://www.youtube.com/watch?v=8idr1WZ1A7Q)

**Fonte dos dados:** https://jmcauley.ucsd.edu/data/amazon/

**Explicando melhor a última pergunta:**

Imagine que um produto tenha 50 reviews, 37 positivos. Então, vamos adicionar 1 positivo e 1 negativo, ficamos com 38 positivos e 24 negativos. Assim, o percentual de positivos é 38/52 = 73%.

---


- Qual o preço médio de todos os produtos?
- Qual o preço médio de produtos da Philips, da 3M e da Duracell?
- Para cada produto da Philips, da 3M e da Duracell, calcule o percentual de reviews positivos (sem usar o conceito acima).
- Qual o percentual de positivos médio para cada uma dessas marcas? 

---

In [94]:
# Importando bibliotecas
import pandas as pd
import numpy as np

In [95]:
def impressao_relatorio(percentuais):
    for item in percentuais:
        print(f'item: {item["item"]} - {item["negativos"]:.2f}% reviews negativos e {item["positivos"]:.2f}% reviews positivos.')
        
def calc_pos_neg(lst, reviews_df):
    lista_cont = []
    for item in lst:
        dicionario_item = {}
        subconjunto_df = reviews_df[reviews_df['asin'] == item]
        sum_neg = len([registro for registro in subconjunto_df['rating'] if registro <= 3])
        sum_pos = len([registro for registro in subconjunto_df['rating'] if registro > 3])
        dicionario_item['item'] = item
        dicionario_item['negativos'] = sum_neg /(sum_pos+sum_neg) *100
        dicionario_item['positivos'] = sum_pos /(sum_pos+sum_neg) *100
        lista_cont.append(dicionario_item)
    return lista_cont 

def lst_pos_neg(lst, products_reviews):
    lista_cont = []
    for item in lst:
        dicionario_marca = {}
        subconjunto_df = products_reviews[products_reviews['brand'] == item]
        sum_neg = len([registro for registro in subconjunto_df['rating'] if registro <= 3])
        sum_pos = len([registro for registro in subconjunto_df['rating'] if registro > 3])
        dicionario_marca['item'] = item
        dicionario_marca['negativos'] = sum_neg /(sum_pos+sum_neg) *100
        dicionario_marca['positivos'] = sum_pos /(sum_pos+sum_neg) *100
        lista_cont.append(dicionario_marca)
    return lista_cont 

In [96]:
# Carregando dados 
products_df = pd.read_json('data/metadata_products.json', lines=True)
reviews_df  = pd.read_json('data/reviews_amazon.json')

In [97]:
# 10 primeiras observações do dataframe
products_df.head()

Unnamed: 0,asin,title,price,brand
0,736789928,Zaner-Bloser Classic Handwriting Pen Single Un...,3.49,Zaner-Bloser
1,767196813,"Graphique - Bunco Purse Notes, 3 x 4&quot;, Mu...",3.95,
2,1423915380,Renata Battery 370 Sr920W Silver 1.55V Swiss Made,2.85,Renata
3,1424333083,Kinesiotaping in Pediatrics: Fundamentals and ...,48.9,Kinesio
4,1472607341,Filofax Personal Original Patent Purple,,


In [98]:
# 10 primeiras observações do dataframe
reviews_df.head()

Unnamed: 0,reviewerID,asin,reviewText,rating
0,AVEZNYIN8PTCY,736789928,This was the pen I used in grade school to lea...,4
1,A15C9PBP100HLB,767196813,At our monthly BUNCO games we give prizes for ...,5
2,A349LYELBIFDVK,1423915380,Can't get my fossil to work with it. So took i...,4
3,AS33ZA0EODGZ8,1424333083,I have attended several courses taught by the ...,2
4,A1975EX0SEQM6O,1424333083,This has already come in handy for taping my s...,5


In [99]:
# Combinando os dataframes
products_reviews = pd.merge(reviews_df, products_df, on='asin', how='left')

# 10 primeiras observações do novo dataframe
products_reviews.head()

Unnamed: 0,reviewerID,asin,reviewText,rating,title,price,brand
0,AVEZNYIN8PTCY,736789928,This was the pen I used in grade school to lea...,4,Zaner-Bloser Classic Handwriting Pen Single Un...,3.49,Zaner-Bloser
1,A15C9PBP100HLB,767196813,At our monthly BUNCO games we give prizes for ...,5,"Graphique - Bunco Purse Notes, 3 x 4&quot;, Mu...",3.95,
2,A349LYELBIFDVK,1423915380,Can't get my fossil to work with it. So took i...,4,Renata Battery 370 Sr920W Silver 1.55V Swiss Made,2.85,Renata
3,AS33ZA0EODGZ8,1424333083,I have attended several courses taught by the ...,2,Kinesiotaping in Pediatrics: Fundamentals and ...,48.9,Kinesio
4,A1975EX0SEQM6O,1424333083,This has already come in handy for taping my s...,5,Kinesiotaping in Pediatrics: Fundamentals and ...,48.9,Kinesio


---
## Cinco produtos com maior quantidade de reviews

In [100]:
prod_rev = products_reviews.asin.value_counts().head(5).index.tolist()
prod_rev

['B00HK61L3C', 'B00B5H5BGA', 'B00FMJKRB6', 'B00I5H5Z1O', 'B0095PZHPE']

In [101]:
products_df.loc[products_df.asin.isin(prod_rev)]

Unnamed: 0,asin,title,price,brand
32706,B0095PZHPE,Fitbit One Wireless Activity Plus Sleep Tracke...,93.57,Fitbit
35469,B00B5H5BGA,NatureWise Garcinia Cambogia Extract Natural A...,35.99,NatureWise
41756,B00FMJKRB6,"First Aid Shot Therapy Pain Relief, Berry Flav...",29.99,
44207,B00HK61L3C,W700 Thermogenic Hyper-Metabolizer by Ubervita...,29.95,Ubervita
45012,B00I5H5Z1O,Gillette Venus Snap with Embrace Women's Razor...,9.47,


---
## Cinco produtos com maior rating médio

In [102]:
prod_rating = products_reviews.groupby('asin')['rating'].mean().sort_values(ascending=False).head(5).index.tolist()
prod_rating

['B004XC5CD6', 'B005MGDRRA', 'B005MKP9OK', 'B005MKA4U4', 'B005MK9GYO']

In [103]:
products_df.loc[products_df.asin.isin(prod_rating)]

Unnamed: 0,asin,title,price,brand
23937,B004XC5CD6,"Deodorant Stick, Long Lasting Apricot 2.25 oz ...",14.24,Tom&#39;s of Maine
26179,B005MGDRRA,"Boiron Optique 1 for Eye Irritations, 20 Doses...",,
26197,B005MK9GYO,Four Piece Mach 3 Shave Set with Pure Badger B...,100.95,Bey-Berk
26198,B005MKA4U4,Melaleuca Diamond Brite - 25 loads,,
26200,B005MKP9OK,Optimox Corporation Iodoral 12.5 mg - 90 Tablets,49.99,


---
## Percentual de reviews positivos para os cinco produtos com maior quantidade de reviews

Assumindo que qualquer review com rating maior que 3 é positivo (3.5, 4, 4.5, 5.0).

In [104]:
resultado = calc_pos_neg(prod_rev, reviews_df)
impressao_relatorio(resultado)

item: B00HK61L3C - 10.74% reviews negativos e 89.26% reviews positivos.
item: B00B5H5BGA - 22.89% reviews negativos e 77.11% reviews positivos.
item: B00FMJKRB6 - 14.54% reviews negativos e 85.46% reviews positivos.
item: B00I5H5Z1O - 5.96% reviews negativos e 94.04% reviews positivos.
item: B0095PZHPE - 14.47% reviews negativos e 85.53% reviews positivos.


---
## Percentual de reviews positivos para os cinco produtos com maior rating médio

In [105]:
resultado = calc_pos_neg(prod_rating, reviews_df)
impressao_relatorio(resultado)

item: B004XC5CD6 - 0.00% reviews negativos e 100.00% reviews positivos.
item: B005MGDRRA - 0.00% reviews negativos e 100.00% reviews positivos.
item: B005MKP9OK - 0.00% reviews negativos e 100.00% reviews positivos.
item: B005MKA4U4 - 0.00% reviews negativos e 100.00% reviews positivos.
item: B005MK9GYO - 0.00% reviews negativos e 100.00% reviews positivos.


---
## Qual seria o percentual de reviews positivos de todos os produtos, se eu adicionasse 1 review positivo e 1 review negativo

In [106]:
# Cria coluna com a classificação do rating (Positivo ou Negativo)
products_reviews.loc[products_reviews['rating'] <= 3, 'rating_type'] = 'N'
products_reviews.loc[products_reviews['rating'] > 3, 'rating_type'] = 'P'

In [107]:
# ou
# products_reviews['rating_type'] = products_reviews['rating'].apply(lambda x: 'P' if x > 3 else 'N')


In [108]:
# Cria duas colunas com o total de reviews positivos e negativos
products_rating = products_reviews.groupby(['brand', 'asin'], as_index=False).apply(lambda x: pd.Series({'rating_pos': x[x['rating_type'] == 'P']['rating_type'].count(),
                                                                                                         'rating_neg': x[x['rating_type'] == 'N']['rating_type'].count()}))

In [109]:
# Calcula os Percentuais
products_rating['rating_pos_perc'] = products_rating['rating_pos'] / (products_rating['rating_pos'] + products_rating['rating_neg']) *100
products_rating['rating_neg_perc'] = products_rating['rating_neg'] / (products_rating['rating_pos'] + products_rating['rating_neg']) *100

# Cria cópia e soma 1 review positivo e outro negativo a todos os produtos
products_rating_com_soma = products_rating.copy()
products_rating_com_soma['rating_pos'] = products_rating_com_soma['rating_pos'] + 1
products_rating_com_soma['rating_neg'] = products_rating_com_soma['rating_neg'] + 1

# Recalcula os Percentuais
products_rating_com_soma['rating_pos_perc'] = products_rating_com_soma['rating_pos'] / (products_rating_com_soma['rating_pos'] + products_rating_com_soma['rating_neg']) *100
products_rating_com_soma['rating_neg_perc'] = products_rating_com_soma['rating_neg'] / (products_rating_com_soma['rating_pos'] + products_rating_com_soma['rating_neg']) *100

In [111]:
# Produtos ordenados pelo rating positivo
products_rating_com_soma[['asin', 'brand', 'rating_pos_perc']].sort_values(by='rating_pos_perc', ascending=False)

Unnamed: 0,asin,brand,rating_pos_perc
18919,B0057ZQB2O,Neosporin,98.540146
22820,B00KC0TH9S,Pure,98.019802
9406,B00D6SRLSW,Epica,97.752809
21138,B00837ZOI0,PRORASO,97.297297
28892,B00HK5RFBK,Ubervita,97.175141
...,...,...,...
17401,B00CDQY8N4,My Snoring Solution,9.677419
7235,B00JF74J38,Distributed by Shave &#39;N Save,9.090909
1988,B00H8X924W,As Seen On TV,9.090909
6147,B00IF7A5EQ,Cortizone,9.090909


---
## Preço médio de todos os produtos

In [112]:
products_df['price'].mean()

26.262131177320338

---
## Preço médio de produtos da Philips, da 3M e da Duracell

In [113]:
prod_lst  = products_df.loc[(products_df.brand.isin(['Philips','3M','Duracell']))]
prod_lst.groupby('brand')['price'].mean()

brand
3M          13.843805
Duracell    14.395696
Philips     55.638896
Name: price, dtype: float64

In [114]:
prod_lst.price.mean()

33.1570422535211

---
## Percentual de reviews positivos para cada produto da Philips, da 3M e da Duracell

In [115]:
prod_rev = ['Philips','3M','Duracell']
products_rating[products_rating['brand'].isin(prod_rev)][['brand', 'asin', 'rating_pos_perc']]

Unnamed: 0,brand,asin,rating_pos_perc
420,3M,B00005NAVS,0.000000
421,3M,B00006IA8O,33.333333
422,3M,B00006IA8Q,100.000000
423,3M,B00006IA93,100.000000
424,3M,B00006IBMC,100.000000
...,...,...,...
21801,Philips,B00HB2ARDU,80.000000
21802,Philips,B00HB2ARHQ,62.500000
21803,Philips,B00I471LQI,100.000000
21804,Philips,B00I471M9E,50.000000


---
## Percentual de positivos médio para cada uma dessas marcas

In [116]:
media_positivos_marca_df = products_rating[products_rating['brand'].isin(['Philips','3M','Duracell'])][['brand', 'asin', 'rating_pos_perc']]

In [117]:
media_positivos_marca_df.groupby('brand').agg({'rating_pos_perc':np.mean}).sort_values('rating_pos_perc', ascending=False)

Unnamed: 0_level_0,rating_pos_perc
brand,Unnamed: 1_level_1
Duracell,87.804998
3M,85.626655
Philips,79.817878


---