# Olist product categories bad reviews analysis

## The dataset

Welcome back to the [Olist dataset](https://kitt.lewagon.com/karr/data-lectures.kitt/04-Decision-Science_01-Project-Setup.slides.html?title=Project+Setup&program_id=10#/2/6) from the Decision Science module!

## The task

We would like to study some particular categories of product which have more bad reviews than other and understand why?

## Setup

If you followed the Decision Science module, you already have the `olist` package installed and importable. YOU CAN SKIP THIS SECTION and move to the **Data collection** section.

### 1. Import `olist` package

Download a fresh version of the `olist` package:

```bash
mkdir ~/code/lewagon
cd ~/code/lewagon
git clone git@github.com:lewagon/olist.git
cd olist
git fetch
git checkout full-package
```

### 2.  Download the datasets

- Download the datasets from Kaggle https://www.kaggle.com/olistbr/brazilian-ecommerce
- Unzip them into the `/data/csv` directory of the `olist` package:

```bash
.
├── README.md
├── data
│   └── csv
│       ├── olist_customers_dataset.csv
│       ├── olist_geolocation_dataset.csv
│       ├── olist_order_items_dataset.csv
│       ├── olist_order_payments_dataset.csv
│       ├── olist_order_reviews_dataset.csv
│       ├── olist_orders_dataset.csv
│       ├── olist_products_dataset.csv
│       ├── olist_sellers_dataset.csv
│       └── product_category_name_translation.csv
├── notebooks
├── olist
│   ├── README.md
│   ├── __init__.py
│   ├── data.py
│   ├── order.py
│   ├── product.py
│   ├── product_updated.py
│   ├── review.py
│   ├── seller.py
│   ├── seller_updated.py
│   └── utils.py
├── requirements.txt
└── setup.p
```

### Install the `olist` package

```bash
pip install -e .
```

⚠️ Restart the kernel.

## Data collection

In [1]:
from olist.review import Review
from olist.data import Olist

# Get dataset with product category name
product_category = Review().get_training_data()

# Get dataset with reviews
data = Olist().get_data()
reviews_data = data['order_reviews']


# Get dataset with estimated delivery date
data = Olist().get_data()
orders_data = data['orders']

# Build a dataset merging the 3 datasets
df = product_category.merge(reviews_data)
df = df.merge(orders_data)
display(df)

Unnamed: 0,review_id,length_review,review_score,order_id,product_category_name,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,7bc2406110b926393aa56f80a40eba40,0,4,73fc7af87114b39712e6da79b0a377eb,esporte_lazer,,,2018-01-18 00:00:00,2018-01-18 21:46:59,41dcb106f807e993532d446263290104,delivered,2018-01-11 15:30:49,2018-01-11 15:47:59,2018-01-12 21:57:22,2018-01-17 18:42:41,2018-02-02 00:00:00
1,80e641a11e56f04c1ad469d5645fdfde,0,5,a548910a1c6147796b98fdf73dbeba33,informatica_acessorios,,,2018-03-10 00:00:00,2018-03-11 03:05:13,8a2e7ef9053dea531e4dc76bd6d853e6,delivered,2018-02-28 12:25:19,2018-02-28 12:48:39,2018-03-02 19:08:15,2018-03-09 23:17:20,2018-03-14 00:00:00
2,228ce5500dc1d8e020d8d1322874b6f0,0,5,f9e4b658b201a9f2ecdecbb34bed034b,informatica_acessorios,,,2018-02-17 00:00:00,2018-02-18 14:36:24,e226dfed6544df5b7b87a48208690feb,delivered,2018-02-03 09:56:22,2018-02-03 10:33:41,2018-02-06 16:18:28,2018-02-16 17:28:48,2018-03-09 00:00:00
3,e64fb393e7b32834bb789ff8bb30750e,37,5,658677c97b385a9be170737859d3511b,ferramentas_jardim,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06,de6dff97e5f1ba84a3cd9a3bc97df5f6,delivered,2017-04-09 17:41:13,2017-04-09 17:55:19,2017-04-10 14:24:47,2017-04-20 09:08:35,2017-05-10 00:00:00
4,f7c4243c7fe1938f181bec41a392bdeb,100,5,8e6bfb81e283fa7e4f11123a3fb894f1,esporte_lazer,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53,5986b333ca0d44534a156a52a8e33a83,delivered,2018-02-10 10:59:03,2018-02-10 15:48:21,2018-02-15 19:36:14,2018-02-28 16:33:35,2018-03-09 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99425,f3897127253a9592a73be9bdfdf4ed7a,0,5,22ec9f0669f784db00fa86d035cf8602,brinquedos,,,2017-12-09 00:00:00,2017-12-11 20:06:42,d0d7086dea6fcf42b9b690b9f3745c58,delivered,2017-12-03 21:45:23,2017-12-03 22:08:00,2017-12-07 19:17:29,2017-12-08 17:19:00,2017-12-20 00:00:00
99426,b3de70c89b1510c4cd3d0649fd302472,67,5,55d4004744368f5571d1f590031933e4,papelaria,,"Excelente mochila, entrega super rápida. Super...",2018-03-22 00:00:00,2018-03-23 09:10:43,fcc7b1caafe3b77fd587bab964c4d1fb,delivered,2018-03-18 09:52:19,2018-03-18 10:08:04,2018-03-19 23:51:29,2018-03-21 17:44:08,2018-04-06 00:00:00
99427,1adeb9d84d72fe4e337617733eb85149,0,4,7725825d039fc1f0ceb7635e3f7d9206,esporte_lazer,,,2018-07-01 00:00:00,2018-07-02 12:59:13,3aa00401736823c73e9fe8683328fa6b,delivered,2018-06-22 16:47:28,2018-06-22 18:15:29,2018-06-25 12:58:00,2018-06-30 12:57:51,2018-07-16 00:00:00
99428,be360f18f5df1e0541061c87021e6d93,198,1,f8bd3f2000c28c5342fedeb5e50f2e75,automotivo,,Solicitei a compra de uma capa de retrovisor c...,2017-12-15 00:00:00,2017-12-16 01:29:43,8df587ce8a11ee97b3de9ef3405245c2,delivered,2017-12-10 18:44:23,2017-12-12 03:59:36,2017-12-12 18:05:41,2017-12-14 22:04:30,2017-12-29 00:00:00


In [6]:
from googletrans import Translator
import pandas as pd

def translate(x):
    translator = Translator()
    result = translator.translate(x, dest='en')
    return result.text

In [5]:
# Remove reviews for orders ['order_delivered_customer_date'] BEFORE/= ['order_estimated_delivery_date']

# Keep only delivered
df = df[(df['order_delivered_customer_date'] <= df['order_estimated_delivery_date']) & 
      (df['order_status'] == 'delivered')]

# Keep only text columns and review score
df = df[['order_id','product_category_name','review_comment_title','review_comment_message','review_score']]
df.head()

Unnamed: 0,order_id,product_category_name,review_comment_title,review_comment_message,review_score
0,73fc7af87114b39712e6da79b0a377eb,esporte_lazer,,,4
1,a548910a1c6147796b98fdf73dbeba33,informatica_acessorios,,,5
2,f9e4b658b201a9f2ecdecbb34bed034b,informatica_acessorios,,,5
3,658677c97b385a9be170737859d3511b,ferramentas_jardim,,Recebi bem antes do prazo estipulado.,5
4,8e6bfb81e283fa7e4f11123a3fb894f1,esporte_lazer,,Parabéns lojas lannister adorei comprar pela I...,5


## Text cleaning

In [6]:
# [title_message] - combine review title and review message
df['title_message'] = df['review_comment_title'].fillna('') + " " + df['review_comment_message'].fillna('')
df.head()

Unnamed: 0,order_id,product_category_name,review_comment_title,review_comment_message,review_score,title_message
0,73fc7af87114b39712e6da79b0a377eb,esporte_lazer,,,4,
1,a548910a1c6147796b98fdf73dbeba33,informatica_acessorios,,,5,
2,f9e4b658b201a9f2ecdecbb34bed034b,informatica_acessorios,,,5,
3,658677c97b385a9be170737859d3511b,ferramentas_jardim,,Recebi bem antes do prazo estipulado.,5,Recebi bem antes do prazo estipulado.
4,8e6bfb81e283fa7e4f11123a3fb894f1,esporte_lazer,,Parabéns lojas lannister adorei comprar pela I...,5,Parabéns lojas lannister adorei comprar pela ...


In [10]:
# Remove empty message fields
df = df[df['title_message'] != ' ']

In [16]:
unidecode.unidecode('üüüällüü')

'uuualluu'

In [23]:
stop_words = set(stopwords.words('portuguese'))

In [26]:
# Clean reviews text
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords 
import string
import unidecode

def clean(text):
    # lower
    text = text.lower()
    # punctuation
    text = ''.join([element for element in text if element not in string.punctuation])
    # numbers
    text = ''.join([element for element in text if element not in string.digits])
    # stopwords
    token = word_tokenize(text)
    text = ' '.join([element for element in token if element not in stop_words])
    # accent
    text = unidecode.unidecode(text)

    return text

text = df.title_message[15] + '!!! 5571'

clean(text)

'super recomendo vendedor confiavel produto ok entrega antes prazo'

In [27]:
# [clean_text] Apply on dataframe
df['clean_text'] = df['title_message'].apply(clean)

In [28]:
df.head()

Unnamed: 0,order_id,product_category_name,review_comment_title,review_comment_message,review_score,title_message,clean_text
3,658677c97b385a9be170737859d3511b,ferramentas_jardim,,Recebi bem antes do prazo estipulado.,5,Recebi bem antes do prazo estipulado.,recebi bem antes prazo estipulado
4,8e6bfb81e283fa7e4f11123a3fb894f1,esporte_lazer,,Parabéns lojas lannister adorei comprar pela I...,5,Parabéns lojas lannister adorei comprar pela ...,parabens lojas lannister adorei comprar intern...
9,b9bf720beb4ab3728760088589c62129,eletroportateis,recomendo,aparelho eficiente. no site a marca do aparelh...,4,recomendo aparelho eficiente. no site a marca ...,recomendo aparelho eficiente site marca aparel...
12,9d6f15f95d01e79bd1349cc208361f09,beleza_saude,,"Mas um pouco ,travando...pelo valor ta Boa.\r\n",4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n",pouco travandopelo valor ta boa
15,e51478e7e277a83743b6f9991dbfa3fb,informatica_acessorios,Super recomendo,"Vendedor confiável, produto ok e entrega antes...",5,"Super recomendo Vendedor confiável, produto ok...",super recomendo vendedor confiavel produto ok ...


### Bad reviews analysis per category

In [29]:
# [product_performance] - Groupby product category and aggregate count, mean, min, max  OF review scores and sort values
product_performance = df.groupby('product_category_name').agg({'review_score': ['count', 'mean', 'min', 'max']}).sort_values(('review_score','mean'), ascending=False)
product_performance.tail(15)

Unnamed: 0_level_0,review_score,review_score,review_score,review_score
Unnamed: 0_level_1,count,mean,min,max
product_category_name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
agro_industria_e_comercio,57,3.701754,1,5
moveis_cozinha_area_de_servico_jantar_e_jardim,96,3.697917,1,5
market_place,102,3.676471,1,5
telefonia_fixa,97,3.670103,1,5
portateis_cozinha_e_preparadores_de_alimentos,9,3.666667,1,5
construcao_ferramentas_seguranca,63,3.634921,1,5
casa_construcao,180,3.627778,1,5
climatizacao,99,3.606061,1,5
fashion_roupa_feminina,17,3.588235,1,5
fashion_roupa_masculina,56,3.482143,1,5


In [30]:
# [product_performance] Keep categories that have more than 100 reviews
product_performance = product_performance[product_performance[('review_score', 'count')] >= 100]
product_performance.tail(15)

Unnamed: 0_level_0,review_score,review_score,review_score,review_score
Unnamed: 0_level_1,count,mean,min,max
product_category_name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
relogios_presentes,2272,3.986796,1,5
utilidades_domesticas,2227,3.983386,1,5
eletronicos,949,3.964173,1,5
consoles_games,346,3.950867,1,5
bebes,904,3.936947,1,5
telefonia,1666,3.863145,1,5
cama_mesa_banho,4046,3.825012,1,5
moveis_sala,140,3.807143,1,5
moveis_decoracao,2369,3.797383,1,5
audio,138,3.782609,1,5


In [15]:
translate('relogios presentes')

'gifts watches'

In [33]:
# [relogios_presentes] Keep what isin relogios_presentes
relogios_presentes = df[df['product_category_name'] == 'relogios_presentes']

In [34]:
# [bad_relogios] Filter out bad reviews
bad_relogios = relogios_presentes[relogios_presentes['review_score'].isin([1])]

In [35]:
bad_relogios.head()

Unnamed: 0,order_id,product_category_name,review_comment_title,review_comment_message,review_score,title_message,clean_text
152,560f7585b57fcc9579460fa21c0d8ec1,relogios_presentes,,"Comprei o relógio, unissex e enviaram um relóg...",1,"Comprei o relógio, unissex e enviaram um reló...",comprei relogio unissex enviaram relogio femin...
336,a5a83c95ed669b7ba0ddce1d761c191f,relogios_presentes,,Tentando cancelar o produto desde antes da emi...,1,Tentando cancelar o produto desde antes da em...,tentando cancelar produto desde antes emissao ...
338,43050a51a257b17d51295e07650cb654,relogios_presentes,Lamenetável...,"Boa Noite\r\n\r\né lamentável, esta loja que t...",1,"Lamenetável... Boa Noite\r\n\r\né lamentável, ...",lamenetavel boa noite lamentavel loja tantas c...
696,634e8f4c0f6744a626f77f39770ac6aa,relogios_presentes,,Muito bom o produto e preço cobrado!,1,Muito bom o produto e preço cobrado!,bom produto preco cobrado
873,8071505187465938d3f033c82180edc6,relogios_presentes,,"Boa noite , não gostei pois nunca conseguimos ...",1,"Boa noite , não gostei pois nunca conseguimos...",boa noite gostei pois nunca conseguimos falar ...


In [32]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [50]:
# [vec] Encode using TFidfvectorizer
vec = TfidfVectorizer(min_df=0.01, max_df=0.05, ngram_range=(2,2)).fit(bad_relogios.clean_text)

# [vectors] Transform text to vectors
vectors = vec.transform(bad_relogios.clean_text)

# Sum of tfidf weighting by word 
sum_tfidf = vectors.sum(axis=0)

# Get the word and associated weight using vec.vocabulary_.items()
tfidf_list = [(feature, sum_tfidf[0,idx]) for feature, idx in vec.vocabulary_.items()]

# Sort
sorted(tfidf_list, key= lambda x : x[1], reverse = True)

# Display the sorted list


[('veio defeito', 9.783510278461396),
 ('recebi relogio', 7.694645006341927),
 ('produto defeito', 7.28606124785743),
 ('relogio veio', 7.250692485235042),
 ('produto errado', 5.830310778938883),
 ('propaganda enganosa', 5.140109230318158),
 ('fazer troca', 4.796642927033451),
 ('quero devolver', 4.597901197851065),
 ('nao recebi', 4.47277299121264),
 ('produto original', 4.376169325059028),
 ('produto pessima', 4.273834194489265),
 ('produto chegou', 4.0),
 ('produto falsificado', 3.8735926457047336),
 ('pessima qualidade', 3.873243263551129),
 ('comprei dois', 3.627428494419723),
 ('veio caixa', 3.615054400669508),
 ('entregue produto', 3.590073497529054),
 ('dentro prazo', 3.5689073900266943),
 ('baixa qualidade', 3.5008979079141036),
 ('devolver produto', 3.487638455106485),
 ('produto ainda', 3.42264084513692),
 ('troca produto', 3.412247699305517),
 ('entrei contato', 3.393794825401275),
 ('produto baixa', 3.3405875534239344),
 ('consta entregue', 3.063977840729562),
 ('recomendo

In [43]:
vec.vocabulary_.items()

dict_items([('relogio feminino', 58), ('nota fiscal', 32), ('nenhuma resposta', 31), ('boa noite', 5), ('produto defeito', 39), ('fazer troca', 25), ('solicitei troca', 63), ('enviaram produto', 23), ('produto errado', 41), ('relogio veio', 59), ('produto falsificado', 42), ('veio manual', 68), ('relogio casio', 55), ('gostaria devolver', 27), ('devolver produto', 13), ('produto chegou', 38), ('comprei produto', 9), ('obtive retorno', 33), ('produto ainda', 36), ('recebi nada', 52), ('nao recebi', 30), ('recebi relogio', 53), ('baixa qualidade', 4), ('qualidade produto', 49), ('produto relogio', 47), ('momento recebi', 28), ('relogio entregue', 56), ('solicitei devolucao', 62), ('veio defeito', 67), ('nao funciona', 29), ('diferente comprei', 14), ('caixa relogio', 6), ('errado comprei', 24), ('outro modelo', 34), ('chegou outro', 7), ('dois relogios', 18), ('produto pessima', 45), ('pessima qualidade', 35), ('relogio falso', 57), ('entrei contato', 22), ('comprei dois', 8), ('veio cai

### Translate

In [43]:
from googletrans import Translator
import pandas as pd

def translate(x):
    translator = Translator()
    result = translator.translate(x, dest='en')
    return result.text

## Tracking sellers of counterfeit products

In [51]:
# Filter out reviews with words associated with conterfeit watches
q = "nao original|falso|outro modelo|produto falsificado|produto diferente"

In [52]:
# Get seller ID
sellers = data['order_items'].merge(bad_relogios)
sellers.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,product_category_name,review_comment_title,review_comment_message,review_score,title_message,clean_text
0,00418a49a685c6bb60633291c3fab17a,1,5e21d5cab5d33e770d8150a4ee6117db,6560211a19b47992c3666cc44a7e94c0,2017-10-09 20:50:45,49.0,7.78,relogios_presentes,,"O relógio, (presente do dia das crianças pra m...",1,"O relógio, (presente do dia das crianças pra ...",relogio presente dia criancas pra filha funciona
1,01efe0209a92b2f21f6e0edee4bd4eb6,1,a92930c327948861c015c919a0bcb4a8,6560211a19b47992c3666cc44a7e94c0,2018-06-26 19:30:29,78.0,18.65,relogios_presentes,"Entrega ok, o produto não","a entrega rápida, foi dentro do prazo, mas o r...",1,"Entrega ok, o produto não a entrega rápida, fo...",entrega ok produto entrega rapida dentro prazo...
2,02f0618d94e9aeeb35a81835fa5c64d7,1,0a57f7d2c983bcf8188589a5fea4a8da,4869f7a5dfa277a7dca6462dcf3b52b2,2017-12-28 09:53:33,119.0,21.32,relogios_presentes,,Comprei e paguei por dois produtos iguais e só...,1,Comprei e paguei por dois produtos iguais e s...,comprei paguei dois produtos iguais recebi
3,02f0618d94e9aeeb35a81835fa5c64d7,2,0a57f7d2c983bcf8188589a5fea4a8da,4869f7a5dfa277a7dca6462dcf3b52b2,2017-12-28 09:53:33,119.0,21.32,relogios_presentes,,Comprei e paguei por dois produtos iguais e só...,1,Comprei e paguei por dois produtos iguais e s...,comprei paguei dois produtos iguais recebi
4,03ab852861cd75d0a9225c92a3354a3a,1,374fb6698c278b6af1c7b7c8fb95585e,6560211a19b47992c3666cc44a7e94c0,2017-12-14 10:10:25,115.0,8.06,relogios_presentes,,"Não posso avaliar ainda, pois não recebi o pro...",1,"Não posso avaliar ainda, pois não recebi o pr...",posso avaliar ainda pois recebi produto


In [56]:
# Get seller ID and count
sellers[sellers['clean_text'].str.contains(q)].groupby('seller_id').agg({'seller_id': 'count'})

Unnamed: 0_level_0,seller_id
seller_id,Unnamed: 1_level_1
2eb70248d66e0e3ef83659f71b244378,11
4869f7a5dfa277a7dca6462dcf3b52b2,2
58f1a6197ed863543e0136bdedb3fce2,1
6560211a19b47992c3666cc44a7e94c0,2
7d13fca15225358621be4086e1eb0964,2
c60b801f2d52c7f7f91de00870882a75,4
d921b68bf747894be13a97ae52b0f386,1


In [58]:
sellers[sellers['seller_id'] == '2eb70248d66e0e3ef83659f71b244378']

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,product_category_name,review_comment_title,review_comment_message,review_score,title_message,clean_text
10,0987363c91de454d42d084b84a691f99,1,d285360f29ac7fd97640bf0baef03de0,2eb70248d66e0e3ef83659f71b244378,2018-07-25 15:06:12,155.97,8.35,relogios_presentes,Relógio falso,"Relógio falso, me admiro com uma loja grande c...",1,"Relógio falso Relógio falso, me admiro com uma...",relogio falso relogio falso admiro loja grande...
21,13fe5b8b3ad46c558f0c53939589776b,1,d285360f29ac7fd97640bf0baef03de0,2eb70248d66e0e3ef83659f71b244378,2018-07-25 18:04:21,155.97,51.81,relogios_presentes,Ruim,O relógio mau teve contato com a água e já parou,1,Ruim O relógio mau teve contato com a água e j...,ruim relogio mau contato agua parou
31,209892dc297e6b541a2251e5af9cb07b,1,e0d64dcfaa3b6db5c54ca298ae101d05,2eb70248d66e0e3ef83659f71b244378,2018-05-02 15:15:32,149.9,7.91,relogios_presentes,Modelo diferente,"Infelizmente, me entregaram um modelo diferent...",1,"Modelo diferente Infelizmente, me entregaram u...",modelo diferente infelizmente entregaram model...
41,27d17edfd5ccc5524ae9a11fa1d2daf9,1,d285360f29ac7fd97640bf0baef03de0,2eb70248d66e0e3ef83659f71b244378,2018-07-25 11:24:06,155.97,16.19,relogios_presentes,,Bom dia o meu produto eu ainda nao recebi no m...,1,Bom dia o meu produto eu ainda nao recebi no ...,bom dia produto ainda nao recebi endereco rast...
86,3ec53ff8dd23b7e8a90cfb4082cf3f85,1,e0d64dcfaa3b6db5c54ca298ae101d05,2eb70248d66e0e3ef83659f71b244378,2018-06-26 21:30:52,124.9,16.84,relogios_presentes,Péssimo atendimento,O produto demorou aproximadamente 50 dias para...,1,Péssimo atendimento O produto demorou aproxima...,pessimo atendimento produto demorou aproximada...
143,628923e74a955e432c826a2e0da83406,1,d285360f29ac7fd97640bf0baef03de0,2eb70248d66e0e3ef83659f71b244378,2018-05-29 15:12:21,254.9,8.65,relogios_presentes,,recebi o produto mas pelo que identifiquei é f...,1,recebi o produto mas pelo que identifiquei é ...,recebi produto identifiquei falso anunciado fo...
148,65cd98722f032097d67a7f2d9c97e503,1,d285360f29ac7fd97640bf0baef03de0,2eb70248d66e0e3ef83659f71b244378,2018-07-25 22:10:15,155.97,19.19,relogios_presentes,péssima,"o produto da foto ñ é o mesmo recebido, mas co...",1,péssima o produto da foto ñ é o mesmo recebido...,pessima produto foto n recebido investiguei re...
169,74fedc6aa056c9359846751fe21a8676,1,d285360f29ac7fd97640bf0baef03de0,2eb70248d66e0e3ef83659f71b244378,2018-07-25 09:04:01,154.91,16.18,relogios_presentes,Produto falsificado,Comprei o relógio casio rose Gold e o que cheg...,1,Produto falsificado Comprei o relógio casio r...,produto falsificado comprei relogio casio rose...
176,7a281ea07cea9f99a15e8f67d6e982bd,1,d285360f29ac7fd97640bf0baef03de0,2eb70248d66e0e3ef83659f71b244378,2018-06-15 17:15:09,227.9,8.46,relogios_presentes,,"comprei um relógio ,não entregaram no meu ende...",1,"comprei um relógio ,não entregaram no meu end...",comprei relogio entregaram enderenco pegar cor...
193,816fd1f12f703f9825eb7c4c307388b5,1,d285360f29ac7fd97640bf0baef03de0,2eb70248d66e0e3ef83659f71b244378,2018-06-13 18:15:38,227.9,8.46,relogios_presentes,Não recomendo,Produto que enviaram não foi o produto comprado.,1,Não recomendo Produto que enviaram não foi o p...,recomendo produto enviaram produto comprado


## Visualize your positive + negative Topic LDA 

In [123]:
# Requirements
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import TfidfVectorizer

In [258]:
# Create a list of tokens
#--------------------------------

list_of_list_of_tokens = []
for row in df['clean_text']:
    token = word_tokenize(row)
    list_of_list_of_tokens.append(token)

In [260]:
# Create a dictionnary/corpus
#--------------------------------
from gensim import corpora, models

dictionary_LDA = corpora.Dictionary(list_of_list_of_tokens)
dictionary_LDA.filter_extremes(no_below=3)
corpus = [dictionary_LDA.doc2bow(list_of_tokens) for list_of_tokens in list_of_list_of_tokens]

In [261]:
# Run genism LDA model
#--------------------------------
num_topics = 2
lda_model = models.LdaModel(corpus, num_topics=num_topics, \
                                  id2word=dictionary_LDA, \
                                  passes=4, alpha=[0.01]*num_topics, \
                                  eta=[0.01]*len(dictionary_LDA.keys()))

In [32]:
# Visualize LDA
#--------------------------------
import pyLDAvis
import pyLDAvis.gensim
vis = pyLDAvis.gensim.prepare(topic_model=lda_model, corpus=corpus, dictionary=dictionary_LDA)
pyLDAvis.enable_notebook()
pyLDAvis.display(vis)

  and should_run_async(code)


In [30]:
#pyLDAvis.save_html(vis, 'lda.html')

  and should_run_async(code)
