**Данный ноутбук проводит анализ текста с использование Google Cloud Nature Library**

**Расценки на использование данного API:**

Использование вами естественного языка рассчитывается в виде **«единиц»**, где каждый документ, отправляемый в API для анализа, представляет собой **как минимум одну единицу**. Документы, содержащие более 1000 символов Unicode (включая символы пробелов и любые символы разметки, такие как HTML или XML-теги), считаются несколькими единицами, **одна единица на 1000 символов**.

Цены на использование естественного языка рассчитываются **ежемесячно** в зависимости от того, какую функцию API вы использовали, и сколько единиц оценивается с использованием этих функций. В таблице ниже указана цена за 1000 единиц на основе **общего количества единиц, проанализированных в течение расчетного месяца**.

1. - Entity Analysis	Identify entities and label by types such as person, organization, location, events, products and media.
- до 5 тыс единиц - бесплатно, от 5 тыс до 1 млн - 1 долл/1 тыс
2. - Sentiment Analysis	Understand the overall sentiment expressed in a block of text.
- до 5 тыс единиц - бесплатно, от 5 тыс до 1 млн - 1 долл/1 тыс
3. - Entity Sentiment Analysis	Understand the sentiment for entities identified in a block of text.
- до 5 тыс единиц - бесплатно, от 5 тыс до 1 млн - 2 долл/1 тыс
4. - Syntax Analysis	Extract tokens and sentences, identify parts of speech (PoS) and create dependency parse trees for each sentence.
- до 5 тыс единиц - бесплатно, от 5 тыс до 1 млн - 0,5 долл/1 тыс
5. - Content Classification	Identify content categories that apply to a block of text.
- до 30 тыс единиц - бесплатно, от 5 тыс до 1 млн - 2 долл/1 тыс

В данной задаче мы будем использовать для анализа текстовых отзывов:
- Sentiment Analysis (анализ настроений) - для оценки полярности и силы настроений;
- Entity Analysis (анализ сущностей) - для выявления и классификации значимых слов;
- Syntax Analysis (синтаксический анализ) - для разбиения на слова и предложения.

- **После отработаки данного кода API key удален из текста кода в целях безопасности моего Google-аккаунта. Вся полученная в результате обработки инорфмациия сохранена в CSV-файл для дальнейшей работы**
- **Датасет разбивал на мелкие подразделы, чтобы при случайном сбое не потерять данные, за получение которых произведена оплата использования API**
- **Выгрузку полученных данных тоже сделал по частям, чтобы минимизировать размер отдельных файлов для загрузки на гитхаб**

# Импорт библиотек и настройки

In [39]:
import os
import numpy as np
import pandas as pd
from google.cloud import language_v1
from tqdm import tqdm

# этот блок для отслеживания операций с Pandas
from tqdm.notebook import tqdm_notebook
tqdm_notebook.pandas()

In [40]:
PATH = "./data" # относительный путь к подпапке.
pd.set_option('display.max_columns', None)

In [41]:
df = pd.read_csv(os.path.join(PATH, 'order_reviews.csv'), sep=';')
df.shape

(99224, 7)

In [42]:
df.head()

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa,2018-03-01 00:00:00,2018-03-02 10:26:53


# Предобработка датасета. Прогнозирование затрат на обработку

- Прогнозировали - 42706*3=128118 запросов и сумму расходов 94,3 долл.
- Фактически - 128082 запроса и сумма расходов: 80.65 евро, в т.ч. entity analysis - 32.3 euro, sentimental - 32.3 euro, syntax - 16.13

-

In [43]:
df['C']=df.progress_apply(lambda x: ("" if pd.isna(x['review_comment_title']) else str(x['review_comment_title']) + '. ')\
                                 + ("" if pd.isna(x['review_comment_message']) else str(x['review_comment_message'])), axis=1)

  0%|          | 0/99224 [00:00<?, ?it/s]

In [44]:
count_reviews=df.apply(lambda x: 0 if x['C']=="" else 1, axis=1).sum()
print('Количество отзывов (единиц) для отправки в API: ', count_reviews)
print('Прогнозная стоимость обработки в API, долл: ', (count_reviews-5000)/1000*2.5)

Количество отзывов (единиц) для отправки в API:  42706
Прогнозная стоимость обработки в API, долл:  94.26500000000001


# Функции обработки датасета

In [45]:
# фильтрует датасет и направляет для обработки в API ненулевые значения, чтобы не платить за пустые запросы.
# и она же вызывает три функции API Google
def get_text_for_nlp(message):
    if len(message)<2:
        #print(0)
        return 0
    else:
        #print(message)
        sent_score, sent_magnitude=analyze_text_sentiment(message) # два значения 
        entities_list=analyze_text_entities(message) # список со словарями сущностей
        sent_count, token_count, sentlist, tokenlist =analyze_text_syntax2(message) # синтаксический анализ
        return sent_score, sent_magnitude, entities_list, sent_count, token_count, sentlist, tokenlist

In [46]:
def analyze_text_sentiment(text):
    try:
        client = language_v1.LanguageServiceClient.from_service_account_json('celestial-digit-0000000000.json')
        document = language_v1.Document(content=text, type_=language_v1.Document.Type.PLAIN_TEXT)
        response = client.analyze_sentiment(document=document)
        sentiment = response.document_sentiment
        return sentiment.score, sentiment.magnitude
    except Exception:
        print('Ошибка в функции sentiment')  
        return 'НЕТ', 'НЕТ'

In [47]:
def analyze_text_entities(text):
    try:
        client = language_v1.LanguageServiceClient.from_service_account_json('celestial-digit-00000000000.json')
        document = language_v1.Document(content=text, type_=language_v1.Document.Type.PLAIN_TEXT)
        response = client.analyze_entities(document=document)
        sss=[]
        for entity in response.entities:
            results = dict(
                name=entity.name,
                type=entity.type_.name,
                salience=entity.salience,
                wikipedia_url=entity.metadata.get("wikipedia_url", "-"),
                mid=entity.metadata.get("mid", "-"),
            )
            sss.append(results)

        return sss
    except Exception:
        print('Ошибка в функции entities')  
        return 'НЕТ'

In [48]:
def analyze_text_syntax2(text):
    try:
        client = language_v1.LanguageServiceClient.from_service_account_json('celestial-digit-00000000000.json')
        document = language_v1.Document(content=text, type_=language_v1.Document.Type.PLAIN_TEXT)

        response = client.analyze_syntax(document=document)

        sent_count=len(response.sentences)
        token_count=len(response.tokens)
        sentlist=[]
        for sentence in response.sentences:
            sentlist.append(sentence.text.content)
        tokenlist=[]    
        for token in response.tokens:
            results = dict(
                token_text=token.text.content,
                token_label=token.dependency_edge.label.name,
                token_head_index=token.dependency_edge.head_token_index,
                token_tag=token.part_of_speech.tag.name,
                token_gender=token.part_of_speech.gender.name,
                token_number=token.part_of_speech.number.name,
                token_proper=token.part_of_speech.proper.name,
                token_lemma=token.lemma,
            )
            tokenlist.append(results)    
        return sent_count, token_count, sentlist, tokenlist
    except Exception:
        print('Ошибка в функции syntax2')  
        return 'НЕТ', 'НЕТ','НЕТ','НЕТ'

# Запуск обработки

Так как это долгий процесс на моем оборудовании, а также в связи с возникновением сбоев на стороне API и чтобы не потерять обработанную информацию, то датасет разбивал на очень маленькие разделы для отправления в обработку.

**Итого обработка заняла почти сутки**

In [55]:
#for i in tqdm(range(1,43)):
df['tmp']=np.nan
for i in tqdm(range(1,43)):    
    print('c ',(i-1)*1000, ' до включительно ',i*1000)
    print(df['review_id'][(i-1)*1000],'---',df['review_id'][i*1000],'---',df['review_id'][(i-1)*1000:i*1000].shape)
    df['tmp'][(i-1)*1000:i*1000] = df['C'][(i-1)*1000:i*1000].progress_apply(get_text_for_nlp)
    df5=df[['review_id','order_id','tmp']]
    filename1='tmp'+str(i)+'.csv'
    df5[(i-1)*1000:i*1000].to_csv(os.path.join(PATH, filename1), sep=';', header=True, index=False)

  0%|          | 0/42 [00:00<?, ?it/s]

c  0  до включительно  1000
7bc2406110b926393aa56f80a40eba40 --- 05c968cc75440c647f58e6bfe1ee15bb --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
  2%|▏         | 1/42 [12:46<8:43:57, 766.77s/it]

c  1000  до включительно  2000
05c968cc75440c647f58e6bfe1ee15bb --- 7629603f1f362dd403eb621d7653c896 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

  5%|▍         | 2/42 [26:37<8:56:06, 804.17s/it]

c  2000  до включительно  3000
7629603f1f362dd403eb621d7653c896 --- 8292b3112397241abd44d49c2fd59d98 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

  7%|▋         | 3/42 [37:20<7:55:02, 730.84s/it]

c  3000  до включительно  4000
8292b3112397241abd44d49c2fd59d98 --- 25cac81072dcb50ac7af0084057be701 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 10%|▉         | 4/42 [50:35<7:58:47, 755.98s/it]

c  4000  до включительно  5000
25cac81072dcb50ac7af0084057be701 --- 0c400fbf71ed619d19a4273f8e2d9a3f --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 12%|█▏        | 5/42 [1:01:12<7:19:49, 713.22s/it]

c  5000  до включительно  6000
0c400fbf71ed619d19a4273f8e2d9a3f --- 426b56dd6bc3022df2b2ce5f0f4613ce --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции sentiment
Ошибка в функции entities
Ошибка в функции syntax2


 14%|█▍        | 6/42 [1:12:51<7:04:59, 708.33s/it]

c  6000  до включительно  7000
426b56dd6bc3022df2b2ce5f0f4613ce --- 7bb6a0af8607b9c0ec4cb7ccbfc15863 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 17%|█▋        | 7/42 [1:27:10<7:21:59, 757.70s/it]

c  7000  до включительно  8000
7bb6a0af8607b9c0ec4cb7ccbfc15863 --- e1db3dfe4999562ba222a60c4919e389 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 19%|█▉        | 8/42 [1:38:51<6:59:00, 739.42s/it]

c  8000  до включительно  9000
e1db3dfe4999562ba222a60c4919e389 --- 6c09da3097e834eb20846d6534175ef2 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Exception deserializing message!
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/grpc/_common.py", line 86, in _transform
    return transformer(message)
  File "/opt/conda/lib/python3.7/site-packages/proto/message.py", line 328, in deserialize
    return cls.wrap(cls.pb().FromString(payload))
google.protobuf.message.DecodeError: Error parsing message


Ошибка в функции entities


Exception deserializing message!
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/grpc/_common.py", line 86, in _transform
    return transformer(message)
  File "/opt/conda/lib/python3.7/site-packages/proto/message.py", line 328, in deserialize
    return cls.wrap(cls.pb().FromString(payload))
google.protobuf.message.DecodeError: Error parsing message


Ошибка в функции syntax2


 21%|██▏       | 9/42 [1:50:45<6:42:27, 731.75s/it]

c  9000  до включительно  10000
6c09da3097e834eb20846d6534175ef2 --- 8fbd9b5bf6e46b1d1c725b71304ac6e3 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 24%|██▍       | 10/42 [2:03:15<6:33:15, 737.35s/it]

c  10000  до включительно  11000
8fbd9b5bf6e46b1d1c725b71304ac6e3 --- c5d6f87266cde6522df2c73b3496c571 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 26%|██▌       | 11/42 [2:17:56<6:43:41, 781.35s/it]

c  11000  до включительно  12000
c5d6f87266cde6522df2c73b3496c571 --- b1e892910a12ce5ace5b1e9d89c0290d --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 29%|██▊       | 12/42 [2:29:02<6:13:08, 746.27s/it]

c  12000  до включительно  13000
b1e892910a12ce5ace5b1e9d89c0290d --- 77adf122f8d73e7fc01619f02d18c936 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 31%|███       | 13/42 [2:41:17<5:59:02, 742.83s/it]

c  13000  до включительно  14000
77adf122f8d73e7fc01619f02d18c936 --- 888bf415256c6c641b44edac8fda1b52 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 33%|███▎      | 14/42 [2:53:00<5:40:58, 730.66s/it]

c  14000  до включительно  15000
888bf415256c6c641b44edac8fda1b52 --- 35fa52c2add68883398f48be3f868aaa --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 36%|███▌      | 15/42 [3:08:56<5:59:18, 798.48s/it]

c  15000  до включительно  16000
35fa52c2add68883398f48be3f868aaa --- 4901a82bfc69128ad56a445b68f64185 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 38%|███▊      | 16/42 [3:19:57<5:28:09, 757.29s/it]

c  16000  до включительно  17000
4901a82bfc69128ad56a445b68f64185 --- e1267be1f3438b5904e2e676a8814599 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 40%|████      | 17/42 [3:31:00<5:03:44, 728.99s/it]

c  17000  до включительно  18000
e1267be1f3438b5904e2e676a8814599 --- 3aeb06b1ecf68567a52006bfe7f73048 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 43%|████▎     | 18/42 [3:43:38<4:54:59, 737.46s/it]

c  18000  до включительно  19000
3aeb06b1ecf68567a52006bfe7f73048 --- b2198ad6a8cb6a2547bd213ab35eb223 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 45%|████▌     | 19/42 [3:58:05<4:57:41, 776.57s/it]

c  19000  до включительно  20000
b2198ad6a8cb6a2547bd213ab35eb223 --- 17b6e3335e693e1f2fff95bc04fce1f7 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 48%|████▊     | 20/42 [4:09:09<4:32:20, 742.75s/it]

c  20000  до включительно  21000
17b6e3335e693e1f2fff95bc04fce1f7 --- af847569cda23e95dc0c7365163c0495 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 50%|█████     | 21/42 [4:25:50<4:47:03, 820.16s/it]

c  21000  до включительно  22000
af847569cda23e95dc0c7365163c0495 --- 62f27c130b3a70abbfa58b65cdbffd06 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 52%|█████▏    | 22/42 [4:40:46<4:40:57, 842.89s/it]

c  22000  до включительно  23000
62f27c130b3a70abbfa58b65cdbffd06 --- 495b3621654bfa0af2a08d9347606c4b --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 55%|█████▍    | 23/42 [4:52:03<4:11:11, 793.26s/it]

c  23000  до включительно  24000
495b3621654bfa0af2a08d9347606c4b --- f627308e512f909fd55b2c4a962a5294 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 57%|█████▋    | 24/42 [5:00:00<3:29:28, 698.28s/it]

c  24000  до включительно  25000
f627308e512f909fd55b2c4a962a5294 --- 047d92ec05ecc3159448b08fa8f825dc --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 60%|█████▉    | 25/42 [5:14:44<3:33:40, 754.16s/it]

c  25000  до включительно  26000
047d92ec05ecc3159448b08fa8f825dc --- 08f7a6425be09df32b0c16f54f35e514 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 62%|██████▏   | 26/42 [5:25:28<3:12:15, 720.98s/it]

c  26000  до включительно  27000
08f7a6425be09df32b0c16f54f35e514 --- 5ce23a89c3762422505f816c15e00a21 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 64%|██████▍   | 27/42 [5:35:31<2:51:21, 685.44s/it]

c  27000  до включительно  28000
5ce23a89c3762422505f816c15e00a21 --- 50bce12156eec1a89b7753060ca41e24 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 67%|██████▋   | 28/42 [5:49:13<2:49:31, 726.56s/it]

c  28000  до включительно  29000
50bce12156eec1a89b7753060ca41e24 --- 2035ef3233d051912ee3302018703b4e --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 69%|██████▉   | 29/42 [6:01:56<2:39:48, 737.55s/it]

c  29000  до включительно  30000
2035ef3233d051912ee3302018703b4e --- 4bd4b287aa460c726e6f4415f457b6b6 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 71%|███████▏  | 30/42 [6:17:41<2:39:56, 799.67s/it]

c  30000  до включительно  31000
4bd4b287aa460c726e6f4415f457b6b6 --- 0b09663d776ea02555997cd85886386e --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 74%|███████▍  | 31/42 [6:33:00<2:33:11, 835.63s/it]

c  31000  до включительно  32000
0b09663d776ea02555997cd85886386e --- fa905c32b88636fe40439dea2adcdfde --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Exception deserializing message!
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/grpc/_common.py", line 86, in _transform
    return transformer(message)
  File "/opt/conda/lib/python3.7/site-packages/proto/message.py", line 328, in deserialize
    return cls.wrap(cls.pb().FromString(payload))
google.protobuf.message.DecodeError: Error parsing message


Ошибка в функции syntax2


 76%|███████▌  | 32/42 [6:45:36<2:15:15, 811.55s/it]

c  32000  до включительно  33000
fa905c32b88636fe40439dea2adcdfde --- d37c8293a015c9d934f3d8041d762b3b --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 79%|███████▊  | 33/42 [6:58:56<2:01:14, 808.25s/it]

c  33000  до включительно  34000
d37c8293a015c9d934f3d8041d762b3b --- 96efdb572f0b99dea60525854e4a4020 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 81%|████████  | 34/42 [7:13:07<1:49:27, 821.00s/it]

c  34000  до включительно  35000
96efdb572f0b99dea60525854e4a4020 --- 0db8d99a6f8d02c678733d3a36aba687 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 83%|████████▎ | 35/42 [7:24:54<1:31:46, 786.67s/it]

c  35000  до включительно  36000
0db8d99a6f8d02c678733d3a36aba687 --- 5ab7c6d2ec9a59489176e9541a0b02d5 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 86%|████████▌ | 36/42 [7:34:39<1:12:37, 726.25s/it]

c  36000  до включительно  37000
5ab7c6d2ec9a59489176e9541a0b02d5 --- d6286f634b5e96f3aacfb3a1a2798042 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Exception deserializing message!
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/grpc/_common.py", line 86, in _transform
    return transformer(message)
  File "/opt/conda/lib/python3.7/site-packages/proto/message.py", line 328, in deserialize
    return cls.wrap(cls.pb().FromString(payload))
google.protobuf.message.DecodeError: Error parsing message


Ошибка в функции syntax2


 88%|████████▊ | 37/42 [7:42:17<53:48, 645.67s/it]  

c  37000  до включительно  38000
d6286f634b5e96f3aacfb3a1a2798042 --- 7ee376b243cd25ee0fe74e6cdc82e885 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 90%|█████████ | 38/42 [7:50:24<39:52, 598.06s/it]

c  38000  до включительно  39000
7ee376b243cd25ee0fe74e6cdc82e885 --- 71a2d608e4913b1bc2db0faf607babe8 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 93%|█████████▎| 39/42 [8:01:43<31:07, 622.53s/it]

c  39000  до включительно  40000
71a2d608e4913b1bc2db0faf607babe8 --- 077552fa6735453d1901e22c4473e059 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 95%|█████████▌| 40/42 [8:13:19<21:28, 644.46s/it]

c  40000  до включительно  41000
077552fa6735453d1901e22c4473e059 --- 8ef30b486d408a19f5fea3e6dac8cc97 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 98%|█████████▊| 41/42 [8:21:09<09:52, 592.09s/it]

c  41000  до включительно  42000
8ef30b486d408a19f5fea3e6dac8cc97 --- 6452911fae3dad5d7dd8553ac35248e2 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

100%|██████████| 42/42 [8:31:14<00:00, 730.34s/it]


In [56]:
for i in tqdm(range(43,100)):    
    print('c ',(i-1)*1000, ' до включительно ',i*1000)
    print(df['review_id'][(i-1)*1000],'---',df['review_id'][i*1000],'---',df['review_id'][(i-1)*1000:i*1000].shape)
    df['tmp'][(i-1)*1000:i*1000] = df['C'][(i-1)*1000:i*1000].progress_apply(get_text_for_nlp)
    df5=df[['review_id','order_id','tmp']]
    filename1='tmp'+str(i)+'.csv'
    df5[(i-1)*1000:i*1000].to_csv(os.path.join(PATH, filename1), sep=';', header=True, index=False)

  0%|          | 0/57 [00:00<?, ?it/s]

c  42000  до включительно  43000
6452911fae3dad5d7dd8553ac35248e2 --- 126dba0769720a05295360be53b92669 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
  2%|▏         | 1/57 [15:59<14:55:52, 959.86s/it]

c  43000  до включительно  44000
126dba0769720a05295360be53b92669 --- a40a0e99764674bc313061cec03c801c --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

  4%|▎         | 2/57 [25:49<11:20:24, 742.27s/it]

c  44000  до включительно  45000
a40a0e99764674bc313061cec03c801c --- a9a7edc83a9a099b8de9f1f67908888d --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

  5%|▌         | 3/57 [39:36<11:42:42, 780.79s/it]

c  45000  до включительно  46000
a9a7edc83a9a099b8de9f1f67908888d --- 8d2ffd60151b4fdc94ae54758f73f25c --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

  7%|▋         | 4/57 [49:21<10:21:19, 703.39s/it]

c  46000  до включительно  47000
8d2ffd60151b4fdc94ae54758f73f25c --- d1e15aa45c4be843cc79d9097262e04c --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Exception deserializing message!
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/grpc/_common.py", line 86, in _transform
    return transformer(message)
  File "/opt/conda/lib/python3.7/site-packages/proto/message.py", line 328, in deserialize
    return cls.wrap(cls.pb().FromString(payload))
google.protobuf.message.DecodeError: Error parsing message


Ошибка в функции syntax2


  9%|▉         | 5/57 [1:00:07<9:51:47, 682.84s/it]

c  47000  до включительно  48000
d1e15aa45c4be843cc79d9097262e04c --- 223666a37095bd75cf4b2ce21303011f --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 11%|█         | 6/57 [1:09:26<9:04:28, 640.56s/it]

c  48000  до включительно  49000
223666a37095bd75cf4b2ce21303011f --- be26502a2b48a81812a584381c6e51e8 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 12%|█▏        | 7/57 [1:20:26<8:59:05, 646.91s/it]

c  49000  до включительно  50000
be26502a2b48a81812a584381c6e51e8 --- 58704117f9b21ae5ceb6739e86ba9750 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 14%|█▍        | 8/57 [1:33:11<9:19:09, 684.69s/it]

c  50000  до включительно  51000
58704117f9b21ae5ceb6739e86ba9750 --- 412b49907711664d22512049ea90d9a4 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Exception deserializing message!
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/grpc/_common.py", line 86, in _transform
    return transformer(message)
  File "/opt/conda/lib/python3.7/site-packages/proto/message.py", line 328, in deserialize
    return cls.wrap(cls.pb().FromString(payload))
google.protobuf.message.DecodeError: Error parsing message


Ошибка в функции syntax2


 16%|█▌        | 9/57 [1:47:04<9:44:42, 730.88s/it]

c  51000  до включительно  52000
412b49907711664d22512049ea90d9a4 --- d9670dbbf2dfbe51b7f90478f6389901 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 18%|█▊        | 10/57 [1:57:33<9:07:57, 699.52s/it]

c  52000  до включительно  53000
d9670dbbf2dfbe51b7f90478f6389901 --- 0307298eeda38dc2f61c9cb08f908b44 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 19%|█▉        | 11/57 [2:07:15<8:28:46, 663.61s/it]

c  53000  до включительно  54000
0307298eeda38dc2f61c9cb08f908b44 --- 7a7847428b11ee181ca4a9f12b80cd0b --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 21%|██        | 12/57 [2:19:03<8:27:55, 677.23s/it]

c  54000  до включительно  55000
7a7847428b11ee181ca4a9f12b80cd0b --- 77f9c52c94fb7e6d5aaa5d9fa74455be --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 23%|██▎       | 13/57 [2:29:45<8:08:41, 666.40s/it]

c  55000  до включительно  56000
77f9c52c94fb7e6d5aaa5d9fa74455be --- 34aea04d21273140bbf1c33fbab0862b --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 25%|██▍       | 14/57 [2:41:54<8:11:04, 685.22s/it]

c  56000  до включительно  57000
34aea04d21273140bbf1c33fbab0862b --- 01ac77c414aca7a1765916e0b73e9e2b --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 26%|██▋       | 15/57 [2:54:56<8:20:05, 714.41s/it]

c  57000  до включительно  58000
01ac77c414aca7a1765916e0b73e9e2b --- d31a628d3d3a7d50c61770fc3f5f23d8 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 28%|██▊       | 16/57 [3:07:12<8:12:42, 721.04s/it]

c  58000  до включительно  59000
d31a628d3d3a7d50c61770fc3f5f23d8 --- 9f9c7b4d229573a2771758c6d36ff5d3 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции sentiment
Ошибка в функции entities
Ошибка в функции syntax2


 30%|██▉       | 17/57 [3:15:45<7:18:59, 658.49s/it]

c  59000  до включительно  60000
9f9c7b4d229573a2771758c6d36ff5d3 --- 21bba1eb02ed3ae34917a07544eec113 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 32%|███▏      | 18/57 [3:28:56<7:33:53, 698.28s/it]

c  60000  до включительно  61000
21bba1eb02ed3ae34917a07544eec113 --- 5845cb7b6b04b4a27a9058ff3580cdfb --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Exception deserializing message!
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/grpc/_common.py", line 86, in _transform
    return transformer(message)
  File "/opt/conda/lib/python3.7/site-packages/proto/message.py", line 328, in deserialize
    return cls.wrap(cls.pb().FromString(payload))
google.protobuf.message.DecodeError: Error parsing message


Ошибка в функции entities


Exception deserializing message!
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/grpc/_common.py", line 86, in _transform
    return transformer(message)
  File "/opt/conda/lib/python3.7/site-packages/proto/message.py", line 328, in deserialize
    return cls.wrap(cls.pb().FromString(payload))
google.protobuf.message.DecodeError: Error parsing message


Ошибка в функции syntax2


 33%|███▎      | 19/57 [3:43:10<7:51:48, 744.95s/it]

c  61000  до включительно  62000
5845cb7b6b04b4a27a9058ff3580cdfb --- 95d75b7a8058538cb942cf2d3ab0aacb --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 35%|███▌      | 20/57 [3:53:39<7:17:56, 710.18s/it]

c  62000  до включительно  63000
95d75b7a8058538cb942cf2d3ab0aacb --- d37603e00a7190d93f6b0fb1dec1334f --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 37%|███▋      | 21/57 [4:04:58<7:00:30, 700.84s/it]

c  63000  до включительно  64000
d37603e00a7190d93f6b0fb1dec1334f --- 6ad14f3b9a7f6b6caa1a4d19bc1f860f --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 39%|███▊      | 22/57 [4:16:13<6:44:16, 693.04s/it]

c  64000  до включительно  65000
6ad14f3b9a7f6b6caa1a4d19bc1f860f --- 11f918b0ff6ed9492637134b7dbdc9a6 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 40%|████      | 23/57 [4:24:30<5:59:21, 634.16s/it]

c  65000  до включительно  66000
11f918b0ff6ed9492637134b7dbdc9a6 --- ac15b09dc5b0a14043f21eca5c4ff288 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 42%|████▏     | 24/57 [4:37:08<6:09:14, 671.34s/it]

c  66000  до включительно  67000
ac15b09dc5b0a14043f21eca5c4ff288 --- d0afdeb9d2879b035589d6d7834581d3 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 44%|████▍     | 25/57 [4:44:13<5:18:38, 597.46s/it]

c  67000  до включительно  68000
d0afdeb9d2879b035589d6d7834581d3 --- 1da1cec3ab20baa1b0590701d07d7126 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2
Ошибка в функции entities
Ошибка в функции syntax2


 46%|████▌     | 26/57 [4:57:10<5:36:37, 651.53s/it]

c  68000  до включительно  69000
1da1cec3ab20baa1b0590701d07d7126 --- 3fe9cb55aeeec92d0ef2830237fa95d1 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции sentiment
Ошибка в функции entities
Ошибка в функции syntax2


 47%|████▋     | 27/57 [5:06:37<5:13:04, 626.13s/it]

c  69000  до включительно  70000
3fe9cb55aeeec92d0ef2830237fa95d1 --- 49fe5d39eeb85610d86d792492939eac --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 49%|████▉     | 28/57 [5:13:42<4:33:28, 565.81s/it]

c  70000  до включительно  71000
49fe5d39eeb85610d86d792492939eac --- 3af0a3435f509605dc8b25410070fbfa --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 51%|█████     | 29/57 [5:25:06<4:40:34, 601.24s/it]

c  71000  до включительно  72000
3af0a3435f509605dc8b25410070fbfa --- 22d8e158f1d39ed28cf83c3fc45b6014 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 53%|█████▎    | 30/57 [5:33:00<4:13:23, 563.09s/it]

c  72000  до включительно  73000
22d8e158f1d39ed28cf83c3fc45b6014 --- 8d56a8ad31a3df980cc55dc3b1bf856a --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 54%|█████▍    | 31/57 [5:46:10<4:33:29, 631.14s/it]

c  73000  до включительно  74000
8d56a8ad31a3df980cc55dc3b1bf856a --- 508608dd8161d9a03df806f84ed01be6 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 56%|█████▌    | 32/57 [6:01:48<5:01:15, 723.02s/it]

c  74000  до включительно  75000
508608dd8161d9a03df806f84ed01be6 --- 78f2148aa1875aa08ba678b1f32d9b19 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 58%|█████▊    | 33/57 [6:16:53<5:11:02, 777.61s/it]

c  75000  до включительно  76000
78f2148aa1875aa08ba678b1f32d9b19 --- 40a109a79f8b23bad7ff9f4915361339 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 60%|█████▉    | 34/57 [6:29:01<4:52:24, 762.79s/it]

c  76000  до включительно  77000
40a109a79f8b23bad7ff9f4915361339 --- 87da40649e1242018b4a046dc34ee8ff --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 61%|██████▏   | 35/57 [6:40:03<4:28:37, 732.59s/it]

c  77000  до включительно  78000
87da40649e1242018b4a046dc34ee8ff --- c68359c242925d036ba06f56aa8c7a73 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 63%|██████▎   | 36/57 [6:50:54<4:07:47, 707.96s/it]

c  78000  до включительно  79000
c68359c242925d036ba06f56aa8c7a73 --- abfbda698b8e8cbceb25f96d5aebe5d7 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 65%|██████▍   | 37/57 [6:58:52<3:33:00, 639.02s/it]

c  79000  до включительно  80000
abfbda698b8e8cbceb25f96d5aebe5d7 --- 311fe1714eda206915e6a093bc2c228b --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 67%|██████▋   | 38/57 [7:12:23<3:38:46, 690.84s/it]

c  80000  до включительно  81000
311fe1714eda206915e6a093bc2c228b --- f763c3dcc631ccfc8c6c9a61916ae351 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 68%|██████▊   | 39/57 [7:26:08<3:39:19, 731.09s/it]

c  81000  до включительно  82000
f763c3dcc631ccfc8c6c9a61916ae351 --- ee582d8037675d31bb9b1b52f899fbc7 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 70%|███████   | 40/57 [7:37:39<3:23:41, 718.90s/it]

c  82000  до включительно  83000
ee582d8037675d31bb9b1b52f899fbc7 --- 7e870dd50dc1b3e1af2b776f6ea3e509 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 72%|███████▏  | 41/57 [7:48:40<3:07:03, 701.49s/it]

c  83000  до включительно  84000
7e870dd50dc1b3e1af2b776f6ea3e509 --- bbe6530adb06a46758b9621abf12ffba --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 74%|███████▎  | 42/57 [8:02:00<3:02:45, 731.00s/it]

c  84000  до включительно  85000
bbe6530adb06a46758b9621abf12ffba --- b20e8d056c097fafdb513eda0507cae8 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 75%|███████▌  | 43/57 [8:15:26<2:55:52, 753.74s/it]

c  85000  до включительно  86000
b20e8d056c097fafdb513eda0507cae8 --- 272f02d57b0a76c07383932aa9b26970 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 77%|███████▋  | 44/57 [8:29:45<2:50:07, 785.19s/it]

c  86000  до включительно  87000
272f02d57b0a76c07383932aa9b26970 --- 0ea52784467611e8f4aec9975ea4decc --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 79%|███████▉  | 45/57 [8:42:53<2:37:11, 785.99s/it]

c  87000  до включительно  88000
0ea52784467611e8f4aec9975ea4decc --- 81ed7664d927037c18a41148b327d545 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 81%|████████  | 46/57 [8:54:05<2:17:50, 751.86s/it]

c  88000  до включительно  89000
81ed7664d927037c18a41148b327d545 --- 03e4103cfde5288e5fbf00a4db940bae --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 82%|████████▏ | 47/57 [9:04:08<1:57:52, 707.30s/it]

c  89000  до включительно  90000
03e4103cfde5288e5fbf00a4db940bae --- ced5a80bfcc87e6a8146098bb72773ac --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 84%|████████▍ | 48/57 [9:15:35<1:45:09, 701.03s/it]

c  90000  до включительно  91000
ced5a80bfcc87e6a8146098bb72773ac --- 6d83df64d33969c16bef2633e51bc9b2 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Exception deserializing message!
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/grpc/_common.py", line 86, in _transform
    return transformer(message)
  File "/opt/conda/lib/python3.7/site-packages/proto/message.py", line 328, in deserialize
    return cls.wrap(cls.pb().FromString(payload))
google.protobuf.message.DecodeError: Error parsing message


Ошибка в функции syntax2


 86%|████████▌ | 49/57 [9:28:51<1:37:16, 729.57s/it]

c  91000  до включительно  92000
6d83df64d33969c16bef2633e51bc9b2 --- 674075974221bb09d54c37655b1dadcc --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 88%|████████▊ | 50/57 [9:41:33<1:26:15, 739.31s/it]

c  92000  до включительно  93000
674075974221bb09d54c37655b1dadcc --- ee34ae9bded0e180e7db80d8da2bb5b0 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


 89%|████████▉ | 51/57 [9:52:04<1:10:40, 706.78s/it]

c  93000  до включительно  94000
ee34ae9bded0e180e7db80d8da2bb5b0 --- 109c0901968d5a76adab68a2c324d4d7 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2
Ошибка в функции entities
Ошибка в функции syntax2


 91%|█████████ | 52/57 [10:03:41<58:38, 703.73s/it] 

c  94000  до включительно  95000
109c0901968d5a76adab68a2c324d4d7 --- a37e1b13a328ed893ab3ecdf3200298d --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 93%|█████████▎| 53/57 [10:16:08<47:47, 716.82s/it]

c  95000  до включительно  96000
a37e1b13a328ed893ab3ecdf3200298d --- 77ec3a9e4860df1af4584ca7bb4a0d40 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции sentiment
Ошибка в функции entities
Ошибка в функции syntax2


 95%|█████████▍| 54/57 [10:31:27<38:52, 777.46s/it]

c  96000  до включительно  97000
77ec3a9e4860df1af4584ca7bb4a0d40 --- 2c6ef08dbf964f47d17792b17b0ed233 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 96%|█████████▋| 55/57 [10:40:49<23:45, 712.98s/it]

c  97000  до включительно  98000
2c6ef08dbf964f47d17792b17b0ed233 --- bebf8e035a900f0759ead21eca6b96a2 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

 98%|█████████▊| 56/57 [10:51:36<11:33, 693.10s/it]

c  98000  до включительно  99000
bebf8e035a900f0759ead21eca6b96a2 --- 11fcd0e723918cabcf2c2cbe4a8600d7 --- (1000,)


  0%|          | 0/1000 [00:00<?, ?it/s]

Ошибка в функции entities
Ошибка в функции syntax2


100%|██████████| 57/57 [11:02:40<00:00, 697.56s/it]


In [59]:
#for i in tqdm(range(99000,99225)):    
#    print('c ',(i-1), ' до включительно ',i)
#    print(df['review_id'][(i-1)],'---',df['review_id'][i],'---',df['review_id'][(i-1):i].shape)
df['tmp'][99000:99225] = df['C'][99000:99225].progress_apply(get_text_for_nlp)
df5=df[['review_id','order_id','tmp']]
filename1='tmp'+str(100)+'.csv'
df5[99000:99225].to_csv(os.path.join(PATH, filename1), sep=';', header=True, index=False)

  0%|          | 0/224 [00:00<?, ?it/s]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


# Сохраняем промежуточные результаты, разворачиваем полученные данные по столбцам, сохраняем в CSV-файлы в виде разных наборов полей

In [61]:
# сохраняем промежуточный результат от API во внешний файл, с привязкой к ключевым полям.
filename1='tmp_all.csv'
df5.to_csv(os.path.join(PATH, filename1), sep=';', header=True, index=False)

In [75]:
df[['C','tmp']][0:10]

Unnamed: 0,C,tmp
0,,0
1,,0
2,,0
3,Recebi bem antes do prazo estipulado.,"(0.8999999761581421, 0.8999999761581421, [{'name': 'prazo', 'type': 'OTHER', 'salience': 1.0, 'wikipedia_url': '-', 'mid': '-'}], 1, 7, [Recebi bem antes do prazo estipulado.], [{'token_text': 'Recebi', 'token_label': 'ROOT', 'token_head_index': 0, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'Receber'}, {'token_text': 'bem', 'token_label': 'ADVMOD', 'token_head_index': 2, 'token_tag': 'ADV', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'bem'}, {'token_text': 'antes', 'token_label': 'ADVMOD', 'token_head_index': 0, 'token_tag': 'ADV', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'antes'}, {'token_text': 'do', 'token_label': 'PREP', 'token_head_index': 2, 'token_tag': 'ADP', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'do'}, {'token_text': 'prazo', 'token_label': 'POBJ', 'token_head_index': 3, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'prazo'}, {'token_text': 'estipulado', 'token_label': 'AMOD', 'token_head_index': 4, 'token_tag': 'ADJ', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'estipulado'}, {'token_text': '.', 'token_label': 'P', 'token_head_index': 0, 'token_tag': 'PUNCT', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': '.'}])"
4,Parabéns lojas lannister adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa,"(0.8999999761581421, 0.8999999761581421, [{'name': 'lojas', 'type': 'ORGANIZATION', 'salience': 0.33150118589401245, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'Páscoa', 'type': 'EVENT', 'salience': 0.248890683054924, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'todos', 'type': 'PERSON', 'salience': 0.23264864087104797, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'Internet', 'type': 'OTHER', 'salience': 0.18695949018001556, 'wikipedia_url': '-', 'mid': '-'}], 1, 15, [Parabéns lojas lannister adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa], [{'token_text': 'Parabéns', 'token_label': 'NUM', 'token_head_index': 1, 'token_tag': 'NUM', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'Parabéns'}, {'token_text': 'lojas', 'token_label': 'NSUBJ', 'token_head_index': 3, 'token_tag': 'NOUN', 'token_gender': 'FEMININE', 'token_number': 'PLURAL', 'token_proper': 'NOT_PROPER', 'token_lemma': 'loja'}, {'token_text': 'lannister', 'token_label': 'AMOD', 'token_head_index': 1, 'token_tag': 'ADJ', 'token_gender': 'FEMININE', 'token_number': 'PLURAL', 'token_proper': 'NOT_PROPER', 'token_lemma': 'lannister'}, {'token_text': 'adorei', 'token_label': 'ROOT', 'token_head_index': 3, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'adorar'}, {'token_text': 'comprar', 'token_label': 'XCOMP', 'token_head_index': 3, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'comprar'}, {'token_text': 'pela', 'token_label': 'PREP', 'token_head_index': 4, 'token_tag': 'ADP', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'pela'}, {'token_text': 'Internet', 'token_label': 'POBJ', 'token_head_index': 5, 'token_tag': 'NOUN', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'Internet'}, {'token_text': 'seguro', 'token_label': 'AMOD', 'token_head_index': 6, 'token_tag': 'ADJ', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'seguro'}, {'token_text': 'e', 'token_label': 'CC', 'token_head_index': 7, 'token_tag': 'CONJ', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'e'}, {'token_text': 'prático', 'token_label': 'CONJ', 'token_head_index': 7, 'token_tag': 'ADJ', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'prático'}, {'token_text': 'Parabéns', 'token_label': 'XCOMP', 'token_head_index': 4, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'Parabéns'}, {'token_text': 'a', 'token_label': 'PREP', 'token_head_index': 10, 'token_tag': 'ADP', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'a'}, {'token_text': 'todos', 'token_label': 'POBJ', 'token_head_index': 11, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'PLURAL', 'token_proper': 'NOT_PROPER', 'token_lemma': 'todos'}, {'token_text': 'feliz', 'token_label': 'AMOD', 'token_head_index': 12, 'token_tag': 'ADJ', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'feliz'}, {'token_text': 'Páscoa', 'token_label': 'DOBJ', 'token_head_index': 4, 'token_tag': 'NOUN', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'PROPER', 'token_lemma': 'Páscoa'}])"
5,,0
6,,0
7,,0
8,,0
9,recomendo. aparelho eficiente. no site a marca do aparelho esta impresso como 3desinfector e ao chegar esta com outro nome...atualizar com a marca correta uma vez que é o mesmo aparelho,"(0.10000000149011612, 0.10000000149011612, [{'name': 'aparelho', 'type': 'CONSUMER_GOOD', 'salience': 0.20637184381484985, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'aparelho', 'type': 'CONSUMER_GOOD', 'salience': 0.13574722409248352, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'site', 'type': 'WORK_OF_ART', 'salience': 0.12026844918727875, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'aparelho', 'type': 'CONSUMER_GOOD', 'salience': 0.11274923384189606, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'marca', 'type': 'OTHER', 'salience': 0.10149455815553665, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'marca', 'type': 'OTHER', 'salience': 0.10052862018346786, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'nome', 'type': 'OTHER', 'salience': 0.08610891550779343, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'vez', 'type': 'OTHER', 'salience': 0.07884613424539566, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'impresso', 'type': 'ORGANIZATION', 'salience': 0.057885024696588516, 'wikipedia_url': '-', 'mid': '-'}, {'name': '3', 'type': 'NUMBER', 'salience': 0.0, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'uma', 'type': 'NUMBER', 'salience': 0.0, 'wikipedia_url': '-', 'mid': '-'}], 1, 33, [recomendo. aparelho eficiente. no site a marca do aparelho esta impresso como 3desinfector e ao chegar esta com outro nome...atualizar com a marca correta uma vez que é o mesmo aparelho], [{'token_text': 'recomendo.', 'token_label': 'DET', 'token_head_index': 1, 'token_tag': 'DET', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'recomendo.'}, {'token_text': 'aparelho', 'token_label': 'NSUBJ', 'token_head_index': 21, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'aparelho'}, {'token_text': 'eficiente.', 'token_label': 'AMOD', 'token_head_index': 1, 'token_tag': 'ADJ', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'eficiente.'}, {'token_text': 'no', 'token_label': 'PREP', 'token_head_index': 1, 'token_tag': 'ADP', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'no'}, {'token_text': 'site', 'token_label': 'POBJ', 'token_head_index': 3, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'site'}, {'token_text': 'a', 'token_label': 'DET', 'token_head_index': 6, 'token_tag': 'DET', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'o'}, {'token_text': 'marca', 'token_label': 'APPOS', 'token_head_index': 1, 'token_tag': 'NOUN', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'marca'}, {'token_text': 'do', 'token_label': 'PREP', 'token_head_index': 6, 'token_tag': 'ADP', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'do'}, {'token_text': 'aparelho', 'token_label': 'POBJ', 'token_head_index': 7, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'aparelho'}, {'token_text': 'esta', 'token_label': 'DET', 'token_head_index': 10, 'token_tag': 'DET', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'este'}, {'token_text': 'impresso', 'token_label': 'APPOS', 'token_head_index': 6, 'token_tag': 'ADJ', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'impresso'}, {'token_text': 'como', 'token_label': 'PREP', 'token_head_index': 10, 'token_tag': 'ADP', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'como'}, {'token_text': '3desinfector', 'token_label': 'POBJ', 'token_head_index': 11, 'token_tag': 'ADJ', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': '3desinfector'}, {'token_text': 'e', 'token_label': 'CC', 'token_head_index': 11, 'token_tag': 'CONJ', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'e'}, {'token_text': 'ao', 'token_label': 'CONJ', 'token_head_index': 11, 'token_tag': 'ADP', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'ao'}, {'token_text': 'chegar', 'token_label': 'PCOMP', 'token_head_index': 14, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'chegar'}, {'token_text': 'esta', 'token_label': 'DOBJ', 'token_head_index': 15, 'token_tag': 'DET', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'este'}, {'token_text': 'com', 'token_label': 'PREP', 'token_head_index': 15, 'token_tag': 'ADP', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'com'}, {'token_text': 'outro', 'token_label': 'DET', 'token_head_index': 19, 'token_tag': 'DET', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'outro'}, {'token_text': 'nome', 'token_label': 'POBJ', 'token_head_index': 17, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'nome'}, {'token_text': '...', 'token_label': 'P', 'token_head_index': 6, 'token_tag': 'PUNCT', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': '...'}, {'token_text': 'atualizar', 'token_label': 'ROOT', 'token_head_index': 21, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'atualizar'}, {'token_text': 'com', 'token_label': 'PREP', 'token_head_index': 21, 'token_tag': 'ADP', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'com'}, {'token_text': 'a', 'token_label': 'DET', 'token_head_index': 24, 'token_tag': 'DET', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'o'}, {'token_text': 'marca', 'token_label': 'POBJ', 'token_head_index': 22, 'token_tag': 'NOUN', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'marca'}, {'token_text': 'correta', 'token_label': 'AMOD', 'token_head_index': 24, 'token_tag': 'ADJ', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'correta'}, {'token_text': 'uma', 'token_label': 'DET', 'token_head_index': 27, 'token_tag': 'DET', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'um'}, {'token_text': 'vez', 'token_label': 'NPADVMOD', 'token_head_index': 21, 'token_tag': 'NOUN', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'vez'}, {'token_text': 'que', 'token_label': 'NSUBJ', 'token_head_index': 29, 'token_tag': 'PRON', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'que'}, {'token_text': 'é', 'token_label': 'RCMOD', 'token_head_index': 27, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'ser'}, {'token_text': 'o', 'token_label': 'DET', 'token_head_index': 32, 'token_tag': 'DET', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'o'}, {'token_text': 'mesmo', 'token_label': 'DET', 'token_head_index': 32, 'token_tag': 'DET', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'mesmo'}, {'token_text': 'aparelho', 'token_label': 'ATTR', 'token_head_index': 29, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'aparelho'}])"


In [91]:
# необработанные тексты отзывов. Это однобуквенные значения.
df[(df['C']!="") & (df['tmp']==0)][['C','tmp']].shape

(76, 2)

In [101]:
df5[['review_id','order_id','tmp']][15:21]

Unnamed: 0,review_id,order_id,tmp
15,3948b09f7c818e2d86c9a546758b2335,e51478e7e277a83743b6f9991dbfa3fb,"(0.8999999761581421, 1.7999999523162842, [{'name': 'Super', 'type': 'PERSON', 'salience': 0.326386034488678, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'entrega', 'type': 'EVENT', 'salience': 0.18561504781246185, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'Vendedor', 'type': 'PERSON', 'salience': 0.18386904895305634, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'prazo', 'type': 'OTHER', 'salience': 0.17040300369262695, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'produto', 'type': 'CONSUMER_GOOD', 'salience': 0.13372687995433807, 'wikipedia_url': '-', 'mid': '-'}], 2, 14, [Super recomendo., Vendedor confiável, produto ok e entrega antes do prazo.], [{'token_text': 'Super', 'token_label': 'NSUBJ', 'token_head_index': 1, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'PROPER', 'token_lemma': 'Super'}, {'token_text': 'recomendo', 'token_label': 'ROOT', 'token_head_index': 1, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'recomendar'}, {'token_text': '.', 'token_label': 'P', 'token_head_index': 1, 'token_tag': 'PUNCT', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': '.'}, {'token_text': 'Vendedor', 'token_label': 'ROOT', 'token_head_index': 3, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'PROPER', 'token_lemma': 'Vendedor'}, {'token_text': 'confiável', 'token_label': 'AMOD', 'token_head_index': 3, 'token_tag': 'ADJ', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'confiável'}, {'token_text': ',', 'token_label': 'P', 'token_head_index': 3, 'token_tag': 'PUNCT', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': ','}, {'token_text': 'produto', 'token_label': 'CONJ', 'token_head_index': 3, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'produto'}, {'token_text': 'ok', 'token_label': 'AMOD', 'token_head_index': 6, 'token_tag': 'ADJ', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'ok'}, {'token_text': 'e', 'token_label': 'CC', 'token_head_index': 3, 'token_tag': 'CONJ', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'e'}, {'token_text': 'entrega', 'token_label': 'CONJ', 'token_head_index': 3, 'token_tag': 'NOUN', 'token_gender': 'FEMININE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'entrega'}, {'token_text': 'antes', 'token_label': 'ADVMOD', 'token_head_index': 3, 'token_tag': 'ADV', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'antes'}, {'token_text': 'do', 'token_label': 'PREP', 'token_head_index': 10, 'token_tag': 'ADP', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'do'}, {'token_text': 'prazo', 'token_label': 'POBJ', 'token_head_index': 11, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'prazo'}, {'token_text': '.', 'token_label': 'P', 'token_head_index': 3, 'token_tag': 'PUNCT', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': '.'}])"
16,9314d6f9799f5bfba510cc7bcd468c01,0dacf04c5ad59fd5a0cc1faa07c34e39,"(-0.10000000149011612, 0.10000000149011612, [{'name': 'ESSA', 'type': 'CONSUMER_GOOD', 'salience': 0.2512953281402588, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'AGORA', 'type': 'OTHER', 'salience': 0.23210185766220093, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'DECPCIONOU', 'type': 'CONSUMER_GOOD', 'salience': 0.213138148188591, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'QUE', 'type': 'OTHER', 'salience': 0.17478658258914948, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'SEMPRE', 'type': 'ORGANIZATION', 'salience': 0.128678098320961, 'wikipedia_url': '-', 'mid': '-'}], 1, 15, [GOSTARIA DE SABER O QUE HOUVE, SEMPRE RECEBI E ESSA COMPRA AGORA ME DECPCIONOU], [{'token_text': 'GOSTARIA', 'token_label': 'DISCOURSE', 'token_head_index': 5, 'token_tag': 'CONJ', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'GOSTARIA'}, {'token_text': 'DE', 'token_label': 'PREP', 'token_head_index': 5, 'token_tag': 'ADP', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'PROPER', 'token_lemma': 'DE'}, {'token_text': 'SABER', 'token_label': 'PCOMP', 'token_head_index': 1, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'PROPER', 'token_lemma': 'SABER'}, {'token_text': 'O', 'token_label': 'DOBJ', 'token_head_index': 2, 'token_tag': 'PRON', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'O'}, {'token_text': 'QUE', 'token_label': 'APPOS', 'token_head_index': 3, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'QUE'}, {'token_text': 'HOUVE', 'token_label': 'ROOT', 'token_head_index': 5, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'HAVER'}, {'token_text': ',', 'token_label': 'P', 'token_head_index': 5, 'token_tag': 'PUNCT', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': ','}, {'token_text': 'SEMPRE', 'token_label': 'NSUBJ', 'token_head_index': 8, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'SEMPRE'}, {'token_text': 'RECEBI', 'token_label': 'PARATAXIS', 'token_head_index': 5, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'RECEBER'}, {'token_text': 'E', 'token_label': 'CC', 'token_head_index': 8, 'token_tag': 'CONJ', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'E'}, {'token_text': 'ESSA', 'token_label': 'CONJ', 'token_head_index': 8, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'ESSA'}, {'token_text': 'COMPRA', 'token_label': 'PREP', 'token_head_index': 10, 'token_tag': 'ADP', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'COMPRA'}, {'token_text': 'AGORA', 'token_label': 'POBJ', 'token_head_index': 11, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'PROPER', 'token_lemma': 'AGORA'}, {'token_text': 'ME', 'token_label': 'FOREIGN', 'token_head_index': 12, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'ME'}, {'token_text': 'DECPCIONOU', 'token_label': 'FOREIGN', 'token_head_index': 12, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'PROPER', 'token_lemma': 'DECPCIONOU'}])"
17,8e15a274d95600fa14f8be64e37a0e67,ff1581e08b3011021e7c7de592ddc81e,0
18,fdbdb2629a7cde0f66657acc92084e7f,70a752414a13d09cc1f2b437b914b28e,0
19,373cbeecea8286a2b66c97b1b157ec46,583174fbe37d3d5f0d6661be3aad1786,"(-0.800000011920929, 1.600000023841858, [{'name': 'produto', 'type': 'CONSUMER_GOOD', 'salience': 0.5441972613334656, 'wikipedia_url': '-', 'mid': '-'}, {'name': 'Péssimo', 'type': 'OTHER', 'salience': 0.4558027386665344, 'wikipedia_url': '-', 'mid': '-'}], 2, 6, [Não chegou meu produto ., Péssimo], [{'token_text': 'Não', 'token_label': 'NEG', 'token_head_index': 1, 'token_tag': 'ADV', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'Não'}, {'token_text': 'chegou', 'token_label': 'ROOT', 'token_head_index': 1, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'chegar'}, {'token_text': 'meu', 'token_label': 'DET', 'token_head_index': 3, 'token_tag': 'PRON', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'meu'}, {'token_text': 'produto', 'token_label': 'DOBJ', 'token_head_index': 1, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'produto'}, {'token_text': '.', 'token_label': 'P', 'token_head_index': 1, 'token_tag': 'PUNCT', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': '.'}, {'token_text': 'Péssimo', 'token_label': 'ROOT', 'token_head_index': 5, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'Péssimo'}])"
20,a2ff510ca4e059c3fefc7a7866571f6f,a9953b2f0b1665ac7586cc5a6ac8f58c,0


In [109]:
df3=df.tmp.progress_apply(pd.Series) # variant 2

  0%|          | 0/99224 [00:00<?, ?it/s]

In [110]:
df3.rename(columns={0:'sent_score',1:'sent_magnitude', 2:'entities_list',3:'sentences_count',4:'token_count',5:'sentlist',6:'tokenlist'},  inplace=True)

In [111]:
df3.shape

(99224, 7)

In [117]:
df3.to_csv(os.path.join(PATH, 'tmp_all_just.csv'), sep=';', header=True, index=False)

In [116]:
df3.head(4)

Unnamed: 0,sent_score,sent_magnitude,entities_list,sentences_count,token_count,sentlist,tokenlist
0,0.0,,,,,,
1,0.0,,,,,,
2,0.0,,,,,,
3,0.9,0.9,"[{'name': 'prazo', 'type': 'OTHER', 'salience': 1.0, 'wikipedia_url': '-', 'mid': '-'}]",1.0,7.0,[Recebi bem antes do prazo estipulado.],"[{'token_text': 'Recebi', 'token_label': 'ROOT', 'token_head_index': 0, 'token_tag': 'VERB', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'Receber'}, {'token_text': 'bem', 'token_label': 'ADVMOD', 'token_head_index': 2, 'token_tag': 'ADV', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'bem'}, {'token_text': 'antes', 'token_label': 'ADVMOD', 'token_head_index': 0, 'token_tag': 'ADV', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': 'antes'}, {'token_text': 'do', 'token_label': 'PREP', 'token_head_index': 2, 'token_tag': 'ADP', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'do'}, {'token_text': 'prazo', 'token_label': 'POBJ', 'token_head_index': 3, 'token_tag': 'NOUN', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'prazo'}, {'token_text': 'estipulado', 'token_label': 'AMOD', 'token_head_index': 4, 'token_tag': 'ADJ', 'token_gender': 'MASCULINE', 'token_number': 'SINGULAR', 'token_proper': 'NOT_PROPER', 'token_lemma': 'estipulado'}, {'token_text': '.', 'token_label': 'P', 'token_head_index': 0, 'token_tag': 'PUNCT', 'token_gender': 'GENDER_UNKNOWN', 'token_number': 'NUMBER_UNKNOWN', 'token_proper': 'NOT_PROPER', 'token_lemma': '.'}]"


In [115]:
df4=pd.concat([df,df3],ignore_index=False, axis=1)
print(df4.shape)

(99224, 16)


## Это финальный файл для дальнейшей работы - ключевые поля 'review_id','order_id' и развернутые данные из API

На всякий случай сохраняю с двумя разными разделителями. А также полный файл и сокращенные. На гитхаб эти файлы в оригинальном виде не поместяться

In [123]:
columns_for_used=['review_id','order_id','sent_score','sent_magnitude', 'entities_list','sentences_count','token_count','sentlist','tokenlist']
columns_for_used_num=['review_id','order_id','sent_score','sent_magnitude', 'sentences_count','token_count']
columns_for_used_entit=['review_id','order_id','entities_list']
columns_for_used_sent=['review_id','order_id','sentlist']
columns_for_used_token=['review_id','order_id','tokenlist']

In [120]:
df4.to_csv(os.path.join(PATH, 'order_reviews_only_Google_full.csv'), sep=';', header=True, index=False)

In [121]:
df4.to_csv(os.path.join(PATH, 'order_reviews_only_Google_full2.csv'), sep='|', header=True, index=False)

In [119]:
df4[columns_for_used].to_csv(os.path.join(PATH, 'order_reviews_only_Google1.csv'), sep=';', header=True, index=False)

In [122]:
df4[columns_for_used].to_csv(os.path.join(PATH, 'order_reviews_only_Google2.csv'), sep='|', header=True, index=False)

In [124]:
df4[columns_for_used_num].to_csv(os.path.join(PATH, 'order_reviews_only_Google_num1.csv'), sep=';', header=True, index=False)
df4[columns_for_used_num].to_csv(os.path.join(PATH, 'order_reviews_only_Google_num2.csv'), sep='|', header=True, index=False)

In [125]:
df4[columns_for_used_entit].to_csv(os.path.join(PATH, 'order_reviews_only_Google_entit1.csv'), sep=';', header=True, index=False)
df4[columns_for_used_entit].to_csv(os.path.join(PATH, 'order_reviews_only_Google_entit2.csv'), sep='|', header=True, index=False)

In [126]:
df4[columns_for_used_sent].to_csv(os.path.join(PATH, 'order_reviews_only_Google_sent1.csv'), sep=';', header=True, index=False)
df4[columns_for_used_sent].to_csv(os.path.join(PATH, 'order_reviews_only_Google_sent2.csv'), sep='|', header=True, index=False)

In [127]:
df4[columns_for_used_token].to_csv(os.path.join(PATH, 'order_reviews_only_Google_token1.csv'), sep=';', header=True, index=False)
df4[columns_for_used_token].to_csv(os.path.join(PATH, 'order_reviews_only_Google_token2.csv'), sep='|', header=True, index=False)