In [1]:
## Import python library
import pandas as pd
import nltk

## Read file
file_name = "data/train.csv"
## Read file using pandas
df = pd.read_csv(file_name)

In [3]:
!pip install textblob

Collecting textblob
  Downloading textblob-0.15.3-py2.py3-none-any.whl (636 kB)
Installing collected packages: textblob
Successfully installed textblob-0.15.3


In [4]:
## Function for augmenting data using langauge translation
## Could not found free service for langauge translation, Use paid service like Azure, Google translator etc

from textblob import TextBlob
from textblob.translate import NotTranslated
import random
sr = random.SystemRandom()

language = ["es", "de", "fr", "ar", "te", "hi", "ja", "fa", "sq", "bg", "nl", "gu", "ig", "kk", "mt", "ps"]

def data_augmentation(message, language, aug_range=1):
    augmented_messages = []
    if hasattr(message, "decode"):
        message = message.decode("utf-8")

    for j in range(0,aug_range) :
        new_message = ""
        text = TextBlob(message)
        try:
            text = text.translate(to=sr.choice(language))   ## Converting to random langauge for meaningful variation
            text = text.translate(to="en")
        except NotTranslated:
            pass
        augmented_messages.append(str(text))

    return augmented_messages

In [5]:
## Dictionary for intent count
## Intent is column name
intent_count = df.jobflag.value_counts().to_dict()

In [6]:
## Get max intent count to match other minority classes through data augmentation
import operator
max_intent_count = max(intent_count.items(), key=operator.itemgetter(1))[1]

In [11]:
## Loop to interate all messages
import numpy as np
import math
import tqdm
newdf = pd.DataFrame()
for intent, count in intent_count.items() :
    count_diff = max_intent_count - count    ## Difference to fill
    multiplication_count = math.ceil((count_diff)/count)  ## Multiplying a minority classes for multiplication_count times
    if (multiplication_count) :
        old_message_df = pd.DataFrame()
        new_message_df = pd.DataFrame()
        for message in tqdm.tqdm(df[df["jobflag"] == intent]["description"]) :
            ## Extracting existing minority class batch
            dummy1 = pd.DataFrame([message], columns=['description'])
            dummy1["jobflag"] = intent
            old_message_df = old_message_df.append(dummy1)
            
            ## Creating new augmented batch from existing minority class
            new_messages = data_augmentation(message, language, multiplication_count)
            dummy2 = pd.DataFrame(new_messages, columns=['description'])
            dummy2["jobflag"] = intent
            new_message_df = new_message_df.append(dummy2)
        
        ## Select random data points from augmented data
        new_message_df=new_message_df.take(np.random.permutation(len(new_message_df))[:count_diff])
        
        ## Merge existing and augmented data points
        newdf = newdf.append([old_message_df,new_message_df])
    else :
        newdf = newdf.append(df[df["jobflag"] == intent])


  0%|                                                                                                                                                                                                | 0/624 [00:00<?, ?it/s][A
  0%|▎                                                                                                                                                                                       | 1/624 [00:03<35:18,  3.40s/it][A
  0%|▌                                                                                                                                                                                       | 2/624 [00:06<35:18,  3.41s/it][A
  0%|▉                                                                                                                                                                                       | 3/624 [00:10<35:21,  3.42s/it][A
  1%|█▏                                                                                            

  6%|██████████▌                                                                                                                                                                            | 36/624 [02:18<37:05,  3.78s/it][A
  6%|██████████▊                                                                                                                                                                            | 37/624 [02:21<37:09,  3.80s/it][A
  6%|███████████▏                                                                                                                                                                           | 38/624 [02:25<37:02,  3.79s/it][A
  6%|███████████▍                                                                                                                                                                           | 39/624 [02:29<37:21,  3.83s/it][A
  6%|███████████▋                                                                                   

 12%|█████████████████████                                                                                                                                                                  | 72/624 [04:33<35:48,  3.89s/it][A
 12%|█████████████████████▍                                                                                                                                                                 | 73/624 [04:37<36:03,  3.93s/it][A
 12%|█████████████████████▋                                                                                                                                                                 | 74/624 [04:41<35:26,  3.87s/it][A
 12%|█████████████████████▉                                                                                                                                                                 | 75/624 [04:45<35:32,  3.88s/it][A
 12%|██████████████████████▎                                                                        

 17%|███████████████████████████████▌                                                                                                                                                      | 108/624 [06:53<33:13,  3.86s/it][A
 17%|███████████████████████████████▊                                                                                                                                                      | 109/624 [06:57<33:11,  3.87s/it][A
 18%|████████████████████████████████                                                                                                                                                      | 110/624 [07:01<33:19,  3.89s/it][A
 18%|████████████████████████████████▍                                                                                                                                                     | 111/624 [07:05<33:15,  3.89s/it][A
 18%|████████████████████████████████▋                                                              

 23%|██████████████████████████████████████████                                                                                                                                            | 144/624 [09:12<30:17,  3.79s/it][A
 23%|██████████████████████████████████████████▎                                                                                                                                           | 145/624 [09:16<30:15,  3.79s/it][A
 23%|██████████████████████████████████████████▌                                                                                                                                           | 146/624 [09:20<30:35,  3.84s/it][A
 24%|██████████████████████████████████████████▉                                                                                                                                           | 147/624 [09:24<31:15,  3.93s/it][A
 24%|███████████████████████████████████████████▏                                                   

 29%|████████████████████████████████████████████████████▍                                                                                                                                 | 180/624 [11:28<26:03,  3.52s/it][A
 29%|████████████████████████████████████████████████████▊                                                                                                                                 | 181/624 [11:32<27:01,  3.66s/it][A
 29%|█████████████████████████████████████████████████████                                                                                                                                 | 182/624 [11:36<27:08,  3.68s/it][A
 29%|█████████████████████████████████████████████████████▍                                                                                                                                | 183/624 [11:40<29:34,  4.02s/it][A
 29%|█████████████████████████████████████████████████████▋                                         

 35%|███████████████████████████████████████████████████████████████                                                                                                                       | 216/624 [13:49<26:10,  3.85s/it][A
 35%|███████████████████████████████████████████████████████████████▎                                                                                                                      | 217/624 [13:53<26:18,  3.88s/it][A
 35%|███████████████████████████████████████████████████████████████▌                                                                                                                      | 218/624 [13:57<26:14,  3.88s/it][A
 35%|███████████████████████████████████████████████████████████████▊                                                                                                                      | 219/624 [14:01<26:22,  3.91s/it][A
 35%|████████████████████████████████████████████████████████████████▏                              

 40%|█████████████████████████████████████████████████████████████████████████▌                                                                                                            | 252/624 [16:06<24:50,  4.01s/it][A
 41%|█████████████████████████████████████████████████████████████████████████▊                                                                                                            | 253/624 [16:10<24:44,  4.00s/it][A
 41%|██████████████████████████████████████████████████████████████████████████                                                                                                            | 254/624 [16:14<24:22,  3.95s/it][A
 41%|██████████████████████████████████████████████████████████████████████████▍                                                                                                           | 255/624 [16:18<24:15,  3.94s/it][A
 41%|██████████████████████████████████████████████████████████████████████████▋                    

 46%|████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 288/624 [18:22<21:17,  3.80s/it][A
 46%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                 | 289/624 [18:26<21:07,  3.78s/it][A
 46%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 290/624 [18:29<21:03,  3.78s/it][A
 47%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 291/624 [18:33<21:20,  3.85s/it][A
 47%|█████████████████████████████████████████████████████████████████████████████████████▏         

 52%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 324/624 [20:41<19:11,  3.84s/it][A
 52%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 325/624 [20:45<19:29,  3.91s/it][A
 52%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 326/624 [20:49<19:12,  3.87s/it][A
 52%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 327/624 [20:52<19:06,  3.86s/it][A
 53%|███████████████████████████████████████████████████████████████████████████████████████████████

 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 360/624 [22:57<16:54,  3.84s/it][A
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 361/624 [23:00<16:48,  3.84s/it][A
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 362/624 [23:04<16:53,  3.87s/it][A
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 363/624 [23:08<17:02,  3.92s/it][A
 58%|███████████████████████████████████████████████████████████████████████████████████████████████

 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 396/624 [25:13<14:39,  3.86s/it][A
 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 397/624 [25:16<14:29,  3.83s/it][A
 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 398/624 [25:20<14:25,  3.83s/it][A
 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 399/624 [25:24<14:22,  3.83s/it][A
 64%|███████████████████████████████████████████████████████████████████████████████████████████████

 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 432/624 [27:32<12:23,  3.87s/it][A
 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 433/624 [27:36<12:15,  3.85s/it][A
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 434/624 [27:40<12:20,  3.90s/it][A
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 435/624 [27:44<12:17,  3.90s/it][A
 70%|███████████████████████████████████████████████████████████████████████████████████████████████

 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 468/624 [29:48<10:03,  3.87s/it][A
 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 469/624 [29:52<09:58,  3.86s/it][A
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 470/624 [29:55<09:49,  3.83s/it][A
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 471/624 [29:59<09:46,  3.83s/it][A
 76%|███████████████████████████████████████████████████████████████████████████████████████████████

 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 504/624 [32:14<08:44,  4.37s/it][A
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 505/624 [32:18<08:24,  4.24s/it][A
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 506/624 [32:21<08:06,  4.12s/it][A
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 507/624 [32:24<06:58,  3.57s/it][A
 81%|███████████████████████████████████████████████████████████████████████████████████████████████

 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 540/624 [34:29<05:35,  3.99s/it][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 541/624 [34:33<05:30,  3.98s/it][A
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 542/624 [34:37<05:20,  3.91s/it][A
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 543/624 [34:41<05:14,  3.88s/it][A
 87%|███████████████████████████████████████████████████████████████████████████████████████████████

 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 576/624 [36:48<03:09,  3.95s/it][A
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 577/624 [36:51<03:05,  3.94s/it][A
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 578/624 [36:55<02:59,  3.91s/it][A
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 579/624 [36:59<02:55,  3.90s/it][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████

 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 612/624 [39:02<00:45,  3.81s/it][A
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 613/624 [39:06<00:41,  3.80s/it][A
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 614/624 [39:09<00:38,  3.83s/it][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 615/624 [39:13<00:34,  3.88s/it][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████

  7%|█████▏                                                                | 43/583 [02:43<34:17,  3.81s/it][A
  8%|█████▎                                                                | 44/583 [02:47<35:04,  3.90s/it][A
  8%|█████▍                                                                | 45/583 [02:52<35:20,  3.94s/it][A
  8%|█████▌                                                                | 46/583 [02:55<34:56,  3.90s/it][A
  8%|█████▋                                                                | 47/583 [02:59<34:19,  3.84s/it][A
  8%|█████▊                                                                | 48/583 [03:03<34:05,  3.82s/it][A
  8%|█████▉                                                                | 49/583 [03:07<34:18,  3.85s/it][A
  9%|██████                                                                | 50/583 [03:11<34:23,  3.87s/it][A
  9%|██████                                                                | 51/583 [03:15<34:46,  3.92s

 20%|█████████████▋                                                       | 116/583 [07:18<27:21,  3.52s/it][A
 20%|█████████████▊                                                       | 117/583 [07:21<27:58,  3.60s/it][A
 20%|█████████████▉                                                       | 118/583 [07:25<28:57,  3.74s/it][A
 20%|██████████████                                                       | 119/583 [07:29<29:17,  3.79s/it][A
 21%|██████████████▏                                                      | 120/583 [07:33<29:49,  3.86s/it][A
 21%|██████████████▎                                                      | 121/583 [07:37<29:26,  3.82s/it][A
 21%|██████████████▍                                                      | 122/583 [07:41<29:23,  3.82s/it][A
 21%|██████████████▌                                                      | 123/583 [07:45<29:17,  3.82s/it][A
 21%|██████████████▋                                                      | 124/583 [07:49<29:22,  3.84s

 32%|██████████████████████▎                                              | 189/583 [11:54<26:05,  3.97s/it][A
 33%|██████████████████████▍                                              | 190/583 [11:58<26:03,  3.98s/it][A
 33%|██████████████████████▌                                              | 191/583 [12:01<25:56,  3.97s/it][A
 33%|██████████████████████▋                                              | 192/583 [12:05<25:47,  3.96s/it][A
 33%|██████████████████████▊                                              | 193/583 [12:11<29:43,  4.57s/it][A
 33%|██████████████████████▉                                              | 194/583 [12:15<28:23,  4.38s/it][A
 33%|███████████████████████                                              | 195/583 [12:19<27:29,  4.25s/it][A
 34%|███████████████████████▏                                             | 196/583 [12:26<32:40,  5.06s/it][A
 34%|███████████████████████▎                                             | 197/583 [12:30<30:45,  4.78s

 45%|███████████████████████████████                                      | 262/583 [16:47<20:20,  3.80s/it][A
 45%|███████████████████████████████▏                                     | 263/583 [16:51<20:57,  3.93s/it][A
 45%|███████████████████████████████▏                                     | 264/583 [16:55<21:04,  3.96s/it][A
 45%|███████████████████████████████▎                                     | 265/583 [16:59<21:07,  3.98s/it][A
 46%|███████████████████████████████▍                                     | 266/583 [17:03<20:55,  3.96s/it][A
 46%|███████████████████████████████▌                                     | 267/583 [17:09<24:13,  4.60s/it][A
 46%|███████████████████████████████▋                                     | 268/583 [17:13<21:51,  4.16s/it][A
 46%|███████████████████████████████▊                                     | 269/583 [17:16<21:17,  4.07s/it][A
 46%|███████████████████████████████▉                                     | 270/583 [17:20<20:45,  3.98s

 57%|███████████████████████████████████████▋                             | 335/583 [21:51<18:06,  4.38s/it][A
 58%|███████████████████████████████████████▊                             | 336/583 [21:55<17:17,  4.20s/it][A
 58%|███████████████████████████████████████▉                             | 337/583 [21:59<16:44,  4.08s/it][A
 58%|████████████████████████████████████████                             | 338/583 [22:03<16:24,  4.02s/it][A
 58%|████████████████████████████████████████                             | 339/583 [22:07<16:04,  3.95s/it][A
 58%|████████████████████████████████████████▏                            | 340/583 [22:10<15:51,  3.92s/it][A
 58%|████████████████████████████████████████▎                            | 341/583 [22:14<15:45,  3.91s/it][A
 59%|████████████████████████████████████████▍                            | 342/583 [22:18<15:44,  3.92s/it][A
 59%|████████████████████████████████████████▌                            | 343/583 [22:22<15:45,  3.94s

 70%|████████████████████████████████████████████████▎                    | 408/583 [26:26<11:01,  3.78s/it][A
 70%|████████████████████████████████████████████████▍                    | 409/583 [26:30<10:57,  3.78s/it][A
 70%|████████████████████████████████████████████████▌                    | 410/583 [26:34<10:55,  3.79s/it][A
 70%|████████████████████████████████████████████████▋                    | 411/583 [26:37<10:48,  3.77s/it][A
 71%|████████████████████████████████████████████████▊                    | 412/583 [26:40<09:27,  3.32s/it][A
 71%|████████████████████████████████████████████████▉                    | 413/583 [26:43<09:43,  3.43s/it][A
 71%|████████████████████████████████████████████████▉                    | 414/583 [26:46<08:42,  3.09s/it][A
 71%|█████████████████████████████████████████████████                    | 415/583 [26:49<09:19,  3.33s/it][A
 71%|█████████████████████████████████████████████████▏                   | 416/583 [26:53<09:37,  3.46s

 83%|████████████████████████████████████████████████████████▉            | 481/583 [31:00<06:34,  3.87s/it][A
 83%|█████████████████████████████████████████████████████████            | 482/583 [31:04<06:29,  3.86s/it][A
 83%|█████████████████████████████████████████████████████████▏           | 483/583 [31:07<06:23,  3.83s/it][A
 83%|█████████████████████████████████████████████████████████▎           | 484/583 [31:11<06:24,  3.88s/it][A
 83%|█████████████████████████████████████████████████████████▍           | 485/583 [31:15<06:21,  3.90s/it][A
 83%|█████████████████████████████████████████████████████████▌           | 486/583 [31:19<06:16,  3.88s/it][A
 84%|█████████████████████████████████████████████████████████▋           | 487/583 [31:23<06:09,  3.85s/it][A
 84%|█████████████████████████████████████████████████████████▊           | 488/583 [31:27<06:05,  3.85s/it][A
 84%|█████████████████████████████████████████████████████████▊           | 489/583 [31:31<06:05,  3.88s

 95%|█████████████████████████████████████████████████████████████████▌   | 554/583 [35:40<01:48,  3.75s/it][A
 95%|█████████████████████████████████████████████████████████████████▋   | 555/583 [35:43<01:44,  3.75s/it][A
 95%|█████████████████████████████████████████████████████████████████▊   | 556/583 [35:46<01:29,  3.31s/it][A
 96%|█████████████████████████████████████████████████████████████████▉   | 557/583 [35:49<01:29,  3.45s/it][A
 96%|██████████████████████████████████████████████████████████████████   | 558/583 [35:53<01:28,  3.54s/it][A
 96%|██████████████████████████████████████████████████████████████████▏  | 559/583 [35:57<01:26,  3.62s/it][A
 96%|██████████████████████████████████████████████████████████████████▎  | 560/583 [36:01<01:24,  3.70s/it][A
 96%|██████████████████████████████████████████████████████████████████▍  | 561/583 [36:05<01:21,  3.72s/it][A
 96%|██████████████████████████████████████████████████████████████████▌  | 562/583 [36:08<01:18,  3.75s

 12%|████████▋                                                             | 43/348 [03:41<25:38,  5.04s/it][A
 13%|████████▊                                                             | 44/348 [03:46<26:18,  5.19s/it][A
 13%|█████████                                                             | 45/348 [03:50<24:25,  4.84s/it][A
 13%|█████████▎                                                            | 46/348 [03:56<26:00,  5.17s/it][A
 14%|█████████▍                                                            | 47/348 [04:02<26:29,  5.28s/it][A
 14%|█████████▋                                                            | 48/348 [04:07<26:48,  5.36s/it][A
 14%|█████████▊                                                            | 49/348 [04:13<27:00,  5.42s/it][A
 14%|██████████                                                            | 50/348 [04:18<27:14,  5.49s/it][A
 15%|██████████▎                                                           | 51/348 [04:23<25:41,  5.19s

 33%|███████████████████████                                              | 116/348 [10:10<21:35,  5.58s/it][A
 34%|███████████████████████▏                                             | 117/348 [10:15<21:32,  5.60s/it][A
 34%|███████████████████████▍                                             | 118/348 [10:21<21:20,  5.57s/it][A
 34%|███████████████████████▌                                             | 119/348 [10:26<21:16,  5.57s/it][A
 34%|███████████████████████▊                                             | 120/348 [10:30<19:20,  5.09s/it][A
 35%|███████████████████████▉                                             | 121/348 [10:36<19:57,  5.27s/it][A
 35%|████████████████████████▏                                            | 122/348 [10:42<20:16,  5.38s/it][A
 35%|████████████████████████▍                                            | 123/348 [10:47<20:20,  5.43s/it][A
 36%|████████████████████████▌                                            | 124/348 [10:51<18:46,  5.03s

 54%|█████████████████████████████████████▍                               | 189/348 [16:31<13:33,  5.11s/it][A
 55%|█████████████████████████████████████▋                               | 190/348 [16:36<13:53,  5.28s/it][A
 55%|█████████████████████████████████████▊                               | 191/348 [16:42<14:02,  5.36s/it][A
 55%|██████████████████████████████████████                               | 192/348 [16:46<12:54,  4.97s/it][A
 55%|██████████████████████████████████████▎                              | 193/348 [16:51<13:12,  5.11s/it][A
 56%|██████████████████████████████████████▍                              | 194/348 [16:57<13:23,  5.22s/it][A
 56%|██████████████████████████████████████▋                              | 195/348 [17:02<13:38,  5.35s/it][A
 56%|██████████████████████████████████████▊                              | 196/348 [17:08<13:51,  5.47s/it][A
 57%|███████████████████████████████████████                              | 197/348 [17:14<13:54,  5.53s

 75%|███████████████████████████████████████████████████▉                 | 262/348 [23:03<07:57,  5.55s/it][A
 76%|████████████████████████████████████████████████████▏                | 263/348 [23:09<08:00,  5.65s/it][A
 76%|████████████████████████████████████████████████████▎                | 264/348 [23:14<07:49,  5.59s/it][A
 76%|████████████████████████████████████████████████████▌                | 265/348 [23:19<07:42,  5.57s/it][A
 76%|████████████████████████████████████████████████████▋                | 266/348 [23:25<07:39,  5.60s/it][A
 77%|████████████████████████████████████████████████████▉                | 267/348 [23:29<07:01,  5.20s/it][A
 77%|█████████████████████████████████████████████████████▏               | 268/348 [23:34<06:34,  4.93s/it][A
 77%|█████████████████████████████████████████████████████▎               | 269/348 [23:39<06:43,  5.11s/it][A
 78%|█████████████████████████████████████████████████████▌               | 270/348 [23:45<06:50,  5.26s

 96%|██████████████████████████████████████████████████████████████████▍  | 335/348 [29:36<01:09,  5.34s/it][A
 97%|██████████████████████████████████████████████████████████████████▌  | 336/348 [29:41<01:05,  5.43s/it][A
 97%|██████████████████████████████████████████████████████████████████▊  | 337/348 [29:47<01:00,  5.48s/it][A
 97%|███████████████████████████████████████████████████████████████████  | 338/348 [29:53<00:54,  5.49s/it][A
 97%|███████████████████████████████████████████████████████████████████▏ | 339/348 [29:58<00:49,  5.53s/it][A
 98%|███████████████████████████████████████████████████████████████████▍ | 340/348 [30:04<00:44,  5.57s/it][A
 98%|███████████████████████████████████████████████████████████████████▌ | 341/348 [30:08<00:36,  5.15s/it][A
 98%|███████████████████████████████████████████████████████████████████▊ | 342/348 [30:14<00:32,  5.36s/it][A
 99%|████████████████████████████████████████████████████████████████████ | 343/348 [30:18<00:24,  4.98s

In [13]:
## Print count of all new data points
newdf.jobflag.value_counts()

3    1376
2    1376
1    1376
4    1376
Name: jobflag, dtype: int64

In [15]:
## Save newdf back to file
newdf.to_csv("data/data_augmentation_using_language_translation.csv", index=False)