In [88]:
import http.client, urllib.parse, json, string, pickle
from time import sleep

import pandas as pd
import numpy as np

from tqdm import tqdm

np.random.seed(42)

In [2]:
def read_data(datapath):
    n_errors = 0
    was_error = False

    with open(datapath) as f:
        xy_list = list()
        tokens = list()
        tags = list()
        
        for line in f:
            # format error handling:
            if was_error:
                if line != '\n':
                    continue
                else:
                    was_error = False

            items = line.strip('\n').strip('\t').split('\t')
            if len(items) == 2:
                token, tag = items
                if token[0].isdigit():
                    tokens.append('#')
                else:
                    # is you want static noise, add it here
                    tokens.append(token.lower())
                tags.append(tag)
            elif line == '\n':
                xy_list.append((tokens, tags,))
                tokens = list()
                tags = list()
            else:
                # format error handling
                print(line)
                n_errors += 1
                was_error = True
                continue
    if n_errors > 0:
        print('Reading is done with {} errors'.format(n_errors))
    return xy_list


In [56]:
def argmax_suggestion(suggestions):
    argmax = 0
    for i, s in enumerate(suggestions):
#         print(s)
        if s['score'] > suggestions[argmax]['score']:
            argmax = i
    return argmax

def spellsafe(text, spellchecker_output):
    assert '_type' in spellchecker_output, spellchecker_output
    assert spellchecker_output['_type'] == 'SpellCheck', spellchecker_output

    result = text
    changes = {}
    for token_info in spellchecker_output['flaggedTokens']:
        
        argmax = argmax_suggestion(token_info['suggestions'])
        suggestion = token_info['suggestions'][argmax]['suggestion']
        if ' ' in suggestion or ' ' in token_info['token']:
#         if len(suggestion.split(' ')) > 1:
            print('token: ', token_info['token'], '\tsuggest: ', suggestion)
            continue
        token = token_info['token'].strip(' ').lstrip(' ')
        changes[token] = suggestion
    
    for wrong, fixed in changes.items():
        result = result.replace(wrong, fixed)
    return result

def untokenize(tokens):
    text = ''
    was_apostrophe = False
    for token in tokens:
        if token == "'":
            was_apostrophe = True
            text += token
        elif token in string.punctuation:
            was_apostrophe = False
            text += token
        elif was_apostrophe:
            was_apostrophe = False
            text += token
        else:
            was_apostrophe = False
            text += ' ' + token
    text = text.lstrip(' ')
    return text

In [69]:
text = 'Solut √† tout!'

data = {'text': text}

# NOTE: Replace this example key with a valid subscription key.
key = '7559af8fffdd432da93328d18b20e85a'

host = 'api.cognitive.microsoft.com'
path = '/bing/v7.0/spellcheck?'
params = 'mkt=fr-fr&mode=spell'

headers = {'Ocp-Apim-Subscription-Key': key,
'Content-Type': 'application/x-www-form-urlencoded'}

# The headers in the following example 
# are optional but should be considered as required:
#
# X-MSEdge-ClientIP: 999.999.999.999  
# X-Search-Location: lat: +90.0000000000000;long: 00.0000000000000;re:100.000000000000
# X-MSEdge-ClientID: <Client ID from Previous Response Goes Here>

conn = http.client.HTTPSConnection(host)
body = urllib.parse.urlencode(data)
conn.request ("POST", path + params, body, headers)
response = conn.getresponse()
output = json.loads(response.read())
print(output)

{'_type': 'SpellCheck', 'flaggedTokens': [{'offset': 0, 'token': 'Solut', 'type': 'UnknownToken', 'suggestions': [{'suggestion': 'salut', 'score': 1}]}], 'correctionType': 'High'}


In [5]:
data = {'text': 'Je sui contens'}
body = urllib.parse.urlencode(data)
conn.request ("POST", path + params, body, headers)
response = conn.getresponse()
output = json.dumps(json.loads(response.read()), indent=4)
print(output)

{
    "_type": "SpellCheck",
    "flaggedTokens": [
        {
            "offset": 3,
            "token": "sui",
            "type": "UnknownToken",
            "suggestions": [
                {
                    "suggestion": "suis",
                    "score": 1
                }
            ]
        },
        {
            "offset": 7,
            "token": "contens",
            "type": "UnknownToken",
            "suggestions": [
                {
                    "suggestion": "content",
                    "score": 1
                }
            ]
        }
    ],
    "correctionType": "High"
}


In [112]:
all_data = read_data('data/CAp/trainingSet_3000_v3_fixed.txt')

https://t.co/xkkIWUymCOO

Reading is done with 1 errors


In [113]:
test = read_data('data/CAp/test_set_wlabels.txt')

In [22]:
len(all_data[82][0]), len(all_data[82][1])

(12, 12)

In [23]:
untokenize(all_data[82][0])

"dantesque, une visite au cimeti√®re de laeken s'impose @museerodinparis"

In [24]:
output

{'_type': 'SpellCheck',
 'correctionType': 'High',
 'flaggedTokens': [{'offset': 55,
   'suggestions': [{'score': 1, 'suggestion': 'musee rodin paris'}],
   'token': 'museerodinparis',
   'type': 'UnknownToken'}]}

In [20]:
all_data[82]

(['dantesque',
  ',',
  'une',
  'visite',
  'au',
  'cimeti√®re',
  'de',
  'laeken',
  's',
  "'",
  'impose',
  '@museerodinparis'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-geoloc', 'O', 'O', 'O', 'O'])

In [59]:
len(fixed)

2624

In [57]:
spellsafe(' '.join(tokens), output)

token:  rera 	suggest:  rer a
token:  qml #uxol75 	suggest:  qmluxol75


"j' ai un #rera \\ o / go cergy quand il veut #qml #uxol75"

In [None]:
fixed = []

In [63]:
for tokens, tags in tqdm(all_data[2624:]):
    data = {'text': untokenize(tokens)}
    body = urllib.parse.urlencode(data)
    conn.request ("POST", path + params, body, headers)
    response = conn.getresponse()
    output = json.loads(response.read())
    
    fixed_text = spellsafe(' '.join(tokens), output)
    fixed_tokens = fixed_text.split(' ')
    assert len(fixed_tokens) == len(tags), output

    fixed.append((fixed_tokens, tags))
    sleep(1/100.)

  1%|          | 2/377 [00:00<00:57,  6.57it/s]

token:  rera 	suggest:  rer a
token:  qml #uxol75 	suggest:  qmluxol75
token:  rerb 	suggest:  rer b


  1%|          | 4/377 [00:00<00:55,  6.67it/s]

token:  #rer 	suggest:  rer b
token:   stationn 	suggest:  stationner
token:   cite 	suggest:  cite u


  2%|‚ñè         | 9/377 [00:01<00:53,  6.88it/s]

token:  m√©tro4 	suggest:  m√©tro 4
token:  rera 	suggest:  rer a


  4%|‚ñé         | 14/377 [00:02<00:56,  6.48it/s]

token:  ligne1 	suggest:  ligne 1
token:  rera 	suggest:  rer a


  5%|‚ñç         | 18/377 [00:02<00:54,  6.61it/s]

token:  ligne14 	suggest:  ligne 14
token:  ligne13 	suggest:  ligne 13
token:  grouperatp 	suggest:  groupe ratp
token:  ligne10 	suggest:  ligne 10
token:  subwaypeople 	suggest:  subway people


  7%|‚ñã         | 27/377 [00:04<00:53,  6.50it/s]

token:  rerb 	suggest:  rer b


  8%|‚ñä         | 30/377 [00:04<00:52,  6.57it/s]

token:  weekend 	suggest:  week end


  8%|‚ñä         | 31/377 [00:04<00:52,  6.55it/s]

token:  sncfmonopole 	suggest:  sncf monopole


 11%|‚ñà‚ñè        | 43/377 [00:06<00:50,  6.56it/s]

token:  rerd 	suggest:  rer d


 12%|‚ñà‚ñè        | 45/377 [00:06<00:50,  6.58it/s]

token:  rera 	suggest:  rer a
token:  rera 	suggest:  rer a


 13%|‚ñà‚ñé        | 50/377 [00:07<00:49,  6.64it/s]

token:  rera 	suggest:  rer a


 15%|‚ñà‚ñç        | 56/377 [00:08<00:48,  6.67it/s]

token:   circulation 	suggest:  circulation
token:  #laverrier 	suggest:  la verriere
token:  #ladefens 	suggest:  la d√©fense


 16%|‚ñà‚ñã        | 62/377 [00:09<00:46,  6.71it/s]

token:  rera 	suggest:  rer a


 17%|‚ñà‚ñã        | 64/377 [00:09<00:46,  6.72it/s]

token:  lignej 	suggest:  ligne j


 19%|‚ñà‚ñâ        | 73/377 [00:10<00:45,  6.75it/s]

token:  rerb 	suggest:  rer b


 20%|‚ñà‚ñâ        | 75/377 [00:11<00:44,  6.74it/s]

token:  rera 	suggest:  rer a


 21%|‚ñà‚ñà        | 79/377 [00:11<00:44,  6.77it/s]

token:  rera 	suggest:  rer a


 21%|‚ñà‚ñà‚ñè       | 81/377 [00:11<00:43,  6.79it/s]

token:  rerb 	suggest:  rer b


 22%|‚ñà‚ñà‚ñè       | 83/377 [00:12<00:43,  6.80it/s]

token:  #ligne 	suggest:  ligne j


 24%|‚ñà‚ñà‚ñç       | 90/377 [00:13<00:42,  6.75it/s]

token:  rerb 	suggest:  rer b


 25%|‚ñà‚ñà‚ñç       | 93/377 [00:13<00:41,  6.76it/s]

token:  rerb 	suggest:  rer b


 26%|‚ñà‚ñà‚ñå       | 97/377 [00:14<00:41,  6.77it/s]

token:   #re 	suggest:  rer b


 27%|‚ñà‚ñà‚ñã       | 102/377 [00:15<00:40,  6.78it/s]

token:  rera 	suggest:  rer a


 28%|‚ñà‚ñà‚ñä       | 105/377 [00:15<00:40,  6.80it/s]

token:  rera 	suggest:  rer a


 30%|‚ñà‚ñà‚ñâ       | 113/377 [00:16<00:38,  6.78it/s]

token:  rerb 	suggest:  rer b
token:  saint-r√©my 	suggest:  saint r√©my


 32%|‚ñà‚ñà‚ñà‚ñè      | 119/377 [00:17<00:38,  6.78it/s]

token:  rerb 	suggest:  rer b
token:  rerb 	suggest:  rer b


 32%|‚ñà‚ñà‚ñà‚ñè      | 122/377 [00:17<00:37,  6.79it/s]

token:  rerb 	suggest:  rer b


 33%|‚ñà‚ñà‚ñà‚ñé      | 123/377 [00:18<00:37,  6.79it/s]

token:   infotrafi 	suggest:  info trafic


 33%|‚ñà‚ñà‚ñà‚ñé      | 125/377 [00:18<00:37,  6.75it/s]

token:  rerb 	suggest:  rer b
token:  pointgreve 	suggest:  point greve


 35%|‚ñà‚ñà‚ñà‚ñç      | 131/377 [00:19<00:36,  6.72it/s]

token:  rera 	suggest:  rer a


 35%|‚ñà‚ñà‚ñà‚ñå      | 133/377 [00:19<00:36,  6.72it/s]

token:   #re 	suggest:  rer d


 39%|‚ñà‚ñà‚ñà‚ñâ      | 147/377 [00:21<00:33,  6.78it/s]

token:  rerb 	suggest:  rer b


 41%|‚ñà‚ñà‚ñà‚ñà      | 155/377 [00:22<00:32,  6.79it/s]

token:  rerc 	suggest:  rer c


 46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 175/377 [00:26<00:30,  6.70it/s]

token:  parismontparnasse 	suggest:  paris montparnasse


 47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 177/377 [00:26<00:29,  6.70it/s]

token:  lesgens 	suggest:  les gens


 48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 180/377 [00:26<00:29,  6.71it/s]

token:  rerd 	suggest:  rer d


 49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 185/377 [00:27<00:28,  6.69it/s]

token:  lignej 	suggest:  ligne j


 50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 187/377 [00:27<00:28,  6.70it/s]

token:  rerb 	suggest:  rer b


 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 195/377 [00:29<00:27,  6.69it/s]

token:  rerb 	suggest:  rer b
token:  rerb 	suggest:  rer b


 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 197/377 [00:29<00:26,  6.69it/s]

token:  rerb 	suggest:  rer b


 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 199/377 [00:29<00:26,  6.69it/s]

token:  rerb 	suggest:  rer b


 54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 203/377 [00:30<00:26,  6.68it/s]

token:  rerc 	suggest:  rer c
token:  rerb 	suggest:  rer b


 54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 205/377 [00:30<00:25,  6.69it/s]

token:  rerb 	suggest:  rer b


 56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 211/377 [00:31<00:24,  6.71it/s]

token:  rerb 	suggest:  rer b
token:  stlazare 	suggest:  st lazare
token:  lignel 	suggest:  ligne l
token:  lignej 	suggest:  ligne j


 57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 214/377 [00:31<00:24,  6.71it/s]

token:  rerb 	suggest:  rer b


 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 233/377 [00:34<00:21,  6.70it/s]

token:  rerb 	suggest:  rer b
token:  d' apr√®s 	suggest:  d'apr√®s
token:  rerb 	suggest:  rer b


 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 235/377 [00:35<00:21,  6.70it/s]

token:  rerc 	suggest:  rer c


 64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 242/377 [00:36<00:20,  6.71it/s]

token:  rera 	suggest:  rer a
token:  lignej 	suggest:  ligne j


 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 245/377 [00:36<00:19,  6.72it/s]

token:  rera 	suggest:  rer a


 66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 247/377 [00:36<00:19,  6.72it/s]

token:  rerc 	suggest:  rer c
token:  rerb 	suggest:  rer b


 67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 251/377 [00:37<00:18,  6.71it/s]

token:  rerb 	suggest:  rer b
token:  stlazard 	suggest:  st lazare


 67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 253/377 [00:37<00:18,  6.71it/s]

token:  rera 	suggest:  rer a


 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 255/377 [00:38<00:18,  6.69it/s]

token:  rerb 	suggest:  rer b
token:  valdefontenay 	suggest:  val de fontenay


 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 258/377 [00:38<00:17,  6.68it/s]

token:  rerb 	suggest:  rer b


 69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 260/377 [00:38<00:17,  6.68it/s]

token:  rera 	suggest:  rer a


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 264/377 [00:39<00:16,  6.68it/s]

token:  sudrail 	suggest:  sud rail
token:  saintlazare 	suggest:  saint lazare
token:  timothelefebvre 	suggest:  timothe lefebvre
token:  #tableronderat 	suggest:  table ronde ratp


 72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 271/377 [00:40<00:15,  6.69it/s]

token:  rera 	suggest:  rer a


 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 278/377 [00:41<00:14,  6.70it/s]

token:  lignel 	suggest:  ligne l
token:  versaillesrd 	suggest:  versailles rd
token:  saintlazare 	suggest:  saint lazare
token:   l' heur 	suggest:  l'heure


 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 283/377 [00:42<00:14,  6.70it/s]

token:  rerb 	suggest:  rer b


 76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 285/377 [00:42<00:13,  6.71it/s]

token:  rera 	suggest:  rer a


 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 289/377 [00:43<00:13,  6.71it/s]

token:  rera 	suggest:  rer a


 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 296/377 [00:44<00:12,  6.71it/s]

token:  rerb 	suggest:  rer b
token:  rerb 	suggest:  rer b


 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 304/377 [00:48<00:11,  6.24it/s]

token:  rera 	suggest:  rer a


 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 307/377 [00:49<00:11,  6.25it/s]

token:  rerb 	suggest:  rer b


 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 314/377 [00:50<00:10,  6.27it/s]

token:  rera 	suggest:  rer a
token:  rera 	suggest:  rer a


 84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 316/377 [00:50<00:09,  6.27it/s]

token:  rera 	suggest:  rer a


 84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 318/377 [00:50<00:09,  6.28it/s]

token:  @rer 	suggest:  rer a


 89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 335/377 [00:53<00:06,  6.28it/s]

token:  rerb 	suggest:  rer b


 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 338/377 [00:53<00:06,  6.28it/s]

token:  rera 	suggest:  rer a


 91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 342/377 [00:54<00:05,  6.29it/s]

token:  infotrafic 	suggest:  info trafic
token:  infotrafic 	suggest:  info trafic


 92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 346/377 [00:54<00:04,  6.30it/s]

token:  envrac 	suggest:  en vrac


 93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 349/377 [00:55<00:04,  6.30it/s]

token:  rerb 	suggest:  rer b


 97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 364/377 [00:57<00:02,  6.31it/s]

token:  rerb 	suggest:  rer b
token:  lignej 	suggest:  ligne j


 98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 371/377 [00:58<00:00,  6.32it/s]

token:  rerb 	suggest:  rer b
token:  rerd 	suggest:  rer d


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 376/377 [00:59<00:00,  6.34it/s]

token:  cagade 	suggest:  cage de
token:  lignej 	suggest:  ligne j


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 377/377 [00:59<00:00,  6.34it/s]


In [65]:
with open('../data/CAp/fixed.pkl', 'wb') as f:
    pickle.dump(fixed, f)

In [64]:
len(fixed)

3001

In [66]:
len(fixed) == len(all_data)

True

In [67]:
all_data = read_data('../data/CAp/test_set_wlabels.txt')

In [70]:
fixed = []

for tokens, tags in tqdm(all_data[2624:]):
    data = {'text': untokenize(tokens)}
    body = urllib.parse.urlencode(data)
    conn.request ("POST", path + params, body, headers)
    response = conn.getresponse()
    output = json.loads(response.read())
    
    fixed_text = spellsafe(' '.join(tokens), output)
    fixed_tokens = fixed_text.split(' ')
    assert len(fixed_tokens) == len(tags), output

    fixed.append((fixed_tokens, tags))
    sleep(1/100.)

  5%|‚ñç         | 52/1066 [00:07<02:20,  7.19it/s]

token:   marvy 	suggest:  marvin


  5%|‚ñå         | 55/1066 [00:07<02:19,  7.24it/s]

token:  rt @darlingloraine: #mardiconseil #surlaroute le rouleau original #jackkerouac @folio_livres https://t.co/am4kuz0f7 	suggest:  rt darling lorraine mardi conseil sur la route le rouleau original jack kerouac folio livres https t am4kuz0f7q


  6%|‚ñå         | 66/1066 [00:09<02:18,  7.22it/s]

token:   me 	suggest:  les
token:   suchi 	suggest:  sushis
token:  s otam 	suggest:  amis


  7%|‚ñã         | 78/1066 [00:10<02:18,  7.15it/s]

token:  adambombole 	suggest:  adam bombole


 12%|‚ñà‚ñè        | 127/1066 [00:17<02:12,  7.06it/s]

token:  en ondes: comme des enfants en cavale par alexandre poulin https://t.co/dsoq1qvprq #radio√©nergie #nowplaying 	suggest:  en ondes comme des enfants en cavale par alexandre poulin https tdsoq1qvprq radio √©nergie now playing


 17%|‚ñà‚ñã        | 178/1066 [00:25<02:05,  7.07it/s]

token:   franci 	suggest:  france


 20%|‚ñà‚ñà        | 215/1066 [00:30<02:00,  7.06it/s]

token:  musictwitter 	suggest:  music twitter


 27%|‚ñà‚ñà‚ñã       | 285/1066 [00:40<01:51,  6.99it/s]

token:   tunnin 	suggest:  tuning


 32%|‚ñà‚ñà‚ñà‚ñè      | 338/1066 [00:47<01:42,  7.08it/s]

token:  rt @wassimbensliman: qui a dit que le freestyle ne pouvait pas coller avec classe? https://t.co/wbefvrw1i 	suggest:  rt wassim ben sliman qui a dit que le freestyle ne pouvait pas coller avec classe https t wbefvrw1ij


 33%|‚ñà‚ñà‚ñà‚ñé      | 353/1066 [00:50<01:41,  7.05it/s]

token:  jfais 	suggest:  j fais


 35%|‚ñà‚ñà‚ñà‚ñå      | 377/1066 [00:53<01:37,  7.05it/s]

token:  rt @cecileduflot: les joies des dm... #feminisme #encoreduboulot https://t.co/uv1wbn25w 	suggest:  rt cecile duflot les joies des dm feminisme encoreduboulot https t uv1wbn25wr


 36%|‚ñà‚ñà‚ñà‚ñã      | 389/1066 [00:55<01:36,  7.05it/s]

token:  rt @rihannafrance: expliquez-lui svp. https://t.co/dhmxswp7p 	suggest:  rt rihanna france expliquer lui svp https t dmxswp7p7


 39%|‚ñà‚ñà‚ñà‚ñä      | 413/1066 [00:58<01:32,  7.07it/s]

token:  bluzzimc 	suggest:  buzz imc


 51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 541/1066 [01:17<01:15,  6.94it/s]

token:  ce la 	suggest:  cela
token:  francequidort 	suggest:  france qui dort


 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 590/1066 [01:25<01:08,  6.94it/s]

token:  vanack 	suggest:  van ack


 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 629/1066 [01:30<01:02,  6.96it/s]

token:  rerb 	suggest:  rer b
token:  rerb 	suggest:  rer b


 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 641/1066 [01:32<01:01,  6.96it/s]

token:  mi09 	suggest:  mi 09
token:  #rer 	suggest:  rer a
token:  n √©o 	suggest:  √©cole
token:  rerb 	suggest:  rer b


 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 644/1066 [01:32<01:00,  6.96it/s]

token:  lignej 	suggest:  ligne j


 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 660/1066 [01:34<00:58,  6.96it/s]

token:  lignej 	suggest:  ligne j


 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 662/1066 [01:35<00:58,  6.96it/s]

token:  rera 	suggest:  rer a


 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 664/1066 [01:35<00:57,  6.96it/s]

token:  lignej 	suggest:  ligne j
token:  plaisirgrignon 	suggest:  plaisir grignon


 63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 667/1066 [01:35<00:57,  6.96it/s]

token:  ligne13 	suggest:  ligne 13


 63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 669/1066 [01:36<00:57,  6.96it/s]

token:  lignehaine 	suggest:  ligne haine


 63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 672/1066 [01:36<00:56,  6.96it/s]

token:  boiscolombes 	suggest:  bois colombes


 63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 675/1066 [01:36<00:56,  6.96it/s]

token:  stlazare 	suggest:  st lazare
token:  lignej 	suggest:  ligne j


 64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 678/1066 [01:37<00:55,  6.96it/s]

token:  lignej 	suggest:  ligne j


 64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 680/1066 [01:37<00:55,  6.96it/s]

token:  rerd 	suggest:  rer d


 64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 686/1066 [01:38<00:54,  6.96it/s]

token:  rerb 	suggest:  rer b


 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 693/1066 [01:39<00:53,  6.95it/s]

token:  j' aime 	suggest:  j'aime


 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 696/1066 [01:40<00:53,  6.95it/s]

token:  rerb 	suggest:  rer b


 66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 700/1066 [01:40<00:52,  6.94it/s]

token:  rerd 	suggest:  rer d


 66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 707/1066 [01:41<00:51,  6.94it/s]

token:  sest 	suggest:  s est
token:  rera 	suggest:  rer a


 67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 713/1066 [01:42<00:50,  6.95it/s]

token:   infotrafi 	suggest:  info trafic
token:   #lign 	suggest:  ligne


 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 723/1066 [01:43<00:49,  6.96it/s]

token:  #rer 	suggest:  rer c
token:  rerb 	suggest:  rer b


 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 729/1066 [01:44<00:48,  6.96it/s]

token:  rera 	suggest:  rer a


 69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 735/1066 [01:45<00:47,  6.96it/s]

token:   infotrafi 	suggest:  info trafic
token:  u saint-clo 	suggest:  saint cloud
token:   #lign 	suggest:  ligne


 69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 739/1066 [01:46<00:46,  6.96it/s]

token:  n' est 	suggest:  n'est
token:  l' heure 	suggest:  l'heure
token:  lignej 	suggest:  ligne j


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 741/1066 [01:46<00:46,  6.97it/s]

token:   infotrafi 	suggest:  info trafic


 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 746/1066 [01:47<00:45,  6.96it/s]

token:  rerb 	suggest:  rer b
token:  j' aime 	suggest:  j'aime
token:  rerb 	suggest:  rer b


 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 759/1066 [01:49<00:44,  6.96it/s]

token:  ligne13 	suggest:  ligne 13
token:  p #lign 	suggest:  ligne 13
token:  ray j' ar 	suggest:  j'arrive


 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 761/1066 [01:49<00:43,  6.96it/s]

token:  #mot 	suggest:  top 5
token:  ligne11 	suggest:  ligne 11
token:  rera 	suggest:  rer a


 72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 763/1066 [01:49<00:43,  6.96it/s]

token:  rera 	suggest:  rer a


 72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 769/1066 [01:50<00:42,  6.97it/s]

token:  ligne14 	suggest:  ligne 14
token:  ligne1 	suggest:  ligne 1
token:   au tou 	suggest:  autour
token:  @ligne1 	suggest:  ligne 11


 72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 771/1066 [01:50<00:42,  6.97it/s]

token:  ligne12 	suggest:  ligne 12
token:  rerb 	suggest:  rer b
token:  ligne14 	suggest:  ligne 14


 73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 780/1066 [01:52<00:41,  6.96it/s]

token:  rera 	suggest:  rer a
token:  ladefense 	suggest:  la defense
token:  rera 	suggest:  rer a


 73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 783/1066 [01:52<00:40,  6.97it/s]

token:  rera 	suggest:  rer a


 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 796/1066 [01:54<00:38,  6.96it/s]

token:  n' est 	suggest:  n'est
token:  lignej 	suggest:  ligne j


 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 798/1066 [01:54<00:38,  6.96it/s]

token:  #rer 	suggest:  rer a
token:   #statistiquesbido 	suggest:  statistiques bidons


 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 800/1066 [01:54<00:38,  6.96it/s]

token:  quivapartirenpremier 	suggest:  quivapartir en premier
token:  ladefense 	suggest:  la defense
token:  rera 	suggest:  rer a


 76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 806/1066 [01:55<00:37,  6.96it/s]

token:  rerb 	suggest:  rer b


 76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 809/1066 [01:56<00:36,  6.95it/s]

token:  rera 	suggest:  rer a


 76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 813/1066 [01:56<00:36,  6.95it/s]

token:   infotrafi 	suggest:  info trafic
token:   #lign 	suggest:  ligne


 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 820/1066 [01:57<00:35,  6.95it/s]

token:  rerb! #ulle24 	suggest:  rerbulle24
token:  l' heure 	suggest:  l'heure
token:  vertgalant 	suggest:  vert galant


 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 823/1066 [01:58<00:34,  6.95it/s]

token:  rerb 	suggest:  rer b


 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 825/1066 [01:58<00:34,  6.95it/s]

token:  rera 	suggest:  rer a


 78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 828/1066 [01:59<00:34,  6.95it/s]

token:  enzo59 	suggest:  enzo 59
token:  rerb 	suggest:  rer b
token:  rerb 	suggest:  rer b


 78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 832/1066 [01:59<00:33,  6.95it/s]

token:  rerd 	suggest:  rer d


 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 839/1066 [02:00<00:32,  6.95it/s]

token:  lad√©fense 	suggest:  la d√©fense


 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 846/1066 [02:01<00:31,  6.96it/s]

token:  d' ailleurs 	suggest:  d'ailleurs
token:  rerb 	suggest:  rer b


 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 848/1066 [02:01<00:31,  6.96it/s]

token:  rerb 	suggest:  rer b


 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 854/1066 [02:02<00:30,  6.97it/s]

token:  rerb 	suggest:  rer b
token:  envoyespecial 	suggest:  envoye special


 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 857/1066 [02:02<00:29,  6.97it/s]

token:  rerd 	suggest:  rer d
token:  rerb 	suggest:  rer b
token:  rerc 	suggest:  rer c
token:  rerd 	suggest:  rer d
token:  rerb 	suggest:  rer b
token:  rerc 	suggest:  rer c


 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 862/1066 [02:03<00:29,  6.97it/s]

token:  ligne1 	suggest:  ligne 1


 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 866/1066 [02:04<00:28,  6.97it/s]

token:  j' suis 	suggest:  j'suis
token:  ligneh 	suggest:  ligne h
token:  ligneh 	suggest:  ligne h


 82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 874/1066 [02:05<00:27,  6.97it/s]

token:  rera 	suggest:  rer a
token:  envoyespeciale 	suggest:  envoye speciale


 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 889/1066 [02:07<00:25,  6.98it/s]

token:  lesgens 	suggest:  les gens


 84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 899/1066 [02:08<00:23,  6.97it/s]

token:  rerd 	suggest:  rer d


 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 906/1066 [02:09<00:22,  6.97it/s]

token:  rerb 	suggest:  rer b


 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 908/1066 [02:10<00:22,  6.97it/s]

token:  rerb 	suggest:  rer b
token:  rerb 	suggest:  rer b


 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 911/1066 [02:10<00:22,  6.96it/s]

token:  rerb 	suggest:  rer b
token:  rerb 	suggest:  rer b
token:  saint-r√©my 	suggest:  saint r√©my


 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 927/1066 [02:13<00:19,  6.96it/s]

token:  rerb 	suggest:  rer b


 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 929/1066 [02:13<00:19,  6.96it/s]

token:  rerb 	suggest:  rer b


 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 932/1066 [02:13<00:19,  6.96it/s]

token:  rerb 	suggest:  rer b


 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 935/1066 [02:14<00:18,  6.96it/s]

token:  d' un 	suggest:  d'un
token:  rerb 	suggest:  rer b


 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 938/1066 [02:16<00:18,  6.87it/s]

token:  rerc 	suggest:  rer c
token:  rerc 	suggest:  rer c


 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 942/1066 [02:17<00:18,  6.86it/s]

token:   quo 	suggest:  qu on
token:  smileytrains #qml 	suggest:  smileytrainsqml
token:  c' est 	suggest:  c'est


 89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 945/1066 [02:17<00:17,  6.86it/s]

token:  #ligne 	suggest:  ligne h


 89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 948/1066 [02:18<00:17,  6.86it/s]

token:  rerb 	suggest:  rer b


 89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 954/1066 [02:18<00:16,  6.87it/s]

token:  rerb 	suggest:  rer b
token:  qml mdddr 	suggest:  qmlmdddr


 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 964/1066 [02:20<00:14,  6.87it/s]

token:   infotrafi 	suggest:  info trafic
token:   #lign 	suggest:  ligne
token:   infotrafi 	suggest:  info trafic
token:   #lign 	suggest:  ligne


 91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 969/1066 [02:21<00:14,  6.87it/s]

token:  rerb 	suggest:  rer b
token:  rerb 	suggest:  rer b


 91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 972/1066 [02:21<00:13,  6.87it/s]

token:  ligneh 	suggest:  ligne h


 92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 977/1066 [02:22<00:12,  6.87it/s]

token:  rerc 	suggest:  rer c


 92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 980/1066 [02:22<00:12,  6.87it/s]

token:  rerd 	suggest:  rer d
token:   √©ffectu√© 	suggest:  effectu√©
token:  c' est 	suggest:  c'est
token:  rerc 	suggest:  rer c


 92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 982/1066 [02:23<00:12,  6.87it/s]

token:  rerd 	suggest:  rer d
token:  ligne13 	suggest:  ligne 13


 92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 984/1066 [02:23<00:11,  6.86it/s]

token:  ligne7 	suggest:  ligne 7
token:  ligne13 	suggest:  ligne 13


 93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 990/1066 [02:24<00:11,  6.87it/s]

token:  ligne1 	suggest:  ligne 1


 93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 992/1066 [02:24<00:10,  6.87it/s]

token:  ligneh 	suggest:  ligne h


 93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 994/1066 [02:24<00:10,  6.87it/s]

token:  ligneh 	suggest:  ligne h
token:  rerc 	suggest:  rer c


 94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 998/1066 [02:25<00:09,  6.87it/s]

token:  rerd 	suggest:  rer d


 94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 1007/1066 [02:26<00:08,  6.87it/s]

token:  rerb 	suggest:  rer b
token:  lignen 	suggest:  ligne n
token:  lignesnetu 	suggest:  lignes net


 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 1010/1066 [02:26<00:08,  6.87it/s]

token:  rera 	suggest:  rer a
token:  : ofre 	suggest:  offre 48
token:  - ofre 	suggest:  offre 50


 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 1016/1066 [02:27<00:07,  6.87it/s]

token:  rera 	suggest:  rer a
token:  : ofre 	suggest:  offre 52
token:  a l' heu 	suggest:  l'heure


 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 1020/1066 [02:28<00:06,  6.87it/s]

token:  rera 	suggest:  rer a


 97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 1031/1066 [02:29<00:05,  6.88it/s]

token:  gdlyon 	suggest:  gd lyon
token:  rera 	suggest:  rer a
token:  l' heure 	suggest:  l'heure


 97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 1035/1066 [02:30<00:04,  6.88it/s]

token:  rera 	suggest:  rer a


 97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 1039/1066 [02:31<00:03,  6.88it/s]

token:  rera 	suggest:  rer a


 98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 1046/1066 [02:32<00:02,  6.88it/s]

token:  rera 	suggest:  rer a


 99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 1051/1066 [02:32<00:02,  6.88it/s]

token:  rerpourtouspowa rt 	suggest:  repourtouspowart
token:  imnotalone: #rer 	suggest:  imnotlonerera


 99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 1056/1066 [02:33<00:01,  6.88it/s]

token:  rera 	suggest:  rer a


 99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 1059/1066 [02:33<00:01,  6.88it/s]

token:  rera 	suggest:  rer a
token:  jusqu' √† 	suggest:  jusqu'√†
token:  env. 	suggest:  en v
token:  j' appelle 	suggest:  j'appelle
token:  rera 	suggest:  rer a


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 1061/1066 [02:34<00:00,  6.88it/s]

token:  ladefense 	suggest:  la defense
token:  rera 	suggest:  rer a
token:  rera 	suggest:  rer a


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 1063/1066 [02:34<00:00,  6.88it/s]

token:  rera 	suggest:  rer a


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1066/1066 [02:34<00:00,  6.88it/s]


In [71]:
with open('../data/CAp/test_spellchecked.pkl', 'wb') as f:
    pickle.dump(fixed, f)

# Loading and splitting train set

In [96]:
with open('data/CAp/fixed.pkl', 'rb') as f:
    fixed = pickle.load(f)

In [114]:
# for original dataset:
fixed = all_data

In [121]:
VAL_SIZE = 0.15

indices = list(range(len(fixed)))
np.random.shuffle(indices)

val_idx = indices[:int(len(indices) * VAL_SIZE)]
train_idx = indices[len(val_idx):]

train = []
valid = []

for i in train_idx:
    train.append(fixed[i])

for i in val_idx:
    valid.append(fixed[i])

In [122]:
len(train), len(valid)

(2551, 450)

In [109]:
train[0]

(['@theedadr',
  '@gaton__',
  'la',
  'c‚Äôest',
  'bon',
  'on',
  'devrait',
  'pas',
  'le',
  'voir',
  'avant',
  '#',
  'ans',
  'minimum',
  'üòÇ'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'])

In [110]:
valid[0]

(['purger',
  'sa',
  'peine',
  'au',
  'plus',
  'proche',
  'des',
  'siens',
  '.',
  'https://t.co/nrwm5p241u'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'])

In [83]:
with open('../data/CAp/test_spellchecked.pkl', 'rb') as f:
    test = pickle.load(f)

In [84]:
len(test)

1066

In [125]:
test[1]

(['rt',
  '@cestrosi',
  ':',
  'ce',
  'midi',
  ',',
  'j',
  "'",
  'ai',
  'rappel√©',
  'notre',
  'volont√©',
  'sans',
  'faille',
  'de',
  'construire',
  'ligne',
  '√†',
  'grande',
  'vitesse',
  'ds',
  'notre',
  'r√©gion',
  '#projetlnpca',
  'https://t',
  '.',
  'c',
  '‚Ä¶'],
 ['O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O'])

In [123]:
dataset_dict = {'train': train, 'valid': valid, 'test': test}

In [126]:
with open('data/CAp/dataset_original_dict.pkl', 'wb') as f:
    pickle.dump(dataset_dict, f)

In [87]:
with open('../data/CAp/dataset_dict.pkl', 'wb') as f:
    pickle.dump(dataset_dict, f)