In [None]:
"""
Get articles/texts, and filter only sentences with white-listed vocab OR named entities.

Contents:
-load packages
-create helper functions
-data intialization from csv file of words &
 extend vocab set
-build data structure to house info moving forward
-write to .json formats
-read from existing .json formats
-get white-listed of words and inflections
-scrape journale en francais facile
"""

In [1]:
import bs4, requests, sys, codecs, urllib.request, re
from bs4 import SoupStrainer
from bs4.element import Comment
import random
import string
import json
import pandas as pd
import os
from os import listdir
from os.path import isfile, join
import mlconjug3
import sklearn
import goslate
from nltk.tokenize import word_tokenize, sent_tokenize
import pprint
pp = pprint.PrettyPrinter()
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', 0)
import mitosheet
import translators as ts

Using state Washington server backend.


In [2]:
def add_noun(add_word):

    if add_word[len(add_word)-1] != 's' and add_word[len(add_word)-1] != 'x':

        out_word = add_word + 's'

        return out_word
    else:
        return add_word

In [3]:
##METHODS

def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


def text_from_html(body):
    soup = bs4.BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)  
    return u" ".join(t.strip() for t in visible_texts)



user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'
headers={'User-Agent':user_agent,}


In [5]:
def get_known(unknown_list):
    
    count_got = 0
    known_list = []
    count_checked = 0
    for word in unknown_list:
        count_checked += 1
        decision = str(input(word+"\nKnown =k"))
        if decision =='k':
            known_list.append(word)
            count_got +=1
            print("got "+str(count_got))
        elif decision=='q':
            break
        print(str(len(unknown_list)-count_checked)+' remaining')
    return known_list

In [52]:
def review_out(out_dict,prev_learned,eb_unk_in,eb_unk_m_in,examples,counters):
    """
    out_dict = out
    prev_learned = eb_learned
    eb_unk_in =  eb_unk
    eb_unk_m_in = eb_unk_morph
    examples = eb_unk_examples
    
    decisions:
    k = word known, remove from eb_unk and eb_unk_morph
        and add to eb_learned
        
    m = remove morph from eb_unk and eb_unk_morph 
    
    a = add example to eb_unk_examples
    q = quit for day
    """
    
    for word in out_dict.keys():
        print("Lemma: "+word)
        print('')
        print("Morph: "+str(out_dict[word]['morph']))

        if len(examples[word])>0:
            print("Previous examples: ")
            for sent in examples[word]:
                print(" - "+sent)

        print("New examples: ")

        i = 0
        decision = ''
        while (i < len(out_dict[word]['sents'])) and (decision!='s')\
        and (decision!='q'):

            sent = out_dict[word]['sents'][i]
            if (sent not in examples[word]) and (sent not in counters[word]):
                print(sent)
                print('')
                decision = str(input("options : k,m,a,q,s,c"))
                if decision =='k':
                    try:
                        examples[word].append(sent) #by default adds examples
                        prev_learned[word] = eb_unk_in[word].copy()
                        del eb_unk_in[word] #remove lemma

                        i = 0
                        while i < len(eb_unk_m_in):

                            if eb_unk_m_in[list(eb_unk_m_in)[i]] == word:
                               del eb_unk_m_in[list(eb_unk_m_in)[i]]
                            else:
                                i +=1
                    except:
                        pass

                if decision =='m':
                    morph = str(input("which morph:"))
                    try:
                        del eb_unk_m_in[morph]
                        eb_unk_in[word].remove(morph) 
                    except:
                        pass
                if decision =='a':
                    try:
                        examples[word].append(sent)
                    except:
                        pass
                if decision=='c':
                    counters[word].append(sent)
                if decision =='q':
                    break
            i += 1
    

In [5]:
def how_to_add(word):
    """
    p = plain, add without conjurgating or changing
    c = conjugate as normal verb
    x = noun that adds x when plural
    s = noun that add s when plural
    iv = inner verb. There is a verb in the expression that should be 
        conjurgated
    """
    extras_morphs = []
    extras_morphs.append(word)
    
    
    gs = goslate.Goslate()

    default_conjugator = mlconjug3.Conjugator(language='fr')

    decision = str(input(word+"\nc\nx\ns\niv"))
    
    if decision == 'c':

        try:
            temp = []
            test_verb = default_conjugator.conjugate(word)
            all_conjugated_forms = test_verb.iterate()
            for item in all_conjugated_forms:
                if item not in temp:
                    temp.append(item[len(item)-1])
            extras_morphs.extend(list(set(temp)))
        except:
            pass
    elif decision == 'x':
        extras_morphs.append(lemma+'x')
    elif decision == 's':
        extras_morphs.append(lemma+'s')
    elif decision == 'iv':
        morph = str(input("which morph:"))
        

        temp = []
        test_verb = default_conjugator.conjugate(morph)
        all_conjugated_forms = test_verb.iterate()
        for item in all_conjugated_forms:
            if item not in temp:
                temp.append(item[len(item)-1])

        for variant in list(set(temp)):
            if variant is not None:
                new_word = word.replace(morph,variant)
                extras_morphs.append(new_word)

    return extras_morphs

In [84]:
"""
For eb_unk words: search through all articles, return 
sentences containing any words for unknown vocabulary. 

return dict object, key is lemma, then values are morphs found
and array of examples. 
"""

def find_unks(webpages,eb_unk_mo,prev_examples, prev_counter_examples):
    
    output = {}
    for webpage in webpages:
        try:

            request=urllib.request.Request(webpage,None,headers) #The assembled request
            response = urllib.request.urlopen(request)
            data = response.read()
            contents = text_from_html(data)

            contents_array = sent_tokenize(contents)

            for line in contents_array:
                tokenized = word_tokenize(line, language='french')
                for word in tokenized:
                    if word.lower() in eb_unk_mo:

                        if word.lower() in prev_examples:
                            if (line not in prev_examples[word.lower()]) and \
                            (line not in prev_counter_examples[word.lower()]):
                                if word.lower() not in output:
                                    output[eb_unk_mo[word.lower()]] = {} #key will be lemma
                                    output[eb_unk_mo[word.lower()]]['morph'] = []
                                    output[eb_unk_mo[word.lower()]]['sents'] = []

                                output[eb_unk_mo[word.lower()]]['morph'].append(word.lower())
                                output[eb_unk_mo[word.lower()]]['sents'].append(line)

        except:
            pass
    return output
    

In [7]:
def filter_text(webpage,text=None,print_word_lvl=False):


    #try:
    if text is None:
        request=urllib.request.Request(webpage,None,headers) #The assembled request
        response = urllib.request.urlopen(request)
        data = response.read()
        contents = text_from_html(data)
    else:
        contents = webpage

    line_array = []
    percent_array = []
    contents_array = sent_tokenize(contents)

    disallowed_words = set()
    total_words = 0
    unknown_words = 0
    lines = []
    unknowns = []
    
    for line in contents_array:
        
        line_total = 0
        line_unks = 0
        tokenized = word_tokenize(line, language='french')

        unk_str = ""
        for word in tokenized:
            total_words +=1
            line_total +=1

            if not (bool(re.search("[0-9]", word)) or\
                    bool(re.search("[A-Z]", word)) or\
                    bool(re.search("[.,\/#!$%\^&\*;:{}=\-_`~()«»]", word)) or\
                    word.lower() in vocab['white_listed']):
                if not ((word.lower() in vocab['white_listed']) or (word.lower() in vocab['black_listed'])):
                    unk_str += '"'+word.lower()+'"'+", "

                disallowed_words.add(word.lower())
                unknown_words +=1
                line_unks +=1


        line_array.append(line)
        line_percent = (line_total-line_unks)/line_total
        percent_array.append(line_percent)

        if len(unk_str)>0:
            unk_str = unk_str[0:len(unk_str)-1]

        unknowns.append(unk_str)

    if print_word_lvl and total_words>0:
        print("word-level % known = "+str((1-(unknown_words/total_words))*100))

    return_pd = pd.DataFrame(list(zip(line_array,percent_array,unknowns)))
    return_pd.columns = ["line","line_percent","unk_words"]

    with open(path+'unknown_french_dad_list.txt',"w") as outfile:
        outfile.write(str(list(disallowed_words)))

    return return_pd
    
    #except:
    #    pass

##Dad section

In [8]:
path = "/Users/elyebliss/Desktop/Vocabulary/language_learning/vocab_dfs/"
source_file = "french_dad.json"

In [9]:
#read from existing .json formats
with open(path+source_file, "r") as path_in:
    vocab = json.loads(path_in.read())
vocab['white_listed'] = set(vocab['white_listed'])
vocab['black_listed'] = set(vocab['black_listed'])
print(len(vocab['white_listed']))

13427


In [11]:
            
##Journal en francais facile:
print("Checking Journal en francais facile")
parser = 'html.parser'  # or 'lxml' (preferred) or 'html5lib', if installed
#request=urllib.request.Request('https://savoirs.rfi.fr/en/apprendre-enseigner/langue-fran%C3%A7aise/journal-en-francais-facile',None,headers)
request=urllib.request.Request('https://francaisfacile.rfi.fr/fr/podcasts/journal-en-fran%c3%a7ais-facile/',None,headers)

resp = urllib.request.urlopen(request)
soup = bs4.BeautifulSoup(resp, parser, from_encoding=resp.info().get_param('charset'))


pages = []
for link in soup.find_all('a', href=True):
    if '/fr/podcasts/le-journal-en-fran%C3%A7ais-facile/' in str(link['href']):
        #print(str(link['href']))
        str_page = 'https://savoirs.rfi.fr/'+str(link['href'])
        #str_page = 'https://savoirs.rfi.fr/en/apprendre-enseigner/langue-francaise/journal-en-francais-facile-'+str(re.search(r"[0-9]{8}.*",str(link['href'])).group(0))
        if str_page not in pages:
            pages.append(str_page)

for page in pages:
    print(page)

Checking Journal en francais facile
https://savoirs.rfi.fr//fr/podcasts/le-journal-en-fran%C3%A7ais-facile/20221125-foot-le-s%C3%A9n%C3%A9gal-se-relance-poutine-parle-aux-mamans-de-soldats-pourparlers-au-venezuela
https://savoirs.rfi.fr//fr/podcasts/le-journal-en-fran%C3%A7ais-facile/20221124-prix-du-gaz-en-europe-foot-cameroun-0-suisse-1-l-arabe-du-futur
https://savoirs.rfi.fr//fr/podcasts/le-journal-en-fran%C3%A7ais-facile/20221123-kiev-priv%C3%A9e-d-%C3%A9lectricit%C3%A9-cyberattaque-au-parlement-europ%C3%A9en-l-affaire-adrien-quatennens
https://savoirs.rfi.fr//fr/podcasts/le-journal-en-fran%C3%A7ais-facile/20221122-france-les-magistrats-sont-en-gr%C3%A8ve-kherson-bombard%C3%A9e-par-les-russes-le-mondial-de-foot
https://savoirs.rfi.fr//fr/podcasts/le-journal-en-fran%C3%A7ais-facile/20221121-mondial-de-foot-tortures-en-ukraine-chol%C3%A9ra-au-liban-ch%C3%B4mage-en-france
https://savoirs.rfi.fr//fr/podcasts/le-journal-en-fran%C3%A7ais-facile/20221118-la-cor%C3%A9e-du-nord-tire-un-miss

In [12]:
with open(path+"text_input_web_dad_fr.txt","r") as infile:
    textfile = infile.read()
filtered_art = filter_text(textfile,text= True)
#display(filtered_art)

In [13]:
all_unks = set()

with open(path+'unknown_french_dad_list.txt',"r") as input_file:
    new_words = input_file.read()
    new_words = re.sub('\n',"",new_words)
    new_words = new_words.split(',')
    new_words = [re.sub("^['|\"]|^\['|['|\"]$|'\]$|\[","",line.strip().lower()) for line in new_words] #update regex
    for word in new_words:
        all_unks.add(word)
len(all_unks)

155

In [14]:
all_unks=list(all_unks)
unk_df = pd.DataFrame(all_unks)
unk_df.columns = ['word']
unk_df['status'] = pd.Series(['' for word in all_unks])

In [15]:
mitosheet.sheet(unk_df, analysis_to_replay="id-uzyggtxobg")

MitoWidget(analysis_data_json='{"analysisName": "id-uzyggtxobg", "analysisToReplay": null, "code": [], "stepSu…

In [16]:
add_ints = [0, 1, 6, 7, 8, 12, 16, 18, 22, 23, 24, 25, 28, 32, 33, 38, 40, 42, 48, 49, 54, 55, 58, 60, 62, 66, 68, 69, 72, 79, 80, 87, 91, 92, 94, 95, 96, 108, 107, 110, 111, 116, 120, 119, 122, 127, 130, 132, 133, 135, 136, 149, 152, 153]

In [17]:
for i in add_ints:
    # Set a cell value in status
    unk_df.at[i, 'status'] = 'k'

In [23]:
translations = []
for i in range(0,len(unk_df)):
    try:
        translations.append(ts.google(unk_df.word.iloc[i]))
    except:
        translations.append('')
unk_df['translations']=translations

In [24]:
mitosheet.sheet(unk_df, analysis_to_replay="id-ianxevwttg")

MitoWidget(analysis_data_json='{"analysisName": "id-ianxevwttg", "analysisToReplay": null, "code": [], "stepSu…

In [18]:
add_words = list(unk_df.word[unk_df['status']=='k'])
print(len(add_words))
for word in add_words:
    vocab['white_listed'].add(word)

54


In [19]:
filtered_art = filter_text(textfile,text= True)

In [20]:
filtered_art['theme']=['' for line in filtered_art.line]
filtered_art = filtered_art[['theme','unk_words','line','line_percent']]
with open(path+'dad_choose_themes.xlsx','wb') as outfile:
    filtered_art.to_excel(outfile, encoding='utf-8',index=False)

In [21]:
with open(path+'dad_choose_themes.xlsx','rb') as infile:
    filtered_art = pd.read_excel(infile)

In [22]:
themes = set(filtered_art.theme[filtered_art['theme']!='NaN'])
output = pd.DataFrame(columns=['theme','line'])
for theme in themes:
    temp = filtered_art[['theme','line']][filtered_art['theme']==theme]
    output = pd.concat([output,temp])
with open(path+'dad_article.xlsx','wb') as outfile:
    output.to_excel(outfile, encoding='utf-8',index=False)

In [23]:
#write to .json formats
df = vocab
df['white_listed'] = list(df['white_listed'])
df['black_listed'] = list(df['black_listed'])
with open(path+source_file, "w") as outfile:
    json.dump(df,outfile)
print(len(vocab['white_listed']))

13481


In [24]:
#read from existing .json formats
with open(path+source_file, "r") as path_in:
    vocab = json.loads(path_in.read())
vocab['white_listed'] = set(vocab['white_listed'])
vocab['black_listed'] = set(vocab['black_listed'])
print(len(vocab['white_listed']))

13481


##Filter for lessons

In [10]:
with open(path+"text_input_dad_fr.txt","r") as infile:
    textfile = infile.read()
filtered_art = filter_text(textfile,text= True)
#display(filtered_art)

In [13]:
with open(path+'unknown_french_dad_list.txt',"r") as input_file:
    new_words = input_file.read()
    new_words = re.sub('\n',"",new_words)
    new_words = new_words.split(',')
    new_words = [re.sub("^['|\"]|^\['|['|\"]$|'\]$","",line.strip().lower()) for line in new_words] #update regex
#new_words
print(len(new_words))
known_manual = get_known(new_words)

16
cou
Known =k
15 remaining
poitrine
Known =k
14 remaining
rassuré
Known =k
13 remaining
vaste
Known =k
12 remaining
tatouages
Known =k
11 remaining
souvenirs
Known =k
10 remaining
maladie
Known =k
9 remaining
seins
Known =k
8 remaining
aliments
Known =k
7 remaining
réuni
Known =k
6 remaining
genoux
Known =k
5 remaining
bizarre
Known =kk
got 1
4 remaining
colline
Known =k
3 remaining
–
Known =kk
got 2
2 remaining
indigènes
Known =k
1 remaining
lors
Known =k
0 remaining


In [14]:
print(len(known_manual))
for word in known_manual:
    vocab['white_listed'].add(word)

2


In [19]:
#known_lines_only = list(set(list(filtered_art.knowns[filtered_art.knowns != "..."])))
#known_lines_only = sorted(known_lines_only,key=len)
filtered_art = filter_text(textfile,text= True)
known_lines_only = list(filtered_art.line[filtered_art['line_percent']==1.0])
known_lines_only = sorted(known_lines_only,key=len)


In [20]:
#export knowns: [filtered_art.knowns != "..."]
#known_list = list(filtered_art.knowns)
with open(path+"known_lines_dad_fr.txt","w") as outfile:
    for line in known_lines_only:
        outfile.write(line+"\n")

In [21]:
#write to .json formats
df = vocab
df['white_listed'] = list(df['white_listed'])
df['black_listed'] = list(df['black_listed'])
with open(path+source_file, "w") as outfile:
    json.dump(df,outfile)
print(len(vocab['white_listed']))

13376


In [361]:
#read from existing .json formats
with open(path+source_file, "r") as path_in:
    vocab = json.loads(path_in.read())
vocab['white_listed'] = set(vocab['white_listed'])
vocab['black_listed'] = set(vocab['black_listed'])
print(len(vocab['white_listed']))

13199


##EB section

In [55]:
#read eb unknown files from .json formats
"""
Remaining vocab size = 2278
Total learned = 87
"""
with open(path+'eb_unk.json', "r") as infile:
    eb_unk = json.loads(infile.read())
print("Remaining vocab size = "+str(len(eb_unk)))

with open(path+'eb_unk_mo.json', "r") as infile:
    eb_unk_mo = json.loads(infile.read())

with open(path+'eb_learned.json', "r") as infile:
    eb_learned= json.loads(infile.read())
print("Total learned = "+str(len(eb_learned)))

with open(path+'eb_unk_examples.json', "r") as infile:
    eb_unk_examples= json.loads(infile.read())

with open(path+'eb_unk_counter_examples.json', "r") as infile:
    eb_unk_counter_examples= json.loads(infile.read())

Remaining vocab size = 2278
Total learned = 87


In [90]:
"""
space = plain, add without conjurgating or changing
c = conjugate as normal verb
x = noun that adds x when plural
s = noun that add s when plural
iv = inner verb. There is a verb in the expression that should be 
    conjurgated
"""
with open(path+"fr_eb_extra.txt","r") as infile:
    extras_lemmas = infile.read().split('\n')

for lemma in extras_lemmas:
    extras_morphs = how_to_add(lemma)
    
    eb_unk[lemma] = extras_morphs
    for morph in extras_morphs:        
        if morph not in eb_unk_mo:
            eb_unk_mo[morph] = lemma

print("Remaining vocab size = "+str(len(eb_unk)))

#need to add above to examples and counter examples
for lemma in eb_unk:
    if lemma not in eb_unk_examples:
        eb_unk_examples[lemma] = []
    if lemma not in eb_unk_counter_examples:
        eb_unk_counter_examples[lemma]= []

riposte
c
x
s
ivs
davantage 
c
x
s
iv
peiné
c
x
s
ivs
briguer
c
x
s
ivc
rien n’est joué 
c
x
s
iv
ne date pas d’hier
c
x
s
iv
agacer 
c
x
s
ivc
autochtones
c
x
s
iv
d'aplomb
c
x
s
iv
âpre
c
x
s
iv
la dentelle
c
x
s
iv
le coq
c
x
s
iv
Remaining vocab size = 2256


Get larger list of pages to search

In [56]:
websites = set()
with open(path+'viewed_websites_fr.txt',"r") as infile:
    for line in infile.read().split('\n'):
        websites.add(line)
print(len(websites))

152


In [74]:
pages = []

In [75]:
##France24
print("Checking France24")
parser = 'html.parser'  # or 'lxml' (preferred) or 'html5lib', if installed
#request=urllib.request.Request('https://savoirs.rfi.fr/en/apprendre-enseigner/langue-fran%C3%A7aise/journal-en-francais-facile',None,headers)
request=urllib.request.Request('https://www.france24.com/fr/',None,headers)

resp = urllib.request.urlopen(request)
soup = bs4.BeautifulSoup(resp, parser, from_encoding=resp.info().get_param('charset'))



for link in soup.find_all('a', href=True):
    str_ver = str(link['href'])
    
    #get regex such that links start with /fr/ and don't end
    #with /
    if bool(re.search('^\/fr\/.*',str_ver)) and (str_ver[len(str_ver)-1]!='/'):
        pages.append('https://www.france24.com'+str_ver)

Checking France24


In [76]:
##20minutes
print("Checking 20minutes")
parser = 'html.parser'  # or 'lxml' (preferred) or 'html5lib', if installed
#request=urllib.request.Request('https://savoirs.rfi.fr/en/apprendre-enseigner/langue-fran%C3%A7aise/journal-en-francais-facile',None,headers)
request=urllib.request.Request('https://www.20minutes.fr/',None,headers)

resp = urllib.request.urlopen(request)
soup = bs4.BeautifulSoup(resp, parser, from_encoding=resp.info().get_param('charset'))

for link in soup.find_all('a', href=True):
    str_ver = str(link['href'])
    
    final_segment = str_ver.split('/')[len(str_ver.split('/'))-1]
    #articles have https:// at the beginning and a date in the last segment
    if ('https://www.20minutes.fr' in str_ver)\
    and bool(re.search('[0-9]',final_segment)):
        pages.append(str_ver)

Checking 20minutes


In [77]:
##TV5Monde
print("Checking TV5Monde")
parser = 'html.parser'  # or 'lxml' (preferred) or 'html5lib', if installed
#request=urllib.request.Request('https://savoirs.rfi.fr/en/apprendre-enseigner/langue-fran%C3%A7aise/journal-en-francais-facile',None,headers)
request=urllib.request.Request('https://www.tv5monde.com/',None,headers)

resp = urllib.request.urlopen(request)
soup = bs4.BeautifulSoup(resp, parser, from_encoding=resp.info().get_param('charset'))

for link in soup.find_all('a', href=True):
    if '/info/' in str(link['href']):
        #print(str(link['href']))
        #str_page = 'https://savoirs.rfi.fr/'+str(link['href'])
        #str_page = 'https://savoirs.rfi.fr/en/apprendre-enseigner/langue-francaise/journal-en-francais-facile-'+str(re.search(r"[0-9]{8}.*",str(link['href'])).group(0))
        if str(link['href']) not in pages:
            pages.append(str(link['href']))


Checking TV5Monde


In [82]:
pages = list(set(pages))

#add in set_difference line here
print("new = "+str(len(set(pages).difference(websites))))
pages = list(set(pages).difference(websites))

new = 116


In [85]:
out = find_unks(pages,eb_unk_mo,eb_unk_examples,eb_unk_counter_examples)

In [86]:
review_out(out,eb_learned,eb_unk,eb_unk_mo,eb_unk_examples,eb_unk_counter_examples)

Lemma: perturber

Morph: ['perturber', 'perturber', 'perturber']
Previous examples: 
 - 56e : Enfin un éclair, signé Mbappé Bah voilà, il suffisait de se plaindre : contre bleu supersonique, et d’une simplicité totale : vite servir Mbappé et effectuer des appels tout autour pour tenter de perturber la défense danoise.
New examples: 
"Il est accusé de corruption sur terre en répandant des mensonges sur Internet, de propagande contre le système, d'avoir constitué et dirigé des groupes illégaux dans le but de perturber la sécurité en coopérant avec un gouvernement hostile à l'Iran et d'avoir incité à commettre des actes violents", a-t-il ajouté.

options : k,m,a,q,s,ck
Lemma: rédaction

Morph: ['rédaction', 'rédaction', 'rédaction', 'rédaction', 'rédaction', 'rédaction', 'rédaction']
Previous examples: 
 - Français   English   Español   عربي                                 Naviguer hors connexion                 S'abonner aux newsletters                  Gérer mes consentements           

options : k,m,a,q,s,ca
Lemma: châssis

Morph: ['châssis']
New examples: 
Le kart à pédales Go-Kart Enfants à 168,90€ au lieu de 239,90€ : avec son dossier haut, son châssis en acier et ses roues de 29 pouces, voici un kart cherchant à reproduire une expérience réaliste.

options : k,m,a,q,s,ca
Lemma: acier

Morph: ['acier', 'acier', 'acier', 'acier', 'acier']
New examples: 
Le kart à pédales Go-Kart Enfants à 168,90€ au lieu de 239,90€ : avec son dossier haut, son châssis en acier et ses roues de 29 pouces, voici un kart cherchant à reproduire une expérience réaliste.

options : k,m,a,q,s,ca
Le pack poêle à granules Marina 13 kW à 1599,20€ au lieu de 1 999€ : un modèle en acier labellisé Flamme Verte.

options : k,m,a,q,s,ca
Il existe des modèles conçus en céramique, en plastique et en acier inoxydable.

options : k,m,a,q,s,ca
La sélection des meilleures fontaines à eau pour chat en 2022 Nicrew : la fontaine à eau pour chat lumineuse Catit : la fontaine à eau pour chat dotée d’un grand

options : k,m,a,q,s,cc
Imprimer         À lire aussi            23/11/22 |                             Transport  Ile-de-France : Les jeunes femmes principales victimes des atteintes…              22/11/22 |                             MOBILITES  Le pass Navigo pourrait passer à 80 ou 90 euros par mois en 2023              22/11/22 |                             TRANSPORT  Île-de-France : Les futures rames du RER E roulent mais ne sont toujours…              21/11/22 |                             MODE  Photo : Comment Andreas transforme en « mannequins d’un jour » des…         Plus  d’actu      Précédent    1 sur 2     Suivant                                           Retourner en haut de la page        Annonces Légales   Annonces légales  Allier  Alpes Maritimes  Bas Rhin  Bouches du Rhône  Côtes d'Armor  Finistère  Haut Rhin  Hauts de Seine  Loire  Loire Atlantique  Loiret  Maine et Loire  Marne  Paris  Seine Maritime  Val d'Oise  Val de Marne  Var  Vaucluse  Yvelines      Services   

options : k,m,a,q,s,cc
Imprimer          À lire aussi            25/11/22 |                             Récap'  Guerre en Ukraine : Kherson toujours pilonnée et les soldats victimes du…              25/11/22 |                             recap'  Guerre en Ukraine : Wagner, pétrole et manque de lumière… La semaine en…              17:18 |                             FOOTBALL  Coupe du monde 2022 : L’Iran s’en prend aux États-Unis pour avoir supprimé…              15:36 |                             SUPPORTRICE  Coupe du monde 2022 : Ivanka Trump rejoint le fan-club de Kylian Mbappé         Plus  d’actu      Précédent    1 sur 2     Suivant                                           Retourner en haut de la page        Annonces Légales   Annonces légales  Allier  Alpes Maritimes  Bas Rhin  Bouches du Rhône  Côtes d'Armor  Finistère  Haut Rhin  Hauts de Seine  Loire  Loire Atlantique  Loiret  Maine et Loire  Marne  Paris  Seine Maritime  Val d'Oise  Val de Marne  Var  Vaucluse  Yvelines    

options : k,m,a,q,s,cc
Imprimer          À lire aussi            14/11/22 |                             DISPARITION  Deux-Sèvres : Le corps sans vie d’un Nantais retrouvé dans une rivière…              15/11/22 |                             EVACUATION  Isère : Grièvement blessé après une chute de près de 200 m lors d'une rave…              17/11/22 |                             C’est fini la bamboche  Montluçon : Condamnation de deux organisateurs de rave parties         Plus  d’actu                                          Retourner en haut de la page        Annonces Légales   Annonces légales  Allier  Alpes Maritimes  Bas Rhin  Bouches du Rhône  Côtes d'Armor  Finistère  Haut Rhin  Hauts de Seine  Loire  Loire Atlantique  Loiret  Maine et Loire  Marne  Paris  Seine Maritime  Val d'Oise  Val de Marne  Var  Vaucluse  Yvelines      Services   Distribution  Horoscope  Horoscope chinois  Conjugaison  Recette de cuisine  Résultats des élections  Maison  Le Journal des Seniors  Bébés et Mam

options : k,m,a,q,s,cc
Suivez en direct Espagne - Allemagne                 COMPTE-RENDU  27/11/2022 Mondial-2022 : le Maroc terrasse la Belgique devant un public incandescent                 LIVEBLOG  27/11/2022 Mondial-2022 : le Maroc vient à bout de la Belgique                 COMPTE-RENDU  26/11/2022 Mondial-2022 : Messi libère l'Argentine face au Mexique                 COMPTE-RENDU  26/11/2022 Mondial-2022 : Mbappé offre la victoire aux Bleus, la France première qualifiée pour les 8es                 LIVEBLOG  26/11/2022 Mondial-2022 : L'Albiceleste trouve la clé dans un Argentine-Mexique cadenassé                 LIVEBLOG  26/11/2022 Mondial-2022 : la France domine le Danemark grâce à un doublé de Mbappé                 COMPTE-RENDU  26/11/2022 Mondial-2022 : la Tunisie laisse passer sa chance contre l'Australie                 LIVEBLOG  26/11/2022 Mondial-2022 : la Tunisie s'incline contre l'Australie                 Mondial-2022  26/11/2022 Équipe de France : pour Dembélé, l'h

options : k,m,a,q,s,ck
Lemma: enjeu

Morph: ['enjeu', 'enjeu', 'enjeu', 'enjeu', 'enjeu']
New examples: 
Et l'historien de conclure, “dans ces textes, il y a toujours un enjeu de protection du roi lors de son voyage dans le monde souterrain des morts.

options : k,m,a,q,s,ca
Marjolaine Sioui est heureuse qu'on rompe le silence sur cet enjeu, mais il faut maintenant des gestes concrets dans le réseau de la santé.

options : k,m,a,q,s,ca
Avec un troisième match sans enjeu, si ce n'est la première place du groupe D, Didier Deschamps s'offre la possibilité de faire tourner.

options : k,m,a,q,s,ca
Un enjeu qui les a certainement paralysés face à un Mexique venu pour les bloquer.

options : k,m,a,q,s,ca
Promouvoir des valeurs familiales conservatrices permet donc au pouvoir russe de conspuer l'Occident, mais aussi de répondre à un enjeu qu'il juge crucial.

options : k,m,a,q,s,ca
Lemma: mortier

Morph: ['mortier']
New examples: 
Il offre une excellence adhérence sur une multitude de support

options : k,m,a,q,s,cc
Lemma: provenance

Morph: ['provenance']
Previous examples: 
 - MDC : L'actualité, c'est aussi cette étude inquiétante en provenance des États-Unis.
New examples: 
L’une d’elles porte sur d’éventuelles fraudes au sein de l’ONG qui a reçu au fil des ans des millions d’euros et des dizaines de propriétés en provenance de donateurs privés.

options : k,m,a,q,s,ca
Lemma: recueilli

Morph: ['recueilli', 'recueilli', 'recueilli']
Previous examples: 
 - L'étude s'est fondée sur des données recueillies auprès de plus de 30 000 Américaines suivies pendant une dizaine d'années.
 - Elle n’a recueilli que 85 soutiens - insoumis, communistes et écologistes - très loin des 289 voix nécessaires pour faire tomber le gouvernement.
New examples: 
Elle a recueilli 46,97 % des voix lors d'une première phase de vote samedi.

options : k,m,a,q,s,ck
Lemma: piètre

Morph: ['piètre']
New examples: 
Alors que l’urgence climatique n’a jamais été aussi palpable, Marine Tondelier aura du pai

options : k,m,a,q,s,ca
On savait qu'un certain nombre de femmes voulaient nous parler, mais la foutue COVID nous a empêchés, explique Suzy Basile, titulaire de la Chaire de recherche du Canada sur les enjeux relatifs aux femmes autochtones et directrice du Laboratoire de recherche sur les enjeux relatifs aux femmes autochtones – Mikwatisiw, Université du Québec en Abitibi-Témiscamingue.

options : k,m,a,q,s,ca
Elle est l'autrice du rapport avec l’étudiante au doctorat à l’École d’études autochtones et rattachée au Laboratoire de l’UQAT, Patricia Bouchard.

options : k,m,a,q,s,ca
Personnes participantes : 14 Atikamekw, 10 Innues, 5 Anishinabeg, 4 Cries et 2 Inuit    La grande majorité, soit 22 sur 35, a subi des stérilisations imposées    La majorité des participantes avait entre 17 et 33 ans lors des stérilisations    La plus jeune avait 17 ans au moment des interventions, la plus âgée, 46 ans    63 % se sont fait proposer la ligature des trompes comme méthode de contraception    Néces

options : k,m,a,q,s,ca
Une femme soupçonnée d'être sa compagne et complice a également été mise en examen des mêmes chefs et écrouée, a précisé le parquet.

options : k,m,a,q,s,ca
— SICCOLI PATRICK/SIPA        Un adolescent de 14 ans est décédé dans la nuit de samedi à dimanche lors d’une rixe à Coignières, petite ville des Yvelines , a confirmé le parquet de Versailles, ce dimanche.

options : k,m,a,q,s,ca
Un homme de 30 ans a été mis en examen et écroué dimanche pour ce meurtre , a indiqué le parquet de Grenoble dans un communiqué.

options : k,m,a,q,s,ca
Imprimer          À lire aussi            24/11/22 |                             McKinsey  Présidentielles 2017 et 2022 : Enquêtes du Parquet national financier sur…              16/11/22 |                             Football  Fraude fiscale : L’ancien attaquant norvégien de l’OL John Carew condamné…              14/11/22 |                             PROCèS  Marseille : Héritière, entrepreneurs, RSAiste… Une journée spéciale…     

options : k,m,a,q,s,ca
Une prestation éclairante et une qualification précoce acquise pour les huitièmes de finale du Mondial.

options : k,m,a,q,s,ca
Lemma: éphémère

Morph: ['éphémère']
Previous examples: 
 - « Chacun peut aussi venir déjeuner pour une dizaine d’euros, boire un verre dans un bar éphémère ou encore suivre son cheval préféré jusque dans les écuries [sous conditions] », précise également Valérie François.
 - « Je me suis dit que c’était l’occasion ou jamais » Quand la mère de Jean-Pierre a entendu parler de ce dispositif éphémère par la presse, il y a quinze jours, elle a appelé son fils pour lui demander de se défaire « de l’arme de mon grand-père qui se trouvait dans le grenier ».
New examples: 
Carton jaune pour l’ancien éphémère Lillois à cause de ce coude baladeur.

options : k,m,a,q,s,ca
Lemma: fébrile

Morph: ['fébrile']
New examples: 
La frappe de Meunier est trop molle   17e : Autant Bounou dégage une grande assurance, autant Munir, qui l’a suppléé juste avant 

options : k,m,a,q,s,cc
Sur le même sujet                27/11/2022 L'Italie proclame l'état d'urgence à Ischia après un glissement de terrain meurtrier                 Heure par heure  27/11/2022 En direct : de fortes chutes de neige attendues à Kiev, l'électricité toujours perturbée                 26/11/2022 En Italie, un glissement de terrain meurtrier frappe l'île d'Ischia après de fortes pluies                 26/11/2022 Après l'Ocean Viking, les 27 approuvent un plan d'urgence pour éviter une nouvelle crise                 IDÉOLOGIE  25/11/2022 Loi anti-LGBT en Russie : "Le pouvoir cherche à construire un socle conservateur fédérateur"                 25/11/2022 L'Azerbaïdjan annule des pourparlers avec l'Arménie en raison de la présence d'Emmanuel Macron                 LE FIL DU 25 NOVEMBRE  25/11/2022 Guerre en Ukraine : bombardement russe meurtrier à Kherson, les patients des hôpitaux évacués                 25/11/2022 Les infirmières vont faire grève les 15 et 20 décembre au

options : k,m,a,q,s,cc
Lemma: affairer

Morph: ['affairer']
New examples: 
On a déjà découpé 100 sweats à capuche », déclare-t-il , tout en montrant des employées s’affairer derrière des machines à coudre tandis qu’une multitude de vêtements sont étalés sur le sol dans une autre pièce.

options : k,m,a,q,s,ca
Lemma: bac

Morph: ['bac', 'bac', 'bac']
New examples: 
La sélection des meilleures fontaines à eau pour chat en 2022 Nicrew : la fontaine à eau pour chat lumineuse Catit : la fontaine à eau pour chat dotée d’un grand réservoir Deyooxi : la fontaine à eau pour chat en acier inoxydable Pelibro : la fontaine à eau pour chat avec un grand bac Catit pixi : la fontaine à eau pour chat avec filtre anti-odeurs NPET : la fontaine à eau pour chat à fonctionnement automatique Oricean : la fontaine à eau pour chat à faible consommation électrique Petiigo : la fontaine à eau pour chat facile à monter SOOFPET : la fontaine à eau pour chat pratique PetSafe Avalon : la fontaine à eau saine Nicre

options : k,m,a,q,s,cc
Lemma: gamme

Morph: ['gamme']
Previous examples: 
 - Le fabricant allemand de voitures haut de gamme a par ailleurs annoncé une hausse de 70% de ses ventes en Chine sur un an.
 - On a besoin d'éducateurs, on a besoin de psychologues et donc c'est toute une gamme de professionnels qui nous faut recruter.
 - Les produits d’occasion de l’Amazon Warehouse sont aussi concernés, avec une remise de 20% sur une vaste gamme d’articles.
 - Elle est compatible avec toutes les capsules exclusives à la gamme l’Or Barista.
 - La variante hybride rechargeable à transmission intégrale "virtuelle" (moteur essence à l’avant, moteur électrique à l’arrière) est par ailleurs le haut de gamme du modèle.
 - Autre aspect haut de gamme de ce Tonale, l’irréprochable isolation phonique.
 - Auto  Douze modèles électrifiés aujourd’hui, toute la gamme en 2024 et rien que de l’électricité dès 2028 : Opel poursuit sa longue mutation vers le 100% électrique.
 - Électricité, le mot est lâché et 

options : k,m,a,q,s,ca
Lemma: pépin

Morph: ['pépin']
New examples: 
Le défenseur de Manchester United est sorti après une heure et quart de combat, sans pépin visible après avoir été éloigné un mois des terrains pour une blessure musculaire à une cuisse.

options : k,m,a,q,s,ca
Lemma: sillage

Morph: ['sillage']
Previous examples: 
 - Les images de vidéosurveillance diffusées par les médias montrent le jeune homme entrant dans l'école avec une arme à la main, tandis que plusieurs personnes fuient dans son sillage.
New examples: 
AP Photo/Martin Meissner     Dembélé intenable  S'il y avait des doutes concernant Ousmane Dembélé, l'ailier du Barça les a levés encore davantage, dans le sillage de sa performance contre l'Australie (4-1).

options : k,m,a,q,s,ca
Lemma: donnant

Morph: ['donnant', 'donnant']
New examples: 
Il a enrhumé ses vis-à-vis dans le stade non-climatisé de Doha de nombreuses fois, et a abattu un travail défensif remarquable, tacles à l'appui, donnant raison à son séle

options : k,m,a,q,s,cc
Lemma: gonze

Morph: ['gonze']
New examples: 
Au moins trois Coupes du monde encore à jouer Sachant que le gonze fêtera ses 24 ans deux jours après la finale du 18 décembre, le calcul est vite fait.

options : k,m,a,q,s,ca
Lemma: écroulement

Morph: ['écroulement']
New examples: 
Trois immeubles, soit près d’une quarantaine de logements, où se trouvaient 17 personnes, ont été évacués en raison de cette « menace d’effondrement », ont annoncé les pompiers, deux semaines après l’écroulement de deux bâtiments qui avait fait un mort dans le même secteur.

options : k,m,a,q,s,ck
Lemma: fissure

Morph: ['fissure']
New examples: 
« Selon les employés du restaurant l’Orange Bleue, la fissure qui existait déjà (…) a évolué en s’agrandissant les dernières 48 heures avec chute de torchis », et « des bruits de craquements ont été entendus » en fin de soirée, précise ce texte.

options : k,m,a,q,s,ck
Lemma: recourir

Morph: ['recourir']
Previous examples: 
 - Les solutions, co

In [87]:
for word in pages:
    websites.add(word)
with open(path+'viewed_websites_fr.txt',"w") as outfile:
    for line in websites:
        outfile.write(line+'\n')      

In [91]:
#write to eb unknown files to .json formats
"""
Remaining vocab size = 2256
Total learned = 112
"""
with open(path+'eb_unk.json', "w") as outfile:
    json.dump(eb_unk,outfile)
print("Remaining vocab size = "+str(len(eb_unk)))

with open(path+'eb_unk_mo.json', "w") as outfile:
    json.dump(eb_unk_mo,outfile)

with open(path+'eb_learned.json', "w") as outfile:
    json.dump(eb_learned,outfile)
print("Total learned = "+str(len(eb_learned)))

with open(path+'eb_unk_examples.json', "w") as outfile:
    json.dump(eb_unk_examples,outfile)

with open(path+'eb_unk_counter_examples.json', "w") as outfile:
    json.dump(eb_unk_counter_examples,outfile)

Remaining vocab size = 2256
Total learned = 112


### Code no longer in use

In [177]:
def return_line_percents(webpage):
    request=urllib.request.Request(webpage,None,headers) #The assembled request
    response = urllib.request.urlopen(request)
    data = response.read()
    contents = text_from_html(data)

    known_array = []
    unk_array = []
    contents_array = sent_tokenize(contents)

    lines = []

    for line in contents_array:
        tokenized = word_tokenize(line, language='french')

        line_total = 0
        line_unks = 0
        for word in tokenized:

            line_total +=1

            if not (bool(re.search("[0-9]", word)) or\
                    bool(re.search("[A-Z]", word)) or\
                    bool(re.search("[.,\/#!$%\^&\*;:{}=\-_`~()«»]", word)) or\
                    word.lower() in vocab['white_listed']):

                    line_unks +=1

            lines.append(100*(line_total-line_unks)/line_total)
    return(lines)

In [None]:

if (start is not None) and (stop is not None):
    contents_array=contents_array[max(start,0):min(stop,len(contents_array))]

with open(path+'unknown_french_dad_list.txt',"w") as outfile:
    outfile.write(str(list(disallowed_words)))


In [300]:
##add in extras
with open("/Users/elyebliss/Desktop/Vocabulary/vocab_dfs/fr_eb_extra.txt","r") as infile:
    extras_lemmas = infile.read().split('\n')

gs = goslate.Goslate()

default_conjugator = mlconjug3.Conjugator(language='fr')


for lemma in extras_lemmas:
    
    decision = how_to_add(lemma)
    
    if lemma not in eb_unk:
        eb_unk[lemma] = []
        
    extras_morphs = []
    extras_morphs.append(lemma)
    try:
        #if it's an infinitive, add all conjurgations
        test_verb = default_conjugator.conjugate(lemma)
        all_conjugated_forms = test_verb.iterate()
        for item in all_conjugated_forms:
            if item not in extras_morphs:
                extras_morphs.append(item[len(item)-1])
        extras_morphs = list(set(extras_morphs))
    except:
        
        #if not an expression:
        if len(lemma.split(' '))==1:
            #add plural nouns
            if lemma[len(lemma)-1]=='u':
                extras_morphs.append(lemma+'x')
            else:
                extras_morphs.append(lemma+'s')

    eb_unk[lemma] = extras_morphs
    for morph in extras_morphs:        
        if morph not in eb_unk_mo:
            eb_unk_mo[morph] = lemma

print("Remaining vocab size = "+str(len(eb_unk)))

Remaining vocab size = 2327


In [8]:
#Upload from download
with open(path+'known_french_dad_list.txt',"r") as input_file:
    new_words = input_file.read()
    new_words = re.sub('\n',"",new_words)
    new_words = new_words.split(',')
    new_words = [line.replace('"',"").strip().lower() for line in new_words]
    print("daily catch in word count:")
    print(len(new_words))
    
    for line in new_words:   
        vocab['white_listed'].add(line.replace('"',"").strip().lower())

FileNotFoundError: [Errno 2] No such file or directory: '/Users/elyebliss/Desktop/Vocabulary/vocab_dfs/known_french_dad_list.txt'

In [117]:
"""
to do:

"""

In [49]:
##INPUT-OUTPUT
#vocab list:
with open("/Users/elyebliss/Desktop/Vocabulary/vocab_dfs/dad_whitelisted.csv","r") as infile:
    whitelisted_lemmas = infile.read()


##VARIABLES
vocab_all = set()
gs = goslate.Goslate()

default_conjugator = mlconjug3.Conjugator(language='fr')


for line in whitelisted_lemmas.split('\n'):
    if len(line) > 0:
        #print(line)
        vocab = line.lower().strip()
        vocab_all.add(vocab)
        try:
            #if it's an infinitive, add all conjurgations
            test_verb = default_conjugator.conjugate(vocab)
            all_conjugated_forms = test_verb.iterate()
            for item in all_conjugated_forms:
                
                vocab_all.add(item[len(item)-1])
                
            
        except:
            #might be a noun, add plural
            vocab_all.add(add_noun(vocab))
#len(whitelisted_lemmas.split('\n'))            
#pp.pprint(vocab_all)

In [83]:
vocab = {}
vocab['white_listed'] = list(vocab_all)
vocab['black_listed'] = []


In [27]:
#used for creating eb data

with open(path+'eb_unk_lemmas.csv','r') as infile:
    eb_unk_lemmas = pd.read_csv(infile)
with open(path+'eb_unk_morph.csv','r') as infile:
    eb_unk_morph = pd.read_csv(infile)
    
eb_unk = {}
for word in eb_unk_lemmas.lemme:
    eb_unk[word] = []

    for index, row in eb_unk_morph.iterrows():
        if row.lemme == word:
            eb_unk[word].append(row.ortho)
eb_unk_mo = {}
for lemma in eb_unk.keys():
    for morph in eb_unk[lemma]:
        eb_unk_mo[morph] = lemma

In [147]:
eb_learned = {}
eb_unk_examples = {}
for word in eb_unk.keys():
    eb_unk_examples[word] = []

In [130]:
#restore to backups
eb_learned = eb_learned_backup
eb_unk = eb_unk_backup
eb_unk_mo = eb_unk_mo_backup
eb_unk_examples = eb_unk_examples