# Plateforme Agnostique de Traitement et d'Analyse des Textes
### Carnet d'expérimentation
---

## Sujet : Vocabulary

---

# Observations et environnement
---

In [1]:
cd ../..

/Users/fm/Desktop/Work/Patat


In [2]:
import importlib
import pandas as pd
import seaborn as sns

## Textes

In [3]:
df_texts_recueil = pd.read_csv('data/demo/221123-TextInfox.csv')

In [4]:
df_texts_afp =  pd.read_csv('data/tmp/221118-TextsAfp.csv')

In [5]:
df_texts_recueil

Unnamed: 0,url,infox,title,article,text
0,https://actu.fr/faits-divers/quatre-morts-dans...,0.0,Quatre morts dans un accident de la route sur ...,"Quatre personnes sont décédées, et une autre a...",Quatre morts dans un accident de la route sur ...
1,https://www.francetvinfo.fr/economie/budget/co...,0.0,Consommation : les Français boudent les distri...,Les distributeurs de billets vont-ils un jour ...,Consommation : les Français boudent les distri...
2,https://www.francetvinfo.fr/sante/contraceptio...,0.0,Avortement : le choix des Irlandais,"En Irlande, lors du référendum, les électeurs ...",Avortement : le choix des Irlandais\nEn Irland...
3,https://www.francesoir.fr/culture-celebrites/u...,0.0,Une ex de Cristiano Ronaldo compare porno et t...,Elle avait mis un pied dans le monde de la tél...,Une ex de Cristiano Ronaldo compare porno et t...
4,https://www.francesoir.fr/afp-afp-france/levee...,0.0,"Levée du statut de détenu signalé de Colonna, ...",Le Premier ministre Jean Castex a levé mardi l...,"Levée du statut de détenu signalé de Colonna, ..."
...,...,...,...,...,...
606,https://www.wikistrike.com/2022/09/11-septembr...,1.0,11 septembre 2001 : La théorie du « complot pi...,Le 11 septembre pour les nuls\nEst-il vrai que...,11 septembre 2001 : La théorie du « complot pi...
607,https://www.wikistrike.com/2022/10/selon-un-an...,1.0,"Selon un ancien conseiller du Pentagone, les É...","Selon un ancien conseiller du Pentagone, les c...","Selon un ancien conseiller du Pentagone, les É..."
608,https://www.wikistrike.com/2022/10/la-pologne-...,1.0,La Pologne s’apprête à s’emparer du territoire...,La Pologne se prépare à s’emparer du territoir...,La Pologne s’apprête à s’emparer du territoire...
609,https://www.wikistrike.com/2022/11/exclusivite...,1.0,Exclusivité WikiStrike: un physicien en colère...,"Crise énergétique battant son plein, WikiStri...",Exclusivité WikiStrike: un physicien en colère...


In [6]:
df_texts = pd.concat([df_texts_afp,df_texts_recueil],ignore_index=True)

In [7]:
df_texts = df_texts.drop_duplicates('url')

In [8]:
df_texts = df_texts.reset_index()

# Experience
---

## Pipeline

### Preprocessor

In [9]:
import patat.util.text

preprocessor = patat.util.text.preprocess


### Tokenizer

In [10]:
from patat.ml.lex_analyser import LexAnalyser

lex = LexAnalyser()

tokenizer = lex.get_lemmas_from_text

### Vocabulary

In [11]:
from sklearn.feature_extraction.text import CountVectorizer

In [12]:
df_texts['text']=df_texts['text'].apply(preprocessor)

In [13]:
%%time
vectorizer = CountVectorizer(lowercase=True, preprocessor=preprocessor, tokenizer=tokenizer)
count_matrix = vectorizer.fit_transform(df_texts['text'])

CPU times: user 1.31 s, sys: 16.1 ms, total: 1.33 s
Wall time: 1.33 s


In [14]:
count_array = count_matrix.toarray()
df_count = pd.DataFrame(data=count_array,columns = vectorizer.get_feature_names_out())

In [15]:
vocab_full = list(df_count.columns)

In [16]:
len(vocab_full)

54209

### Rare Words

In [23]:
df_count

Unnamed: 0,aa,aae,aag,aah,aaliyah,aalto,aanes,aaph,aapp,aaraje,...,îlotiers,ïle,ôter,öbb,önderoglu,östlund,özdemir,özgür,úlfarsson,þórólfur
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3836,7,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3837,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3838,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3839,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [24]:
df_words_0 = pd.DataFrame(df_count[df_texts['infox']==0.0].sum(),columns=['count_0']).sort_values('count_0',ascending=False)
df_words_1 = pd.DataFrame(df_count[df_texts['infox']==1.0].sum(),columns=['count_1']).sort_values('count_1',ascending=False)
df_words = pd.concat([df_words_0,df_words_1],axis=1).fillna(0)
df_words['count']=df_words['count_0']+df_words['count_1']
df_words.shape

(54209, 3)

In [25]:
for occ_rare in [1,2,3,4,5,6,7]:
    df_words['rare_'+str(occ_rare)]=(df_words['count_0']<=occ_rare)&(df_words['count_1']<=occ_rare)

In [26]:
df_words

Unnamed: 0,count_0,count_1,count,rare_1,rare_2,rare_3,rare_4,rare_5,rare_6,rare_7
de,114412,23980,138392,False,False,False,False,False,False,False
la,63402,12901,76303,False,False,False,False,False,False,False
le,49361,9921,59282,False,False,False,False,False,False,False
et,38704,10142,48846,False,False,False,False,False,False,False
les,38053,10363,48416,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...
mayr,0,1,1,True,True,True,True,True,True,True
mazari,0,1,1,True,True,True,True,True,True,True
maçonnique,0,2,2,False,True,True,True,True,True,True
maïté,0,1,1,True,True,True,True,True,True,True


### Common words

In [28]:
for common_size in [50,80,120,200,500]:
    common_0 = df_words.sort_values('count_0',ascending=False).head(common_size).index
    common_1 = df_words.sort_values('count_1',ascending=False).head(common_size).index
    df_words['common_'+str(common_size)]=(df_words.index.isin(common_0))&(df_words.index.isin(common_1))

In [29]:
df_words

Unnamed: 0,count_0,count_1,count,rare_1,rare_2,rare_3,rare_4,rare_5,rare_6,rare_7,common_50,common_80,common_120,common_200,common_500
de,114412,23980,138392,False,False,False,False,False,False,False,True,True,True,True,True
la,63402,12901,76303,False,False,False,False,False,False,False,True,True,True,True,True
le,49361,9921,59282,False,False,False,False,False,False,False,True,True,True,True,True
et,38704,10142,48846,False,False,False,False,False,False,False,True,True,True,True,True
les,38053,10363,48416,False,False,False,False,False,False,False,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
mayr,0,1,1,True,True,True,True,True,True,True,False,False,False,False,False
mazari,0,1,1,True,True,True,True,True,True,True,False,False,False,False,False
maçonnique,0,2,2,False,True,True,True,True,True,True,False,False,False,False,False
maïté,0,1,1,True,True,True,True,True,True,True,False,False,False,False,False


### Vocab & Ignore words

In [31]:
ignore_words_small = list(df_words[df_words['rare_1']].index) + list(df_words[df_words['common_80']].index)

In [71]:
ignore_words_medium = list(df_words[df_words['rare_2']].index) + list(df_words[df_words['common_80']].index)

In [32]:
ignore_words_large = list(df_words[df_words['rare_5']].index) + list(df_words[df_words['common_200']].index)

# Sauvegarde des résultats
---

In [33]:
df_words.to_csv('data/prod/221125-InfoxWords.csv')

# Conclusions
---

- Vocabulaire infox OK

# Bricolages
---

In [None]:
import patat.util.text

### Logistic Regression

In [None]:
importlib.reload(patat.util.text)

In [None]:
#all_texts = '\n'.join(df_texts_recueil['text'].values)
all_texts = '\n'.join(df_texts['text'].values)

In [None]:
len(all_texts)

In [None]:
all_texts = patat.util.text.preprocess(all_texts)

In [None]:
len(set(all_texts))

In [None]:
char_list = list(set(all_texts))

In [None]:
char_list.sort()

In [None]:
char_list

In [None]:
len(char_list)

In [None]:
import patat.ml.lex_analyser

In [None]:
lex = patat.ml.lex_analyser.LexAnalyser()

In [None]:
words = lex.get_words(all_texts)

In [None]:
vocab = list(set(words))

In [None]:
len(vocab)

In [None]:
vocab_lemmas = list(set(lex.get_lemmas(vocab)))

In [None]:

len(vocab_lemmas)

In [None]:
[ 'ª',
 '²',
 '³',
 'µ',
 '¹',
 'º',
 'ı',
]

In [None]:
vocab[0:20]

In [None]:
lex.get_lemmas(vocab[0:20])

In [None]:
for word in vocab:
    if 'æ' in word:
        print(word.replace('æ','ae'))

In [None]:


'æ'