In [3]:
import os
import pandas as pd
from pathlib import Path
import textdistance

from tqdm.notebook import tqdm
tqdm.pandas()


from nltk import word_tokenize
from nltk.collocations import BigramCollocationFinder, TrigramCollocationFinder
from nltk.metrics import BigramAssocMeasures, TrigramAssocMeasures
from nltk.stem.snowball import SnowballStemmer

# Get data

In [4]:
input_dir = Path.cwd() / '../data/csv_files' # input directory
df = pd.read_csv(input_dir /'text_data230826.csv', sep='|')

In [5]:
df

Unnamed: 0,year,author,title,text,clean_text
0,1838,Balzac,Splendeurs et misères des courtisanes 1 Esther...,SPLENDEURS ET MISÈRESDES COURTISANES Laissez...,splendeurs et misèresdes courtisanes laissez-m...
1,1838,Balzac,Splendeurs et misères des courtisanes 2 A comb...,"Depuis huit jours, Nucingen allait marchander ...",depuis huit jours nucingen allait marchander l...
2,1838,Balzac,Splendeurs et misères des courtisanes 3 Où mèn...,"Le lendemain, à six heures, deux voitures mené...",le lendemain à six heures deux voitures menées...
3,1838,Balzac,Splendeurs et misères des courtisanes 4 La der...,"— Qu’y a-t-il, Madeleine? dit madame Camusot e...",qu’y a-t-il madeleine dit madame camusot en vo...
4,1842,Balzac,La Rabouilleuse,"LES CÉLIBATAIRES. Voici, mon cher Nodier, un o...",les célibataires voici mon cher nodier un ouvr...
...,...,...,...,...,...
96,1910,Colette,La Vagabonde,LA VAGABONDE \n\n\n\nParu dans Le Livre de Poc...,la vagabonde paru dans le livre de poche l'ing...
97,1910,DelarueMardrus,Comme tout le monde,Première partie C’est un wagon de deuxième...,première partie c’est un wagon de deuxième cla...
98,1910,Maupassant,Les Dimanches d'un bourgeois à Paris,"Monsieur Patissot, né à Paris, après avoir fai...",monsieur patissot né à paris après avoir fait ...
99,1911,Daudet,Rose et Ninette,"au poëte et au philosophe, je dédie cette page...",au poëte et au philosophe je dédie cette page ...


## Remove stopwords

In [19]:
# get stop words list
input_dir = Path.cwd() / '../data/stopwords' # input directory
with open(input_dir  / 'fr_stopwords.txt', 'r', encoding='utf-8-sig') as f:
    stopwords =  f.read()

stopword_list = stopwords.split('\n')

def remove_stopwords(text_string, stopword_list):
    
    tokens = text_string.split(' ')

    wo_stopword = [i for i in tokens if i not in stopword_list]
    
    return ' '.join(wo_stopword)

In [20]:
df['clean_text_wo_stopwords'] = df['clean_text'].progress_apply(lambda x : remove_stopwords(x, stopword_list))

  0%|          | 0/101 [00:00<?, ?it/s]

In [21]:
df

Unnamed: 0,year,author,title,text,clean_text,clean_text_wo_stopwords
0,1838,Balzac,Splendeurs et misères des courtisanes 1 Esther...,SPLENDEURS ET MISÈRESDES COURTISANES Laissez...,splendeurs et misèresdes courtisanes laissez-m...,splendeurs misèresdes courtisanes laissez-moi ...
1,1838,Balzac,Splendeurs et misères des courtisanes 2 A comb...,"Depuis huit jours, Nucingen allait marchander ...",depuis huit jours nucingen allait marchander l...,jours nucingen allait marchander livraison qu’...
2,1838,Balzac,Splendeurs et misères des courtisanes 3 Où mèn...,"Le lendemain, à six heures, deux voitures mené...",le lendemain à six heures deux voitures menées...,lendemain heures voitures menées poste appelée...
3,1838,Balzac,Splendeurs et misères des courtisanes 4 La der...,"— Qu’y a-t-il, Madeleine? dit madame Camusot e...",qu’y a-t-il madeleine dit madame camusot en vo...,qu’y a-t-il madeleine dit madame camusot voyan...
4,1842,Balzac,La Rabouilleuse,"LES CÉLIBATAIRES. Voici, mon cher Nodier, un o...",les célibataires voici mon cher nodier un ouvr...,célibataires nodier ouvrage faits soustraits l...
...,...,...,...,...,...,...
96,1910,Colette,La Vagabonde,LA VAGABONDE \n\n\n\nParu dans Le Livre de Poc...,la vagabonde paru dans le livre de poche l'ing...,vagabonde paru livre poche l'ingénue libertine...
97,1910,DelarueMardrus,Comme tout le monde,Première partie C’est un wagon de deuxième...,première partie c’est un wagon de deuxième cla...,partie c’est wagon classe route long train noi...
98,1910,Maupassant,Les Dimanches d'un bourgeois à Paris,"Monsieur Patissot, né à Paris, après avoir fai...",monsieur patissot né à paris après avoir fait ...,monsieur patissot né paris d’autres mauvaises ...
99,1911,Daudet,Rose et Ninette,"au poëte et au philosophe, je dédie cette page...",au poëte et au philosophe je dédie cette page ...,poëte philosophe dédie page divorcé jours l’iv...


In [12]:
def build_NGrams(text_string, n_grams=2):
    
    # split text sting
    wordlist = text_string.split(' ')
    
    
    # build ngrams    
    ngrams_list = [wordlist[i:i+n_grams] for i in range(len(wordlist)-(n_grams-1))]
    
    new_ngrams_list = [' '.join(list(set(i))) for i in ngrams_list]
    
    
    return new_ngrams_list

In [29]:
# Build bigrams  

author = 'Balzac'

text_string = ' '.join(df[df['author'] == author]['clean_text_wo_stopwords'])

bigrams = build_NGrams(text_string, n_grams=2)

# get keyword list
input_dir = Path.cwd() / '../data/key_word_lists' # input directory
with open(input_dir  / 'emotion_list.txt', 'r', encoding='utf-8-sig') as f:
    keywords =  f.read().split()
    
match = []
for word in keywords:
    for pair in bigrams:
        if word in pair:
            match.append(pair)

In [30]:
match

['abattue torpille',
 'abattue coup',
 'abattue fille',
 'abattue linges',
 'abattu peuplier',
 'abattu paysage',
 'abattu coupable',
 'abattu laissait',
 'abattue mortellerie',
 'abattue entière',
 'abattu coupables',
 'abattu main',
 'abattu collin',
 'abattu violence',
 'conciergerie abattu',
 'abattu douleur',
 'abattu homme',
 'mort abattu',
 'abattue femme',
 'abattue mourante',
 'abattu scélérat',
 'abattu l’homme',
 'm’a abattu',
 'sphère abattu',
 'abattue fut',
 'abattue colonne',
 'abattu aurait',
 'abattu tête',
 'abattu max',
 'fièvre abattu',
 'sombre très-abattu',
 'affaissé…—hélas très-abattu',
 'abattu brésilien',
 'abattu religion',
 'abattus yeux',
 'abattus amie',
 'abattu malade',
 'abattu trouva',
 'abattu rêverie',
 'coups abattu',
 'résiste l’abrutissement',
 'l’espèce l’abrutissement',
 'devine l’agonie',
 'l’agonie misère',
 'comédie agonie',
 'agonie l’a',
 'dit l’agonie',
 'l’agonie vingt-quatre',
 'entendait l’agonie',
 'pauvre l’agonie',
 'déploré l’agonie