In [1]:
import glob
from pathlib import Path
#from tqdm import tqdm

In [2]:

male_directory = "C:/Users/media/Desktop/gobbykid/corpus/gobbykidCorpus/male-writers"
female_directory = "C:/Users/media/Desktop/gobbykid/corpus/gobbykidCorpus/female-writers"

male_files = glob.glob(f"{male_directory}/*.txt")
female_files = glob.glob(f"{female_directory}/*.txt")

In order to better visualize the corpus metadata, we create three distint lists of dictionaries and as many .csv files.

In [3]:
import re

male_authors_data = []
female_authors_data = []
whole_original_corpus = []


for file in male_files:
    text = open(file, 'rb').read()
    book_dict = dict()

    book_dict['book_title'] = Path(file).stem
    book_dict['author'] = re.search("(?<=_)(.*?)(?=-)", book_dict['book_title']).group(0)
    book_dict['year'] = int(re.search("\d{3}.", book_dict['book_title']).group(0))
    book_dict['decade'] = (re.search("\d{3}", book_dict['book_title']).group(0)) + "0s"
    book_dict['tokens_in_book'] = len(text.split())
    book_dict['authors_sex'] = 'M'
    male_authors_data.append(book_dict)

for file in female_files:
    text = open(file, 'rb').read()
    book_dict = dict()

    book_dict['book_title'] = Path(file).stem
    book_dict['author'] = re.search("(?<=_)(.*?)(?=-)", book_dict['book_title']).group(0)
    book_dict['year'] = int(re.search("\d{3}.", book_dict['book_title']).group(0))
    book_dict['decade'] = (re.search("\d{3}", book_dict['book_title']).group(0)) + "0s"
    book_dict['tokens_in_book'] = len(text.split())
    book_dict['authors_sex'] = 'F'
    female_authors_data.append(book_dict)

whole_original_corpus = sorted((male_authors_data + female_authors_data), key=lambda dict: dict['book_title'])

In [4]:
#create a csv with metadata of non-balanced corpus, containing also the number of tokens per book

import csv
with open('m_data_table.csv', 'w', encoding='utf-8') as file:
    fields = ['book_title','author','year','decade','tokens_in_book', 'authors_sex']
    writer = csv.DictWriter(file, fieldnames=fields)
    writer.writeheader()
    for row in male_authors_data:
        writer.writerow(row)

with open('f_data_table.csv', 'w', encoding='utf-8') as file:
    fields = ['book_title','author','year','decade','tokens_in_book', 'authors_sex']
    writer = csv.DictWriter(file, fieldnames=fields)
    writer.writeheader()
    for row in female_authors_data:
        writer.writerow(row)

with open('whole_original_corpus.csv', 'w', encoding='utf-8') as file:
    fields = ['book_title','author','year','decade','tokens_in_book', 'authors_sex']
    writer = csv.DictWriter(file, fieldnames=fields)
    writer.writeheader()
    for row in whole_original_corpus:
        writer.writerow(row)

In [5]:
print("♂️ MALE AUTHORS CORPUS\nTotal number of words:",sum([row['tokens_in_book'] for row in male_authors_data]), "\nNumber of books:", len(male_files))
print("♀️ FEMALE AUTHORS CORPUS\nTotal number of words:",sum([row['tokens_in_book'] for row in female_authors_data]), "\nNumber of books:", len(female_files))


♂️ MALE AUTHORS CORPUS
Total number of words: 14074486 
Number of books: 161
♀️ FEMALE AUTHORS CORPUS
Total number of words: 9458669 
Number of books: 185


Criteri da tenere in considerazione per il bilanciamento:
1. numero di tokens maschili/femminili
2. Fase temporale (decennio?)
3. autore per decennio

L'output che vogliamo sono **due liste di documenti**, una per autori e una per autrici, che contengano il *massimo* numero di documenti per ogni decennio, con il *minimo* numero di libri dello stesso autore, con la *minima* differenza di numero di token tra maschi e femmine per ogni singolo decennio. La gerarchia di priorità è la seguente:

1. minima differenza assoluta di tokens maschi/femmine per decennio
2. massimo numero di libri per decennio
3. minimo numero di libri dello stesso autore per decennio

~~Considera la possibilità di usare il built-in `filter()` ed eventualmente importare e usare `random` (per scegliere documenti a caso una volta applicati i filtri condizionali).~~ 
~~Prima definisci le funzioni per verificare le condizioni dei filtri (ad esempio:  `return true if abs(male_document_tokens_number - female_document_tokens_number) < 10000`) e poi applica i filtri al dataset.~~

Ho deciso di bilanciare con i criteri spiegati qui di seguito. 
Dal momento che i libri delle autrici sono più numerosi ma generalmente più corti, mentre quelli degli autori sono di meno ma più lunghi, nel corpus finale per gli autori vanno inseriti quanti più libri possibile (che è un requirement che applichiamo anche al corpus femminile), però il più corti possibile; vice versa, per le autrici vogliamo mantenere sì quanti più libri possibile, ma devono essere i più lunghi tra quelli disponibili. Per mantenere un bilanciamento a livello di varietà di autore, e per farlo all'interno di ciascun decennio, ho suddiviso il corpus per decenni e ho applicato questo criterio di scelta in ciascun decennio *e ai libri di ciascun autore*. In poche parole, per il sottoinsieme di libri di ciascun decennio:
* il numero di autori presenti per decade è costante (tutti gli autori appaiono con *almeno un libro* in ciascun decennio). in tal modo si rappresenta anche la proporzione di numero di libri scritti da ciascun autore presente nel corpus. 
* la dimensione dei testi per ciascun autore, relativamente a ciascun decennio, è minimizzata per gli autori e massimizzata per le autrici. 
* c'è un solo parametro che è diverso tra corpus maschile e femminile, ovvero il numero n di testi da scegliere, rispettivamente tra i più corti e tra i più lunghi, per ciascun autore, relativamente a ciascun decennio. Con n=6 per il corpus maschile e n=10 per quello femminile, la differenza di token totali tra i due corpus di riduce a meno di 300'000, e allo stesso tempo garantisce un numero ampio di documenti. Possiamo regolare questo parametro a seconda delle nostre esigenze.




From the list `whole_original_corpus`, containing dictionaries storing the metadata for every document in both the corpora, i.e. male and female authors, we create a DataFrame object, `corpus_df`, in order to be able to use it for visualizations with Plotly. 

In [6]:
import pandas as pd

# transform the list into a DataFrame, for using it with Plotly 
corpus_df = pd.DataFrame(whole_original_corpus)

In [7]:
import plotly.express as px

whole_corpus_viz = px.scatter(
    corpus_df, 
    x= 'year',
    y='tokens_in_book',
    hover_name='book_title', 
    size='tokens_in_book', 
    marginal_x='histogram',
    trendline='ols',
    color='authors_sex', 
    color_discrete_sequence=['MediumSeaGreen', 'Tomato'],
    title='The original (non balanced) corpus',
    labels={'year':'Year', 'tokens_in_book':'Number of tokens', 'authors_sex':"Author's sex"})


whole_corpus_viz.show()


In [8]:
m_list_by_decades = []
m_dec1830 = [book for book in male_authors_data if (book["decade"]) == "1830s"]
m_list_by_decades.append(m_dec1830)
m_dec1840 = [book for book in male_authors_data if (book["decade"]) == "1840s"]
m_list_by_decades.append(m_dec1840)
m_dec1850 = [book for book in male_authors_data if (book["decade"]) == "1850s"]
m_list_by_decades.append(m_dec1850)
m_dec1860 = [book for book in male_authors_data if (book["decade"]) == "1860s"]
m_list_by_decades.append(m_dec1860)
m_dec1870 = [book for book in male_authors_data if (book["decade"]) == "1870s"]
m_list_by_decades.append(m_dec1870)
m_dec1880 = [book for book in male_authors_data if (book["decade"]) == "1880s"]
m_list_by_decades.append(m_dec1880)
m_dec1890 = [book for book in male_authors_data if (book["decade"]) == "1890s"]
m_list_by_decades.append(m_dec1890)
m_dec1900 = [book for book in male_authors_data if (book["decade"]) == "1900s"]
m_list_by_decades.append(m_dec1900)
m_dec1910 = [book for book in male_authors_data if (book["decade"]) == "1910s"]
m_list_by_decades.append(m_dec1910)

f_list_by_decades = []
f_dec1830 = [book for book in female_authors_data if (book["decade"]) == "1830s"]
f_list_by_decades.append(f_dec1830)
f_dec1840 = [book for book in female_authors_data if (book["decade"]) == "1840s"]
f_list_by_decades.append(f_dec1840)
f_dec1850 = [book for book in female_authors_data if (book["decade"]) == "1850s"]
f_list_by_decades.append(f_dec1850)
f_dec1860 = [book for book in female_authors_data if (book["decade"]) == "1860s"]
f_list_by_decades.append(f_dec1860)
f_dec1870 = [book for book in female_authors_data if (book["decade"]) == "1870s"]
f_list_by_decades.append(f_dec1870)
f_dec1880 = [book for book in female_authors_data if (book["decade"]) == "1880s"]
f_list_by_decades.append(f_dec1880)
f_dec1890 = [book for book in female_authors_data if (book["decade"]) == "1890s"]
f_list_by_decades.append(f_dec1890)
f_dec1900 = [book for book in female_authors_data if (book["decade"]) == "1900s"]
f_list_by_decades.append(f_dec1900)
f_dec1910 = [book for book in female_authors_data if (book["decade"]) == "1910s"]
f_list_by_decades.append(f_dec1910)


IMPORTANTE: https://stackoverflow.com/questions/57597433/filtering-a-list-of-dictionaries-based-on-multiple-values

In [9]:
from itertools import groupby


male_balanced_data = []

"""
for l in m_list_by_decades:#TAKES JUST THE ONE SHORTEST BOOK FOR AUTHOR FOR DECADE

    sorted_list = sorted(l, key=lambda dict: dict['author'])
    result = [min(g, key=lambda j: j["tokens_in_book"]) for k,g in groupby(sorted_list , key=lambda i: i["author"])]
    male_balanced_data.extend(result)
"""

#--------------OPPURE---------------
for l in m_list_by_decades:#TAKES THE N SHORTEST BOOKS FOR AUTHOR FOR DECADE

    sorted_list = sorted(l, key=lambda dict: dict['author'])
    n = 6 #number of SHORTEST book per author per decade to be included
    to_add = [sorted(g, key=lambda j: j["tokens_in_book"])[:n] for k,g in groupby(sorted_list , key=lambda i: i["author"])] # takes the n FIRST elements from the sorted list
    male_balanced_data.extend(to_add)


male_balanced_data = [dic for l in male_balanced_data for dic in l] #unpacks the list of lists of dictionaries into a list of dictionaries
print("New number of books in male corpus:", len(male_balanced_data))
print("New total number of tokens in male corpus:", sum([dictionary['tokens_in_book'] for dictionary in male_balanced_data]))


New number of books in male corpus: 109
New total number of tokens in male corpus: 8797218


In [10]:
from itertools import groupby


female_balanced_data = []

"""
for l in f_list_by_decades:#TAKES JUST THE ONE SHORTEST BOOK FOR AUTHOR FOR DECADE

    sorted_list = sorted(l, key=lambda dict: dict['author'])
    result = [min(g, key=lambda j: j["tokens_in_book"]) for k,g in groupby(sorted_list , key=lambda i: i["author"])]
    female_balanced_data.extend(result)
"""

#--------------OPPURE---------------
for l in f_list_by_decades:#TAKES THE N SHORTEST BOOKS FOR AUTHOR FOR DECADE

    sorted_list = sorted(l, key=lambda dict: dict['author'])
    n = 10 #number of LARGEST book per author per decade to be included
    to_add = [sorted(g, key=lambda j: j["tokens_in_book"])[-n:] for k,g in groupby(sorted_list , key=lambda i: i["author"])] # takes the n LAST elements from the sorted list
    female_balanced_data.extend(to_add)


female_balanced_data = [dic for l in female_balanced_data for dic in l] #unpacks the list of lists of dictionaries into a list of dictionaries
print("New number of books in female corpus:", len(female_balanced_data))
print("New total number of tokens in female corpus:", sum([dictionary['tokens_in_book'] for dictionary in female_balanced_data]))

New number of books in female corpus: 157
New total number of tokens in female corpus: 8534374


In [11]:
whole_balanced_data = sorted((male_balanced_data + female_balanced_data), key=lambda dict: dict['book_title'])

In [12]:
#save balanced corpus metadata in a .csv file
with open('m_balanced_corpus.csv', 'w', encoding='utf-8') as output_file:
    fields = ['book_title','author','year','decade','tokens_in_book', 'authors_sex']
    writer = csv.DictWriter(output_file, fieldnames=fields)
    writer.writeheader()
    for row in male_balanced_data:
        writer.writerow(row)

with open('f_balanced_corpus.csv', 'w', encoding='utf-8') as output_file:
    fields = ['book_title','author','year','decade','tokens_in_book', 'authors_sex']
    writer = csv.DictWriter(output_file, fieldnames=fields)
    writer.writeheader()
    for row in female_balanced_data:
        writer.writerow(row)

with open('whole_balanced_corpus.csv', 'w', encoding='utf-8') as output_file:
    fields = ['book_title','author','year','decade','tokens_in_book', 'authors_sex']
    writer = csv.DictWriter(output_file, fieldnames=fields)
    writer.writeheader()
    for row in whole_balanced_data:
        writer.writerow(row) 

This last step copies the files from the old folder and paste them into the folder of the new, balanced, corpus. 

In [13]:
import shutil
from pathlib import Path 

male_balanced_corpus = sorted([dict['book_title'] for dict in male_balanced_data])
female_balanced_corpus = sorted([dict['book_title'] for dict in female_balanced_data])

m_balanced_corpus_path = "C:/Users/media/Desktop/gobbykid/balanced_corpus/m/"
f_balanced_corpus_path = "C:/Users/media/Desktop/gobbykid/balanced_corpus/f/"


for file in male_files:
    filename = Path(file).stem
    if filename in male_balanced_corpus:
        shutil.copy(file, m_balanced_corpus_path+filename+".txt")

for file in female_files:
    filename = Path(file).stem
    if filename in female_balanced_corpus:
        shutil.copy(file, f_balanced_corpus_path+filename+".txt")

In [14]:
balanced_corpus_df = pd.DataFrame(whole_balanced_data)

In [15]:
balanced_corpus_viz = px.scatter(
    balanced_corpus_df, 
    x= 'year',
    y='tokens_in_book',
    hover_name='book_title', 
    size='tokens_in_book', 
    marginal_x='histogram',
    trendline='ols',
    color='authors_sex', 
    color_discrete_sequence=['MediumSeaGreen', 'Tomato'],
    title='The balanced corpus',
    labels={'year':'Year', 'tokens_in_book':'Number of tokens', 'authors_sex':"Author's sex"})


balanced_corpus_viz.show()