In [1]:
import requests
from bs4 import BeautifulSoup
import os, psutil
import re
import numpy as np
import pandas as pd
import datetime
import nltk
from nltk.tokenize import sent_tokenize
# nltk.download('punkt_tab')

import torch
from transformers import BertTokenizer, BertForSequenceClassification, AutoModelForSequenceClassification, AutoTokenizer
from tqdm import tqdm
# from .autonotebook import tqdm as notebook_tqdm

  from .autonotebook import tqdm as notebook_tqdm


# Initialize Model

In [17]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [3]:
# Use if models are zipped

# import zipfile

# zip_paths = ['/content/best-sentiment-bert.zip', '/content/sentiment-bert.zip']
# model_paths =[]

# for zip_path in zip_paths:
#   extract_to = zip_path.split('/')[2].split('.')[0]
#   model_paths.append(extract_to)

#   with zipfile.ZipFile(zip_path, 'r') as zip_ref:
#       zip_ref.extractall(extract_to)

In [18]:
model_paths = ["/cluster/home/hlee37/git/gutenberg/phase1/best-relationship-strict-bert", "/cluster/home/hlee37/git/gutenberg/phase1/final-model","/cluster/home/hlee37/git/gutenberg/phase1/sentiment-bert-precision"]

In [19]:
model_list = []

for p in model_paths:
    model = AutoModelForSequenceClassification.from_pretrained(p)
    model.eval()
    model.to(device)
    model_list.append(model)

tokenizer = AutoTokenizer.from_pretrained(model_paths[0])  # shared tokenizer

In [6]:
# def classify_sentence_ensemble(sentence, threshold=0.9):
#     inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True, max_length=512)
#     inputs = {k: v.to(device) for k, v in inputs.items()}  # ** important for using GPU

#     with torch.no_grad():
#       probs = []
#       for model in model_list:
#         outputs = model(**inputs)
#         logits = outputs.logits
#         prob = torch.softmax(logits, dim=1)
#         probs.append(prob)

#       avg_probs = torch.mean(torch.stack(probs, dim=0), dim=0)  # keep shape [1, 2]
#       rel_prob = avg_probs[0][1].item()
#       no_rel_prob = avg_probs[0][0].item()

#       predicted_class = 1 if rel_prob >= threshold else 0
    
#     if predicted_class == 0:
#         return None
        
#     return {
#         'sentence': sentence,
#         'predicted_class': predicted_class
#     }


In [20]:
def classify_batch(sentences, threshold=0.9):
    if not sentences:
        return []

    encodings = tokenizer(
        sentences,
        return_tensors="pt",
        truncation=True,
        padding=True,
        max_length=512
    ).to(device)

    with torch.no_grad():
        probs_per_model = []
        for model in model_list:
            logits = model(**encodings).logits  # [B, C]
            probs = torch.softmax(logits, dim=1)
            probs_per_model.append(probs)

        avg_probs = torch.mean(torch.stack(probs_per_model), dim=0)  # [B, C]
        rel_probs = avg_probs[:, 1]  # [B]
        preds = (rel_probs >= threshold).long()

    results = []
    for sentence, pred in zip(sentences, preds.cpu().tolist()):
        if pred == 1:
            results.append({
                'sentence': sentence,
                'predicted_class': pred
            })
    return results
 

## Get Text from url links

In [21]:
# cleaning text

def clean_text(raw_text):
    text = raw_text.replace('\n', ' ')
    text = re.sub(r'-\s+', '', text)  # join hyphenated words
    text = re.sub(r'\s+', ' ', text).strip()
    text = text.replace('‚Äî', '-').replace('‚Äú', '"').replace('‚Äù', '"').replace("‚Äô", "'")
    text = re.sub(r'CHAPTER\s[\w\d\.]+.*?(?=\s)', '', text, flags=re.IGNORECASE)
    text = re.sub(r'^[A-Z\s\.,\'\-]{10,}$', '', text, flags=re.MULTILINE)
    return text

In [22]:
def get_text(url, diary_url_pd, buffer_size=100):
    url = url.strip()
    now = datetime.datetime.now()

    try:
        response = requests.get(url)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Bad Status: {e}, for url: {url}")
        return

    soup = BeautifulSoup(response.content, 'html.parser')

    all_sentences = []
    buffer = []

    for tag in soup.find_all('p'):
        content = tag.get_text(strip=True)
        if content:
            buffer.append(content)

        if len(buffer) >= buffer_size:
            chunk_text = ' '.join(buffer)
            buffer = []

            cleaned = clean_text(chunk_text)
            sentences = sent_tokenize(cleaned)
            all_sentences.extend(s for s in sentences if len(s.split()) >= 5)

            print(f"üß† Memory Used: {psutil.Process(os.getpid()).memory_info().rss / 1e6:.2f} MB")

    # Process any remaining text in buffer
    if buffer:
        chunk_text = ' '.join(buffer)
        cleaned = clean_text(chunk_text)
        sentences = sent_tokenize(cleaned)
        all_sentences.extend(s for s in sentences if len(s.split()) >= 5)

    try:
        id_ = diary_url_pd.loc[diary_url_pd['diary'] == url, 'id'].values[0]
        title = diary_url_pd.loc[diary_url_pd['diary'] == url, 'explorer'].values[0]
    except IndexError:
        print(f"‚ùå Could not find metadata for URL: {url}")
        return

    print(f"‚úÖ Extracted {len(all_sentences)} sentences from {title} (ID: {id_})")
    print(f"‚è±Ô∏è Time taken: {datetime.datetime.now() - now}")

    return all_sentences


In [10]:
# def main(diary_url_pd):
#     url_list = diary_url_pd['diary'].tolist()
#     diary_url_pd['diary'] = diary_url_pd['diary'].str.strip()

#     for url in tqdm(url_list, desc="üìñ Processing Diaries"):
#         try:
#             all_sentences = get_text(url, diary_url_pd)
#             classified_sentences = {}

#             with tqdm(total=len(all_sentences), desc="üíø Classifying Sentences", mininterval=10) as pbar:
#               for i, sentence in enumerate(all_sentences, start=1):
#                   result = classify_sentence_ensemble(sentence)
#                   if result is not None:
#                       classified_sentences[i] = result
#                   pbar.update(1)


#             diary_id = diary_url_pd.loc[diary_url_pd['diary'] == url, 'id'].values[0]
#             diary_title = diary_url_pd.loc[diary_url_pd['diary'] == url, 'explorer'].values[0]

#             df = pd.DataFrame(classified_sentences).T
#             df.to_csv(f"./final/{diary_id}_{diary_title}.csv", index = False)

#         except Exception as e:
#             try:
#                 id_ = diary_url_pd.loc[diary_url_pd['diary'] == url.strip(), 'id'].values[0]
#             except IndexError:
#                 id_ = "unknown"
#             print(f"üî• Error: {e}, for url: {url}, id: {id_}")

In [23]:
def main(diary_url_pd, batch_size=32):
    url_list = diary_url_pd['diary'].tolist()
    diary_url_pd['diary'] = diary_url_pd['diary'].str.strip()

    for url in tqdm(url_list, desc="üìñ Processing Diaries"):
        try:
            all_sentences = get_text(url, diary_url_pd)
            len_sentences=len(all_sentences)
            
            diary_id = diary_url_pd.loc[diary_url_pd['diary'] == url, 'id'].values[0]
            diary_title = diary_url_pd.loc[diary_url_pd['diary'] == url, 'explorer'].values[0]
            
            if len_sentences >= 500000:
                print(f"Number of Sentences exceeds 500k with {len_sentences}")
                
                for chunk_start in range(0, len_sentences, 500000):
                    
                    sentence_batch_num = chunk_start // 500000
                    output_path = f"./final/{diary_id}_{diary_title}_{sentence_batch_num}.csv"
                    if os.path.exists(output_path):
                        print(f"‚è© But {diary_id}_{diary_title}_{sentence_batch_num} exists and skipping.")
                        continue
                    
                    batched_sentences = all_sentences[chunk_start:chunk_start + 500000]
                    classified_sentences = {}
                    i = 1
                    with tqdm(total=len(batched_sentences), desc="üíø Classifying Sentences", mininterval=10) as pbar:
                        for batch_start in range(0, len(batched_sentences), batch_size):
                            batch = batched_sentences[batch_start:batch_start + batch_size]
                            batch_results = classify_batch(batch)
        
                            for res in batch_results:
                                classified_sentences[i] = res
                                i += 1
                            pbar.update(len(batch))
        
                    df = pd.DataFrame(classified_sentences).T
                    df.to_csv(output_path, index=False)
                        
                
                

            else:
                output_path = f"./final/{diary_id}_{diary_title}.csv"
                if os.path.exists(output_path):
                    print(f"‚è© {diary_id}_{diary_title} exists and skipping.")
                    continue
                
                print(f"Number of Sentence Does NOT exceed 500k with {len_sentences}")
                classified_sentences = {}
                i = 1

                with tqdm(total=len_sentences, desc="üíø Classifying Sentences", mininterval=10) as pbar:
                    for start in range(0, len_sentences, batch_size):
                        batch = all_sentences[start:start + batch_size]
                        batch_results = classify_batch(batch)
    
                        for res in batch_results:
                            classified_sentences[i] = res
                            i += 1
    
                        pbar.update(len(batch))
    
    
                df = pd.DataFrame(classified_sentences).T
                df.to_csv(output_path, index=False)

        except Exception as e:
            try:
                id_ = diary_url_pd.loc[diary_url_pd['diary'] == url.strip(), 'id'].values[0]
            except IndexError:
                id_ = "unknown"
            print(f"üî• Error: {e}, for url: {url}, id: {id_}")


In [12]:
# del diary_pd, diary_url_pd

In [24]:
# read diary list, and list up urls

diary_df = pd.read_csv(os.path.join(os.getcwd(), 'DataForJohn.csv'))
diary_url_df = pd.DataFrame(diary_df[['id', 'Explorer', 'Diary']])
diary_url_df.columns = diary_url_df.columns.str.strip().str.lower()
diary_url_df['diary'] = diary_url_df['diary'].str.strip()

# path_list = [url for url in diary_url_pd['diary'].tolist() if url.startswith('https://gutenberg')]

In [25]:
diary_url_df

Unnamed: 0,id,explorer,diary
0,1,"Wentworth, Lawson, and Blaxland",https://gutenberg.net.au/ebooks02/0200411h.htm...
1,2,Surveyor G. W. Evans,https://gutenberg.net.au/ebooks13/1300271h.html
2,3,Surveyor General John Oxley,https://gutenberg.net.au/ebooks/e00037.html
3,4,Allan Cunningham,https://gutenberg.net.au/ebooks13/1304431h.html
4,5,Hume and Hovell,https://gutenberg.net.au/ebooks04/0400371h.html
5,6,Capt. Chas. Sturt,https://gutenberg.net.au/ebooks07/0700391h.htm...
6,7,Sir Thomas Mitchell,https://gutenberg.net.au/ebooks/e00035.html
7,8,Sir Thomas Mitchell,https://gutenberg.net.au/ebooks/e00034.html#tr...
8,9,Sir Thomas Mitchell,https://gutenberg.net.au/ebooks/e00036.html
9,10,Edward John Eyre,https://gutenberg.net.au/ebooks/e00048.html


In [16]:
# testing get text with diary 7 for batched run

# diary_7 = diary_url_pd.loc[diary_url_pd['id'] == 7]
# main(diary_7)

In [17]:
# testing get text with diaries


# main(diary_url_pd)

# Classifying Sentences

In [18]:
# # testing the model with diary 1

# diary_1 = diary_url_pd.loc[diary_url_pd['id'] == 1]
# main(diary_1)

In [19]:
# diary_2 = diary_url_pd.loc[diary_url_pd['id'] == 2]
# main(diary_2)

In [20]:
# diary_3 = diary_url_pd.loc[diary_url_pd['id'] == 3]
# main(diary_3)

In [21]:
# main(diary_url_pd)

# Classify in Batch

In [22]:
# url_list = diary_url_pd['diary'].to_list()
# for url in tqdm(url_list, desc="üìñ Processing Diaries"):
#     all_sentences = get_text(url, diary_url_pd)

In [23]:
# filtered_df = diary_url_pd[~diary_url_pd['id'].isin([7, 8, 9, 10, 11, 20, 21, 24, 25])]

In [26]:
main(diary_url_df)

üìñ Processing Diaries:   3%|‚ñà‚ñà‚ñà‚ñã                                                                                                                         | 1/34 [00:01<00:36,  1.10s/it]

‚úÖ Extracted 307 sentences from Wentworth, Lawson, and Blaxland (ID: 1)
‚è±Ô∏è Time taken: 0:00:01.101515
‚è© 1_Wentworth, Lawson, and Blaxland exists and skipping.


üìñ Processing Diaries:   6%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                                                                                                                     | 2/34 [00:02<00:43,  1.37s/it]

üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
‚úÖ Extracted 701 sentences from Surveyor G. W. Evans (ID: 2)
‚è±Ô∏è Time taken: 0:00:01.558244
‚è© 2_Surveyor G. W. Evans exists and skipping.


üìñ Processing Diaries:   9%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                                                                                                                  | 3/34 [00:04<00:45,  1.48s/it]

üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
‚úÖ Extracted 2682 sentences from Surveyor General John Oxley (ID: 3)
‚è±Ô∏è Time taken: 0:00:01.613605
‚è© 3_Surveyor General John Oxley exists and skipping.


üìñ Processing Diaries:  12%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                                                                                                              | 4/34 [00:05<00:41,  1.38s/it]

‚úÖ Extracted 309 sentences from Allan Cunningham (ID: 4)
‚è±Ô∏è Time taken: 0:00:01.225575
‚è© 4_Allan Cunningham exists and skipping.


üìñ Processing Diaries:  15%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                                                                                                          | 5/34 [00:06<00:39,  1.38s/it]

üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
‚úÖ Extracted 999 sentences from Hume and Hovell (ID: 5)
‚è±Ô∏è Time taken: 0:00:01.370375
‚è© 5_Hume and Hovell exists and skipping.


üìñ Processing Diaries:  18%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                                                                                                       | 6/34 [00:08<00:41,  1.47s/it]

üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
üß† Memory Used: 3171.02 MB
‚úÖ Extracted 2484 sentences from Capt. Chas. Sturt (ID: 6)
‚è±Ô∏è Time taken: 0:00:01.649229
‚è© 6_Capt. Chas. Sturt exists and skipping.
üß† Memory Used: 3219.76 MB
üß† Memory Used: 3278.40 MB
üß† Memory Used: 3313.91 MB
üß† Memory Used: 3320.77 MB
üß† Memory Used: 3309.47 MB
üß† Memory Used: 3304.78 MB
üß† Memory Used: 3301.68 MB
üß† Memory Used: 3299.42 MB
üß† Memory Used: 3336.00 MB
üß† Memory Used: 3370.83 MB
üß† Memory Used: 3428.27 MB
üß† Memory Used: 3441.01 MB
üß† Memory Used: 3499.89 MB
üß† Memory Used: 3509.92 MB
üß† Memory Used: 3534.48 MB
üß† Memory Used: 35

üìñ Processing Diaries:  21%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                                                                                                   | 7/34 [02:19<19:46, 43.93s/it]

üß† Memory Used: 3595.98 MB
‚úÖ Extracted 2968052 sentences from Sir Thomas Mitchell (ID: 7)
‚è±Ô∏è Time taken: 0:02:11.352043
Number of Sentences exceeds 500k with 2968052
‚è© But 7_Sir Thomas Mitchell_0 exists and skipping.
‚è© But 7_Sir Thomas Mitchell_1 exists and skipping.
‚è© But 7_Sir Thomas Mitchell_2 exists and skipping.
‚è© But 7_Sir Thomas Mitchell_3 exists and skipping.
‚è© But 7_Sir Thomas Mitchell_4 exists and skipping.
‚è© But 7_Sir Thomas Mitchell_5 exists and skipping.
üß† Memory Used: 3809.56 MB
üß† Memory Used: 3822.87 MB
üß† Memory Used: 3867.21 MB
üß† Memory Used: 3901.26 MB
üß† Memory Used: 3884.71 MB
üß† Memory Used: 3865.96 MB
üß† Memory Used: 3873.66 MB
‚úÖ Extracted 1424342 sentences from Sir Thomas Mitchell (ID: 8)
‚è±Ô∏è Time taken: 0:01:12.761621


üìñ Processing Diaries:  24%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                                                                                               | 8/34 [03:32<23:03, 53.21s/it]

Number of Sentences exceeds 500k with 1424342
‚è© But 8_Sir Thomas Mitchell_0 exists and skipping.
‚è© But 8_Sir Thomas Mitchell_1 exists and skipping.
‚è© But 8_Sir Thomas Mitchell_2 exists and skipping.
üß† Memory Used: 3587.92 MB
üß† Memory Used: 3735.56 MB
üß† Memory Used: 3749.58 MB
üß† Memory Used: 3738.02 MB
üß† Memory Used: 3730.06 MB
üß† Memory Used: 3726.49 MB
üß† Memory Used: 3703.52 MB
üß† Memory Used: 3745.39 MB
üß† Memory Used: 3834.66 MB
üß† Memory Used: 3776.59 MB
üß† Memory Used: 3847.63 MB
üß† Memory Used: 3908.55 MB
üß† Memory Used: 3901.18 MB
üß† Memory Used: 3892.42 MB
üß† Memory Used: 3957.04 MB
üß† Memory Used: 3920.61 MB
üß† Memory Used: 3955.07 MB
üß† Memory Used: 3964.71 MB
üß† Memory Used: 3970.62 MB
üß† Memory Used: 3973.51 MB


üìñ Processing Diaries:  26%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                                                                                            | 9/34 [05:54<33:42, 80.89s/it]

üß† Memory Used: 3974.55 MB
‚úÖ Extracted 3065413 sentences from Sir Thomas Mitchell (ID: 9)
‚è±Ô∏è Time taken: 0:02:21.599676
Number of Sentences exceeds 500k with 3065413
‚è© But 9_Sir Thomas Mitchell_0 exists and skipping.
‚è© But 9_Sir Thomas Mitchell_1 exists and skipping.
‚è© But 9_Sir Thomas Mitchell_2 exists and skipping.
‚è© But 9_Sir Thomas Mitchell_3 exists and skipping.
‚è© But 9_Sir Thomas Mitchell_4 exists and skipping.
‚è© But 9_Sir Thomas Mitchell_5 exists and skipping.
‚è© But 9_Sir Thomas Mitchell_6 exists and skipping.
üß† Memory Used: 3862.62 MB
üß† Memory Used: 4074.54 MB
üß† Memory Used: 4178.62 MB
üß† Memory Used: 4260.38 MB
üß† Memory Used: 4361.29 MB
üß† Memory Used: 4442.08 MB
üß† Memory Used: 4519.29 MB
üß† Memory Used: 4576.90 MB
üß† Memory Used: 4629.70 MB
üß† Memory Used: 4701.28 MB
üß† Memory Used: 4767.06 MB
üß† Memory Used: 4810.88 MB
üß† Memory Used: 4853.33 MB
üß† Memory Used: 4865.48 MB
üß† Memory Used: 4893.71 MB
üß† Memory Used: 49

üìñ Processing Diaries:  29%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                                                                                      | 10/34 [10:21<55:15, 138.17s/it]

Number of Sentences exceeds 500k with 5521484
‚è© But 10_Edward John Eyre_0 exists and skipping.
‚è© But 10_Edward John Eyre_1 exists and skipping.
‚è© But 10_Edward John Eyre_2 exists and skipping.
‚è© But 10_Edward John Eyre_3 exists and skipping.
‚è© But 10_Edward John Eyre_4 exists and skipping.
‚è© But 10_Edward John Eyre_5 exists and skipping.
‚è© But 10_Edward John Eyre_6 exists and skipping.
‚è© But 10_Edward John Eyre_7 exists and skipping.
‚è© But 10_Edward John Eyre_8 exists and skipping.
‚è© But 10_Edward John Eyre_9 exists and skipping.
‚è© But 10_Edward John Eyre_10 exists and skipping.
‚è© But 10_Edward John Eyre_11 exists and skipping.
üß† Memory Used: 4673.93 MB
üß† Memory Used: 4735.79 MB
üß† Memory Used: 4722.61 MB
üß† Memory Used: 4702.88 MB
üß† Memory Used: 4687.61 MB
üß† Memory Used: 4681.92 MB
üß† Memory Used: 4644.52 MB
üß† Memory Used: 4674.58 MB
üß† Memory Used: 4623.50 MB
üß† Memory Used: 4632.01 MB
‚úÖ Extracted 2003277 sentences from Ludwig Leichh

üìñ Processing Diaries:  32%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                                                                                   | 11/34 [11:47<46:51, 122.23s/it]

Number of Sentences exceeds 500k with 2003277
‚è© But 11_Ludwig Leichhardt_0 exists and skipping.
‚è© But 11_Ludwig Leichhardt_1 exists and skipping.
‚è© But 11_Ludwig Leichhardt_2 exists and skipping.
‚è© But 11_Ludwig Leichhardt_3 exists and skipping.
‚è© But 11_Ludwig Leichhardt_4 exists and skipping.


üìñ Processing Diaries:  35%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                                                                                | 12/34 [11:53<31:55, 87.06s/it]

‚úÖ Extracted 548 sentences from Ludwig Leichhardt (ID: 12)
‚è±Ô∏è Time taken: 0:00:06.530772
‚è© 12_Ludwig Leichhardt exists and skipping.


üìñ Processing Diaries:  38%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                                                                            | 13/34 [11:59<21:52, 62.50s/it]

‚úÖ Extracted 108 sentences from Edmund B. Kennedy (ID: 13)
‚è±Ô∏è Time taken: 0:00:05.980163
‚è© 13_Edmund B. Kennedy exists and skipping.


üìñ Processing Diaries:  41%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                                                                         | 14/34 [12:01<14:45, 44.26s/it]

üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
üß† Memory Used: 3293.94 MB
‚úÖ Extracted 3442 sentences from A. C. Gregory (ID: 14)
‚è±Ô∏è Time taken: 0:00:02.111279
‚è© 14_A. C. Gregory exists and skipping.


üìñ Processing Diaries:  44%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                                                                     | 15/34 [12:07<10:21, 32.73s/it]

‚úÖ Extracted 77 sentences from Major Warburton (ID: 15)
‚è±Ô∏è Time taken: 0:00:06.006240
‚è© 15_Major Warburton exists and skipping.


üìñ Processing Diaries:  47%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                                                                 | 16/34 [12:13<07:24, 24.69s/it]

üß† Memory Used: 3293.95 MB
‚úÖ Extracted 356 sentences from Major Warburton (ID: 16)
‚è±Ô∏è Time taken: 0:00:06.017418
‚è© 16_Major Warburton exists and skipping.


üìñ Processing Diaries:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                                                              | 17/34 [12:20<05:27, 19.25s/it]

üß† Memory Used: 3293.95 MB
üß† Memory Used: 3293.95 MB
üß† Memory Used: 3293.95 MB
üß† Memory Used: 3293.95 MB
üß† Memory Used: 3293.95 MB
üß† Memory Used: 3293.95 MB
‚úÖ Extracted 2369 sentences from Major Warburton (ID: 17)
‚è±Ô∏è Time taken: 0:00:06.599102
‚è© 17_Major Warburton exists and skipping.


üìñ Processing Diaries:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                                                          | 18/34 [12:26<04:05, 15.35s/it]

üß† Memory Used: 3293.95 MB
üß† Memory Used: 3293.95 MB
‚úÖ Extracted 704 sentences from Major Warburton (ID: 18)
‚è±Ô∏è Time taken: 0:00:06.254679
‚è© 18_Major Warburton exists and skipping.
Bad Status: Invalid URL 'same with A C Gregory-no need for analysis': No scheme supplied. Perhaps you meant https://same with A C Gregory-no need for analysis?, for url: same with A C Gregory-no need for analysis
üî• Error: object of type 'NoneType' has no len(), for url: same with A C Gregory-no need for analysis, id: 19
üß† Memory Used: 3407.18 MB
üß† Memory Used: 3431.92 MB
üß† Memory Used: 3419.29 MB
üß† Memory Used: 3420.63 MB
üß† Memory Used: 3402.17 MB
üß† Memory Used: 3386.07 MB
üß† Memory Used: 3421.57 MB
üß† Memory Used: 3468.96 MB
üß† Memory Used: 3479.81 MB
üß† Memory Used: 3482.81 MB
üß† Memory Used: 3484.35 MB
üß† Memory Used: 3484.88 MB


üìñ Processing Diaries:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                                                   | 20/34 [14:38<09:02, 38.72s/it]

üß† Memory Used: 3484.88 MB
üß† Memory Used: 3485.12 MB
üß† Memory Used: 3485.12 MB
‚úÖ Extracted 3283106 sentences from McDouall Stuart (ID: 20)
‚è±Ô∏è Time taken: 0:02:11.873459
Number of Sentences exceeds 500k with 3283106
‚è© But 20_McDouall Stuart_0 exists and skipping.
‚è© But 20_McDouall Stuart_1 exists and skipping.
‚è© But 20_McDouall Stuart_2 exists and skipping.
‚è© But 20_McDouall Stuart_3 exists and skipping.
‚è© But 20_McDouall Stuart_4 exists and skipping.
‚è© But 20_McDouall Stuart_5 exists and skipping.
‚è© But 20_McDouall Stuart_6 exists and skipping.
üß† Memory Used: 3517.38 MB
üß† Memory Used: 3620.41 MB
üß† Memory Used: 3622.01 MB
üß† Memory Used: 3669.20 MB
üß† Memory Used: 3667.13 MB
üß† Memory Used: 3706.68 MB
üß† Memory Used: 3722.45 MB
üß† Memory Used: 3735.09 MB
üß† Memory Used: 3740.67 MB
üß† Memory Used: 3743.23 MB
üß† Memory Used: 3744.28 MB
‚úÖ Extracted 1163849 sentences from Burke & Wills (ID: 21)
‚è±Ô∏è Time taken: 0:00:59.360384


üìñ Processing Diaries:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                                               | 21/34 [15:38<09:30, 43.90s/it]

Number of Sentences exceeds 500k with 1163849
‚è© But 21_Burke & Wills_0 exists and skipping.
‚è© But 21_Burke & Wills_1 exists and skipping.
‚è© But 21_Burke & Wills_2 exists and skipping.


üìñ Processing Diaries:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                                           | 22/34 [15:45<06:50, 34.19s/it]

üß† Memory Used: 3581.97 MB
üß† Memory Used: 3581.97 MB
üß† Memory Used: 3581.97 MB
üß† Memory Used: 3581.97 MB
üß† Memory Used: 3581.97 MB
üß† Memory Used: 3581.97 MB
üß† Memory Used: 3581.97 MB
‚úÖ Extracted 2369 sentences from In search of Burke & Wills‚ÄîFrederick Walker (ID: 22)
‚è±Ô∏è Time taken: 0:00:06.705157
‚è© 22_In search of Burke & Wills‚ÄîFrederick Walker exists and skipping.
üß† Memory Used: 3371.07 MB
üß† Memory Used: 3332.53 MB


üìñ Processing Diaries:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                                        | 23/34 [16:00<05:20, 29.13s/it]

‚úÖ Extracted 250284 sentences from Frank & Alexander Jardine (ID: 23)
‚è±Ô∏è Time taken: 0:00:15.586137
‚è© 23_Frank & Alexander Jardine exists and skipping.
üß† Memory Used: 3407.31 MB
üß† Memory Used: 3409.37 MB
üß† Memory Used: 3412.74 MB
üß† Memory Used: 3430.42 MB
üß† Memory Used: 3322.85 MB
üß† Memory Used: 3393.51 MB
üß† Memory Used: 3366.57 MB
üß† Memory Used: 3358.98 MB


üìñ Processing Diaries:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                                    | 24/34 [16:53<05:56, 35.66s/it]

üß† Memory Used: 3358.98 MB
‚úÖ Extracted 1173123 sentences from John & A. Forrest (ID: 24)
‚è±Ô∏è Time taken: 0:00:52.427412
Number of Sentences exceeds 500k with 1173123
‚è© But 24_John & A. Forrest_0 exists and skipping.
‚è© But 24_John & A. Forrest_1 exists and skipping.
‚è© But 24_John & A. Forrest_2 exists and skipping.
üß† Memory Used: 3780.49 MB
üß† Memory Used: 3719.51 MB
üß† Memory Used: 3747.50 MB
üß† Memory Used: 3810.08 MB
üß† Memory Used: 3816.62 MB
üß† Memory Used: 3804.05 MB
üß† Memory Used: 3744.23 MB


üìñ Processing Diaries:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                                | 25/34 [18:56<09:06, 60.77s/it]

‚úÖ Extracted 2816804 sentences from Ernest Giles (ID: 25)
‚è±Ô∏è Time taken: 0:02:03.484152
Number of Sentences exceeds 500k with 2816804
‚è© But 25_Ernest Giles_0 exists and skipping.
‚è© But 25_Ernest Giles_1 exists and skipping.
‚è© But 25_Ernest Giles_2 exists and skipping.
‚è© But 25_Ernest Giles_3 exists and skipping.
‚è© But 25_Ernest Giles_4 exists and skipping.
‚è© But 25_Ernest Giles_5 exists and skipping.


üìñ Processing Diaries:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                             | 26/34 [19:02<05:57, 44.71s/it]

Bad Status: 420 Client Error: Enhance Your Calm for url: https://www.jstor.org/stable/1799807?seq=1, for url: https://www.jstor.org/stable/1799807?seq=1
üî• Error: object of type 'NoneType' has no len(), for url: https://www.jstor.org/stable/1799807?seq=1, id: 26


üìñ Processing Diaries:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                         | 27/34 [19:08<03:54, 33.46s/it]

üß† Memory Used: 3294.06 MB
üß† Memory Used: 3294.06 MB
‚úÖ Extracted 1294 sentences from W.G. Gosse (ID: 27)
‚è±Ô∏è Time taken: 0:00:06.282463
‚è© 27_W.G. Gosse exists and skipping.


üìñ Processing Diaries:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                      | 28/34 [19:14<02:32, 25.34s/it]

‚úÖ Extracted 21 sentences from Surveyor General Lewis (ID: 28)
‚è±Ô∏è Time taken: 0:00:05.938620
‚è© 28_Surveyor General Lewis exists and skipping.


üìñ Processing Diaries:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                  | 29/34 [19:19<01:37, 19.46s/it]

Bad Status: 406 Client Error: Not Acceptable for url: https://www.paulturnbull.org/dalton/biogs/E000329b.htm, for url: https://www.paulturnbull.org/dalton/biogs/E000329b.htm
üî• Error: object of type 'NoneType' has no len(), for url: https://www.paulturnbull.org/dalton/biogs/E000329b.htm, id: 29


üìñ Processing Diaries:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç              | 30/34 [19:25<01:01, 15.38s/it]

‚úÖ Extracted 5 sentences from Winnecke (ID: 30)
‚è±Ô∏è Time taken: 0:00:05.731763
‚è© 30_Winnecke exists and skipping.
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
‚úÖ Extracted 5417 sentences from D. Lindsay (ID: 31)
‚è±Ô∏è Time taken: 0:00:06.999683


üìñ Processing Diaries:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà           | 31/34 [19:32<00:38, 12.88s/it]

‚è© 31_D. Lindsay exists and skipping.


üìñ Processing Diaries:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã       | 32/34 [19:39<00:22, 11.12s/it]

üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
üß† Memory Used: 3294.75 MB
‚úÖ Extracted 4252 sentences from Hon. D.C. Carnegie (ID: 32)
‚è±Ô∏è Time taken: 0:00:06.994786
‚è© 32_Hon. D.C. Carnegie exists and skipping.


üìñ Processing Diaries: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 34/34 [19:46<00:00, 34.89s/it]

‚úÖ Extracted 12 sentences from F. Hann (ID: 33)
‚è±Ô∏è Time taken: 0:00:06.589761
‚è© 33_F. Hann exists and skipping.
Bad Status: Invalid URL 'no diary-please search if there is anything in your library': No scheme supplied. Perhaps you meant https://no diary-please search if there is anything in your library?, for url: no diary-please search if there is anything in your library
üî• Error: object of type 'NoneType' has no len(), for url: no diary-please search if there is anything in your library, id: 34





# Check files

In [2]:
import glob 

all_df = []
folder_path = '/cluster/home/hlee37/git/gutenberg/phase2/final'
file_names = '*.csv'

file_paths= glob.glob(os.path.join(folder_path, file_names))

for file in file_paths:
    try:
        df=pd.read_csv(file)
        df['file_name']= file.split('/')[8].split('.')[0]
        all_df.append(df)
        print(f"success opened: {file}")
    except Exception as e:
        print(f"failed: {file}, reason: {e}")


combined_df=pd.concat(all_df, ignore_index=True)

success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_0.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_1.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_10.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_11.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_2.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_3.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_4.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_5.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_6.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_7.csv
success opened: /cluster/home/hlee37/git/gutenberg/phase2/final/10_Edward John Eyre_8.csv
success 

In [3]:
combined_df.head()

Unnamed: 0,sentence,predicted_class,file_name
0,In offering to the public an account of Expedi...,1,10_Edward John Eyre_0
1,"After starting, we proceeded across a high bar...",1,10_Edward John Eyre_0
2,"33 degrees 14 minutes S, is a practicable pass...",1,10_Edward John Eyre_0
3,At night too after dark we found that a party ...,1,10_Edward John Eyre_0
4,"By digging in the gravelly bed of the channel,...",1,10_Edward John Eyre_0


In [4]:
pd.set_option('display.max_rows', 100)
combined_df['explorer_name'] = combined_df.loc[:,'file_name'].str.split('_').str[1]
combined_df.groupby('explorer_name').count().head(67)[['sentence']].sort_values(by='sentence', ascending=False)

Unnamed: 0_level_0,sentence
explorer_name,Unnamed: 1_level_1
Sir Thomas Mitchell,851249
Edward John Eyre,783985
Ernest Giles,215016
Ludwig Leichhardt,185956
McDouall Stuart,150393
Burke & Wills,69034
John & A,58283
Frank & Alexander Jardine,12715
Hon,238
D,216


In [5]:
df_stats = combined_df.groupby('explorer_name').count().head(67)[['sentence']].sort_values(by='sentence', ascending=False)

In [6]:
dup_counts = (
    combined_df[combined_df.duplicated()]
    .groupby('explorer_name')
    .count()['sentence']
    .rename('num_duplicates')
)

# Step 2: Join with df_stats
df_stats = df_stats.join(dup_counts, how='left')

In [7]:
df_stats['duplicate_pct']=df_stats['num_duplicates']/df_stats['sentence']

In [11]:
combined_df.groupby('explorer_name')['sentence'].nunique().sort_values()

explorer_name
Allan Cunningham                                  2
Wentworth, Lawson, and Blaxland                   9
Edmund B                                          9
Surveyor G                                       11
Hume and Hovell                                  22
W                                                34
Capt                                             78
Frank & Alexander Jardine                        95
Major Warburton                                  98
In search of Burke & Wills‚ÄîFrederick Walker     106
Surveyor General John Oxley                     106
Burke & Wills                                   129
A                                               151
John & A                                        203
D                                               216
Hon                                             238
McDouall Stuart                                 280
Ludwig Leichhardt                               369
Ernest Giles                                    

In [12]:
unique_df=combined_df.drop_duplicates()

In [16]:
unique_df.groupby('explorer_name')['sentence'].count().sort_values(ascending=False)

explorer_name
Edward John Eyre                               6215
Sir Thomas Mitchell                            4735
Ernest Giles                                   2231
McDouall Stuart                                1551
Ludwig Leichhardt                              1166
Burke & Wills                                   330
Hon                                             238
D                                               216
John & A                                        203
A                                               151
Surveyor General John Oxley                     106
In search of Burke & Wills‚ÄîFrederick Walker     106
Major Warburton                                  98
Frank & Alexander Jardine                        95
Capt                                             78
W                                                34
Hume and Hovell                                  22
Surveyor G                                       11
Edmund B                                        