# Notebook to ingest the letters from TXT to MongoDB

In [11]:
from pymongo import MongoClient
from decouple import config
import glob
import os
%load_ext dotenv
%dotenv

The dotenv extension is already loaded. To reload it, use:
  %reload_ext dotenv


## Load the TXT files

In [2]:
folder_path = ''.join([os.getcwd(), '/corpus'])
file_path = glob.glob(''.join([folder_path, '/*.txt']))
files = []
for file in file_path:
    with open(file, 'r', encoding='UTF-8') as f:
        files.append(f.read())

In [3]:
files[0]

'\n|:| Corpus Eletrônico de Documento Históricos do Sertão [ CE-DOHS ]\n|:| Zenaide de Oliveira Novais Carneiro\n\n|:| carta 11-1AB-25-01-1829\n|:| Autor: Basto [Luiz Paulo de Araújo Basto]\n|:| Destinatário: Manoel Ignacio da Cunha e Menezes (visconde do Rio Vermelho)\n|:| Data: 25 de janeiro 1829\n|:| Versão modernizada\n|:| Encoding: UTF-8\n\n Carta 11\n\n < AIGHBA . Ant. pasta 5 . Documento contendo dois fólios . Papel almaço sem pautas . Fólios protegidos por papel manteiga . Carimbo do IGHB na margem superior esquerda com a anotação , "N°8" , em vermelho .\n\n Meu Caro compadre , e amigo , e senhor do coração\n\n Há poucos dias escrevi a você , e por isso nada ocorre a dizer . No Rio é mais fácil tudo , do que uma casa , muito mais com designação de rua , cômodos , etc , mas enfim apareceu uma , tem na frente seis janelas , há uma sala de três , outro de duas , e um gabinete com uma , em seguimento tem quatro quartos , tem casa de jantar , pequena copa , cozinha , e há varanda , 

## Convert the TXT files onto dicts

In [4]:
dicts = []
for file in files:
    lines  = file.splitlines()
    dicts.append({
        'corpus': lines[1].replace('|:|', '').strip(),
        'author': lines[2].replace('|:|', '').strip(),
        'source': lines[4].replace('|:|', '').strip(),
        'sender': lines[5].replace('|:| Autor: ', '').strip(),
        'recipient': lines[6].replace('|:| Destinatário: ', '').strip(),
        'datetime': lines[7].replace('|:| Data: ', '').strip(),
        'version': lines[8].replace('|:|', '').strip(),
        'encoding': lines[9].replace('|:| Encoding: ', '').strip(),
        'letter': lines[11].replace('Carta ', '').strip(),
        'letter condition': lines[13].strip(),
        'text': ''.join(lines[15:])
    })

In [5]:
dicts[0]

{'corpus': 'Corpus Eletrônico de Documento Históricos do Sertão [ CE-DOHS ]',
 'author': 'Zenaide de Oliveira Novais Carneiro',
 'source': 'carta 11-1AB-25-01-1829',
 'sender': 'Basto [Luiz Paulo de Araújo Basto]',
 'recipient': 'Manoel Ignacio da Cunha e Menezes (visconde do Rio Vermelho)',
 'datetime': '25 de janeiro 1829',
 'version': 'Versão modernizada',
 'encoding': 'UTF-8',
 'letter': '11',
 'letter condition': '< AIGHBA . Ant. pasta 5 . Documento contendo dois fólios . Papel almaço sem pautas . Fólios protegidos por papel manteiga . Carimbo do IGHB na margem superior esquerda com a anotação , "N°8" , em vermelho .',
 'text': ' Meu Caro compadre , e amigo , e senhor do coração Há poucos dias escrevi a você , e por isso nada ocorre a dizer . No Rio é mais fácil tudo , do que uma casa , muito mais com designação de rua , cômodos , etc , mas enfim apareceu uma , tem na frente seis janelas , há uma sala de três , outro de duas , e um gabinete com uma , em seguimento tem quatro quart

## Ingesting the dicts into MongoDB

In [16]:
username = config('MONGO_USERNAME', default='')
password = config('MONGO_PASSWORD', default='')
client = MongoClient(f"mongodb+srv://{username}:{password}@cluster0.ap5wg.mongodb.net/Letters?retryWrites=true&w=majority")
db = client['Letters']
collection = db['cartasdosertao']
collection.insert_many(dicts)

<pymongo.results.InsertManyResult at 0x7f0f346c8480>

In [18]:
collection.find_one()

{'_id': ObjectId('61313b676e6be5740da0777d'),
 'corpus': 'Corpus Eletrônico de Documento Históricos do Sertão [ CE-DOHS ]',
 'author': 'Zenaide de Oliveira Novais Carneiro',
 'source': 'carta 11-1AB-25-01-1829',
 'sender': 'Basto [Luiz Paulo de Araújo Basto]',
 'recipient': 'Manoel Ignacio da Cunha e Menezes (visconde do Rio Vermelho)',
 'datetime': '25 de janeiro 1829',
 'version': 'Versão modernizada',
 'encoding': 'UTF-8',
 'letter': '11',
 'letter condition': '< AIGHBA . Ant. pasta 5 . Documento contendo dois fólios . Papel almaço sem pautas . Fólios protegidos por papel manteiga . Carimbo do IGHB na margem superior esquerda com a anotação , "N°8" , em vermelho .',
 'text': ' Meu Caro compadre , e amigo , e senhor do coração Há poucos dias escrevi a você , e por isso nada ocorre a dizer . No Rio é mais fácil tudo , do que uma casa , muito mais com designação de rua , cômodos , etc , mas enfim apareceu uma , tem na frente seis janelas , há uma sala de três , outro de duas , e um gab