# Get Vasari letters from Fondazione Memofonte (https://www.memofonte.it/ricerche/giorgio-vasari/) with Beautiful Soup

#### based on Jeri Wieringa, "Intro to Beautiful Soup," The Programming Historian 1 (2012), https://doi.org/10.46430/phen0008.

In [67]:
import urllib.request, urllib.error, urllib.parse
import csv
from bs4 import BeautifulSoup
import html2text
import os
from datetime import datetime

## Iterate over all URLs and save as .html

#### make list of URLs

In [35]:
# letter-id is ranging from 1 to 1151

url_list = []
url_base = "https://www.memofonte.it/home/ricerca/singolo_17.php?id="
for i in range (1151):
    url_list.append(url_base+ str(i+1))
    
len(url_list)

1151

### save all as .html

In [40]:
count = 0
for i in url_list:
    count+=1
    response = urllib.request.urlopen(i)
    webContent = response.read()
    #filename = 'data/results/letters/html/letter-'+str(i)'.html'
    f = open('data/results/letters/html/letter-'+str(count)+'.html', 'wb')
    f.write(webContent)
    f.close()
    

## Open all .html, make Beautiful Soups, extract information, save in a single CSV

In [58]:
list_of_htmls = os.listdir('data/results/letters/html')
len(list_of_htmls)
#list_of_htmls

1151

In [62]:
# test code and output for single file before iterating over 1151

csv_row = list()

soup = BeautifulSoup(open('data/results/letters/html/'+str(list_of_htmls[0])), "lxml")

p_array = soup.find_all('p')
csv_row.append(int(p_array[0].text[(len('Numero d\'ordine:')+1):]))
csv_row.append(((p_array[1].text[(len('Data:')+1):])))
csv_row.append(p_array[2].text[(len('Intestazione:')+1):])
csv_row.append(p_array[3].text[(len('Segnatura:')+1):])
csv_row.append(p_array[4].text[(len('Fonte:')+1):])
csv_row.append(p_array[5].text[(len('Bibliografia:')+1):])

csv_row

[1051,
 '26 12  1572',
 'VINCENZO BORGHINI IN FIRENZE A GIORGIO VASARI IN ROMA',
 'ASA, AV, 14 (XLVIII), cc. 146-148.',
 'Molto Magnifico messer Giorgio. Ho ricevuto la vostra con la distesa delle istorie della sala, le quali considererò, e perché mi ha dato noia un po’ di scesa et non ne son libero, indugierò a questa altra settimana a darne più piena risposta. Messer Vincenzo non credo che pensi più alla messa, ma quando si potessi confermare nel privileggio del legittimare et altri indulti che non toccono il concilio, credo sarebbe contento, che qua non lo ammettono, e però forse bisognerebbe questa confermazione; pure ci sarà tempo. De la cosa mia come mi dite ne starò a buona speranza; e se voi vedete che la camini bene, il meglio sarebbe stringnere e darli fine, che cosa fatta importa assai e si schifa molte cose, che col tempo possono occorrere, che si dice che l’indugio pigla vizio; ma se ci fusse qualche difficultà, allora è bene non strignere, che il far male ha da essere l’u

In [34]:
#soup.prettify

In [70]:
# test how to convert the date

datetime_object = datetime.strptime((p_array[1].text[(len('Data:')+1):]), "%d %m %Y")
datetime_object
#('Jun 1 2005  1:33PM', '%b %d %Y %I:%M%p')

datetime.datetime(1572, 12, 26, 0, 0)

### Make one CSV File for all letters

In [54]:
# make CSV File
csv_file = csv.writer(open('data/results/letters/letters.csv', "w"))

# Write column headers as the first line
csv_file.writerow(["Numero d'ordine", "Data", "Intestazione", "Segnatura", "Fonte", "Bibliografia"]) 

64

### iterate over all .html files, save as csv

In [71]:
# open all letter.html, make soup, extract information, collect it in a list, append list as a row to csv_file

for i in list_of_htmls:
    csv_row = list() # make new row
    soup = BeautifulSoup(open('data/results/letters/html/'+i), "lxml") # make soup
    p_array = soup.find_all('p') # take the information one by one 
    csv_row.append(int(p_array[0].text[(len('Numero d\'ordine:')+1):])) # append each to the list
    csv_row.append(p_array[1].text[(len('Data:')+1):])
    csv_row.append(p_array[2].text[(len('Intestazione:')+1):])
    csv_row.append(p_array[3].text[(len('Segnatura:')+1):])
    csv_row.append(p_array[4].text[(len('Fonte:')+1):])
    csv_row.append(p_array[5].text[(len('Bibliografia:')+1):])
    csv_file.writerow(csv_row)

#soup = BeautifulSoup(open('data/results/letters/vasari-letter1.html'), "lxml")
# extract all "p"
#p_array = soup.find_all('p')
#p_array[1].text

### Helper Funcitons

In [17]:
# get rid of strange line break "\xa0"
# open a file and overwrite it

def fix(name):
    """ Fix a single .txt file
    """
    input = open(name, "rt")
    text = input.read()
    input.close()
    text = text.decode("utf-8")

    # Show if we get bad hits
    for c in text:
        if c == u"\xa0":
            print("Ufff")

    text = text.replace(u"\xa0", u" ")
    text = text.encode("utf-8")

    output = open(name, "wt")
    output.write(text)
    output.close()


# Process all .txt files in the
# current folder
for f in os.listdir(os.getcwd()):
    if f.endswith(".txt"):
        fix(f)

In [18]:
# obo.py
# get rid of tags without Beautiful Soup

def stripTags(pageContent):
    pageContents = str(pageContent)

    inside = 0
    text = ''

    for char in pageContents:
        if char == '<':
            inside = 1
        elif (inside == 1 and char == '>'):
            inside = 0
        elif inside == 1:
            continue
        else:
            text += char

    return text