# Scraper institutes
This notebook is a monthly scraper used to retrieve information about condition in detention centers in Italy. To do so, it uses the id numbers of the various detention centers to navigate to the dedicated webpages with Selenium, store locally the html code of the page and then parse it using BeautifuSoup. The information is then stored in a pandas dataframe and saved as a csv file.

In [1]:
import pandas as pd
import requests
import datetime
from bs4 import BeautifulSoup
import asyncio
from playwright.async_api import async_playwright
from time import sleep
from pathlib import Path

In [2]:
# Get current date
current_month = datetime.datetime.now().strftime("%Y-%m")
current_day = datetime.datetime.now().strftime("%Y-%m-%d")

In [3]:
# Collect institutes id numbers
df_institutes = pd.read_csv(f'../outputs/clean/institutes_info.csv')
prison_ids = df_institutes['id_istituto'].tolist()

In [4]:
# Function to grab the html code of the page
async def get_html(prison_id, current_day):

    # dest = Path(f"../outputs/raw/snapshots/{current_day}_{prison_id}.html")

    # if dest.exists() : #... load it from file
    #     print(f"Already have {dest}, loading!")
    #     page_html = open(dest).read()
    # else:


    # try:
    await page.goto(f"{BASE_URL}{prison_id}")
    print("Fetching " + f"{BASE_URL}{prison_id}")
    page_html = await page.content()
        
        # Stores html code in dest
        # dest.write_text(page_html)
    # finally:
        # await browser.close()
        # await playwright.stop()
    
    return page_html

In [5]:
# Function to extract institute name and type
def extract_institute_details(soup):
    institute_name = soup.find('h1', {'class': 'titoloIstituto'}).text.strip()
    institute_type = soup.find('h3', {'class': 'titoloIstituto'}).text.strip()
    return institute_name, institute_type

# Function to extract capacity table data
def extract_capacity_data(soup):
    table_capienze = soup.find_all('table')[0]
    rows = table_capienze.find_all('tr')
    if len(rows) > 1:  # Ensure there are rows in the table
        cells = rows[1].find_all('td') 
        posti_regolamentari = int(cells[0].text.strip())
        posti_non_disponibili = int(cells[1].text.strip())
        totale_detenuti = int(cells[2].text.strip())
    else:
        posti_regolamentari = posti_non_disponibili = totale_detenuti = 0
    return posti_regolamentari, posti_non_disponibili, totale_detenuti

# Function to extract updated date
def extract_updated_date(soup, header_text):
    target_span = soup.find('h2', text=header_text)
    if target_span:
        span = target_span.find_next_sibling('span')
        return span.text.strip() if span else 'NA'
    return 'NA'

def extract_personnel_details(soup, header_text):
    target_span = soup.find('h2', text=header_text)
    if target_span:
        try:
            div = target_span.find_next('div', {'class': 'listaContenutiComplessi'})
            spans = div.find_all('span', {'class': 'valoreSottocampo'})
            return spans[0].text.strip(), spans[1].text.strip(), spans[2].text.strip()
        except:
            return 'NA', 'NA', 'NA'
    return 'NA', 'NA', 'NA'

# Function to extract staff table data
def extract_staff_data(soup):
    table_staff = soup.find_all('table')[1]
    cells = table_staff.find_all('td')
    polizia_penitenziaria_effettivi = int(cells[0].text.strip())
    polizia_penitenziaria_previsti = int(cells[1].text.strip())
    amministrativi_effettivi = int(cells[2].text.strip())
    amministrativi_previsti = int(cells[3].text.strip())
    educatori_effettivi = int(cells[4].text.strip())
    educatori_previsti = int(cells[5].text.strip())
    return (polizia_penitenziaria_effettivi, polizia_penitenziaria_previsti,
            amministrativi_effettivi, amministrativi_previsti,
            educatori_effettivi, educatori_previsti)

# Function to extract last update date
def extract_date_of_last_update(soup):
    # Police staff
    target_span= soup.find('h2', text='personale polizia penitenziaria aggiornato al')
    try:
        span = target_span.find_next_sibling('span')
        personale_polizia_aggiornato_al = span.text.strip()
    except:
        personale_polizia_aggiornato_al = 'NA'

    # Administrative staff
    target_span= soup.find('h2', text='personale amministrativo aggiornato al')
    try:
        span = target_span.find_next_sibling('span')
        personale_amministrativo_aggiornato_al = span.text.strip()
    except:
        personale_amministrativo_aggiornato_al = 'NA'

    return personale_polizia_aggiornato_al, personale_amministrativo_aggiornato_al
    

In [6]:
# Function to extract institute data
def get_prison_data(soup, current_day):

    institute_name, institute_type = extract_institute_details(soup)
    posti_regolamentari, posti_non_disponibili, totale_detenuti = extract_capacity_data(soup)
    dati_aggiornati_al = extract_updated_date(soup, 'dati aggiornati al ')
    asl, first_name_asl, last_name_asl = extract_personnel_details(soup, 'Responsabile ASL per il carcere')
    first_name, last_name, role = extract_personnel_details(soup, 'Direttore')
    (polizia_penitenziaria_effettivi, polizia_penitenziaria_previsti, amministrativi_effettivi, amministrativi_previsti, educatori_effettivi, educatori_previsti) = extract_staff_data(soup)
    personale_polizia_aggiornato_al, personale_amministrativo_aggiornato_al = extract_date_of_last_update(soup)

    prison_data = {
            'id': prison_id,
            'nome': institute_name,
            'tipo': institute_type,
            'posti_regolamentari': posti_regolamentari,
            'posti_non_disponibili': posti_non_disponibili,
            'posti_occupati': totale_detenuti,
            'posti_aggiornati_al': dati_aggiornati_al,
            'asl': asl,
            'nome_responsabile_asl': first_name_asl,
            'cognome_responsabile_asl': last_name_asl,
            'nome_direttore': first_name,
            'cognome_direttore': last_name,
            'ruolo_direttore': role,
            'personale_polizia_effettivi': polizia_penitenziaria_effettivi,
            'personale_polizia_previsti': polizia_penitenziaria_previsti,
            'personale_amministrativi_effettivi': amministrativi_effettivi,
            'personale_amministrativi_previsti': amministrativi_previsti,
            'personale_educatori_effettivi': educatori_effettivi,
            'personale_educatori_previsti': educatori_previsti,
            'personale_polizia_aggiornato_a': personale_polizia_aggiornato_al,
            'personale_amministrativo_aggiornato_al': personale_amministrativo_aggiornato_al,
        }
        
    return prison_data

In [7]:
data = []

BASE_URL = "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s="
playwright = await async_playwright().start()
browser = await playwright.firefox.launch()
context = await browser.new_context(viewport={'width': 1280, 'height': 800})
page = await context.new_page()



for prison_id in prison_ids:
    success = False
    for attempt in range(5):
        try:
            html_content = await get_html(prison_id, current_month)
            # Parse the html with BeautifulSoup
            soup = BeautifulSoup(html_content, 'html.parser')
            prison_data = get_prison_data(soup, current_day)

            # Append prison_data to data list
            data.append(prison_data)

            success = True
            break  # Break the retry loop if successful

        except Exception as e:
            print(f"Attempt {attempt+1} failed for prison_id {prison_id}. Error: {e}")
            if attempt < 5:  # If not the last attempt, sleep for 10 seconds before retrying
                print("Reinitializing browser...")
                await browser.close()
                sleep(10)
                browser = await playwright.firefox.launch()
                context = await browser.new_context(viewport={'width': 1280, 'height': 800})
                page = await context.new_page()


    if not success:
        print(f"Failed to fetch data for prison_id {prison_id} after 5 attempts.")
    # Sleep for 5 seconds before making the next request
    sleep(5)

await browser.close()

# Convert prison_data_list to a Pandas DataFrame
data_df = pd.DataFrame(data)

Attempt 1 failed for prison_id MII179988. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179988", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179988


  target_span = soup.find('h2', text=header_text)
  target_span = soup.find('h2', text=header_text)
  target_span= soup.find('h2', text='personale polizia penitenziaria aggiornato al')
  target_span= soup.find('h2', text='personale amministrativo aggiornato al')


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172610


Attempt 1 failed for prison_id MII172320. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172320", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172320


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173712


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173747


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177436


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178027


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178072


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178659


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII182910


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181346


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181703


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179733


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173311


Attempt 1 failed for prison_id MII173324. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173324", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173324


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179342


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179353


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180415


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181908


Attempt 1 failed for prison_id MII159053. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII159053", waiting until "load"

Reinitializing browser...


Attempt 2 failed for prison_id MII159053. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII159053", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII159053


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172187


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173101


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173784


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172580


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176719


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179290


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180487


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179913


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180424


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII159065


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173237


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII174501


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181645


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176424


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181661


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181672


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179818


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181863


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181847


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181891


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII182440


Attempt 1 failed for prison_id MII173088. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173088", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173088


Attempt 1 failed for prison_id MII157783. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII157783", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII157783


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173114


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173364


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII159069


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173688


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173356


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176437


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173764


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181636


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172814


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176759


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176703


Attempt 1 failed for prison_id MII177323. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177323", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177323


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176749


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176781


Attempt 1 failed for prison_id MII179331. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179331", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179331


Attempt 1 failed for prison_id MII176788. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176788", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176788


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII169535


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180401


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180437


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180380


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180356


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180348


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181870


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179299


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181371


Attempt 1 failed for prison_id MII181820. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181820", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181820


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181839


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181424


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158919


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179995


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158924


Attempt 1 failed for prison_id MII172277. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172277", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172277


Attempt 1 failed for prison_id MII158948. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158948", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158948


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181678


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII174720


Attempt 1 failed for prison_id MII172623. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172623", waiting until "load"

Reinitializing browser...


Attempt 2 failed for prison_id MII172623. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172623", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172623


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176743


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176375


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177498


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177463


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178035


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178124


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178141


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179938


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179280


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180476


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181434


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII182919


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181681


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179896


Attempt 1 failed for prison_id MII158935. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158935", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158935


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179958


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158945


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180458


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181115


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181358


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172835


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158910


Attempt 1 failed for prison_id MII177118. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177118", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177118


Attempt 1 failed for prison_id MII179224. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179224", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179224


Attempt 1 failed for prison_id MII172222. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172222", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172222


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178003


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179274


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181385
Attempt 1 failed for prison_id MII181385. Error: list index out of range
Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181385
Attempt 2 failed for prison_id MII181385. Error: list index out of range
Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181385
Attempt 3 failed for prison_id MII181385. Error: list index out of range
Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181385
Attempt 4 failed for prison_id MII181385. Error: list index out of range
Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181385
Attempt 5 failed for prison_id MII181385. Error: list index out of range
Reinitializing browser...


Failed to fetch data for prison_id MII181385 after 5 attempts.


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179965


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181109


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178666


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178672


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172592


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158895


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178501


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII174825


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179932


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181407


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180465


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158944


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158941


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172011
Attempt 1 failed for prison_id MII172011. Error: 'NoneType' object has no attribute 'text'
Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172011


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181392


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181918


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178085


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178115


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177420


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179830


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179945


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177346


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181440


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII159314


Attempt 1 failed for prison_id MII173006. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173006", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173006


Attempt 1 failed for prison_id MII173259. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173259", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173259


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173301


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173813


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173994


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176451


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176714


Attempt 1 failed for prison_id MII178681. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178681", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178681


Attempt 1 failed for prison_id MII180451. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180451", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180451


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181401


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181625


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172332


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179876


Attempt 1 failed for prison_id MII172208. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172208", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172208


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181417


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173063


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII158901


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173341


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172344


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181691


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII160204


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181934


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172827


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176771


Attempt 1 failed for prison_id MII159060. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII159060", waiting until "load"

Reinitializing browser...


Attempt 2 failed for prison_id MII159060. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII159060", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII159060


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177134


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178700
Attempt 1 failed for prison_id MII178700. Error: 'NoneType' object has no attribute 'text'
Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178700


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178148


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173285


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181079


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177384


Attempt 1 failed for prison_id MII179324. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179324", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179324


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181091


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179781


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181880


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181924


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177996


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180370


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII173265


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178045


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177332


Attempt 1 failed for prison_id MII179856. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179856", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179856


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII177107


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179306


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180426


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181377


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176414


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179237


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII152284


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII182339


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII180001


Attempt 1 failed for prison_id MII174686. Error: Page.goto: Timeout 30000ms exceeded.
Call log:
navigating to "https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII174686", waiting until "load"

Reinitializing browser...


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII174686


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179842


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII172508


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179981


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII179364


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII176403


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII178638


Fetching https://www.giustizia.it/giustizia/it/dettaglio_scheda.page?s=MII181125


In [8]:
len(data_df)

189

In [9]:
old_data_path = Path('../outputs/raw/institutes_raw.csv')

if old_data_path.exists():
  old_data = pd.read_csv('../outputs/raw/institutes_raw.csv')
  combined_data = pd.concat([old_data, data_df], ignore_index=True)
  combined_data.drop_duplicates(inplace=True)
else:
  combined_data = data_df
  combined_data.drop_duplicates(inplace=True)

combined_data.to_csv('../outputs/raw/institutes_raw.csv', index=False)

### Institutes - Totals

Some basic cleaning for the dates

In [10]:
combined_data.head()

Unnamed: 0,id,nome,tipo,posti_regolamentari,posti_non_disponibili,posti_occupati,posti_aggiornati_al,asl,nome_responsabile_asl,cognome_responsabile_asl,...,cognome_direttore,ruolo_direttore,personale_polizia_effettivi,personale_polizia_previsti,personale_amministrativi_effettivi,personale_amministrativi_previsti,personale_educatori_effettivi,personale_educatori_previsti,personale_polizia_aggiornato_a,personale_amministrativo_aggiornato_al
0,MII179988,Reggio Calabria Arghillà,Casa circondariale,294,0,319,05/10/2024,5 Reggio Calabria,Luciano,Lucania,...,Stendardo,Titolare,131,164,12,32,5,8,31/07/2024,31/07/2024
1,MII172610,Brescia Verziano,Casa di reclusione,71,0,119,05/10/2024,Spedali Civili di Brescia,Luigi,Leone,...,,,79,95,2,0,1,0,31/07/2024,31/07/2024
2,MII172320,Busto Arsizio,Casa circondariale,240,14,431,05/10/2024,Busto Arsizio,Ezia,Iorio,...,Pitaniello,Titolare,193,190,16,21,5,5,31/07/2024,31/07/2024
3,MII173712,Como,Casa circondariale,226,1,426,05/10/2024,Como,Giuseppe,Carrano,...,Rinaldi,Titolare,208,216,18,23,6,6,31/07/2024,31/07/2024
4,MII173747,Cremona,Casa circondariale,394,10,586,05/10/2024,CREMONA,Rossano,Botto,...,Padula,Titolare,188,202,15,23,5,6,31/07/2024,31/07/2024


In [11]:
# Fixing dates
combined_data['posti_aggiornati_al'] = pd.to_datetime(combined_data['posti_aggiornati_al'], dayfirst=True)

combined_data['posti_aggiornati_al'] = combined_data['posti_aggiornati_al'].dt.strftime('%Y-%m-%d')

combined_data['personale_polizia_aggiornato_a'] = pd.to_datetime(combined_data['personale_polizia_aggiornato_a'], format='%d/%m/%Y', errors='coerce').dt.strftime('%Y-%m-%d')
combined_data['personale_amministrativo_aggiornato_al'] = pd.to_datetime(combined_data['personale_amministrativo_aggiornato_al'], format='%d-%m-%Y', errors='coerce').dt.strftime('%Y-%m-%d')

In [12]:
combined_data.tail()

Unnamed: 0,id,nome,tipo,posti_regolamentari,posti_non_disponibili,posti_occupati,posti_aggiornati_al,asl,nome_responsabile_asl,cognome_responsabile_asl,...,cognome_direttore,ruolo_direttore,personale_polizia_effettivi,personale_polizia_previsti,personale_amministrativi_effettivi,personale_amministrativi_previsti,personale_educatori_effettivi,personale_educatori_previsti,personale_polizia_aggiornato_a,personale_amministrativo_aggiornato_al
2463,MII179981,Ravenna,Casa circondariale,49,0,73,2024-10-20,Romagna,Maurizio,Serra,...,Di Lena,Titolare,69,74,17,14,5,3,2024-09-30,
2464,MII179364,Parma,Casa di reclusione,655,30,723,2024-10-20,PARMA,Choroma,FAISSAL,...,,,368,423,1,0,0,0,2024-09-30,
2465,MII176403,Forlì,Casa circondariale,144,12,152,2024-10-20,Romagna,Alfonso,Casadei,...,De Lorenzo,Titolare,103,120,14,18,4,4,2024-09-30,
2466,MII178638,Modena,Casa circondariale,372,3,564,2024-10-20,MODENA,Stefano,Petrella,...,Sorrentini,Titolare,223,222,23,27,6,6,2024-09-30,
2467,MII181125,Siracusa,Casa circondariale,545,0,667,2024-10-20,,,,...,Tiralongo,Titolare,240,234,21,29,6,6,2024-09-30,


In [13]:
combined_data.to_csv('../outputs/clean/institutes.csv', index=False)