In [25]:
# perform a GET http request to this website https://web.archive.org/web/20240102004317/https://www.ilpost.it/italia/
import requests
from bs4 import BeautifulSoup
import time

url = 'https://web.archive.org/web/20240102004317/https://www.ilpost.it/italia/'

response = requests.get(url)

In [26]:
response.content

b'<!DOCTYPE html><html lang="it"><head><script type="text/javascript" src="https://web-static.archive.org/_static/js/bundle-playback.js?v=t1Bf4PY_" charset="utf-8"></script>\n<script type="text/javascript" src="https://web-static.archive.org/_static/js/wombat.js?v=txqj7nKC" charset="utf-8"></script>\n<script>window.RufflePlayer=window.RufflePlayer||{};window.RufflePlayer.config={"autoplay":"on","unmuteOverlay":"hidden"};</script>\n<script type="text/javascript" src="https://web-static.archive.org/_static/js/ruffle/ruffle.js"></script>\n<script type="text/javascript">\n  __wm.init("https://web.archive.org/web");\n  __wm.wombat("https://www.ilpost.it/italia/","20240102004317","https://web.archive.org/","web","https://web-static.archive.org/_static/",\n\t      "1704156197");\n</script>\n<link rel="stylesheet" type="text/css" href="https://web-static.archive.org/_static/css/banner-styles.css?v=S1zqJCYt" />\n<link rel="stylesheet" type="text/css" href="https://web-static.archive.org/_static

In [27]:
class Article:
    def __init__(self, title, link, domain):
        self.title = title
        self.link = link
        self.domain = domain
        self.date = None

        # Content
        self.title = None
        self.subtitle = None
        self.content = None
        self.tags = []

        self.extract_date()
        self.extract_content()

    def extract_content(self):
        if self.domain == "www.ilpost.it":
            response = requests.get(self.link)
            soup = BeautifulSoup(response.content, 'html.parser')

            # Extract title
            title = soup.find('h1').text
            self.title = title

            # Extract subtitle
            subtitle = soup.find('h2').text
            self.subtitle = subtitle

            # Extract article content
            article_content = soup.find('div', {'id': 'singleBody'}).get_text(strip=True)
            self.content = article_content

            # Extract tags
            tags_div = soup.find('div', {'class': 'index_art_tag__pP6B_'})
            tags = [a.text for a in tags_div.find_all('a')]
            self.tags = tags

            time.sleep(1)

    def extract_date(self):
        # extract date from the link: https://web.archive.org/web/20240102004317/https://www.ilpost.it/2024/01/01/fine-reddito-di-cittadinanza/
        date = self.link.split('/')[4]
        self.date = date

    def __str__(self):
        return f"Title: {self.title}\nLink: {self.link}\nDomain: {self.domain}\nDate: {self.date}\nSubtitle: {self.subtitle}\nContent: {self.content}\nTags: {self.tags}"

In [28]:
parsed_articles = []

soup = BeautifulSoup(response.content, 'html.parser')

articles = soup.find_all('article', {'class': '_taxonomy-item_q6jgq_1 _opener_q6jgq_14'})

for article in articles:
    # TODO: remove this condition
    if len(parsed_articles) > 10:
        break

    title = article.find('h2', {'class': '_article-title_1aaqi_4'}).text
    link = article.find('a')['href']
    parsed_acrticle = Article(title, link, "www.ilpost.it")
    # print(parsed_acrticle.__str__() + "\n\n")
    parsed_articles.append(parsed_acrticle)


In [29]:
parsed_articles[1].title

'Il sequestro incomprensibile e il feroce omicidio di un bambino di 17 mesi'

In [30]:
# trasnform the parsed articles into a pandas dataframe
import pandas as pd

data = {
    'title': [article.title for article in parsed_articles],
    'link': [article.link for article in parsed_articles],
    'domain': [article.domain for article in parsed_articles],
    'date': [article.date for article in parsed_articles],
    'subtitle': [article.subtitle for article in parsed_articles],
    'content': [article.content for article in parsed_articles],
    'tags': [article.tags for article in parsed_articles]
}

df = pd.DataFrame(data)
df

Unnamed: 0,title,link,domain,date,subtitle,content,tags
0,È finito il reddito di cittadinanza,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Fu introdotto nel 2019 dal primo governo Conte...,Caricamento playerIl 1° gennaio del 2024 è ent...,"[Assegno di inclusione, reddito di cittadinanza]"
1,Il sequestro incomprensibile e il feroce omici...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Tommaso Onofri venne portato via da casa sua i...,Il 2 marzo 2006 due persone con il volto coper...,"[casalbaroncolo, parma, Tommaso Onofri]"
2,Cosa ha detto Sergio Mattarella nel suo discor...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Il presidente della Repubblica ha parlato dell...,Nella serata del 31 dicembre il presidente del...,"[discorso fine anno, discorso mattarella, serg..."
3,Cosa sappiamo del caso Verdini,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Per ora poco ma se ne sta parlando molto: l'ex...,Caricamento playerIn questi giorni sui giornal...,"[anas, denis verdini, tommaso Verdini]"
4,Nel 2023 in Italia sono sbarcati 155.754 migranti,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Parecchi di più dei due anni precedenti: i pri...,Caricamento playerIl 29 dicembre il ministero ...,"[immigrazione, migranti, sbarchi]"
5,"D, E, F, G, H, L e M",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,"A Roma, a parte le metropolitane già costruite...",Caricamento playerLo stato di avanzamento dei ...,"[metro, metropolitana, roma]"
6,Il contestato piano per “imbrigliare” la fales...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Comitati e associazioni si oppongono all'insta...,"Nel 2022 il parco di Porto Conte, che ha il co...","[alghero, pianeta, punta giglio, sardegna]"
7,"È morto Paolo Graldi, giornalista ed ex dirett...",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,,Nella notte tra venerdì e sabato è morto a Rom...,"[morti 2023, paolo graldi]"
8,La Camera ha approvato la legge di bilancio,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,I principali interventi riguardano il taglio d...,Caricamento playerVenerdì sera la Camera dei d...,"[legge di bilancio, legge di bilancio 2024]"
9,Il fascino per i treni storici ha generato un ...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Una maggiore attenzione nei confronti di viagg...,Caricamento playerAlla fine della prossima est...,"[ferrovie dello stato, orient express, treni, ..."


# Link same news:
## LLM generalize the notice given all the titles for each source (e.g. war in Romania);

### LLM Class setup

In [31]:
class Prompt:
    """
    A class used to represent a Prompt

    Attributes
    ----------
    boilerplate : dict
        a dictionary representing the boilerplate for the prompt

    Methods
    -------
    __init__(self, content: str)
        Initializes the Prompt object with the given content.
    """

    def __init__(self, content: str) -> None:
        """
        Parameters
        ----------
        content : str
            The content of the prompt
        """
        self.content = content

        # if self.boilerplate is None:
        self.boilerplate = {
            "contents": [{
                "parts": [{
                    "text": content
                }]
            }],
            "generationConfig": {
                "temperature": 0
            }
        }

    def get_prompt(self) -> str:
        """
        Returns the content of the prompt.

        Returns
        -------
        str
            The content of the prompt
        """
        if self.boilerplate is None:
            return None
        if self.content is None:
            raise ValueError("Prompt content is None")

        return self.boilerplate

In [32]:
import requests
from typing import Dict, Any, Optional, List

class LLM:
    """
    A class used to represent a LLM

    ...

    Attributes
    ----------
    endpoint : str
        the endpoint for the LLM
    endpoint_with_api_key : str
        the endpoint for the LLM with the API key
    headers : dict
        the headers for the LLM

    Methods
    -------
    __init__(self, endpoint: str, method: str, headers: Optional[dict] = None, api_key: Optional[str] = None)
        Initializes the LLM object with the given endpoint, method, headers, and API key.
    generate(self, prompt: str) -> Optional[dict]
        Generates a response from the LLM given a prompt.
    """

    def __init__(self, endpoint: str = "https://generativelanguage.googleapis.com/v1beta/models/gemini-pro:generateContent?", headers: Optional[dict] = {
        "Content-Type": "application/json"
    }, api_key: Optional[str] = None) -> None:
        """
        Parameters
        ----------
        endpoint : str
            The endpoint for the LLM
        headers : Optional[dict]
            The headers for the LLM
        api_key : Optional[str]
            The API key for the LLM
        """
        self.endpoint = endpoint
        self.api_key = api_key
        self.endpoint_with_api_key = endpoint + "key=" + self.api_key # Specific for Gemini
        self.headers = headers

    def generate(self, prompt: Prompt) -> Optional[dict]:
        """
        Generates a response from the LLM given a prompt.

        Parameters
        ----------
        prompt : str
            The prompt for the LLM

        Returns
        -------
        dict
            The response from the LLM
        """
        try:
            response = requests.post(self.endpoint_with_api_key, headers=self.headers, json=prompt.get_prompt())
            return response.json()
        except Exception as e:
            print(e)
            return None

    def get_endpoint_with_api_key(self) -> str:
        """
        Returns the endpoint with the API key.

        Returns
        -------
        str
            The endpoint with the API key
        """
        return self.endpoint_with_api_key

In [33]:
def get_text_from_response(response_dict: dict) -> List[str]:
    """
    Extracts the generated text from the JSON response of the generative language API.

    Parameters
    ----------
    response_dict (dict): The JSON response as a dict.

    Returns
    -------
    texts (List[str]): A list of generated texts from the response.
    """
    # cover the case where the dict is None or empty
    if not response_dict:
        return [""]

    candidates = response_dict.get("candidates", [])

    # Initialize an empty list to store the texts
    texts = []

    for candidate in candidates:

        content = candidate.get("content", {})

        parts = content.get("parts", [])
        # Get the first part from the list (assuming there is only one part)
        part = parts[0] if parts else {}

        text = part.get("text", "")
        texts.append(text)

    if not texts:
        return [""]
    # Return the list of texts
    return texts

In [34]:
import os

os.environ['API_KEY'] = 'AIzaSyAqQRlPN9fXqmAKoZH--hSe72pL8irdJ6o'
gemini = LLM(api_key=os.environ['API_KEY'])

In [35]:
for index, row in df.iterrows():
    # Create a prompt for the title
    generalize_prompt = Prompt(f"""Given a notice title, summarize and generalize the content in a few words.

    Example:
    Input: Cosa ha detto Sergio Mattarella nel suo discorso di fine anno
    Output: Discorso fine anno, Sergio Mattarella

    Input: {row.title}""")

    # Generalizing the title with the LLM
    output_json = gemini.generate(generalize_prompt)
    output_text = get_text_from_response(output_json)[0]

    # Append the generalized title to the dataframe
    df.at[index, 'generalized_title'] = output_text if output_text else None

In [36]:
df

Unnamed: 0,title,link,domain,date,subtitle,content,tags,generalized_title
0,È finito il reddito di cittadinanza,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Fu introdotto nel 2019 dal primo governo Conte...,Caricamento playerIl 1° gennaio del 2024 è ent...,"[Assegno di inclusione, reddito di cittadinanza]",Output: Fine reddito di cittadinanza
1,Il sequestro incomprensibile e il feroce omici...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Tommaso Onofri venne portato via da casa sua i...,Il 2 marzo 2006 due persone con il volto coper...,"[casalbaroncolo, parma, Tommaso Onofri]",
2,Cosa ha detto Sergio Mattarella nel suo discor...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Il presidente della Repubblica ha parlato dell...,Nella serata del 31 dicembre il presidente del...,"[discorso fine anno, discorso mattarella, serg...","Output: Discorso fine anno, Sergio Mattarella"
3,Cosa sappiamo del caso Verdini,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Per ora poco ma se ne sta parlando molto: l'ex...,Caricamento playerIn questi giorni sui giornal...,"[anas, denis verdini, tommaso Verdini]",Output: Caso Verdini
4,Nel 2023 in Italia sono sbarcati 155.754 migranti,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Parecchi di più dei due anni precedenti: i pri...,Caricamento playerIl 29 dicembre il ministero ...,"[immigrazione, migranti, sbarchi]",Output: Migranti sbarcati in Italia nel 2023
5,"D, E, F, G, H, L e M",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,"A Roma, a parte le metropolitane già costruite...",Caricamento playerLo stato di avanzamento dei ...,"[metro, metropolitana, roma]",Output: Lettere alfabeto
6,Il contestato piano per “imbrigliare” la fales...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Comitati e associazioni si oppongono all'insta...,"Nel 2022 il parco di Porto Conte, che ha il co...","[alghero, pianeta, punta giglio, sardegna]",Piano per limitare l'attività della chiesa sar...
7,"È morto Paolo Graldi, giornalista ed ex dirett...",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,,Nella notte tra venerdì e sabato è morto a Rom...,"[morti 2023, paolo graldi]",
8,La Camera ha approvato la legge di bilancio,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,I principali interventi riguardano il taglio d...,Caricamento playerVenerdì sera la Camera dei d...,"[legge di bilancio, legge di bilancio 2024]","Output: Approvazione legge di bilancio, Camera"
9,Il fascino per i treni storici ha generato un ...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Una maggiore attenzione nei confronti di viagg...,Caricamento playerAlla fine della prossima est...,"[ferrovie dello stato, orient express, treni, ...",Output: Business treni storici


In [37]:
# add id column to the dataframe
df['id'] = range(1, 1 + len(df))
df

# move the id column to the first position
cols = df.columns.tolist()
cols = cols[-1:] + cols[:-1]
df = df[cols]
df

Unnamed: 0,id,title,link,domain,date,subtitle,content,tags,generalized_title
0,1,È finito il reddito di cittadinanza,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Fu introdotto nel 2019 dal primo governo Conte...,Caricamento playerIl 1° gennaio del 2024 è ent...,"[Assegno di inclusione, reddito di cittadinanza]",Output: Fine reddito di cittadinanza
1,2,Il sequestro incomprensibile e il feroce omici...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Tommaso Onofri venne portato via da casa sua i...,Il 2 marzo 2006 due persone con il volto coper...,"[casalbaroncolo, parma, Tommaso Onofri]",
2,3,Cosa ha detto Sergio Mattarella nel suo discor...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Il presidente della Repubblica ha parlato dell...,Nella serata del 31 dicembre il presidente del...,"[discorso fine anno, discorso mattarella, serg...","Output: Discorso fine anno, Sergio Mattarella"
3,4,Cosa sappiamo del caso Verdini,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Per ora poco ma se ne sta parlando molto: l'ex...,Caricamento playerIn questi giorni sui giornal...,"[anas, denis verdini, tommaso Verdini]",Output: Caso Verdini
4,5,Nel 2023 in Italia sono sbarcati 155.754 migranti,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Parecchi di più dei due anni precedenti: i pri...,Caricamento playerIl 29 dicembre il ministero ...,"[immigrazione, migranti, sbarchi]",Output: Migranti sbarcati in Italia nel 2023
5,6,"D, E, F, G, H, L e M",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,"A Roma, a parte le metropolitane già costruite...",Caricamento playerLo stato di avanzamento dei ...,"[metro, metropolitana, roma]",Output: Lettere alfabeto
6,7,Il contestato piano per “imbrigliare” la fales...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Comitati e associazioni si oppongono all'insta...,"Nel 2022 il parco di Porto Conte, che ha il co...","[alghero, pianeta, punta giglio, sardegna]",Piano per limitare l'attività della chiesa sar...
7,8,"È morto Paolo Graldi, giornalista ed ex dirett...",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,,Nella notte tra venerdì e sabato è morto a Rom...,"[morti 2023, paolo graldi]",
8,9,La Camera ha approvato la legge di bilancio,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,I principali interventi riguardano il taglio d...,Caricamento playerVenerdì sera la Camera dei d...,"[legge di bilancio, legge di bilancio 2024]","Output: Approvazione legge di bilancio, Camera"
9,10,Il fascino per i treni storici ha generato un ...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Una maggiore attenzione nei confronti di viagg...,Caricamento playerAlla fine della prossima est...,"[ferrovie dello stato, orient express, treni, ...",Output: Business treni storici


In [101]:
# convert the tags column to a string
df['tags'] = df['tags'].apply(lambda x: ', '.join(x))

# add a duplicated row
df = df.append(df.iloc[0], ignore_index=True)
df

  df = df.append(df.iloc[0], ignore_index=True)


Unnamed: 0,id,title,link,domain,date,subtitle,content,tags,generalized_title,group
0,1,È finito il reddito di cittadinanza,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Fu introdotto nel 2019 dal primo governo Conte...,Caricamento playerIl 1° gennaio del 2024 è ent...,"A, ,, , ,, ,, , , ,, , s, ,, , ,, ,, , ...",Output: Fine reddito di cittadinanza,1
1,2,Il sequestro incomprensibile e il feroce omici...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Tommaso Onofri venne portato via da casa sua i...,Il 2 marzo 2006 due persone con il volto coper...,"c, ,, , ,, ,, , , ,, , a, ,, , ,, ,, , ...",,2
2,3,Cosa ha detto Sergio Mattarella nel suo discor...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Il presidente della Repubblica ha parlato dell...,Nella serata del 31 dicembre il presidente del...,"d, ,, , ,, ,, , , ,, , i, ,, , ,, ,, , ...","Output: Discorso fine anno, Sergio Mattarella",3
3,4,Cosa sappiamo del caso Verdini,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Per ora poco ma se ne sta parlando molto: l'ex...,Caricamento playerIn questi giorni sui giornal...,"a, ,, , ,, ,, , , ,, , n, ,, , ,, ,, , ...",Output: Caso Verdini,4
4,5,Nel 2023 in Italia sono sbarcati 155.754 migranti,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Parecchi di più dei due anni precedenti: i pri...,Caricamento playerIl 29 dicembre il ministero ...,"i, ,, , ,, ,, , , ,, , m, ,, , ,, ,, , ...",Output: Migranti sbarcati in Italia nel 2023,5
5,6,"D, E, F, G, H, L e M",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,"A Roma, a parte le metropolitane già costruite...",Caricamento playerLo stato di avanzamento dei ...,"m, ,, , ,, ,, , , ,, , e, ,, , ,, ,, , ...",Output: Lettere alfabeto,6
6,7,Il contestato piano per “imbrigliare” la fales...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Comitati e associazioni si oppongono all'insta...,"Nel 2022 il parco di Porto Conte, che ha il co...","a, ,, , ,, ,, , , ,, , l, ,, , ,, ,, , ...",Piano per limitare l'attività della chiesa sar...,7
7,8,"È morto Paolo Graldi, giornalista ed ex dirett...",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,,Nella notte tra venerdì e sabato è morto a Rom...,"m, ,, , ,, ,, , , ,, , o, ,, , ,, ,, , ...",,8
8,9,La Camera ha approvato la legge di bilancio,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,I principali interventi riguardano il taglio d...,Caricamento playerVenerdì sera la Camera dei d...,"l, ,, , ,, ,, , , ,, , e, ,, , ,, ,, , ...","Output: Approvazione legge di bilancio, Camera",9
9,10,Il fascino per i treni storici ha generato un ...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Una maggiore attenzione nei confronti di viagg...,Caricamento playerAlla fine della prossima est...,"f, ,, , ,, ,, , , ,, , e, ,, , ,, ,, , ...",Output: Business treni storici,10


## LLM link all the notices related to the general title.

In [39]:
!pip install lxml



In [103]:
df_xml = df[['id', 'title']].to_xml(index=False, pretty_print=True)

In [104]:
print(df_xml)

<?xml version='1.0' encoding='utf-8'?>
<data>
  <row>
    <id>1</id>
    <title>È finito il reddito di cittadinanza</title>
  </row>
  <row>
    <id>2</id>
    <title>Il sequestro incomprensibile e il feroce omicidio di un bambino di 17 mesi</title>
  </row>
  <row>
    <id>3</id>
    <title>Cosa ha detto Sergio Mattarella nel suo discorso di fine anno</title>
  </row>
  <row>
    <id>4</id>
    <title>Cosa sappiamo del caso Verdini</title>
  </row>
  <row>
    <id>5</id>
    <title>Nel 2023 in Italia sono sbarcati 155.754 migranti</title>
  </row>
  <row>
    <id>6</id>
    <title>D, E, F, G, H, L e M</title>
  </row>
  <row>
    <id>7</id>
    <title>Il contestato piano per “imbrigliare” la falesia sarda di Punta Giglio</title>
  </row>
  <row>
    <id>8</id>
    <title>È morto Paolo Graldi, giornalista ed ex direttore del Mattino e del Messaggero</title>
  </row>
  <row>
    <id>9</id>
    <title>La Camera ha approvato la legge di bilancio</title>
  </row>
  <row>
    <id>10</id>
  

In [105]:
# TODO

group_prompt = Prompt(f"""Given a list of notice titles, group together all the notice titles that refer to the same notice.

Example:
Input:
<root>
  <row>
    <id>1</id>
    <text>Cosa ha detto Sergio Mattarella nel suo discorso di fine anno</text>
  </row>
  <row>
    <id>4</id>
    <text>Mattarella e il discorso di fine anno 2023</text>
  </row>
  <row>
    <id>2</id>
    <text>È finito il reddito di cittadinanza</text>
  </row>
</root>

Output:
<root>
  <row>
    <group>1</group>
    <title>Refers to Sergio Mattarella’s end-of-year speech</title>
    <notices>
      <id>1</id>
      <text>Cosa ha detto Sergio Mattarella nel suo discorso di fine anno</text>
    </notices>
    <notices>
      <id>4</id>
      <text>Mattarella e il discorso di fine anno 2023</text>
    </notices>
  </row>
  <row>
    <group>2</group>
    <title>Refers to the end of the citizenship income</title>
    <notices>
      <id>2</id>
      <text>È finito il reddito di cittadinanza</text>
    </notices>
  </row>
</root>

    Input: {df_xml}""")

In [106]:
group_prompt.get_prompt()

{'contents': [{'parts': [{'text': "Given a list of notice titles, group together all the notice titles that refer to the same notice.\n\nExample:\nInput:\n<root>\n  <row>\n    <id>1</id>\n    <text>Cosa ha detto Sergio Mattarella nel suo discorso di fine anno</text>\n  </row>\n  <row>\n    <id>4</id>\n    <text>Mattarella e il discorso di fine anno 2023</text>\n  </row>\n  <row>\n    <id>2</id>\n    <text>È finito il reddito di cittadinanza</text>\n  </row>\n</root>\n\nOutput:\n<root>\n  <row>\n    <group>1</group>\n    <title>Refers to Sergio Mattarella’s end-of-year speech</title>\n    <notices>\n      <id>1</id>\n      <text>Cosa ha detto Sergio Mattarella nel suo discorso di fine anno</text>\n    </notices>\n    <notices>\n      <id>4</id>\n      <text>Mattarella e il discorso di fine anno 2023</text>\n    </notices>\n  </row>\n  <row>\n    <group>2</group>\n    <title>Refers to the end of the citizenship income</title>\n    <notices>\n      <id>2</id>\n      <text>È finito il redd

In [108]:
output_json = gemini.generate(group_prompt)
output_json

{'candidates': [{'content': {'parts': [{'text': '<root>\n  <row>\n    <group>1</group>\n    <title>Refers to the end of the citizenship income</title>\n    <notices>\n      <id>1</id>\n      <title>È finito il reddito di cittadinanza</title>\n    </notices>\n    <notices>\n      <id>1</id>\n      <title>È finito il reddito di cittadinanza</title>\n    </notices>\n    <notices>\n      <id>1</id>\n      <title>È finito il reddito di cittadinanza</title>\n    </notices>\n  </row>\n  <row>\n    <group>2</group>\n    <title>Refers to the kidnapping and murder of a 17-month-old child</title>\n    <notices>\n      <id>2</id>\n      <title>Il sequestro incomprensibile e il feroce omicidio di un bambino di 17 mesi</title>\n    </notices>\n  </row>\n  <row>\n    <group>3</group>\n    <title>Refers to Sergio Mattarella’s end-of-year speech</title>\n    <notices>\n      <id>3</id>\n      <title>Cosa ha detto Sergio Mattarella nel suo discorso di fine anno</title>\n    </notices>\n  </row>\n  <row>

In [109]:
get_text_from_response(output_json)

['<root>\n  <row>\n    <group>1</group>\n    <title>Refers to the end of the citizenship income</title>\n    <notices>\n      <id>1</id>\n      <title>È finito il reddito di cittadinanza</title>\n    </notices>\n    <notices>\n      <id>1</id>\n      <title>È finito il reddito di cittadinanza</title>\n    </notices>\n    <notices>\n      <id>1</id>\n      <title>È finito il reddito di cittadinanza</title>\n    </notices>\n  </row>\n  <row>\n    <group>2</group>\n    <title>Refers to the kidnapping and murder of a 17-month-old child</title>\n    <notices>\n      <id>2</id>\n      <title>Il sequestro incomprensibile e il feroce omicidio di un bambino di 17 mesi</title>\n    </notices>\n  </row>\n  <row>\n    <group>3</group>\n    <title>Refers to Sergio Mattarella’s end-of-year speech</title>\n    <notices>\n      <id>3</id>\n      <title>Cosa ha detto Sergio Mattarella nel suo discorso di fine anno</title>\n    </notices>\n  </row>\n  <row>\n    <group>4</group>\n    <title>Refers to th

In [110]:
import xml.etree.ElementTree as ET

# Parse the XML string
root = ET.fromstring(get_text_from_response(output_json)[0])

# Iterate over each 'row' element in the root
for row in root.findall('row'):
    group = row.find('group').text
    title = row.find('title').text
    notices = row.find('notices')
    id_ = notices.find('id').text
    notice_title = notices.find('title').text

    print(f"Group: {group}, Title: {title}, Notice ID: {id_}, Notice Title: {notice_title}")


Group: 1, Title: Refers to the end of the citizenship income, Notice ID: 1, Notice Title: È finito il reddito di cittadinanza
Group: 2, Title: Refers to the kidnapping and murder of a 17-month-old child, Notice ID: 2, Notice Title: Il sequestro incomprensibile e il feroce omicidio di un bambino di 17 mesi
Group: 3, Title: Refers to Sergio Mattarella’s end-of-year speech, Notice ID: 3, Notice Title: Cosa ha detto Sergio Mattarella nel suo discorso di fine anno
Group: 4, Title: Refers to the Verdini case, Notice ID: 4, Notice Title: Cosa sappiamo del caso Verdini
Group: 5, Title: Refers to the number of migrants who arrived in Italy in 2023, Notice ID: 5, Notice Title: Nel 2023 in Italia sono sbarcati 155.754 migranti
Group: 6, Title: Refers to the letters D, E, F, G, H, L and M, Notice ID: 6, Notice Title: D, E, F, G, H, L e M
Group: 7, Title: Refers to the controversial plan to “rein in” the Sardinian cliff of Punta Giglio, Notice ID: 7, Notice Title: Il contestato piano per “imbriglia

In [111]:
import pandas as pd
import xml.etree.ElementTree as ET

# Assuming df is your existing DataFrame
# df = pd.DataFrame(...)

data = get_text_from_response(output_json)[0]

# Parse the XML string
root = ET.fromstring(data)

# Create a list to store the group and id
group_id_list = []

# Iterate over each 'row' element in the root
for row in root.findall('row'):
    group = row.find('group').text
    notices = row.find('notices')
    id_ = notices.find('id').text

    # Append the group and id to the list
    group_id_list.append({'id': id_, 'group': group})

# Convert the list to a DataFrame
group_df = pd.DataFrame(group_id_list)

# Convert the 'id' column to int for both DataFrames to avoid merge issues
df['id'] = df['id'].astype(int)
group_df['id'] = group_df['id'].astype(int)

# Merge the DataFrames on the 'id' column
df = pd.merge(df, group_df, on='id', how='left')

In [112]:
df

Unnamed: 0,id,title,link,domain,date,subtitle,content,tags,generalized_title,group_x,group_y
0,1,È finito il reddito di cittadinanza,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Fu introdotto nel 2019 dal primo governo Conte...,Caricamento playerIl 1° gennaio del 2024 è ent...,"A, ,, , ,, ,, , , ,, , s, ,, , ,, ,, , ...",Output: Fine reddito di cittadinanza,1,1
1,2,Il sequestro incomprensibile e il feroce omici...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Tommaso Onofri venne portato via da casa sua i...,Il 2 marzo 2006 due persone con il volto coper...,"c, ,, , ,, ,, , , ,, , a, ,, , ,, ,, , ...",,2,2
2,3,Cosa ha detto Sergio Mattarella nel suo discor...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Il presidente della Repubblica ha parlato dell...,Nella serata del 31 dicembre il presidente del...,"d, ,, , ,, ,, , , ,, , i, ,, , ,, ,, , ...","Output: Discorso fine anno, Sergio Mattarella",3,3
3,4,Cosa sappiamo del caso Verdini,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Per ora poco ma se ne sta parlando molto: l'ex...,Caricamento playerIn questi giorni sui giornal...,"a, ,, , ,, ,, , , ,, , n, ,, , ,, ,, , ...",Output: Caso Verdini,4,4
4,5,Nel 2023 in Italia sono sbarcati 155.754 migranti,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Parecchi di più dei due anni precedenti: i pri...,Caricamento playerIl 29 dicembre il ministero ...,"i, ,, , ,, ,, , , ,, , m, ,, , ,, ,, , ...",Output: Migranti sbarcati in Italia nel 2023,5,5
5,6,"D, E, F, G, H, L e M",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,"A Roma, a parte le metropolitane già costruite...",Caricamento playerLo stato di avanzamento dei ...,"m, ,, , ,, ,, , , ,, , e, ,, , ,, ,, , ...",Output: Lettere alfabeto,6,6
6,7,Il contestato piano per “imbrigliare” la fales...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Comitati e associazioni si oppongono all'insta...,"Nel 2022 il parco di Porto Conte, che ha il co...","a, ,, , ,, ,, , , ,, , l, ,, , ,, ,, , ...",Piano per limitare l'attività della chiesa sar...,7,7
7,8,"È morto Paolo Graldi, giornalista ed ex dirett...",https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,,Nella notte tra venerdì e sabato è morto a Rom...,"m, ,, , ,, ,, , , ,, , o, ,, , ,, ,, , ...",,8,8
8,9,La Camera ha approvato la legge di bilancio,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,I principali interventi riguardano il taglio d...,Caricamento playerVenerdì sera la Camera dei d...,"l, ,, , ,, ,, , , ,, , e, ,, , ,, ,, , ...","Output: Approvazione legge di bilancio, Camera",9,9
9,10,Il fascino per i treni storici ha generato un ...,https://web.archive.org/web/20240102004317/htt...,www.ilpost.it,20240102004317,Una maggiore attenzione nei confronti di viagg...,Caricamento playerAlla fine della prossima est...,"f, ,, , ,, ,, , , ,, , e, ,, , ,, ,, , ...",Output: Business treni storici,10,10


In [70]:
!pip install detoxify

Collecting detoxify
  Downloading detoxify-0.5.2-py3-none-any.whl (12 kB)
Installing collected packages: detoxify
Successfully installed detoxify-0.5.2


In [85]:
df[['id', 'title']].iloc[1, 1]

'Il sequestro incomprensibile e il feroce omicidio di un bambino di 17 mesi'

In [86]:
from detoxify import Detoxify

Detoxify('multilingual').predict(df[['id', 'title']].iloc[1, 1])

{'toxicity': 0.04173022,
 'severe_toxicity': 0.00024974204,
 'obscene': 0.0015894172,
 'identity_attack': 0.0006727361,
 'insult': 0.00085786555,
 'threat': 0.004005103,
 'sexual_explicit': 0.013208165}

In [89]:
df[['id', 'title']].iloc[4, 1]

'Nel 2023 in Italia sono sbarcati 155.754 migranti'

In [92]:
Detoxify('multilingual').predict("")

{'toxicity': 0.8992212,
 'severe_toxicity': 0.0005455844,
 'obscene': 0.02850893,
 'identity_attack': 0.0012883475,
 'insult': 0.7228394,
 'threat': 0.0013474424,
 'sexual_explicit': 0.0037559972}

## Data integration:
### Given all the linked notices, generate a complete version given all the Article's content.

# Storage: inserting dataset in a NoSQL DB (TinyDB)

In [45]:
!pip install tinydb



In [46]:
from tinydb import TinyDB, Query

db = TinyDB('db.json')

In [47]:
db.insert({'tysadasde': 'apple', 'count': 7})

2

In [48]:
db.all()

[{'tysadasde': 'apple', 'count': 7}, {'tysadasde': 'apple', 'count': 7}]