In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


#extraction

In [None]:
!pip install wikipedia

Collecting wikipedia
  Downloading wikipedia-1.4.0.tar.gz (27 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: wikipedia
  Building wheel for wikipedia (setup.py) ... [?25l[?25hdone
  Created wheel for wikipedia: filename=wikipedia-1.4.0-py3-none-any.whl size=11679 sha256=c8a42516f890f8a9fa005f84a345e93aedbfa9932e354561d6626bb542d66779
  Stored in directory: /root/.cache/pip/wheels/8f/ab/cb/45ccc40522d3a1c41e1d2ad53b8f33a62f394011ec38cd71c6
Successfully built wikipedia
Installing collected packages: wikipedia
Successfully installed wikipedia-1.4.0


In [None]:
import os
import json
import ast
import wikipedia
import pandas as pd
import urllib.parse
from urllib.parse import quote
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm  # Importa tqdm per la progress bar

core_df = pd.read_csv('/content/drive/MyDrive/testa_di_Marianna/dati_wiki_ristretti/wiki_naples_500.tsv', sep='\t')

def get_last_segment(url):
    segments = url.rsplit('/', 1)
    last_segment = segments[-1] if segments else ''
    last_segment = urllib.parse.unquote(last_segment)
    last_segment = last_segment.replace('(', '').replace(')', '')
    return last_segment

def segmenta_contenuto(content):
    capitoletti = {}
    lines = content.split('\n')
    current_capitolo = ''
    current_sottocapitolo = ''
    current_testo = ''

    for line in lines:
        if line.startswith('== ') and line.endswith(' =='):
            if current_sottocapitolo:
                if current_capitolo not in capitoletti:
                    capitoletti[current_capitolo] = {}
                capitoletti[current_capitolo][current_sottocapitolo] = current_testo.strip()
                current_sottocapitolo = ''
            elif current_capitolo:
                if isinstance(capitoletti.get(current_capitolo), str):
                    pass
                else:
                    capitoletti[current_capitolo] = current_testo.strip()

            current_capitolo = line[3:-3].strip()
            current_testo = ''
            capitoletti[current_capitolo] = {}

        elif line.startswith('=== ') and line.endswith(' ==='):
            if current_sottocapitolo:
                if current_capitolo not in capitoletti:
                    capitoletti[current_capitolo] = {}
                capitoletti[current_capitolo][current_sottocapitolo] = current_testo.strip()

            current_sottocapitolo = line[4:-4].strip()
            current_testo = ''

        else:
            current_testo += line + '\n'

    if current_sottocapitolo:
        if current_capitolo not in capitoletti:
            capitoletti[current_capitolo] = {}
        capitoletti[current_capitolo][current_sottocapitolo] = current_testo.strip()
    elif current_capitolo:
        if isinstance(capitoletti.get(current_capitolo), dict) and not capitoletti[current_capitolo]:
            capitoletti[current_capitolo] = current_testo.strip()
        elif not isinstance(capitoletti.get(current_capitolo), dict):
            capitoletti[current_capitolo] = current_testo.strip()

    return capitoletti

def get_wikipedia_page_details(page_title):
    try:
        page = wikipedia.page(page_title)
        if page:
            content_chapters = segmenta_contenuto(page.content)
            return {
                'summary': page.summary,
                'title': page.title,
                'url': page.url,
                'content': content_chapters,
                'links': list(page.links)
            }
        else:
            return None
    except:
        return None

def fetch_page_data(url):
    """Funzione per recuperare i dettagli di una pagina dato un URL."""
    page_title = get_last_segment(url)
    return get_wikipedia_page_details(page_title)

more = []

for ell in core_df['links'].tolist():
    for e in ast.literal_eval(ell):
        page_url = f"https://it.wikipedia.org/wiki/{quote(e)}"
        more.append({'title': e, 'url': page_url})

links_extended = list(set([el['url'] for el in more]))

wikipedia.set_lang("it")

# Configurazione del batch
batch_size = 100
output_file = "/content/drive/MyDrive/testa_di_Marianna/dati_wiki_ristretti/wiki_naples_500_hyper.tsv"

# Scrivi l'header solo una volta
header_written = False

# Elaborazione in batch con ThreadPoolExecutor
with ThreadPoolExecutor(max_workers=10) as executor:  # Numero di thread
    for i in tqdm(range(0, len(links_extended), batch_size), desc="Processing batches"):
        batch_links = links_extended[i:i + batch_size]

        # Parallelizza il recupero dei dati
        batch_data = list(executor.map(fetch_page_data, batch_links))

        # Filtra i risultati validi
        valid_data = [item for item in batch_data if item is not None]

        # Salva il batch nel file
        df_batch = pd.DataFrame(valid_data)
        df_batch.to_csv(output_file, sep='\t', index=False, mode='a', header=not header_written)
        header_written = True




  lis = BeautifulSoup(html).find_all('li')
Processing batches: 100%|██████████| 441/441 [1:43:43<00:00, 14.11s/it]


#process

In [2]:
import pandas as pd

big_df = pd.read_csv('/content/drive/MyDrive/testa_di_Marianna/dati_wiki_ristretti/wiki_naples_500_hyper.tsv', sep='\t')

In [3]:
import ast

In [4]:
import ast

def dictionary_formatter(data):
    """
    Converte un dataframe in una lista di dizionari nel formato {'title': title, 'text': text},
    unendo tutte le parti filtrate in un unico testo per ogni titolo.

    :param data: DataFrame di input.
    :return: Lista di dizionari formattati.
    """
    formatted_data = []

    for title, content in zip(data['title'], data['content']):
        try:
            content_dict = ast.literal_eval(content)
            combined_text = []

            for key, value in content_dict.items():
                if key not in ['Voci correlate', 'Collegamenti esterni', 'Altri progetti', 'Note', 'Bibliografia']:
                    if isinstance(value, str):
                        combined_text.append(' '.join(value.split('\n')))
                    elif isinstance(value, dict):
                        for sub_key, sub_value in value.items():
                            if sub_key not in ['Voci correlate', 'Collegamenti esterni', 'Altri progetti', 'Note', 'Bibliografia']:
                                combined_text.append(' '.join(sub_value.split('\n')))

            # Unisce tutto il testo filtrato per il titolo corrente
            formatted_data.append({'title': title, 'text': ' '.join(combined_text)})

        except (ValueError, SyntaxError) as e:
            print(f"Errore nella conversione del contenuto per il titolo '{title}': {e}")

    return formatted_data

all_dicts = dictionary_formatter(big_df)

all_dicts_clean = [el for el in all_dicts if el['text'] != '']

all_par = [el['text'] for el in all_dicts_clean]
all_titles = [el['title'] for el in all_dicts_clean]

Errore nella conversione del contenuto per il titolo 'title': malformed node or string on line 1: <ast.Name object at 0x7ca68d220c10>


In [5]:
def divide_list(lst):
    n = len(lst)
    part_size = n // 3
    remainder = n % 3


    part1 = lst[:part_size]
    part2 = lst[part_size:part_size*2]
    part3 = lst[part_size*2:]
    if remainder == 1:
        part1.append(lst[-1])
    elif remainder == 2:
        part1.append(lst[-2])
        part2.append(lst[-1])

    return part1, part2, part3

part1, part2, part3 = divide_list(all_par)

#filter data with Llama

In [6]:
#https://arxiv.org/html/2406.19271v1 paper AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning

In [7]:
from tqdm import tqdm

In [8]:
import torch
print(torch.cuda.is_available())

True


In [9]:
from huggingface_hub import login
login(token='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')

In [10]:
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.2-3B-Instruct")
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.2-3B-Instruct")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/54.5k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/878 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/20.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/1.46G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/189 [00:00<?, ?B/s]

In [11]:
from transformers import pipeline

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

Device set to use cuda:0


In [12]:
SYSTEM_PROMPT = """Sei un moderatore di contenuti e il tuo compito è quello di filtrare i contenuti in base alle indicazioni che ti vengono fornite.
                   Classifica con una label. il formato dell'output è la sola etichetta"""

INSTRUCTION_PROMPT = """Ti viene presentato un testo breve. Il tuo compito è quello di individuare se nel testo sono presenti informazioni sulla città di Napoli nelle seguenti categorie:

                        - archeologia
                        - storia antica e moderna
                        - geografia
                        - turismo
                        - cultura storica e folklore

                        Le informazioni possono essere direttamente su Napoli o può essere parzialmente citata.
                        Le categorie possono essere presenti singolarmente o in combinazioni.
                        Dai un unico giudizio complessivo, è sufficiente corrispondere ad una categoria per considerare il testo rilevante.
                        Non considerare informazioni di spettacolo, sport, cronaca nera recente, indagini o contenuti offensivi.

                        L'etichetta positiva è RILEVANTE
                        L'etichetta negativa è NON RILEVANTE"""

PROMPT = """Analizza il contenuto del testo {paragrafo} e classifica il suo contenuto in base alle indicazioni con l'etichetta opportuna."""

In [13]:
def quest_gen(par):

  messages = [
      {"role": "system", "content": SYSTEM_PROMPT},
      {"role": "user", "content": INSTRUCTION_PROMPT},
      {"role": "user", "content": PROMPT.format(paragrafo=par)}
]

  outputs = pipe(
      messages,
      max_new_tokens=20,
      num_return_sequences=1,
      pad_token_id=tokenizer.eos_token_id
  )

  return outputs[0]["generated_text"][-1]['content']

In [14]:
labels = [quest_gen(par) for par in tqdm(part1, desc="Processing paragraphs")]

Processing paragraphs:   0%|          | 10/13745 [00:13<6:15:44,  1.64s/it]You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset
Processing paragraphs: 100%|██████████| 13745/13745 [6:05:14<00:00,  1.59s/it]


In [15]:
import pickle

with open('/content/drive/MyDrive/testa_di_Marianna/dati_wiki_ristretti/labels_filtered1.pkl', "wb") as file:
    pickle.dump(labels, file)