# 1.0 - Data Preparation

In [1]:
# import
import re
import os
import json
import pandas as pd

# setup
input_dir = '../data/raw'

In [2]:
df = pd.DataFrame()
# read ndjson data
for _file in os.listdir(input_dir):
    temp_df = pd.read_json(os.path.join(input_dir, _file), lines = True)
    df = pd.concat([df, temp_df]).reset_index()

In [5]:
df['object_post_category'][0]

'[{"category_id": "83", "category_url": "donna-e-mamma", "category_base": true, "category_name": "Donna e Mamma", "category_assigned": true}]'

In [3]:
# remove new lines and spaces at the start and the end of the text (remove empty texts)
df['object_text'] = df['object_text'].str.strip()
df = df[df['object_text'] != '']
df.reset_index(drop = True, inplace = True)

In [4]:
df['object_post_category_list'] = df['object_post_category'].apply(json.loads)

In [5]:
def extract_topics(row):
    topics = []
    for topic in row['object_post_category_list']:
        topics.append(re.sub(r'www\.[a-z]*\.?(it|com)/', '', topic['category_url']))
    return topics

In [6]:
topics_mapped = {
    'il-bambino' : 'bambino',
    'famiglia' : 'famiglia',
    'bambino' : 'bambino',
    'gravidanza' : 'gravidanza',
    'costume' : 'viaggi',
    'neonato' : 'neonato',
    'la-famiglia' : 'famiglia',
    'sviluppo-e-crescita' : 'crescita',
    'salute' : 'salute',
    'feste' : 'feste',
    'istruzione' : 'istruzione',
    'giochi' : 'giochi',
    'giocare-e-crescere' : 'crescita',
    'malattie' : 'malattie',
    'rimanere-incinta' : 'gravidanza',
    'bimbi-in-viaggio' : 'viaggi',
    'salute-e-benessere' : 'salute',
    'ricette' : 'alimentazione',
    'psicologia' : 'psicologia',
    'parto' : 'gravidanza',
    'donna-e-mamma' : 'mamma',
    'shopping' : 'shopping',
    'il-bimbo-nella-societa' : 'bambino',
    'tempo-libero' : 'tempo libero',
    'cura-e-salute' : 'salute',
    'nido-asilo-e-scuola' : 'crescita',
    'concepimento' : 'gravidanza',
    'sport-e-tempo-libero' : 'sport',
    'nomi' : 'nomi',
    'diventare-mamma-la-famiglia' : 'gravidanza',
    'natale' : 'feste',
    'oroscopo' : 'oroscopo',
    'trasporto-e-viaggi' : 'viaggi',
    'bonus' : 'bonus',
    'post-parto' : 'gravidanza',
    'alimentazione' : 'alimentazione',
    'adolescenza' : 'crescita',
    'allattamento' : 'alimentazione',
    'nomi-per-bambini' : 'nomi',
    'filastrocche' : 'tempo libero',
    'gravidanza-curiosita' : 'gravidanza',
    'soldi-e-lavoro' : 'lavoro',
    'lavoretti' : 'lavoro',
    'moda-e-bellezza' : 'abbigliamento',
    'svezzamento' : 'alimentazione',
    'la-coppia' : 'famiglia',
    'fertilita-ed-infertilita' : 'gravidanza',
    'allattamento-il-bambino' : 'alimentazione',
    'corpo-che-cambia' : 'crescita',
    'gravidanza-a-rischio' : 'gravidanza',
    'pappe' : 'alimentazione',
    'pianto-e-sonno-il-bambino' : 'bambino',
    'video' : 'video',
    'disturbi-in-gravidanza' : 'gravidanza',
    'nanna' : 'crescita',
    'la-famiglia-si-allarga' : 'famiglia',
    'partorire-parto' : 'gravidanza',
    'diventare-papa-la-famiglia' : 'famiglia',
    'feste-di-compleanno' : 'feste',
    'attrezzatura' : 'lavoro',
    'igiene' : 'salute',
    'pasqua' : 'feste',
    'sessualita-e-corpo' : 'crescita',
    'papa' : 'uomo',
    'concepimento-rimanere-incinta' : 'gravidanza',
    'i-consigli-della-tata' : 'crescita',
    'mangiare-in-gravidanza' : 'alimentazione',
    'sport' : 'sport',
    'diagnosi-prenatale' : 'gravidanza',
    'nonni-e-altri-parenti' : 'famiglia',
    'analisi-in-gravidanza' : 'gravidanza',
    'abbigliamento' : 'abbigliamento',
    'feto' : 'gravidanza',
    'ambiente' : 'ambiente',
    'preparazione-al-parto' : 'gravidanza',
    'carnevale' : 'feste',
    'halloween' : 'feste',
    'racconti-parto' : 'gravidanza',
    'casa' : 'casa',
    'animali-domestici' : 'animali',
    'partner' : 'famiglia',
    'guide' : 'guide',
    'pubblicita-per-bambini' : 'bambino',
    'prematuro' : 'gravidanza',
    'focuspico' : 'tempo libero',
    'festa-mamma' : 'feste',
    'in-europa-con-i-bambini' : 'viaggi',
    'favole' : 'tempo libero',
    'sono-incinta' : 'gravidanza',
    'vestirsi-in-gravidanza' : 'gravidanza',
    'angoli-libri-il-bambino' : 'tempo libero',
    'test-e-quiz' : 'tempo libero',
    'matrimonio' : 'famiglia',
    'separazione-e-divorzio' : 'famiglia',
    'musica-per-bambini' : 'tempo libero',
    'adozione' : 'adozione',
    'travaglio-parto' : 'gravidanza',
    'san-valentino' : 'feste',
    'lavoro-e-gravidanza' : 'lavoro',
    'in-alto-adige-con-i-bambini' : 'viaggi',
    'in-toscana-con-i-bambini' : 'viaggi',
    'in-trentino-con-i-bambini' : 'viaggi',
    'giochi-per-neonati' : 'giochi',
    'dalla-rete' : 'news',
    'festa-del-papa' : 'feste',
    'in-sicilia-con-i-bambini' : 'viaggi',
    'in-campania-con-i-bambini' : 'viaggi',
    'giorni-fertili' : 'gravidanza',
    'in-lombardia-con-i-bambini' : 'viaggi',
    'in-liguria-con-i-bambini' : 'viaggi',
    'diario-gravidanza' : 'gravidanza',
    'pianto' : 'neonato',
    'nel-veneto-con-i-bambini' : 'viaggi',
    'in-puglia-con-i-bambini' : 'viaggi',
    'in-sardegna-con-i-bambini' : 'viaggi',
    'battesimo' : 'religione',
    'in-piemonte-con-i-bambini' : 'viaggi',
    'pre-travaglio' : 'gravidanza',
    'speciale-prevenzione-airc' : 'salute',
    'spazio-alla-vita' : '',
    'nel-lazio-con-i-bambini' : 'viaggi',
    'frasi-per-la-nascita' : 'gravidanza',
    'video-gravidanza' : 'video',
    'calendario-ovulazione' : 'gravidanza',
    'angolo-libri-gravidanza' : 'gravidanza',
    'in-emilia-romagna-con-i-bambini' : 'viaggi',
    'in-friuli-vg-con-i-bambini' : 'viaggi',
    'ricette-bambini' : 'alimentazione',
    'in-basilicata-con-i-bambini' : 'viaggi',
    'emozione-essere-mamma' : 'mamma',
    'notizie-cronaca' : 'news',
    'in-umbria-con-i-bambini' : 'viaggi',
    'igiene-bambini' : '',
    'in-valle-d-aosta-con-i-bambini' : 'viaggi',
    'viaggiare-in-gravidanza' : 'viaggi',
    'video-parto-naturale' : 'video',
    'festa-della-mamma' : 'feste',
    'musica-per-il-neonato' : 'tempo libero',
    'in-calabria-con-i-bambini' : 'viaggi',
    'in-abruzzo-con-i-bambini' : 'viaggi',
    'adv_home' : '',
    'bambini-e-alimentazione' : 'alimentazione',
    'baby-oroscopo' : 'oroscopo',
    'nelle-marche-con-i-bambini' : 'viaggi',
    'speciale-vitamine-b-betotal' : 'salute',
    'speciale_natale' : 'feste',
    'torte-decorate' : 'alimentazione',
    'NiveaSun' : 'shopping',
    'tools' : 'shopping',
    'abbigliamento-bambini' : 'abbigliamento',
    'speciale-halloween' : 'feste',
    'speciale-abbigliamento' : 'abbigliamento',
    'primo-mese' : 'crescita',
    'kelloggs' : 'alimentazione',
    'in-molise-con-i-bambini' : 'viaggi',
    'coppia' : 'famiglia',
    'bagnetto-pappa-carrefour' : 'crescita',
    'consigli-medici' : 'salute',
    'scegli-il-nome-per-il-tuo-bambino' : 'nomi',
    'articoli' : 'shopping',
    'video-canzoni-dedicate-ai-figli' : 'video',
    'video-gallery' : 'video'
}

In [7]:
def redefine_topics(topics, topics_mapped):
    new_topic = []
    for topic in topics:
        if topics_mapped[topic] not in new_topic:
            new_topic.append(topics_mapped[topic])
    return new_topic

In [8]:
# extract topics from the tags (url_category)
df['topics'] = df.apply(lambda row: extract_topics(row), axis = 1)
df['topics'] = df['topics'].apply(lambda topics: redefine_topics(topics, topics_mapped))

In [10]:
# define row id
df['id'] = df['object_id']

#define index to reference older index and data
df['index'] = df.index
df['index'] = df['index'].apply(str)
df['index'] = 'doc_' + df['index']

In [11]:
def save_requests(df:pd.DataFrame, iter:int, folder:str) -> None:
    # define json structure for requests towards OpenAI API
    json_list = list()
    json_requests = {
        'method' : 'POST',
        'url' : '/v1/chat/completions'
    }

    MODEL = os.getenv('MODEL')

    for index, row in df.iterrows():
        json_requests['custom_id'] = row['id']
        json_requests['body'] = {
            "model": MODEL,
            "messages": [
                {
                    "role": "user",
                    "content": f"""Modifica il seguente testo in lingua italiana, per eseguire una corretta divisione del testo in frasi. Sostituisci i punti che dividono le frasi con il simbolo |
Puoi eliminare tutte le frasi che iniziano con 'LEGGI ANCHE:' oppure 'Fonte:'
Testo originale:
{row['object_text']}

Testo corretto:"""
                }
            ]
        }
        json_list.append(json_requests.copy())

    # save jsonl file (one json per line)
    with open(f'{folder}/requests_{iter}.jsonl', 'w') as f:
        for item in json_list:
            json.dump(item, f)
            f.write('\n')

In [12]:
# save requests in jsonl files (otherwise 2.000.000 token will be exceeded with the full dataframe)
start = 0
step = 100
requests_folder = '../data/processed/requests'
while start < len(df):
    df_temp = df.iloc[start:start + step]
    save_requests(df_temp, start, requests_folder)
    start += step

In [138]:
# save data to parquet
df.to_parquet('../data/processed/articles_data.parquet', engine = 'pyarrow', index = False)

---
# Cost Estimation (ChatGPT 3.5-Turbo)

In [139]:
df['len'] = df['object_text'].apply(lambda x: len(x))

In [140]:
# define prompt
prompt_old = """Modifica il seguente testo in lingua italiana, in modo tale da permettere una corretta divisione del testo in frasi. Sostituisci i punti che dividono le frasi con il simbolo |.
Puoi eliminare tutte le frasi che iniziano con 'LEGGI ANCHE:' oppure 'Fonte:'
Testo originale:

Testo corretto:"""

In [141]:
# define prompt
prompt = """Modifica il seguente testo in lingua italiana, per eseguire una corretta divisione del testo in frasi. Sostituisci i punti che dividono le frasi con il simbolo |
Puoi eliminare tutte le frasi che iniziano con 'LEGGI ANCHE:' oppure 'Fonte:'
Testo originale:

Testo corretto:"""

In [None]:
input_price = (df['len'].sum() + len(df)*len(prompt)) / 4 * .5 / 1_000_000
output_price = df['len'].sum() / 4 * 1.5 / 1_000_000

print(f"Average charcaters per article: {int(df['len'].sum()/len(df))}")
print(f"Estimated tokens: {int(df['len'].sum()/4)}")
print(f"Estimated pricing (input): {round(input_price, 2)}€")
print(f"Estimated pricing (output): {round(output_price, 2)}€")