# Can an LLM tell real from artificial poetry?

In [4]:
from statistics import NormalDist
import json
import pandas as pd

Non poco si è scritto sulle capacità degli LLM di generare letteratura. Non molta attenzione è stata invece dedicata alla domanda: un LLM può distinguere una poesia da dei versi generati artificialmente? Questo notebook tenta di rispondere a questa domanda. Per farlo, propongo un semplice compito di classificazione, in cui più LLM classificano un insieme di testi come “poesie” o “non poesie”.
Prendiamo un campione di $n > 96$ poesie dove 
$$n = \frac{Z^2\cdot{p}\cdot(1-p)}{E^2}$$
con:
- $Z$ = Z-score per un livello di confidenza del 95%
- $p$ = proporzione di esempi positivi = 50%
- $E$ = margine di errore pari a 0.10.

Le poesie sono state selezionate da un campione relativamente arbitrario di poeti elencati nella categoria Wikipedia [_Poeti italiani del XXI secolo_](https://it.wikipedia.org/wiki/Categoria:Poeti_italiani_del_XXI_secolo).

In [9]:
with open("out/poems.json", "r") as f:
    poems = json.loads(f.read())["poems"]

In [10]:
lengths = [len(item["text"]) for item in poems]
print(f"Max {max(lengths)}, Min {min(lengths)}")

Max 72, Min 4


In [11]:
df = pd.DataFrame(poems)
df = df.set_index("id", drop=True)

In [12]:
df.head()

Unnamed: 0_level_0,title,text,first_name,last_name
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Le nere scale della mia taverna,"[Le nere scale della mia taverna, tu discendi ...",Penna,Sandro
1,"Era l’alba su i colli, e gli animali","[Era l’alba su i colli, e gli animali, ridavan...",Penna,Sandro
2,Quando tornai al mare di una volta,"[Quando tornai al mare di una volta,, nella se...",Penna,Sandro
3,Ero solo e seduto. La mia storia,"[Ero solo e seduto. La mia storia, appoggiavo ...",Penna,Sandro
4,Felice chi è diverso,"[Felice chi è diverso, essendo egli diverso., ...",Penna,Sandro


In [15]:
df["text"] = df["text"].str.join("\n")

In [17]:
print(df.iloc[3])

title                         Ero solo e seduto. La mia storia 
text          Ero solo e seduto. La mia storia\nappoggiavo a...
first_name                                                Penna
last_name                                                Sandro
Name: 3, dtype: object
