# Approccio orientato ai dati

## Soluzione statistica classica: Conteggio della frequenza dei bigrammi

Questo approccio prevede l'analisi del set di dati per capire la frequenza di occorrenza di coppie di lettere (bigrammi) nei nomi. Comprendendo queste frequenze, possiamo generare nuovi nomi scegliendo in modo probabilistico ogni lettera successiva in base alla lettera o alle lettere precedenti. Le fasi sono le seguenti:

1. **Preparazione dei dati**: Elaborazione del set di dati per estrarre tutti i bigrammi dai nomi.
2. **Analisi della frequenza**: Calcolo della frequenza di ciascun bigramma.
3. **Generazione del nome**: Iniziare con una lettera o un bigramma iniziale e selezionare in modo probabilistico ogni lettera successiva in base alla frequenza dei bigrammi nel dataset.

In [1]:
# Load the dataset
file_path = 'names.txt'

# Read the file and process it for bigram frequency analysis
with open(file_path, 'r', encoding='utf-8') as file:
    names = file.read().splitlines()

In [2]:
# Importing necessary libraries
from collections import Counter
import re

# Preprocess the names (e.g., remove special characters, convert to lower case)
processed_names = [re.sub(r'\W+', '', name.lower()) for name in names]

# Extract bigrams from the names
bigrams = [name[i:i+2]
           for name in processed_names for i in range(len(name) - 1)]

# Calculate the frequency of each bigram
bigram_frequency = Counter(bigrams)

# Display the top 10 most common bigrams
top_bigrams = bigram_frequency.most_common(10)
top_bigrams

[('an', 5438),
 ('ar', 3264),
 ('el', 3248),
 ('ri', 3033),
 ('na', 2977),
 ('le', 2921),
 ('en', 2675),
 ('la', 2623),
 ('ma', 2590),
 ('al', 2528)]

In [5]:
list(bigram_frequency.items())[:10]

[('em', 769),
 ('mm', 168),
 ('ma', 2590),
 ('ol', 619),
 ('li', 2480),
 ('iv', 269),
 ('vi', 911),
 ('ia', 2445),
 ('av', 834),
 ('va', 642)]

Per generare i nomi utilizzando l'approccio statistico classico basato sul conteggio della frequenza dei bigrammi dal set di dati, seguiremo i seguenti passaggi:

1. **Inizializzare il nome**: Iniziare con una lettera. Questa può essere scelta a caso o in base a un criterio (ad esempio, la lettera iniziale più comune).

2. **Generare le lettere successive**: Per ogni lettera successiva, utilizzeremo le frequenze dei bigrammi per selezionare probabilisticamente la lettera. Ciò significa che se la parte corrente del nome è "a" e "an" è un bigramma frequente, è molto probabile che la lettera successiva sia "n".

3. **Impostare una condizione di terminazione**: Definire le condizioni per terminare la generazione del nome, come il raggiungimento di una lunghezza massima o l'incontro con un bigramma che ricorre frequentemente alla fine dei nomi.

4. **Ripetere il processo**: Generare diversi nomi ripetendo il processo.

Procediamo con questo metodo per generare alcuni nomi di esempio. Inizieremo con una lettera iniziale casuale e poi useremo le frequenze dei bigrammi per generare le lettere successive.

In [10]:
import random


def generate_name_bigrams(bigram_freq, max_length=6):
    """
    Generate a name using bigram frequencies.

    :param bigram_freq: A Counter object containing bigram frequencies.
    :param max_length: Maximum length of the generated name.
    :return: A generated name.
    """
    # Start the name with a random letter (considering only letters present in the bigrams)
    letters = ''.join(set(''.join(bigram_freq.keys())))
    current_letter = random.choice(letters)

    # Initialize the name
    name = current_letter

    while len(name) < max_length:
        # Possible next letters based on current_letter
        possible_bigrams = [(bigram, freq) for bigram, freq in bigram_freq.items(
        ) if bigram.startswith(current_letter)]

        if not possible_bigrams:
            break

        # Choose the next letter based on the frequency of the bigrams
        next_bigram = random.choices([bigram for bigram, freq in possible_bigrams],
                                     weights=[freq for bigram, freq in possible_bigrams])[0]
        next_letter = next_bigram[1]

        # Append the next letter to the name
        name += next_letter

        # Update the current letter to the last letter of the name
        current_letter = name[-1]

    return name


# Generate a few example names
generated_names = [generate_name_bigrams(bigram_frequency) for _ in range(5)]
generated_names

['hahond', 'shaden', 'erarel', 'lcolia', 'eiviri']