# Kirjaimet yhdestä miljoonaan sanoina

Tässä Jupyter notebookissa käytetään numtofi ja num2words Python moduuleja laskemaan suomenkielisten lukusanojen kirjanten määrä sekä vertaillaan sitä muiden kielten (Englanti, Ruotsi, Saksa) vastaaviin tuloksiin.

## Vaadittavat moduulit

In [None]:
!pip install -q num2words
!pip install -q numtofi

In [None]:
from num2words import num2words
from numtofi import number_to_text

## Apufunktiot

In [None]:
# Define different typing speeds (words per minute)
# Source: ChatGPT
writing_speeds = {
    'käsin': 16.5,  # average handwriting speed, 13-20
    'kirjoituskoneella': 40,  # average typewriter speed, 30-50
    'kirjoituskoneella_pika': 80,  # average typewriter speed, 50-80
    'tietokoneella': 65,  # average computer typing speed, 40-90
    'tietokoneella_pika': 120,  # average computer typing speed, 90-120
    'saneltuna': 150  # average dictation speed, 100-200
}

def avg_word_length_up_to_n(n, func):
    total_length = total_words = 0
    for i in range(1, n+1):
        word = func(i)
        y = list(len(x) for x in word.split(" "))
        total_words += len(y)
        total_length += sum(y)
    
    return total_length / total_words

def _days_to_write_numbers(total_letters, h, avg_word_length):
    # Calculate the time required for each method
    time_required = {}
    for method, speed in writing_speeds.items():
        total_words = total_letters / avg_word_length
        total_minutes = total_words / speed
        days = total_minutes / (60 * h)  # assuming 8 hours of work per day
        time_required[method] = days

    return total_letters, time_required

def days_to_write_numbers_fi(n=1000000, h = 24, avg_word_length = 5, spaces = True):
    return _days_to_write_numbers(sum([len(number_to_text(i, spaces)) for i in range(1, n + 1)]), h, avg_word_length)

def days_to_write_numbers(n=1000000, lang="fi", h = 24, avg_word_length = 5, spaces = True):
    return _days_to_write_numbers(sum([len(num2words(i, lang=lang).replace(' ', ' ' if spaces else '')) for i in range(1, n + 1)]), h, avg_word_length)

def totals(total_letters, writing_speed_per_minute, time_spent_in_days, avg_word_length = 5):
    daily_letters = total_letters / time_spent_in_days
    words_per_day = daily_letters / avg_word_length
    minutes_per_day = words_per_day / writing_speed_per_minute
    return {
        'total_letters': total_letters,
        'time_spent_in_days': time_spent_in_days,
        'daily_letters': daily_letters, 
        'avg_word_length': avg_word_length,
        'words_per_day': words_per_day, 
        'writing_speed_per_minute': writing_speed_per_minute, 
        'minutes_per_day': minutes_per_day
    }

## Statistiikka

In [None]:
total_letters_en, days_to_write_en = days_to_write_numbers(lang='en')

In [None]:
total_letters_sv, days_to_write_sv = days_to_write_numbers(lang='sv')

In [None]:
total_letters_de, days_to_write_de = days_to_write_numbers(lang='de')

In [None]:
total_letters_fi, days_to_write_fi = days_to_write_numbers_fi()

In [None]:
totals(total_letters_en, writing_speeds["kirjoituskoneella"], (16*365+7*30), 5.2)

{'total_letters': 60313716,
 'time_spent_in_days': 6050,
 'daily_letters': 9969.209256198346,
 'avg_word_length': 5.2,
 'words_per_day': 1917.1556261919895,
 'writing_speed_per_minute': 60,
 'minutes_per_day': 31.952593769866493}

In [None]:
(totals(total_letters_fi, writing_speeds["kirjoituskoneella"], (16*365+7*30), 5.2),
 totals(total_letters_fi, writing_speeds["tietokoneella_pika"], (16*365+7*30), 5.2),
 # work days
 totals(total_letters_fi, writing_speeds["kirjoituskoneella"], 10*240, 5.2),
 totals(total_letters_fi, writing_speeds["tietokoneella_pika"], 10*240, 5.2))

({'total_letters': 62224010,
  'time_spent_in_days': 6050,
  'daily_letters': 10284.960330578513,
  'avg_word_length': 5.2,
  'words_per_day': 1977.876986649714,
  'writing_speed_per_minute': 40,
  'minutes_per_day': 49.44692466624285},
 {'total_letters': 62224010,
  'time_spent_in_days': 6050,
  'daily_letters': 10284.960330578513,
  'avg_word_length': 5.2,
  'words_per_day': 1977.876986649714,
  'writing_speed_per_minute': 120,
  'minutes_per_day': 16.48230822208095},
 {'total_letters': 62224010,
  'time_spent_in_days': 2400,
  'daily_letters': 25926.670833333334,
  'avg_word_length': 5.2,
  'words_per_day': 4985.898237179487,
  'writing_speed_per_minute': 40,
  'minutes_per_day': 124.64745592948718},
 {'total_letters': 62224010,
  'time_spent_in_days': 2400,
  'daily_letters': 25926.670833333334,
  'avg_word_length': 5.2,
  'words_per_day': 4985.898237179487,
  'writing_speed_per_minute': 120,
  'minutes_per_day': 41.54915197649573})

In [None]:
totals(total_letters_sv, writing_speeds["kirjoituskoneella"], (16*365+7*30), 5.2)

{'total_letters': 38414109,
 'time_spent_in_days': 6050,
 'daily_letters': 6349.439504132231,
 'avg_word_length': 5.2,
 'words_per_day': 1221.0460584869675,
 'writing_speed_per_minute': 60,
 'minutes_per_day': 20.35076764144946}

In [None]:
totals(total_letters_de, writing_speeds["kirjoituskoneella"], (16*365+7*30), 5.2)

{'total_letters': 50932012,
 'time_spent_in_days': 6050,
 'daily_letters': 8418.514380165288,
 'avg_word_length': 5.2,
 'words_per_day': 1618.9450731087093,
 'writing_speed_per_minute': 60,
 'minutes_per_day': 26.982417885145153}

## Välilyöntien määrä

Jos kirjaimia kirjoitetaan miljoona, niin kuinka monta välilyöntiä joudutaan painamaan näppäimistöltä?

In [None]:
{
    'fi': total_letters_fi - days_to_write_numbers_fi(spaces = False)[0],
    'en': total_letters_en - days_to_write_numbers(lang='en', spaces = False)[0],
    'sv': total_letters_sv - days_to_write_numbers(lang='sv', spaces = False)[0],
    'de': total_letters_de - days_to_write_numbers(lang='de', spaces = False)[0],
}

{'fi': 997002, 'en': 7459903, 'sv': 899101, 'de': 1}

## Kirjainten kokonaismäärä suhteessa Suomen kieleen prosentteina

In [None]:
def ratio_in_percents(a, b):
    return 100-(a/b)*100

{
    'en/fi': ratio_in_percents(total_letters_en, total_letters_fi),
    'sv/fi': ratio_in_percents(total_letters_sv, total_letters_fi),
    'de/fi': ratio_in_percents(total_letters_de, total_letters_fi),
}

{'en/fi': 3.0700271486842468,
 'sv/fi': 38.26481289135818,
 'de/fi': 18.14733251682108}

## Vertaistesti `num2words` moduulin kanssa

Osassa lukujen kirjoitut versiot eroavat num2words moduulin erilaisten välilyöntisääntöjen takia.

Esimerkiksi:

number_to_text(1785) -> `tuhatseitsemänsataakahdeksankymmentäviisi`

num2words(1785) -> `tuhat seitsemänsataakahdeksankymmentäviisi`,

In [None]:
import random

# Testataan funktiota useammilla luvuilla kustakin suuruusluokasta
test_numbers = [
    3, 17, 29,  # Yksittäiset numerot
    20, 45, 78,  # Kymmenet
    100, 234, 567,  # Sadat
    1000, 2345, 6789,  # Tuhannet
    10000, 23456, 78901,  # Kymmenet tuhannet
    100000, 234567, 890123,  # Sadat tuhannet
    1000000, 2345678, 9012345,  # Miljoonat
]

# Lisätään satunnaisia testilukuja
test_numbers.extend([random.randint(1, 9) for _ in range(3)])
test_numbers.extend([random.randint(10, 99) for _ in range(3)])
test_numbers.extend([random.randint(100, 999) for _ in range(3)])
test_numbers.extend([random.randint(1000, 9999) for _ in range(3)])
test_numbers.extend([random.randint(10000, 99999) for _ in range(3)])
test_numbers.extend([random.randint(100000, 999999) for _ in range(3)])
test_numbers.extend([random.randint(1000000, 9999999) for _ in range(3)])

# Testitulokset
def comp(x, y):
    return x, y, 'TRUE' if x==y else 'FALSE'

test_results = [(i, *(comp(number_to_text(i), num2words(i, lang='fi')))) for i in test_numbers]

test_results

[(3, 'kolme', 'kolme', 'TRUE'),
 (17, 'seitsemäntoista', 'seitsemäntoista', 'TRUE'),
 (29, 'kaksikymmentäyhdeksän', 'kaksikymmentäyhdeksän', 'TRUE'),
 (20, 'kaksikymmentä', 'kaksikymmentä', 'TRUE'),
 (45, 'neljäkymmentäviisi', 'neljäkymmentäviisi', 'TRUE'),
 (78, 'seitsemänkymmentäkahdeksan', 'seitsemänkymmentäkahdeksan', 'TRUE'),
 (100, 'sata', 'sata', 'TRUE'),
 (234, 'kaksisataakolmekymmentäneljä', 'kaksisataakolmekymmentäneljä', 'TRUE'),
 (567,
  'viisisataakuusikymmentäseitsemän',
  'viisisataakuusikymmentäseitsemän',
  'TRUE'),
 (1000, 'tuhat', 'tuhat', 'TRUE'),
 (2345,
  'kaksituhatta kolmesataaneljäkymmentäviisi',
  'kaksituhatta kolmesataaneljäkymmentäviisi',
  'TRUE'),
 (6789,
  'kuusituhatta seitsemänsataakahdeksankymmentäyhdeksän',
  'kuusituhatta seitsemänsataakahdeksankymmentäyhdeksän',
  'TRUE'),
 (10000, 'kymmenentuhatta', 'kymmenentuhatta', 'TRUE'),
 (23456,
  'kaksikymmentäkolmetuhatta neljäsataaviisikymmentäkuusi',
  'kaksikymmentäkolmetuhatta neljäsataaviisikymmentäk

## Keskimääräinen numerosanojen pituus

In [None]:
#5 in normal speech (5.2 for finnish), but here we count only numerical values, which tend to be long words, very long in Finnish and German
{
    'fi': avg_word_length_up_to_n(100000, lambda x: number_to_text(x)),
    'en': avg_word_length_up_to_n(100000, lambda x: num2words(x, lang='en')),
    'sv': avg_word_length_up_to_n(100000, lambda x: num2words(x, lang='sv')),
    'de': avg_word_length_up_to_n(100000, lambda x: num2words(x, lang='de'))
}

{'fi': 26.078619720871945,
 'en': 6.980019239317664,
 'sv': 15.425774722369116,
 'de': 40.76017}

## Luku 983572 suomeksi, englanniksi, ruotsiksi ja saksaksi

In [None]:
{
    'fi': number_to_text(983572),
    'en': num2words(983572, lang='en'),
    'sv': num2words(983572, lang='sv'),
    'de': num2words(983572, lang='de')
}

{'fi': 'yhdeksänsataakahdeksankymmentäkolmetuhatta viisisataaseitsemänkymmentäkaksi',
 'en': 'nine hundred and eighty-three thousand, five hundred and seventy-two',
 'sv': 'niohundraåttiotretusen femhundrasjuttiotvå',
 'de': 'neunhundertdreiundachtzigtausendfünfhundertzweiundsiebzig'}