In [None]:
remotes::install_github("stefanocoretta/phonItaliaR")

library(tidyverse)
library(phonItaliaR)

data("phonitalia")

Skipping install of 'phonItaliaR' from a github remote, the SHA1 (2ee9d610) has not changed since last install.
  Use `force = TRUE` to force installation

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.6
[32m✔[39m [34mforcats  [39m 1.0.1     [32m✔[39m [34mstringr  [39m 1.6.0
[32m✔[39m [34mggplot2  [39m 4.0.1     [32m✔[39m [34mtibble   [39m 3.3.0
[32m✔[39m [34mlubridate[39m 1.9.4     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.2.0     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


In [None]:
# manually upload tc_sentences.csv, then load it by running this cell
toy <- readr::read_csv("tc_sentences.csv")
toy

[1mRows: [22m[34m20[39m [1mColumns: [22m[34m3[39m
[36m──[39m [1mColumn specification[22m [36m────────────────────────────────────────────────────────[39m
[1mDelimiter:[22m ","
[31mchr[39m (3): audio_file, sentence_id, sentence

[36mℹ[39m Use `spec()` to retrieve the full column specification for this data.
[36mℹ[39m Specify the column types or set `show_col_types = FALSE` to quiet this message.


audio_file,sentence_id,sentence
<chr>,<chr>,<chr>
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.
common_voice_it_25595088.mp3,mainstream_s02,"Alberto Manzi vuole fare il maestro all'età di venti anni, in pieno dopoguerra."
common_voice_it_25595133.mp3,mainstream_s03,Il commercio è favorito dalla posizione centrale della Valle.
common_voice_it_30609221.mp3,mainstream_s04,Molti ebrei di Berlino tentarono di nascondersi.
common_voice_it_32456880.mp3,mainstream_s05,"Si tratta di un ritratto di profilo, ancora in voga nel primo rinascimento."
common_voice_it_34438539.mp3,mainstream_s06,Con il marchio Big Jim vengono distribuiti inoltre molti altri giochi e oggetti derivati.
common_voice_it_38559819.mp3,mainstream_s07,La stagione va da settembre a luglio.
common_voice_it_38561707.mp3,mainstream_s08,La regione è attraversata dal fiume Broye.
common_voice_it_39916251.mp3,mainstream_s09,Fu cresciuta con la sorella Carlotta e fu intima della Duchessa di Borbone.
common_voice_it_40516666.mp3,mainstream_s10,A questo scopo gli insediamenti cosacchi occupavano aree cuscinetto ai confini dell'Impero.


In [None]:
# clean + tokenize the sentences
# lowercase and strip punctuation

toy_clean <- toy %>%
  mutate(
    sentence_clean = sentence %>%
      stringr::str_to_lower() %>%
      # normalise curly apostrophes to straight ones
      stringr::str_replace_all("’", "'") %>%
      # turn apostrophes into spaces -> split all'età -> "all età"
      stringr::str_replace_all("'", " ") %>%
      # remove all *other* punctuation (.,:;!? etc.), replace with space
      stringr::str_replace_all("[[:punct:]]", " ") %>%
      # collapse multiple spaces
      stringr::str_squish()
  )

# split into words (one row per word)
toy_tokens <- toy_clean %>%
  tidyr::separate_rows(sentence_clean, sep = "\\s+") %>%
  dplyr::rename(word = sentence_clean)

toy_tokens

audio_file,sentence_id,sentence,word
<chr>,<chr>,<chr>,<chr>
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,ha
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,una
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,massa
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,di
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,circa
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,quattro
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,volte
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,quella
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,terrestre
common_voice_it_25595088.mp3,mainstream_s02,"Alberto Manzi vuole fare il maestro all'età di venti anni, in pieno dopoguerra.",alberto


In [None]:
# simplify the lexicon (one IPA per word)
phon_simplified <- phonitalia %>%
  select(wordSpell, PhonesIPA) %>%
  group_by(wordSpell) %>%
  slice(1) %>%      # choose first variant deterministically
  ungroup()

In [None]:
# join tokens to dictionary
toy_join <- toy_tokens %>%
  left_join(phon_simplified, by = c("word" = "wordSpell"))

In [None]:
# check which words didn’t get an IPA
toy_join %>%
  filter(is.na(PhonesIPA)) %>%
  distinct(word)

word
<chr>
all
età
è
big
jim
broye
dell
barney
bob
i


In [None]:
segment_ipa_phones <- function(s) {
  # very simple IPA phone segmentation, similar to Python version.
  # treats tʃ, dʒ, ts, dz as single phones.
  if (is.na(s) || s == "") return(character(0))

  # placeholders for multi-character phones
  s <- gsub("tʃ", "ƭ", s, fixed = TRUE)
  s <- gsub("dʒ", "ƈ", s, fixed = TRUE)
  s <- gsub("ts", "Ʈ", s, fixed = TRUE)
  s <- gsub("dz", "Ɗ", s, fixed = TRUE)

  chars <- strsplit(s, "")[[1]]

  phones <- vapply(chars, function(ch) {
    if (ch == "ƭ") {
      "tʃ"
    } else if (ch == "ƈ") {
      "dʒ"
    } else if (ch == "Ʈ") {
      "ts"
    } else if (ch == "Ɗ") {
      "dz"
    } else {
      ch
    }
  }, FUN.VALUE = character(1))

  phones
}

In [None]:
toy_dict_ipa <- toy_join %>%
  group_by(audio_file, sentence_id, sentence) %>%
  summarise(
    # continuous IPA (canonical baseline)
    ipa_dict_raw   = paste0(PhonesIPA[!is.na(PhonesIPA)], collapse = ""),
    # word-level IPA: one word-IPA per original token, separated by spaces
    ipa_dict_words = paste(PhonesIPA[!is.na(PhonesIPA)], collapse = " "),
    .groups = "drop"
  ) %>%
  mutate(
    ipa_dict       = ipa_dict_raw,
    ipa_dict_phones = sapply(
      ipa_dict,
      function(x) paste(segment_ipa_phones(x), collapse = " ")
    )
  ) %>%
  select(audio_file, sentence_id, sentence, ipa_dict,
         ipa_dict_phones, ipa_dict_words)

toy_dict_ipa

audio_file,sentence_id,sentence,ipa_dict,ipa_dict_phones,ipa_dict_words
<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
common_voice_it_17630394.mp3,non_mainstream_s01,Successivamente è ammesso effettuare una bracciata a rana.,sutʃtʃessivamenteammessoeffettwareunabratʃtʃataarana,s u tʃ tʃ e s s i v a m e n t e a m m e s s o e f f e t t w a r e u n a b r a tʃ tʃ a t a a r a n a,sutʃtʃessivamente ammesso effettware una bratʃtʃata a rana
common_voice_it_18890792.mp3,non_mainstream_s02,Parlatemi di coloro che abitano il palazzo.,parlatemidikolorokeabitanoilpalatstso,p a r l a t e m i d i k o l o r o k e a b i t a n o i l p a l a ts ts o,parlatemi di koloro ke abitano il palatstso
common_voice_it_19933143.mp3,non_mainstream_s03,Il titolo della striscia non è cambiato ma il personaggio di Barney compare raramente.,iltitolodellastriʃʃanonkambjatomailpersonadʒdʒodikompareraramente,i l t i t o l o d e l l a s t r i ʃ ʃ a n o n k a m b j a t o m a i l p e r s o n a dʒ dʒ o d i k o m p a r e r a r a m e n t e,il titolo della striʃʃa non kambjato ma il personadʒdʒo di kompare raramente
common_voice_it_20284001.mp3,non_mainstream_s04,Bob e il suo collega lo scoprono e iniziano a preoccuparsi.,eilsuokollɛɡaloskopronoeinitstsjanoapreokkuparsi,e i l s u o k o l l ɛ ɡ a l o s k o p r o n o e i n i ts ts j a n o a p r e o k k u p a r s i,e il suo kollɛɡa lo skoprono e initstsjano a preokkuparsi
common_voice_it_20284279.mp3,non_mainstream_s05,Entrambi i suoi genitori sono Ebrei.,entrambiswɔidʒenitorisonoebrɛi,e n t r a m b i s w ɔ i dʒ e n i t o r i s o n o e b r ɛ i,entrambi swɔi dʒenitori sono ebrɛi
common_voice_it_25595019.mp3,mainstream_s01,Ha una massa di circa quattro volte quella terrestre.,aunamassaditʃirkakwattrovɔltekwellaterrɛstre,a u n a m a s s a d i tʃ i r k a k w a t t r o v ɔ l t e k w e l l a t e r r ɛ s t r e,a una massa di tʃirka kwattro vɔlte kwella terrɛstre
common_voice_it_25595088.mp3,mainstream_s02,"Alberto Manzi vuole fare il maestro all'età di venti anni, in pieno dopoguerra.",albɛrtomandzivwɔlefareilmaɛstrodiventianniinpjɛnodɔpoɡwɛrra,a l b ɛ r t o m a n dz i v w ɔ l e f a r e i l m a ɛ s t r o d i v e n t i a n n i i n p j ɛ n o d ɔ p o ɡ w ɛ r r a,albɛrto mandzi vwɔle fare il maɛstro di venti anni in pjɛno dɔpoɡwɛrra
common_voice_it_25595133.mp3,mainstream_s03,Il commercio è favorito dalla posizione centrale della Valle.,ilkommɛrtʃofavoritodallapositstsjonetʃentraledellavalle,i l k o m m ɛ r tʃ o f a v o r i t o d a l l a p o s i ts ts j o n e tʃ e n t r a l e d e l l a v a l l e,il kommɛrtʃo favorito dalla positstsjone tʃentrale della valle
common_voice_it_30609221.mp3,mainstream_s04,Molti ebrei di Berlino tentarono di nascondersi.,moltiebrɛidiberlinotentaronodinaskondersi,m o l t i e b r ɛ i d i b e r l i n o t e n t a r o n o d i n a s k o n d e r s i,molti ebrɛi di berlino tentarono di naskondersi
common_voice_it_32187952.mp3,non_mainstream_s06,Una seconda chiesa si trova a Castelvecchio Basso ed è dedicata a San Giuseppe.,unasekondakjɛsasitrɔvaabassoeddedikataasandʒusɛppe,u n a s e k o n d a k j ɛ s a s i t r ɔ v a a b a s s o e d d e d i k a t a a s a n dʒ u s ɛ p p e,una sekonda kjɛsa si trɔva a basso ed dedikata a san dʒusɛppe


In [None]:
readr::write_csv(toy_dict_ipa, "dict_output.csv")