<a href="https://colab.research.google.com/github/KatiaKozlova/stat-project/blob/main/stat_project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Experimental Research in Degree Semantics

Notebook by *Daria Sidorkina* & *Kate Kozlova*

### **Libraries**:

In [147]:
options(warn=-1)
library(dplyr)
library(tidyverse)

### **Import of the collected data** (via Experiment 1):

In [110]:
lion_exp <- read.csv('https://raw.githubusercontent.com/KatiaKozlova/stat-project/refs/heads/main/lion_exp.csv')

### **Data pre-processing and statistics**:

In [111]:
# omitting the time-stamps and division into 4 groups

lion_exp <- lion_exp[, -c(1:2)]

In [112]:
# minimal, maximal, average of each sentence
# number and standart deviation

lion_exp_stats <- as.data.frame(t(sapply(
    lion_exp,
    function(x) c(
        avg = mean(x, na.rm = TRUE),
        min = min(x, na.rm = TRUE),
        max = max(x, na.rm = TRUE),
        st_dev = sd(x, na.rm = TRUE),
        count = length(which(!is.na(x)))))))

In [113]:
# adding rownames

lion_exp_stats <- rownames_to_column(lion_exp_stats, var = "stimuli")
lion_exp_stats <- tibble::rowid_to_column(lion_exp_stats, "id")

In [114]:
# manually omitting fillers (only stimuli are left)

lion_stimuli <- lion_exp_stats[
    -c(1, 3, 6, 10, 11, 18, 19, 20,
    24, 29, 34, 35, 37, 38, 39, 40,
    43, 45, 46, 50, 51, 53, 58, 60,
    62, 65, 68, 69, 72, 76, 78, 80), -1]

rownames(lion_stimuli) <- 1:nrow(lion_stimuli)

In [115]:
# solving several problems
# (doubled sentence and broken encoding)

mean_ch <- mean(lion_stimuli$avg[c(20, 39)])
sum_ch <- sum(lion_stimuli$count[c(20, 39)])
lion_stimuli$avg[20] <- mean_ch
lion_stimuli$count[20] <- sum_ch
lion_stimuli <- lion_stimuli[-39, ]
rownames(lion_stimuli) <- 1:nrow(lion_stimuli)

lion_stimuli <- lion_stimuli %>%
  mutate(stimuli = str_replace_all(stimuli, "\\.\\.", "\\,\\ ")) %>%
    mutate(stimuli = str_replace_all(stimuli, "\\.", "\\ "))

In [119]:
# ordering in alphabetical order (groups by four)

lion_stimuli_sorted <- lion_stimuli[order(lion_stimuli$stimuli),]

### **Data analysis and preliminary findings**:

We took 4 as minimum average score of the sentence to be considered as acceptable (according to the human reasoning).

In [146]:
lion_stimuli_sorted[lion_stimuli_sorted$avg > 4, ]

Unnamed: 0_level_0,stimuli,avg,min,max,st_dev,count
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
19,Вода в ванне немного горячая,4.30303,2,5,0.8472326,33
5,Вода в ванне немного холодная,4.352941,1,5,1.2030858,34
33,Вода в ванне совершенно холодная,4.423077,2,5,0.8566482,26
45,Все студенты в пятой группе немного ленивые,4.647059,2,5,0.7337059,34
14,Интернет в общежитии немного медленный,4.363636,1,5,1.2946569,33
44,Комната Вадика немного тёмная,4.470588,2,5,0.8611231,34
3,Комната Вадика совершенно тёмная,4.264706,1,5,0.9941899,34
41,Лицо на той картине немного уродливое,4.235294,1,5,1.1821609,34
24,Лицо на той картине совершенно уродливое,4.333333,2,5,0.9895285,33
36,Моя соседка по парте немного глупая,4.884615,3,5,0.4314555,26


**Our findings**:

Adjectives in bold font represent **prevalence** in acceptability of modification with degree modifiers or the only possible variant of modification.

Three acceptable collocations:
- **грязный** – чистый (dirty – clean, *чистый* with *совершенно* (completely));
- **холодный** – горячий (cold – hot, *горячий* with *немного* (slightly)).

Two acceptable collocations:
- светлый – **тёмный** (light – dark);
- умный – **глупый** (smart – stupid);
- красивый – **уродливый** (beautiful – ugly).

One acceptable collocations (all with *немного* (slightly)):
- быстрый – **медленный** (fast – slow);
- **злой** – добрый (good – bad)$^1$;
- **ленивый** – трудолюбивый (lazy – hard-working);
- храбрый – **трусливый** (brave – fearful).

Zero acceptable collocations:
- щедрый – скупой (generous – stingy);
- высокий – низкий (tall – short);
- тяжёлый – лёгкий (heavy – light).


$^1$ It should be mentioned that we accidentally skiped one variant *совершенно добрый* (completely kind).

### **Residuals**:

In [132]:
lion_stimuli_sorted[lion_stimuli_sorted$avg > 4 & lion_stimuli_sorted$st_dev < 1, ]

Unnamed: 0_level_0,stimuli,avg,min,max,st_dev,count
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
19,Вода в ванне немного горячая,4.30303,2,5,0.8472326,33
33,Вода в ванне совершенно холодная,4.423077,2,5,0.8566482,26
45,Все студенты в пятой группе немного ленивые,4.647059,2,5,0.7337059,34
44,Комната Вадика немного тёмная,4.470588,2,5,0.8611231,34
3,Комната Вадика совершенно тёмная,4.264706,1,5,0.9941899,34
24,Лицо на той картине совершенно уродливое,4.333333,2,5,0.9895285,33
36,Моя соседка по парте немного глупая,4.884615,3,5,0.4314555,26
8,Новый учитель информатики немного злой,4.558824,3,5,0.7463518,34
2,Эта скатерть немного грязная,4.676471,1,5,0.8060599,34


In [140]:
lion_stimuli_sorted[lion_stimuli_sorted$avg < 2.192308, ]

Unnamed: 0_level_0,stimuli,avg,min,max,st_dev,count
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
22,Все студенты в пятой группе немного трудолюбивые,2.151515,1,5,1.3019508,33
12,Все студенты в пятой группе совершенно трудолюбивые,1.852941,1,5,1.0482989,34
4,Интернет в общежитии немного быстрый,1.735294,1,3,0.8981065,34
43,Интернет в общежитии совершенно быстрый,1.794118,1,4,0.8449282,34
26,Интернет в общежитии совершенно медленный,2.192308,1,5,1.4147574,26
32,Лицо на той картине немного красивое,1.846154,1,4,1.0466062,26
17,Машины гантели совершенно тяжёлые,1.636364,1,5,1.1406736,33
9,Моя соседка по парте немного умная,2.0,1,5,1.1806521,34
23,Моя соседка по парте совершенно умная,1.636364,1,4,0.8594396,33
25,Наш лев совершенно храбрый,1.807692,1,5,1.1320506,26


1. Васина рубашка грязнее Петиной.<br>
? -> Петина рубашка грязная.
2. В квартире вода холоднее, чем на даче.<br>
? -> На даче вода холодная.
3. У Маши глаза светлее, чем у Саши.<br>
? -> У Саши светлые глаза.
4. Глаша тупее Наташи.<br>
? -> Наташа тупая.
5. Дети тёти Любы красивее детей тёти Гали.<br>
? -> Дети тёти Гали красивые.
6. В квартире интернет быстрее, чем в университете.<br>
? -> В университетет интернет быстрый.
7. Учитель ОБЖ добрее учителя физры.<br>
? -> Учитель физры добрый.
8. Девушки из 2-й бригады трудолюбивее девушек из 5-й.<br>
? -> Девушки из 5-й трудолюбивые.
9. Соня храбрее Вики.<br>
? -> Вика храбрая.
10. Директор отдела продаж щедрее нашего директора.<br>
? -> Наш директор щедрый.
11. Сосна выше тополя.<br>
? -> Тополь высокий.
12. Кот Тиша тяжелее собаки Маргоши.<br>
? -> Собака Маргоша тяжелая.