# <center>  TreeTagger: отчет по тестированию системы

### 1. Проанализируем систему тегов:

#### 1.1. Сколько частей речи учитывает система; какие части речи в системе отсутствуют

Согласно [Morphosyntactic Specifications for Russian](http://corpus.leeds.ac.uk/mocky/msd-ru.html), выделяются 10 частей речи, а также аббревиатуры и "остальное":

1. Noun (N) - существительное
2. Verb (V) - глагол
3. Adjective (A) - прилагательное
4. Pronoun (P) - местоимение
5. Adverb (R) - наречие
6. Adposition (S) - предлог
7. Conjunction (C) - союз
8. Numeral (M) - числительное
9. Particle (Q) - частица
10. Interjection (I) - междометие
11. Abbreviation (Y)
12. Residual (X)

Отсутствуют такие возможные классы слов как:

* **participle**    
уменьшится количество признаков => станет удобнее анализировать. 
Причастие и деепричастие не выделяются как отдельная часть речи, считаясь особыми формами глагола (p (=participle) и g (=gerund))

* **pronominal adjectives** и **pronominal adverbs** (можно избавиться от '-' в разборах)
* **категория состояния** (сейчас при разборе имеет тег наречия R)

#### 1.2. В какие pos-классы попадают местоимения

* Pronoun

Рассмотрим на следующих примерах:
   
Я люблю своего кота.   
Все были рады.   
Они поцеловали его.   
Оно следило за всеми.   
Любой был бы рад ее вниманию.   
Кто это?   
Это что?   
Чей он сын?    
Никто не знает.   
Мы любим себя.   
Некто пришел ночью.  
Зачем всё это здесь?    
Все кончено.   
Когда-нибудь кто-либо сделает что-то.



| Слово | Разбор | Лемма |
|:---|:---|:---|
 |Я	 |P-1-snn |	я |
 |своего |	P--msga	 |свой |
| Все | P--nsnn | все |
| Они | P-3-pnn | они |
| его | P-----a | его |
| Оно | P-3nsnn | оно |
| всеми | P---pia | весь |
| Любой | P--msna | любой |
| ее | P-3fsan | она |
| Кто | P--msnn | кто |
| это | P--nsan | это |
| это | P--nsnn | это |
| что | P--nsnn | что |
| Чей | P--msna | чей |
| он | P-3msnn | он |
| Никто | P--msnn | никто |
| мы | P-1-pnn | мы |
| себя | P----an | себя |
| Некто | P--msnn | некто |
| Зачем | P-----r | зачем |
| всё | Ncmsny | **всё** |
| все | P--nsnn | все |
| это | P--nsan | это |
| здесь | 	P-----r | 	здесь|
|когда-нибудь | 		P-----r | 		когда-нибудь|
|кто-либо | 	P--msnn	 | 	кто-либо|
|что-то	 | 	P--nsan	 | 	что-то|

#### 1.3. Как лемматизируются причастия?

* прилагательное (в основном страдательные причастия настоящего времени)
* глагол 

Рассмотрим на следующих примерах:

Он бежал, гонимый предчувствием неотвратимой беды.  
Ведомый запахами, он забрел внутрь.   
Подгоняемый соблазнительными запахами, он забрел внутрь.  
Он был обижен на весь мир.  
Обиженный на неё, он пошел прочь.    
Я увидел недавно написанную книгу.  
Жирный накормленный кот лежал на солнцепеке.  
Смотревший в даль сторож вдруг изменился в лице.  
Увядший цветок неожиданно ожил.  
пришедший на ум стих   
не вынесший груза ответственности  


| Слово | Разбор | Лемма |
|:---|:---|:---|
| гонимый | Afpmsnf | гонимый |
| ведомый | Ncmsny | **ведомый** |
| подгоняемый | Afpmsnf | подгоняемый |
| обижен | Vmps-smpsp | обидеть |
| обиженный | Vmps-smpfpn | обидеть |
| написанную | Vmps-sfpfpa | написать |
| накормленный | Vmps-smpfpn | накормить |
| дрожащий | Afpmsnf | дрожащий |
| смотревший | Afpmsnf | смотревший |
| увядший | Afpmsnf | увядший |
| пришедший | Vmps-sma-pn | прийти |
| вынесший | Vmps-smafpn | **вынесший** |

#### 1.4. К одной или разным леммам будет отнесены словоформы *нашедший* и *находившего*, *дал* и *давал*

**нашедший** своё применение и развитие в радио   
не **находившего** в своей жизни ничего такого   

Советский союз **дал** стране такое количество ресурсов  
билеты те самые, которые ты **давал**  

| Слово | Разбор | Лемма |
|:---|:---|:---|
| нашедший | Vmps-smafpn | найти |
| находившего | Vmpp-smafeg | находившего |
| дал | Vmis-sma-p | дать |
| давал | Vmis-sma-e | давать |


**Ответ: к разным леммам.**

Нашедший -- найти, находившего -- находившего (не лемматизированно)   
Дал -- дать, давал -- давать. 

#### 1.5. Правило пересчета тегов системы на теги из ЗС для анафорических местоимений (он, она и т.п.) и наречий

In [24]:
pos = {"P":"PRO", "R":"ADV"}
case = {"n":"nom", "g":"gen", "a":"acc", "d":"dat", "i":"ins", "l":"loc"}
number = {"s":"sg", "p":"pl"}
gender = {"m":"m", "f":"f", "n":"n"}
person = {"1":"1р", "2":"2р", "3":"3p"}

### 2. Функциональное тестирование:

* омоформы

**печь**

Она любит печь пироги.    
печь	Ncfsan	печь  **(непр. часть речи)**    
В углу дома стояла печь.   
печь	Ncfsan	печь   **(непр. падеж)**    

**пила**

острая пила    
пила	Ncfsnn	пила  
с удовольствием пила  
пила	Vmis-sfa-e	пить   

**стекла**

Стакан из стекла.    
стекла	Ncnsgn	стекло  
Вода стекла.   
стекла	Ncnsgn	стекло  **(непр. часть речи)**    

**стих**

Этот стих прекрасен.   
стих	Ncmsan	стих      **(непр. падеж)**       
Ветер стих.   
стих	Ncmsan	стих  **(непр. часть речи)**    


**Вывод:** справляется не очень хорошо.

2.2.1. Как решаются проблемы токенизации: что происходит с числами, десятичными числами, сокращениями типа г., словами с дефисами, апострофом, знаками препинания? спецзнаками типа $ или &, смешанными элементами(буквы+цифры, вкраплениями другого алфавита) etc.?

В 2000 г. ему исполнилось 22 года. 

        В	Sp-l	в    
        2000	Mc---d	@card@   
        г	Ncmsnnl	год   
        .	SENT	.   
        22	Mc---d	@card@    

В 9 лет он уехал за 1000 км от г. Осло.      

        В	Sp-l	в     
        9	Mc---d	9   
        лет	Ncmpgn	год   

        за	Sp-l	за   
        1000	Mc---d	@card@   
        км	Ncmpgn	километр   
        от	Sp-g	от   
        г	Ncmsgn	год   
        .	SENT	.     
        Осло	Ncmsnn	Осло    

В V веке до н.э.

        В	Sp-l	в    
        V	Mo---d	V    
        веке	Ncmsln	век    
        до	Sp-g	до    
        н	P--fsga	наша    
        .	SENT	.    
        э	I	э    
        .	SENT	.    

200 + 800 = 1000        

        200	Mc---d	@card@    
        +	-	+    
        800	Mc---d	@card@    
        =	-	=    
        1000	Mc---d	@card@        

33.8 минус 7,98 + 7.65443 и т.д. и т.п.    

        33.8	Mc---d	@card@
        минус	Ncmsnn	минус
        7,98	Mc---d	@card@
        +	-	+
        7.65443	Mc---d	@card@
        и	C	и
        т	P-----r	так
        .	SENT	.
        д	R	далее
        .	SENT	.
        и	C	и
        т	P-----r	так
        .	SENT	.
        п	Afpnsnf	подобный
        .	SENT	.

30 км и 300км. за 40 км. и 4,5л   

    30	Mc---d	@card@
    км	Ncmpgn	километр

    300км	Mc	300км
    .	SENT	.

    40	Mc---d	@card@
    км	Ncmpgn	километр
    .	SENT	.

    4,5л	Ncmsnn	4,5л

* Жанна д’Арк  

        д’Арк	Ncmsnn	д’Арк    
О’Коннор   

        О’Коннор	Ncmsnn	О’Коннор    
д’Артаньян 

        д’Артаньян	Afpmsnf	д’Артаньян    


* æфсымæр    

        æфсымæр	Mc	æфсымæр        
* cтoрожам

        cтoрожам	Ncmpdy	cтoрожам    
        cтoрожу	Vmip1s-a-e	cтoрожу    
(в правильной раскладке)  

        сторожам	Ncmpdy	сторож    
        сторожу	Ncfsan	сторожу    

* студент медико-фармацевтического  факультета

        медико-фармацевтического	Afpmsgf	медико-фармацевтического      
 инженер-механик

        инженер-механик	Ncmsny	инженер-механик    

* г-н Блэк  

        г-н	Ncmsny	господин 
        
 ин-т ревматологии    

        ин-т	Afpnsnf	ин-т    

* 2дцать
        2дцать	Afpmsnf	2дцать


* 2-ой сыромятнический переулок д.1

        2-ой	Mofsld	2-й   
        сыромятнический	Afpmsaf	сыромятнический   
        переулок	Ncmsan	переулок   
        д.1	Mc	д.1   


* Как? Это он?! Не может быть... Я видел многих животных: кошек, собак, моржей. Кошка - это животное.   
        ?	SENT	?   

        ?	SENT	?   
        !	SENT	!   

        ...	SENT	...   
           
        :	-	:   
        
        -	-	-   


Это стоит 20 \$.  

        20	Mc---d	@card@   
        $	-	$   

Ты & я лучшие друзья.

        &	SENT	&   

хэштег	
        #хэштег	Ncmsny	#хэштег

In [None]:
!	SENT	!   
"	-	"   
№	-	№   
;	-	;   
%	-	%   
:	-	:   
?	SENT	?   
*	-	*   
(	-	(   
)	-	)   
_	-	_   
+	-	+   
-	-	-   
=	-	=   
{	-	{   
}	-	}   
[	-	[   
]	-	]   
\	-	\   
|	-	|   
/	-	/   
:	-	:   
;	-	;   
$	-	$   
#	-	#   

**Вывод:**
* Числа (как римские, так и арабские) -> Mc---d,   
в том числе для десятичных, не важно отделена десятичная часть точкой или запятой. 
* Сокращения  - для частотных находит полную форму и дает им более-менее правильные характеристики, однако подвержен ошибкам из-за омонимии (например, г. - город и год, а в "н.э." - *э* является междометием). 
* Слова с дефисами - начальная форма с дефисом.
* Апостроф - работает в целом хорошо
* Знаки препинания в разборе идут отдельной строкой, как и спец-знаки . Однако только знаки конца предложения имеют тег (SENT). Хотя иногда бывают сбои ("Ты & я лучшие друзья", где & оказался SENT)
* Смешанные элементы: при замене похожими символами другой раскрадки справляется со своей задачей.

** 2.2.2. Что происходит с незнакомыми словами? Насколько хорошо предсказываются их грамматические характеристики, их леммы? **


Хотя леммы не предсказываются верно (вместо них выводится сама словоформа), часть речи предсказывается достаточно хорошо, в то время как грамматические характеристики - немного хуже, но также достаточно точно.

| Слово | Разбор | Лемма | Ошибка в грамм. характеристике | 
|:---|:---|:---|| 
| нерукопожатного	| Afpmsgf| 	нерукопожатного| - | 
| головотяпов	| Ncmpgn| 	головотяпов| одуш. | 
| китихи	| Ncfsgn	| китихи| одуш. | 
| овосчей| 	Ncmsnn	| овосчей| число | 
| джентльменствует	| Vmip3s-a-e	| джентльменствует| - | 
| акомельного	| Afpmsgf	| акомельного| - | 
| холиварничал| 	Vmis-sma-e	| холиварничал| - | 
| прошмандовками| 	Ncmpin| 	прошмандовками| род и одуш.| 

**2.2.3. Что происходит с омонимичными словоформами?**

У омонимичных слов в разборе только один вариант. 


**2.2.4. Какие проблемные случаи омонимичных разборов разбираются хорошо, в каких часто возникают ошибки?**

### (а) частеречная омонимия: 

* прилагательное vs. существительное,    

Он приготовил вкусное жаркое.   
жаркое	Afpnsaf	жаркий **(непр. часть речи)**   
Жаркое солнце грело голову.   
Жаркое	Afpnsnf	жаркий  **(верно)**

У нас в школе есть столовая.  
столовая	Ncfsnn	столовая  **(верно)**   
У меня есть своя столовая ложка.   
столовая	Afpfsnf	столовый   **(верно)**   

**Вывод: работает не всегда. **

* отглагольное прилагательное vs. причастие

Это мой названый брат.   
названый	Afpmsnf	названый   
Названный выше брат сыграл важную роль в моей жизни.   
Названный	Vmps-smpfpn	назвать

Крашеный пол был насухо протерт.  
Крашеный	Afpmsaf	крашеный   
Крашенный кистью пол сверкал на солнце.  
Крашенный	Vmps-smp-ea	красить   

**Вывод: в словах различающихся одной буквой ошибок нет.**

* наречие vs. частица; 

1) Местоимение: Что ищет он в стране далекой?      
Что	P--nsnn	что  **(непр. падеж)**   
2) Наречие: Что же ты не едешь?      
что	C	что   **(непр. часть речи)**   
3) Союз: Я писал вам, что нас захватили штили в южном тропике.      
что	C	что       
4) Частица: Что на зорьке на заре, о весенней о поре, птички божий поют, в темном лесе гнезда вьют.   
что	C	что   **(непр. часть речи)**   

**Вывод: работает плохо.**

* частица vs. союз

Иранский президент заявил, что его страна будет продолжать развитие ядерной энергетики, даже если это кому-то не нравится.   
даже	Q	даже   **(непр. часть речи)**    
Даже президент меня уже поздравил с праздником, а ты всё не приходишь.     
Даже	Q	даже    

Он пошёл к ним, чтобы во всём разобраться.   
чтобы	C	чтобы      
Чтобы духу твоего здесь не было!    
Чтобы	C	чтобы   **(непр. часть речи)**

**Вывод: работает плохо.**

* наречие vs. краткое прилагательное

Птица красиво летит.   
красиво	R	красиво  
Солнце красиво.   
красиво	R	красиво   **(непр. часть речи)**   
  
Море тихо.      
тихо	R	тихо    **(непр. часть речи)**   
Он сидел тихо.    
тихо	R	тихо     

(В классе тихо.    
тихо	R	тихо)   

**Вывод: работает плохо.**

### (б) падежная омонимия; 

* ед.ч.

это дом  - им.п     
дом	Ncmsnn	дом            
вижу дом  - вин.п      
дом	Ncmsan	дом           

нет щенка - р.п        
щенка	Ncmsay	щенок     **(непр. падеж)**   
вижу щенка - вин.п     
щенка	Ncmsay	щенок        

* мн.ч.

Вазы сверкали на солнце. - им.п     
Вазы	Ncfpnn	ваза     
Кот разбил все вазы.  - вин.п     
вазы	Ncfsgn	ваза     **(непр. число)**

В наших лесах нет обезьян.- р.п    
обезьян	Ncfpgy	обезьяна      
В зоопарке мы видели обезьян. - вин.п       
обезьян	Ncfpgy	обезьяна   **(непр. падеж)**

### (в) омонимия различных местоименных форм

Я вижу его.                    
его	P-----a	его  (**непр. лемма**)   
Его лицо благородно.     
Его	P-----a	его   

Ее нет.                       
Ее	P-----a	ее   (**непр. лемма**)   
Голос ее мелодичен.      
ее	P-3fsan	она   (**непр. лемма**)   

Я вижу нечто.              
нечто	P--nsnn	нечто   **(непр. падеж)**    
Нечто забралось к нам в дом.    
Нечто	P--nsnn	нечто    

### 3. Обработка файла:

Конечный файл: "output.txt"   
(программа: "gold_tag.py", файл-стандарт для проверки: "GoldStandard.txt", разбор TreeTagger: "result_raw.txt")

Accuracy подсчитывается с допущением, что разбор с дополнительной характеристикой рода верен    
(напр., m,nom,pl в TreeTagger     
и nom,pl в GoldenStandard   
считаются равноправными)

**Уровень оставшейся неоднозначности** равняется **1**, так как алгоритм выдаёт только один вариант разбора.  

С пунктуацией (576 токенов):  
**Accuracy - 0.8663194**

Без пунктуации (495 токенов):     
**Accuracy - 0.84646 **   
**Лексическая точность** (без учета регистра и без числительных -> 470 токенов) - **0.897872**  
**Лексическая точность** (с учетом регистра и без числительных) - **0.874468**