-
Notifications
You must be signed in to change notification settings - Fork 0
/
outputProgramma1.txt
115 lines (102 loc) · 6.39 KB
/
outputProgramma1.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
Programma 1 - Confrontate i due testi sulla base delle seguenti informazioni statistiche
1) il numero di frasi e di token
-------------------------------------------------------------------------------
| LUNGHEZZA DEI CORPUS |
-------------------------------------------------------------------------------
| | JOE BIDEN | DONALD TRUMP |
-------------------------------------------------------------------------------
| FRASI | 773| 905 |
| TOKENS | 11259| 11319 |
-------------------------------------------------------------------------------
2) la lunghezza media delle frasi in termini di token e delle parole in termini di caratteri
-------------------------------------------------------------------------------
| LUNGHEZZA FRASI/TOKENS |
-------------------------------------------------------------------------------
| | JOE BIDEN | DONALD TRUMP |
-------------------------------------------------------------------------------
| TOKENS PER FRASE | 14.565329883570504| 12.50718232044199 |
| CARATTERI PER TOKEN | 3.7100985877964296| 3.4933297994522485 |
-------------------------------------------------------------------------------
3) la grandezza del vocabolario e la ricchezza lessicale calcolata attraverso la Type Token Ratio (TTR), in entrambi i casi calcolati nei primi 5000 token
-------------------------------------------------------------------------------
| LUNGHEZZA VOCABOLARIO - RICCHEZZA LESSICALE |
-------------------------------------------------------------------------------
| | JOE BIDEN | DONALD TRUMP |
-------------------------------------------------------------------------------
| PAROLE TIPO | 1095| 858 |
| RICCHEZZA LESSICALE | 0.219| 0.1716 |
-------------------------------------------------------------------------------
4) la distribuzione delle classi di frequenza |V1|, |V5| e |V10| all'aumentare del corpus per porzioni incrementali di 500 token (500 token, 1000 token, 1500 token, etc.)
--------------------------------------------
| CORPUS DI JOE BIDEN |
--------------------------------------------
| TOKENS V1 V5 V10 |
--------------------------------------------
| 500 131 1 0 |
| 1000 216 10 2 |
| 1500 314 13 3 |
| 2000 354 23 10 |
| 2500 408 24 6 |
| 3000 478 24 3 |
| 3500 506 27 4 |
| 4000 559 34 9 |
| 4500 594 37 15 |
| 5000 607 34 9 |
| 5500 639 33 6 |
| 6000 672 33 9 |
| 6500 685 35 12 |
| 7000 713 38 10 |
| 7500 709 42 6 |
| 8000 691 39 9 |
| 8500 723 42 15 |
| 9000 731 39 14 |
| 9500 718 46 14 |
| 10000 743 46 15 |
| 10500 745 55 17 |
| 11000 746 58 18 |
--------------------------------------------
--------------------------------------------
| CORPUS DI DONALD TRUMP |
--------------------------------------------
| TOKENS V1 V5 V10 |
--------------------------------------------
| 500 101 9 0 |
| 1000 136 13 1 |
| 1500 172 13 4 |
| 2000 219 15 4 |
| 2500 248 16 5 |
| 3000 273 19 7 |
| 3500 311 20 5 |
| 4000 325 25 12 |
| 4500 361 31 5 |
| 5000 392 35 12 |
| 5500 416 39 15 |
| 6000 437 41 17 |
| 6500 464 46 18 |
| 7000 493 50 16 |
| 7500 514 41 14 |
| 8000 556 40 10 |
| 8500 572 40 16 |
| 9000 589 43 15 |
| 9500 628 42 14 |
| 10000 651 44 16 |
| 10500 676 40 22 |
| 11000 685 41 22 |
--------------------------------------------
5) media di Sostantivi e Verbi per frase
-------------------------------------------------------------------------------
| MEDIA SOSTANTIVI E VERBI |
-------------------------------------------------------------------------------
| | JOE BIDEN | DONALD TRUMP |
-------------------------------------------------------------------------------
| SOSTANTIVI PER FRASE | 2.944372574385511| 1.949171270718232 |
| VERBI PER FRASE | 2.685640362225097| 2.3303867403314915 |
-------------------------------------------------------------------------------
6) la densità lessicale, calcolata come il rapporto tra il numero totale di occorrenze nel testo di Sostantivi, Verbi, Avverbi, Aggettivi e il numero totale di parole nel testo (ad esclusione dei segni di punteggiatura marcati con PoS "," "."): (|Sostantivi|+|Verbi|+|Avverbi|+|Aggettivi|)/(TOT-( |.|+|,| ) ).
-------------------------------------------------------------------------------
| DENSITÀ LESSICALE |
-------------------------------------------------------------------------------
| | JOE BIDEN | DONALD TRUMP |
-------------------------------------------------------------------------------
| DENSITÀ LESSICALE | 0.5594448413103378| 0.5377543642185725 |
-------------------------------------------------------------------------------