<a href="https://colab.research.google.com/github/giselalsouto/LC-complexidade-stanza/blob/main/complexidade_stanza.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Calcula-la complexidade textual

## 0. Enunciado

Para esta actividade, é preciso quantificar diferentes propriedades do texto que caracterizam a sua complexidade e  legibilidade. Por exemplo:

    Longitude média das frases
    Diversidade lexical ou  TTR
    Longitude média das palavra

Tenta experimentar tamém com informação gramatical:

    Contagem de PoS tags: advérbios, adjectivos e pronomes indicam maior
    dificuldade na leitura.
    Informação morfológica e sintáctica: uso de subjunctivo, relativas e completivas indica maior dificuldade na leitura.

Qualquer outra propriedade relacionada com a complexidade textual que queirades adicionar a esta actividade é bem-vinda.

Usa os teus scripts para calcular a complexidade de, polo menos, dous textos diferentes.

## 1. Textos

Temos dous textos a analizar, un en galego (texto-gl.txt) e outro en castelán (texto-es.txt).

## 2. Preparar o sistema para traballar con arquivos

Para iso, temos que carga-lo módulo adicado a funcións do sistema operativo (os).




In [None]:
import os


Para non repetir unha e outra vez os nomes dos arquivos que imos empregar, imos xerar dúas variables con eles:

In [None]:
file_gl_path = '/content/drive/MyDrive/Colab Notebooks/Lingüística Computacional/Complexidade de textos/texto-gl.txt'
file_es_path =  '/content/drive/MyDrive/Colab Notebooks/Lingüística Computacional/Complexidade de textos/texto-es.txt'

Imos enviar o texto dos arquivos a cadanseu arquivo, para poder traballar máis doadamente (dado que non son textos especialmente extensos).

Ao facelo, comprobaremos que existan con `os.path.exists`.

In [None]:
if (os.path.exists(file_gl_path)):
  with (open(file_gl_path,'r')) as file_gl:
    texto_gl = file_gl.read()

O anterior foi para o texto en galego.

Agora, para o texto en castelán:



In [None]:
if (os.path.exists(file_es_path)):
  with (open(file_es_path,'r')) as file_es:
    texto_es = file_es.read()

## 3. Cargar (*importar*) unha libraría de Procesamento da Linguaxe Natural (PLN)

Cargaremos unha libraría que nos evite o traballo de ter que programar as accións para prepara-lo texto, etiqueta-lo, etc.

No noso caso, empregaremos *stanza*.

O primeiro que temos que facer, é descargar *stanza*

Neste sistema (colab) esto faise iniciando cunha marca de exclamación de peche ( `!` ) e logo o comando.

O comando que empregaremos é `pip`, que é un programa para instalar, descargando da rede, os módulos que precisemos.

O comando quedaría así:

In [None]:
!pip install stanza



Agora temos que importar *stanza* para poder empregalo.

In [None]:
import stanza

## 4. Baixar dependencias (idiomas) e activar tuberías de procesamento.

Unha vez instalado *stanza* imos descargar os idiomas a empregar.
No noso caso, serán o galego (*gl*) e o castelán (*es*).

In [None]:
stanza.download('gl')
stanza.download('es')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: gl (Galician) ...
INFO:stanza:File exists: /root/stanza_resources/gl/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: es (Spanish) ...
INFO:stanza:File exists: /root/stanza_resources/es/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources



Agora debemos abrir o que se chama un pipeline (tubería, en inglés), que é o que nos permite empregar os procesadores para o texto en linguaxe natural.

No noso caso, abriremos dúas pipelines (ou tuberías), cada unha etiquetada co idioma que serve, polo que teremos: `pipe_gl`e `pipe_es.


In [None]:
pipe_gl = stanza.Pipeline('gl')
pipe_es = stanza.Pipeline('es')

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: gl (Galician):
| Processor | Package      |
----------------------------
| tokenize  | ctg          |
| mwt       | ctg          |
| pos       | ctg_nocharlm |
| lemma     | ctg_nocharlm |
| depparse  | ctg_nocharlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Done loading processors!
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: es (Spanish):
| Processor    | Package           |
------------------------------------
| tokenize     | combined          |
| mwt          | combined          |
| pos          | combined_charlm   |
| lemma        | combined_nocharlm |
| constituency | combined_charlm   |
| depparse     | combined_charlm   |
| sentiment    | tass2020_charlm   |
| ner          | conll02           |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: constituency
INFO:stanza:Loading: depparse
INFO:stanza:Loading: sentiment
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


## 5. Empregar a libraría para a análise requirida.

Unha vez abertas as tuberías que levan os datos os procesadores automáticos da linguaxe, imos ver de comezar a procesar o texto.

De feito, para iso, só temos que empregar as tuberías que xa fixemos.

Mais antes, imos preparar os tipo *Document* para cada idioma:

*doc_gl* e *doc_es*

In [None]:
doc_gl = pipe_gl(texto_gl)
doc_es = pipe_es(texto_es)

### 5.1. Análises requiridas

A primeira análise que se nos pide é a lonxitude media das frases.

Para iso, obteremos o número total de palabras, e dividirémolo entre o número de frases.

In [None]:
 print(doc_gl.sentences[0].words)
 print(len(doc_gl.sentences[0].words))

[{
  "id": 1,
  "text": "Non",
  "lemma": "non",
  "upos": "PART",
  "xpos": "RN",
  "head": 2,
  "deprel": "advmod",
  "start_char": 0,
  "end_char": 3
}, {
  "id": 2,
  "text": "habería",
  "lemma": "haber",
  "upos": "VERB",
  "xpos": "VMIC3S0",
  "head": 0,
  "deprel": "root",
  "start_char": 4,
  "end_char": 11
}, {
  "id": 3,
  "text": "rapaz",
  "lemma": "rapaz",
  "upos": "NOUN",
  "xpos": "NCMS000",
  "head": 2,
  "deprel": "obj",
  "start_char": 12,
  "end_char": 17
}, {
  "id": 4,
  "text": "coma",
  "lemma": "coma",
  "upos": "SCONJ",
  "xpos": "CS",
  "head": 2,
  "deprel": "mark",
  "start_char": 18,
  "end_char": 22
}, {
  "id": 5,
  "text": "il",
  "lemma": "il",
  "upos": "PROPN",
  "xpos": "NP00000",
  "head": 2,
  "deprel": "nsubj",
  "start_char": 23,
  "end_char": 25
}, {
  "id": 6,
  "text": "se",
  "lemma": "se",
  "upos": "PRON",
  "xpos": "PP3CN000",
  "head": 10,
  "deprel": "nsubj",
  "start_char": 26,
  "end_char": 28
}, {
  "id": 7,
  "text": "non",
  "lemm

In [None]:
#dicionario léxico baleiro
dic_lexico = {}

#dicionario léxico baleiro en castelán
dic_lexico_es = {}


## variables galego
#variable para o número de frases do texto en galego
f_gl = -1

#lista pf_gl para o número de palabras por frase en galego
pf_gl = []
#variable p_gl para o número total de palabras en galego
p_gl = 0
#variable para o número de letras por palabra en galego
l_gl = 0
#dicionario

## variables castelán
#variable para o número de frases do texto en castelán
f_es = -1

#lista pf_es para o número de palabras por frase en castelán
pf_es = []

#lista p para o número de palabras por frase en castelán
p_es = []

#variable para o número de letras por palabra en castelán
l_es = 0




#

número de palabras da frase  0 :  11
Non
Posición:  1  	 Palabra:  Non 	 Lema:  non 	 Etiqueta:  PART 	 Etiqueta xpos: RN 	 Head:  2 	 Feat:  None 	 Dep:  advmod
habería
Posición:  2  	 Palabra:  habería 	 Lema:  haber 	 Etiqueta:  VERB 	 Etiqueta xpos: VMIC3S0 	 Head:  0 	 Feat:  None 	 Dep:  root
rapaz
Posición:  3  	 Palabra:  rapaz 	 Lema:  rapaz 	 Etiqueta:  NOUN 	 Etiqueta xpos: NCMS000 	 Head:  2 	 Feat:  None 	 Dep:  obj
coma
Posición:  4  	 Palabra:  coma 	 Lema:  coma 	 Etiqueta:  SCONJ 	 Etiqueta xpos: CS 	 Head:  2 	 Feat:  None 	 Dep:  mark
il
Posición:  5  	 Palabra:  il 	 Lema:  il 	 Etiqueta:  PROPN 	 Etiqueta xpos: NP00000 	 Head:  2 	 Feat:  None 	 Dep:  nsubj
se
Posición:  6  	 Palabra:  se 	 Lema:  se 	 Etiqueta:  PRON 	 Etiqueta xpos: PP3CN000 	 Head:  10 	 Feat:  None 	 Dep:  nsubj
non
Posición:  7  	 Palabra:  non 	 Lema:  non 	 Etiqueta:  PART 	 Etiqueta xpos: RN 	 Head:  10 	 Feat:  None 	 Dep:  advmod
fora
Posición:  8  	 Palabra:  fora 	 Lema:  ser 	 Etiqueta

Aquí faremos o procesamento do texto en galego

In [None]:
#PROCESAMENTO DE TEXTO EN GALEGO

for frase_gl in doc_gl.sentences:
  f_gl += 1
  pf_gl.insert(f_gl,0)
  pf_gl[f_gl]=len(doc_gl.sentences[f_gl].words)
  print("número de palabras da frase ", f_gl, ": ", pf_gl[f_gl])
  for palabra_gl in frase_gl.words:
     print(palabra_gl.text)
     ##visualiza por pantalla a información:
     print("Posición: ", palabra_gl.id," \t Palabra: ", palabra_gl.text, "\t Lema: ", palabra_gl.lemma, "\t Etiqueta: ", palabra_gl.upos,"\t Etiqueta xpos:", palabra_gl.xpos,  "\t Head: ", palabra_gl.head,"\t Feat: ", palabra_gl.feats, "\t Dep: ", palabra_gl.deprel,sep=" ")
     # If the item is already in dictionary, increase its count
     if palabra_gl.upos in dic_lexico:
         dic_lexico[palabra_gl.upos] += 1
     # If the item is not in dictionary, add it with a count of 1
     else:
         dic_lexico[palabra_gl.upos] = 1


print(pf_gl)
print("Dicionario léxico en galego, número de tipos: ", len(dic_lexico))
print("Dicionario léxico en galego: ", dic_lexico)
p_gl = sum(pf_gl)
total_f_gl = f_gl + 1
lmf_gl = p_gl / total_f_gl
c_txt_gl = len(texto_gl)
print("Total de palabras do texto en galego: ", p_gl)
print("Lonxitude media de frases (texto en galego):", c_txt_gl )
print("Número de caracteres totais do texto en galego: ", len(texto_gl))
nmc_gl = c_txt_gl / p_gl
print("Lonxitude media das palabras (texto en galego): ", nmc_gl)



Aquí faremos o procesamento do texto en castelán



In [None]:
TRATAMENTO DE TEXTO EN CASTELÁN

for frase_es in doc_es.sentences:
  f_es += 1
  print('f_es: ',f_es)
  pf_es.insert(f_es,0)
  print(doc_es.sentences)
  pf_es[f_es]=len(doc_es.sentences[f_es].words)
  print("número de palabras da frase ", f_es, ": ", pf_es[f_es])
  for palabra_es in frase_es.words:
     print(palabra_es.text)
     ##visualiza por pantalla a información:
     print("Posición: ", palabra_es.id," \t Palabra: ", palabra_es.text, "\t Lema: ", palabra_es.lemma, "\t Etiqueta: ", palabra_es.upos,"\t Etiqueta xpos:", palabra_es.xpos,  "\t Head: ", palabra_es.head,"\t Feat: ", palabra_es.feats, "\t Dep: ", palabra_es.deprel,sep=" ")
     # If the item is already in dictionary, increase its count
     if palabra_es.upos in dic_lexico_es:
         dic_lexico_es[palabra_es.upos] += 1
     # If the item is not in dictionary, add it with a count of 1
     else:
         dic_lexico_es[palabra_es.upos] = 1


print(pf_es)
print("Dicionario léxico en castelán, número de tipos: ", len(dic_lexico_es))
print("Dicionario léxico en castelán: ", dic_lexico_es)
p_es = sum(pf_es)
total_f_es = f_es + 1
lmf_es = p_es / total_f_es
c_txt_es = len(texto_es)
print("Total de palabras do texto en castelán: ", p_es)
print("Lonxitude media de frases (texto en castelán):", c_txt_es )
print("Número de caracteres totais do texto en castelán: ", len(texto_es))
nmc_es = c_txt_es / p_es
print("Lonxitude media das palabras (texto en castelán): ", nmc_es)