<a href="https://colab.research.google.com/github/giselalsouto/LC-complexidade/blob/main/complexidade.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Calcula-la complexidade textual

## 0. Organización

1. Textos a analizar
2. Preparar o sistema para traballar con arquivos
3. Instalar e Cargar (*importar*) unha libraría de Procesamento da Linguaxe Natural (PLN)
4. Descargar módulos de idiomas e activar tuberías de procesamento.
5. Empregar a libraría para as análises requiridas e exposición de resultados.

## 1. Textos

Temos dous textos a analizar, un en galego (texto-gl.txt) e outro en castelán (texto-es.txt).

## 2. Preparar o sistema para traballar con arquivos

Para iso, temos que carga-lo módulo adicado a funcións do sistema operativo (os).



In [1]:
import os


Para non repetir unha e outra vez os nomes dos arquivos que imos empregar, imos xerar dúas variables con eles:

In [2]:
file_gl_path = '/content/drive/MyDrive/Colab Notebooks/Lingüística Computacional/Complexidade de textos/texto-gl.txt'
file_es_path =  '/content/drive/MyDrive/Colab Notebooks/Lingüística Computacional/Complexidade de textos/texto-es.txt'

Imos enviar o texto dos arquivos a cadanseu arquivo, para poder traballar máis doadamente (dado que non son textos especialmente extensos).

Ao facelo, comprobaremos que existan con `os.path.exists`.

In [3]:
if (os.path.exists(file_gl_path)):
  with (open(file_gl_path,'r')) as file_gl:
    texto_gl = file_gl.read()

O anterior foi para o texto en galego.

Agora, para o texto en castelán:



In [4]:
if (os.path.exists(file_es_path)):
  with (open(file_es_path,'r')) as file_es:
    texto_es = file_es.read()

## 3. Instalar e Cargar (*importar*) unha libraría de Procesamento da Linguaxe Natural (PLN)

Cargaremos unha libraría que nos evite o traballo de ter que programar as accións para prepara-lo texto, etiqueta-lo, etc.

No noso caso, empregaremos *stanza*.

O primeiro que temos que facer, é descargar *stanza*

Neste sistema (colab) esto faise iniciando cunha marca de exclamación de peche ( `!` ) e logo o comando.

O comando que empregaremos é `pip`, que é un programa para instalar, descargando da rede, os módulos que precisemos.

O comando quedaría así:

In [5]:
!pip install stanza



Agora temos que importar *stanza* para poder empregalo.

In [6]:
import stanza

## 4. Descargar módulos de idiomas e activar tuberías de procesamento.

Unha vez instalado *stanza* imos descargar os idiomas a empregar.
No noso caso, serán o galego (*gl*) e o castelán (*es*).

In [7]:
stanza.download('gl')
stanza.download('es')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: gl (Galician) ...
INFO:stanza:File exists: /root/stanza_resources/gl/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: es (Spanish) ...
INFO:stanza:File exists: /root/stanza_resources/es/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources



Agora debemos abrir o que se chama un pipeline (tubería, en inglés), que é o que nos permite empregar os procesadores para o texto en linguaxe natural.

No noso caso, abriremos dúas pipelines (ou tuberías), cada unha etiquetada co idioma que serve, polo que teremos: `pipe_gl`e `pipe_es`.


In [8]:
pipe_gl = stanza.Pipeline('gl')
pipe_es = stanza.Pipeline('es')

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: gl (Galician):
| Processor | Package      |
----------------------------
| tokenize  | ctg          |
| mwt       | ctg          |
| pos       | ctg_nocharlm |
| lemma     | ctg_nocharlm |
| depparse  | ctg_nocharlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Done loading processors!
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: es (Spanish):
| Processor    | Package           |
------------------------------------
| tokenize     | combined          |
| mwt          | combined          |
| pos          | combined_charlm   |
| lemma        | combined_nocharlm |
| constituency | combined_charlm   |
| depparse     | combined_charlm   |
| sentiment    | tass2020_charlm   |
| ner          | conll02           |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: constituency
INFO:stanza:Loading: depparse
INFO:stanza:Loading: sentiment
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


## 5. Empregar a libraría para as análises requiridas e exposición de resultados.

Unha vez abertas as tuberías que levan os datos os procesadores automáticos da linguaxe, imos ver de comezar a procesar o texto.

De feito, para iso, só temos que empregar as tuberías que xa fixemos.

Mais antes, imos preparar os tipo *Document* para cada idioma:

*doc_gl* e *doc_es*

In [9]:
doc_gl = pipe_gl(texto_gl)
doc_es = pipe_es(texto_es)

### 5.1. Análises requiridas
#### 5.1.1. Preparación

Primeiro, imos definir algunhas das variables que imos precisar para facer o exercicio

In [10]:
#dicionario léxico baleiro (galego)
dic_lexico = {}

#dicionario de dificultade de lectura baleiro (galego)
dic_dific = {}

#dicionario léxico baleiro en castelán
dic_lexico_es = {}

#dicionario de dificultade de lectura baleiro (castelán)
dic_dific_es = {}

## variables galego
#variable para o número de frases do texto en galego
f_gl = -1

#lista pf_gl para o número de palabras por frase en galego
pf_gl = []
#variable p_gl para o número total de palabras en galego
p_gl = 0
#variable para o número de letras por palabra en galego
l_gl = 0
#número de caracteres do texto en galego
c_txt_gl = 0

## variables castelán
#variable para o número de frases do texto en castelán
f_es = -1

#lista pf_es para o número de palabras por frase en castelán
pf_es = []

#lista p para o número de palabras por frase en castelán
p_es = []

#variable para o número de letras por palabra en castelán
l_es = 0

#número de caracteres do texto (en castelán)
c_txt_es = 0

Aquí faremos o procesamento do texto en galego

In [11]:
#PROCESAMENTO DE TEXTO EN GALEGO

for frase_gl in doc_gl.sentences:
  f_gl += 1
  pf_gl.insert(f_gl,0)
  #pf_gl[f_gl]=len(doc_gl.sentences[f_gl].words)
  print("número de palabras da frase ", f_gl, ": ", pf_gl[f_gl])
  for palabra_gl in frase_gl.words:
     if (palabra_gl.upos != 'PUNCT'):
      pf_gl[f_gl] += 1
     print(palabra_gl.text)
     ##visualiza por pantalla a información:
     print("Posición: ", palabra_gl.id," \t Palabra: ", palabra_gl.text, "\t Lema: ", palabra_gl.lemma, "\t Etiqueta: ", palabra_gl.upos,"\t Etiqueta xpos:", palabra_gl.xpos,  "\t Head: ", palabra_gl.head,"\t Feat: ", palabra_gl.feats, "\t Dep: ", palabra_gl.deprel,sep=" ")
     # If the item is already in dictionary, increase its count
     if palabra_gl.upos in dic_lexico:
         dic_lexico[palabra_gl.upos] += 1
     # If the item is not in dictionary, add it with a count of 1
     else:
         dic_lexico[palabra_gl.upos] = 1


     upos_act = palabra_gl.upos
     if upos_act == 'NOUN' or upos_act == 'ADJ' or upos_act == 'PRON':
      if palabra_gl.upos in dic_dific:
        dic_dific[palabra_gl.upos] += 1
      # If the item is not in dictionary, add it with a count of 1
      else:
          dic_dific[palabra_gl.upos] = 1

      c_txt_gl += len(palabra_gl.text)


#Xeración de Resultados
print(pf_gl)
num_tipos = len(dic_lexico)
num_tipos_dific_gl = len(dic_dific)
print("Dicionario léxico en galego, número de tipos: ", num_tipos)
print("Dicionario léxico en galego: ", dic_lexico)
p_gl = sum(pf_gl)
total_f_gl = f_gl + 1
lmf_gl = p_gl / total_f_gl
print("Total de palabras do texto en galego: ", p_gl)
print("Número de caracteres totais do texto en galego: ", len(texto_gl),"\n")
nmc_gl = c_txt_gl / p_gl
ttr_gl = num_tipos / p_gl
proc = "en proceso"
dific_gl = num_tipos_dific_gl / num_tipos




número de palabras da frase  0 :  0
Non
Posición:  1  	 Palabra:  Non 	 Lema:  non 	 Etiqueta:  PART 	 Etiqueta xpos: RN 	 Head:  2 	 Feat:  None 	 Dep:  advmod
habería
Posición:  2  	 Palabra:  habería 	 Lema:  haber 	 Etiqueta:  VERB 	 Etiqueta xpos: VMIC3S0 	 Head:  0 	 Feat:  None 	 Dep:  root
rapaz
Posición:  3  	 Palabra:  rapaz 	 Lema:  rapaz 	 Etiqueta:  NOUN 	 Etiqueta xpos: NCMS000 	 Head:  2 	 Feat:  None 	 Dep:  obj
coma
Posición:  4  	 Palabra:  coma 	 Lema:  coma 	 Etiqueta:  SCONJ 	 Etiqueta xpos: CS 	 Head:  2 	 Feat:  None 	 Dep:  mark
il
Posición:  5  	 Palabra:  il 	 Lema:  il 	 Etiqueta:  PROPN 	 Etiqueta xpos: NP00000 	 Head:  2 	 Feat:  None 	 Dep:  nsubj
se
Posición:  6  	 Palabra:  se 	 Lema:  se 	 Etiqueta:  PRON 	 Etiqueta xpos: PP3CN000 	 Head:  10 	 Feat:  None 	 Dep:  nsubj
non
Posición:  7  	 Palabra:  non 	 Lema:  non 	 Etiqueta:  PART 	 Etiqueta xpos: RN 	 Head:  10 	 Feat:  None 	 Dep:  advmod
fora
Posición:  8  	 Palabra:  fora 	 Lema:  ser 	 Etiqueta:

Velaquí temos os resultados do procesamento do texto en galego

In [12]:
#Resultados a análises pedidas
print("RESULTADOS: \n")
print("Lonxitude media de frases (texto en galego):", lmf_gl )
print("Diversidade lexical (TTR): ", ttr_gl)
print("Lonxitude media das palabras (texto en galego): ", nmc_gl)
print("Índice de dificultade de lectura (texto en galego)", dific_gl)

RESULTADOS: 

Lonxitude media de frases (texto en galego): 10.238095238095237
Diversidade lexical (TTR):  0.06046511627906977
Lonxitude media das palabras (texto en galego):  1.7023255813953488
Índice de dificultade de lectura (texto en galego) 0.23076923076923078



Aquí faremos o procesamento do texto en castelán



In [13]:
#TRATAMENTO DE TEXTO EN CASTELÁN

for frase_es in doc_es.sentences:
  f_es += 1
  print('f_es: ',f_es)
  pf_es.insert(f_es,0)
  #print(doc_es.sentences)
  #pf_es[f_es]=len(doc_es.sentences[f_es].words)
  print("número de palabras da frase ", f_es, ": ", pf_es[f_es])
  for palabra_es in frase_es.words:
    if (palabra_es.upos != 'PUNCT'):
     pf_es[f_es] += 1
    print(palabra_es.text)
    ##visualiza por pantalla a información:
    print("Posición: ", palabra_es.id," \t Palabra: ", palabra_es.text, "\t Lema: ", palabra_es.lemma, "\t Etiqueta: ", palabra_es.upos,"\t Etiqueta xpos:", palabra_es.xpos,  "\t Head: ", palabra_es.head,"\t Feat: ", palabra_es.feats, "\t Dep: ", palabra_es.deprel,sep=" ")
    # If the item is already in dictionary, increase its count
    if palabra_es.upos in dic_lexico_es:
        dic_lexico_es[palabra_es.upos] += 1
    # If the item is not in dictionary, add it with a count of 1
    else:
        dic_lexico_es[palabra_es.upos] = 1

    upos_act_es = palabra_es.upos
    if (upos_act_es == 'ADV' or upos_act_es == 'ADJ' or upos_act_es == 'PRON'):
      if upos_act_es in dic_dific_es:
        dic_dific_es[upos_act_es] += 1
      # If the item is not in dictionary, add it with a count of 1
      else:
          dic_dific_es[palabra_gl.upos] = 1

    c_txt_gl += len(palabra_gl.text)


print(pf_es)
num_tipos_es = len(dic_lexico_es)
num_tipos_dific_es = len(dic_dific_es)
print("Dicionario léxico en castelán, número de tipos: ", num_tipos)
print("Dicionario léxico en castelán: ", dic_lexico_es)
p_es = sum(pf_es)
total_f_es = f_es + 1
lmf_es = p_es / total_f_es
c_txt_es = len(texto_es)
print("Total de palabras do texto en castelán: ", p_es)
print("Número de caracteres totais do texto en castelán: ", len(texto_es))
nmc_es = c_txt_es / p_es
ttr_es = num_tipos / p_es
dific_es = num_tipos_dific_es / num_tipos_es

# Comparar resultados


f_es:  0
número de palabras da frase  0 :  0
El
Posición:  1  	 Palabra:  El 	 Lema:  el 	 Etiqueta:  DET 	 Etiqueta xpos: da0ms0 	 Head:  2 	 Feat:  Definite=Def|Gender=Masc|Number=Sing|PronType=Art 	 Dep:  det
cambio
Posición:  2  	 Palabra:  cambio 	 Lema:  cambio 	 Etiqueta:  NOUN 	 Etiqueta xpos: ncms000 	 Head:  5 	 Feat:  Gender=Masc|Number=Sing 	 Dep:  nsubj
de
Posición:  3  	 Palabra:  de 	 Lema:  de 	 Etiqueta:  ADP 	 Etiqueta xpos: sps00 	 Head:  4 	 Feat:  None 	 Dep:  case
condiciones
Posición:  4  	 Palabra:  condiciones 	 Lema:  condición 	 Etiqueta:  NOUN 	 Etiqueta xpos: ncfp000 	 Head:  2 	 Feat:  Gender=Fem|Number=Plur 	 Dep:  nmod
produce
Posición:  5  	 Palabra:  produce 	 Lema:  producir 	 Etiqueta:  VERB 	 Etiqueta xpos: vmip3s0 	 Head:  0 	 Feat:  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 	 Dep:  root
un
Posición:  6  	 Palabra:  un 	 Lema:  uno 	 Etiqueta:  DET 	 Etiqueta xpos: di0ms0 	 Head:  7 	 Feat:  Definite=Ind|Gender=Masc|Number=Sing|PronType

Velaquí temos os resultados da análise do texto en castelán

In [14]:
# Resultados a análises solicitadas

print("\n RESULTADOS:")
print(" Lonxitude media das frases (texto en castelán): ", lmf_es)
print(" Diversidade lexical (TTR): ", ttr_es )
print(" Lonxitude media das palabras (texto en castelán): ", nmc_es)
print(" Índice de dificultade de lectura (texto en castelán)", dific_es)


 RESULTADOS:
 Lonxitude media das frases (texto en castelán):  46.75
 Diversidade lexical (TTR):  0.06951871657754011
 Lonxitude media das palabras (texto en castelán):  5.518716577540107
 Índice de dificultade de lectura (texto en castelán) 0.09090909090909091


Finalmente imos comparar os resultados:

In [16]:
#Cálculos
lmf_comp = lmf_gl/lmf_es
ttr_comp = ttr_gl/ttr_es
nmc_comp = nmc_gl/nmc_es
dific_comp = dific_gl/dific_es
#Visualización de resultados
print("\n COMPARATIVA DE RESULTADOS:")
print("\n Valor superior a 1, maior en galego. Valor inferior a 1, maior en castelán")
print(" Relación entre lonxitudes medias de frase: ", lmf_comp)
print(" Relación entre diversidades lexicais (TTR): ", ttr_comp)
print(" Relación entre lonxitudes medias de palabra: ", nmc_comp)
print(" Relación entre dificultades de lectura: ", dific_comp)

if lmf_comp > 1:
  print(" Lonxitude media de frase maior en galego")
elif lmf_comp == 1:
  print(" Lonxitudes medias de frase iguais en ambos idiomas")
else:
  print (" Lonxitude media de frase maior en castelán")

if ttr_comp > 1:
  print(" Diversidade léxica (TTR) maior en galego")
elif ttr_comp == 1:
  print(" Diversidades léxicas iguais en ambos idiomas")
else:
  print (" Diversidade léxica de frase maior en castelán")

if nmc_comp > 1:
  print(" Lonxitude media de palabra maior en galego")
elif nmc_comp == 1:
  print(" Lonxitudes medias de palabra iguais en ambos idiomas")
else:
  print (" Lonxitude media de palabra maior en castelán")

if dific_comp > 1:
  print(" Dificultade de lectura maior en galego")
elif dific_comp == 1:
  print(" Dificultades de lectura iguais en ambos idiomas")
else:
  print (" Dificultade de lectura maior en castelán")



 COMPARATIVA DE RESULTADOS:

 Valor superior a 1, maior en galego. Valor inferior a 1, maior en castelán
 Relación entre lonxitudes medias de frase:  0.21899668958492485
 Relación entre diversidades lexicais (TTR):  0.8697674418604651
 Relación entre lonxitudes medias de palabra:  0.3084640346133045
 Relación entre dificultades de lectura:  2.5384615384615383
 Lonxitude media de frase maior en castelán
 Diversidade léxica de frase maior en castelán
 Lonxitude media de palabra maior en castelán
 Dificultade de lectura maior en galego
