## Additional Features

In [None]:
# Use es_core_news_md pipeline for POS tagging
!python -m spacy download es_core_news_md

In [7]:
import spacy
import nltk
from collections import defaultdict

#### Density of Pronouns

In [5]:
# Density of pronouns - the proportion of pronouns in the text

# Example text
text = """"Me llamo Darya y estoy una estudiante en la Universidad de Columbia Britanica.
           Estudio ligüística computacional y ciencia de datos. """

# Extract POS tags
# tokenize
tokens = nltk.word_tokenize(text)

# types
types = nltk.Counter(tokens)

In [6]:
nlp = spacy.load("es_core_news_md")

In [13]:
# Pronoun proportion
# Docstring:
'''Returns the proportion of pronouns in the text, which is the number of pronouns divided 
   by the number of non pronouns in the text. '''
doc = nlp(text)
total_pron = 0


for token in doc:
    pos = token.pos_
    if pos == 'PRON':
        total_pron += 1
    
total_non_pron = len(tokens) - total_pron

prop_pron = total_pron/total_non_pron

print(prop_pron)

Me
0.045454545454545456


#### Percentage of logical operators

In [14]:
# Docstring:
'''Returns the percentage of logical operators from LOG_OPS in the text. '''

LOG_OPS = {'si', 'y', 'o', 'u', 'no'} # if, and, or, not

doc = nlp(text)
total_log_ops = 0

for token in doc:
    if token.lower() in LOG_OPS:
        total_log_ops += 1
    
total_non_log = len(tokens) - total_log_ops

prop_log_ops = total_log_ops/total_non_log

print(prop_log_ops)

0.0


#### Percentage of connectives

In [18]:
# Docstring:
''' Returns the percentage of connectives from CONNECTIVES in the text. Connectives are phrases that add clarifying, temporal or causal information. '''

CONNECTIVES = {'por eso', 'a pesar de', 'además', 'y', 'también', 'incluso', 
              'pero', 'aunque', 'sin embargo', 'no obstante', 'porque', 'ya que',
              'puesto que', 'debido a que', 'a causa de que', 'como', 'así',
              'entonces', 'por lo tanto', 'en consecuencia', 'después', 'antes',
              'al mismo tiempo', 'finalmente', 'al principio', 'por último', 
              'dado que', 'pese a', 'es decir', 'o sea', 'y luego', 'primero',
              'todavía', 'aún', 'cuando', 'aunque', 'por consiguiente', 'consecuentemente',
              'por otra parte', 'es decir', 'por lo visto', 'que yo sepa', 'de todas formas',
              'de todas maneras', 'aparte de', 'tal como', 'a vez de', 'en concreto',
              'en pocas palabras', 'tan pronto como', 'mientras tanto', 'hasta', 'por último',
              'pues', 'en cuanto', 'por fin', 'al mismo tiempo', 'a la misma vez', 'inmediatamente',
              'durante', 'eventualmente', 'frecuentemente', 'al rato', 'en primer lugar', 
              'anoche', 'luego', 'nunca', 'ahora', 'muchas veces', 'al otro día', 'desde entonces',
              'raramente', 'algunas veces', 'pronto'}

conn_count = 0

for conn in CONNECTIVES:
    if conn in text.lower():
        conn_count += 1
        
print(conn_count)

1
