## NLP con TextBlob

In [1]:
# Importamos la librería textblob
from textblob import TextBlob

# Le entregamos la frase de texto a analizar
analysis = TextBlob("This table is black")

## 1. Análisis de sentimiento

* Con TextBlob, obtenemos una métrica de polaridad y subjetividad. La polaridad es el sentimiento mismo, que va de -1 a +1. La subjetividad es una medida del sentimiento siendo objetivo a subjetivo, y va de 0 a 1


In [2]:
print(analysis.sentiment)

Sentiment(polarity=-0.16666666666666666, subjectivity=0.43333333333333335)


Estos valores indican que: 
* Polaridad = - 0.16 $\Rightarrow$ Significa un texto más bien negativo
* SUbjetividad = 0.43 $\Rightarrow$ Tiende a ser más objetivo

## 2. Tag's de cada palabra

Se asigna un TAG a cada palabra, en el fondo es una etiqueta asociada. Aquí la lista completa de TAGS:

In [3]:
tags = analysis.tags
tags

[('This', 'DT'), ('table', 'NN'), ('is', 'VBZ'), ('black', 'JJ')]

Cada palabra se asignó un determinado "tag", veamos que significan cada uno de ellos

In [4]:
# Lista completa del significado de los tags
tags_all = {'CC': 'Conjunción de coordinación',
'CD': 'dígito cardinal',
'DT': 'Determinador',
'EX': 'existencial allí (como: “hay”… piensa en ello como “existe”)',
'FW': 'palabra extranjera',
'IN': 'preposición/junta subordinación',
'JJ':  'Adjetivo ‘grande’',
'JJR': 'Adjetivo comparativo ‘más grande',
'JJS': 'Adjetivo  superlativo ‘más grande’.',
'LS': 'Marcador de lista  1)',
'MD': 'modal podría, podrá',
'NN': 'sustantivo, singular “desk” (escritorio)',
'NNS': 'sustantivo plural ‘escritorios',
'NNP': 'sustantivo propio, singular “Harrison”',
'NNPS': 'sustantivo propio, plural ‘Americanos',
'PDT': 'Predeterminador ‘todos los niños’.',
'POS': 'posesivo final ‘de los padres’',
'PRP': 'pronombre personal ‘él, ella’',
'PRP': 'pronombre posesivo ‘mi, suyo, de ella’',
'RB': 'adverbio muy, silenciosamente,',
'RBR': 'Adverbio  comparativamente mejor',
'RBS': 'adverbio, superlativo mejor',
'RP': 'partículas',
'TO': 'particula de infinitivo',
'UH': 'interjección jajaa',
'VB': 'verbo, ‘beber’',
'VBD': 'verbo, tiempo pasado ‘tomó’',
'VBG': 'verbo, gerundio/presente participio tomando',
'VBN': 'verbo, participio pasado tomado',
'VBP': 'verbo, cantar presente',
'VBZ': 'verbo, tercera persona',
'WDT': 'wh-determiner (which…)',
'WP': 'pronombre de pregunta (quién, qué)',
'WP': 'posesivo con pronombre (cuyo)',
'WRB': 'wh-abverb (donde, cuando)'}

for palabra in tags:
    print(palabra[1] + ' : ' + tags_all[palabra[1]])

DT : Determinador
NN : sustantivo, singular “desk” (escritorio)
VBZ : verbo, tercera persona
JJ : Adjetivo ‘grande’


De esta forma, podemos verificar los tags asociados a la oración

## 3. Traducción a español

In [5]:
print(analysis.translate(to='es'))

Esta mesa es negra


## 4. Revisión de los métodos asociados a textblob

In [6]:
print(dir(analysis))

['__add__', '__class__', '__contains__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_cmpkey', '_compare', '_create_sentence_objects', '_strkey', 'analyzer', 'classifier', 'classify', 'correct', 'detect_language', 'ends_with', 'endswith', 'find', 'format', 'index', 'join', 'json', 'lower', 'ngrams', 'noun_phrases', 'np_counts', 'np_extractor', 'parse', 'parser', 'polarity', 'pos_tagger', 'pos_tags', 'raw', 'raw_sentences', 'replace', 'rfind', 'rindex', 'sentences', 'sentiment', 'sentiment_assessments', 'serialized', 'split', 'starts_with', 'startswith', 'string', 'strip', 'stripped', 'subjectivity', 'tags', 'title', 'to_json', 'tokenize', 'tokenizer', 'tokens', 'tra

Aquí podemos ver todos los métodos que contiene esta librería. Entre ellos ya hemos visto translate, tags y sentiment. Te animo a investigar y jugar con ellos.

# Resumen de texto


Tomaremos un discurso de Piñera, y haremos un resumen de este.

Específicamente el dicurso del 19 de Octubre post-estallido social

El proceso a seguir es:

* Text cleaning & Sentence Tokenization
* Word tokenization
* Word-frequency table
* Summarization

In [7]:
# Cargamos el texto

discurso = '/Users/fsanmartin/Piñera_discursos_analisis/oct_19_est_emer.txt'

f = open(discurso, "r", encoding="utf8") # abrir archivo
text = f.read()
text

'Queridos compatriotas. Frente a los graves y reiterados ataques y atentados contra las estaciones y las instalaciones del Metro de Santiago, contra el orden público y la seguridad ciudadana y contra la propiedad tanto público como privada que hemos conocido en los últimos días de la ciudad de Santiago que han afectado gravemente la libre circulación y la seguridad de los habitantes de la ciudad de Santiago y además han alterado gravemente el orden público, y haciendo uso de las facultades que como Presidente de Chile me otorga la Constitución y la Ley he decretado Estado de Emergencia en las provincias de Santiago y Chacabuco y en las comunas de Puente alto y San Bernardo en la Región Metropolitana.\nPara estos efectos he designado al General de División Javier Iturriaga del Campo como Jefe de la Defensa Nacional de acuerdo a lo establecido en nuestra legislación respecto de Estado de Emergencia.}\nEl objetivo de este Estado de Emergencia es muy simple, pero muy profundo. asegurar el 

In [8]:
# Algunas librerías para trabajar
import spacy
from spacy.lang.es.stop_words import STOP_WORDS
from string import punctuation

In [9]:
stopwords = list(STOP_WORDS)

In [10]:
nlp = spacy.load('es_core_news_md')

In [11]:
doc = nlp(text)

In [12]:
tokens = [token.text for token in doc]
print(tokens)

['Queridos', 'compatriotas', '.', 'Frente', 'a', 'los', 'graves', 'y', 'reiterados', 'ataques', 'y', 'atentados', 'contra', 'las', 'estaciones', 'y', 'las', 'instalaciones', 'del', 'Metro', 'de', 'Santiago', ',', 'contra', 'el', 'orden', 'público', 'y', 'la', 'seguridad', 'ciudadana', 'y', 'contra', 'la', 'propiedad', 'tanto', 'público', 'como', 'privada', 'que', 'hemos', 'conocido', 'en', 'los', 'últimos', 'días', 'de', 'la', 'ciudad', 'de', 'Santiago', 'que', 'han', 'afectado', 'gravemente', 'la', 'libre', 'circulación', 'y', 'la', 'seguridad', 'de', 'los', 'habitantes', 'de', 'la', 'ciudad', 'de', 'Santiago', 'y', 'además', 'han', 'alterado', 'gravemente', 'el', 'orden', 'público', ',', 'y', 'haciendo', 'uso', 'de', 'las', 'facultades', 'que', 'como', 'Presidente', 'de', 'Chile', 'me', 'otorga', 'la', 'Constitución', 'y', 'la', 'Ley', 'he', 'decretado', 'Estado', 'de', 'Emergencia', 'en', 'las', 'provincias', 'de', 'Santiago', 'y', 'Chacabuco', 'y', 'en', 'las', 'comunas', 'de', 'Pu

In [13]:
punctuation = punctuation + '\n'
punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~\n'

In [14]:
word_frequencies = {}
for word in doc:
    if word.text.lower() not in stopwords:
        if word.text.lower() not in punctuation:
            if word.text not in word_frequencies.keys():
                word_frequencies[word.text] = 1
            else:
                word_frequencies[word.text] += 1

In [15]:
print(word_frequencies)

{'Queridos': 1, 'compatriotas': 8, 'Frente': 1, 'a': 26, 'graves': 1, 'y': 32, 'reiterados': 1, 'ataques': 1, 'atentados': 1, 'estaciones': 1, 'instalaciones': 1, 'Metro': 4, 'Santiago': 5, 'orden': 3, 'público': 4, 'seguridad': 3, 'ciudadana': 1, 'propiedad': 1, 'privada': 1, 'conocido': 3, 'ciudad': 5, 'afectado': 1, 'gravemente': 2, 'libre': 1, 'circulación': 1, 'habitantes': 2, 'alterado': 1, 'facultades': 1, 'Presidente': 3, 'Chile': 5, 'otorga': 1, 'Constitución': 1, 'Ley': 2, 'decretado': 1, 'Emergencia': 3, 'provincias': 1, 'Chacabuco': 1, 'comunas': 1, 'Puente': 1, 'alto': 1, 'San': 1, 'Bernardo': 1, 'Región': 1, 'Metropolitana': 1, 'efectos': 1, 'designado': 1, 'División': 1, 'Javier': 1, 'Iturriaga': 1, 'Campo': 1, 'Jefe': 1, 'Defensa': 1, 'Nacional': 1, 'establecido': 1, 'legislación': 1, 'objetivo': 2, 'simple': 1, 'profundo': 1, 'asegurar': 2, 'tranquilidad': 1, 'proteger': 1, 'bienes': 1, 'públicos': 1, 'privados': 1, 'garantizar': 1, 'derechos': 2, 'visto': 2, 'seriamen

In [16]:
max_frequency = max(word_frequencies.values())

In [17]:
max_frequency

32

In [18]:
for word in word_frequencies.keys():
    word_frequencies[word] = word_frequencies[word]/max_frequency

print(word_frequencies)

{'Queridos': 0.03125, 'compatriotas': 0.25, 'Frente': 0.03125, 'a': 0.8125, 'graves': 0.03125, 'y': 1.0, 'reiterados': 0.03125, 'ataques': 0.03125, 'atentados': 0.03125, 'estaciones': 0.03125, 'instalaciones': 0.03125, 'Metro': 0.125, 'Santiago': 0.15625, 'orden': 0.09375, 'público': 0.125, 'seguridad': 0.09375, 'ciudadana': 0.03125, 'propiedad': 0.03125, 'privada': 0.03125, 'conocido': 0.09375, 'ciudad': 0.15625, 'afectado': 0.03125, 'gravemente': 0.0625, 'libre': 0.03125, 'circulación': 0.03125, 'habitantes': 0.0625, 'alterado': 0.03125, 'facultades': 0.03125, 'Presidente': 0.09375, 'Chile': 0.15625, 'otorga': 0.03125, 'Constitución': 0.03125, 'Ley': 0.0625, 'decretado': 0.03125, 'Emergencia': 0.09375, 'provincias': 0.03125, 'Chacabuco': 0.03125, 'comunas': 0.03125, 'Puente': 0.03125, 'alto': 0.03125, 'San': 0.03125, 'Bernardo': 0.03125, 'Región': 0.03125, 'Metropolitana': 0.03125, 'efectos': 0.03125, 'designado': 0.03125, 'División': 0.03125, 'Javier': 0.03125, 'Iturriaga': 0.03125,

In [19]:
sentence_tokens = [sent for sent in doc.sents]
print(sentence_tokens)

[Queridos compatriotas., Frente a los graves y reiterados ataques y atentados contra las estaciones y las instalaciones del Metro de Santiago, contra el orden público y la seguridad ciudadana y contra la propiedad tanto público como privada que hemos conocido en los últimos días de la ciudad de Santiago que han afectado gravemente la libre circulación y la seguridad de los habitantes de la ciudad de Santiago y además han alterado gravemente el orden público, y haciendo uso de las facultades que como Presidente de Chile me otorga la Constitución y la Ley he decretado Estado de Emergencia en las provincias de Santiago y Chacabuco y en las comunas de Puente alto y San Bernardo en la Región Metropolitana.
, Para estos efectos he designado al General de División Javier Iturriaga del Campo como Jefe de la Defensa Nacional de acuerdo a lo establecido en nuestra legislación respecto de Estado de Emergencia., }
El objetivo de este Estado de Emergencia es muy simple, pero muy profundo., asegurar

In [20]:
sentence_scores = {}
for sent in sentence_tokens:
    for word in sent:
        if word.text.lower() in word_frequencies.keys():
            if sent not in sentence_scores.keys():
                sentence_scores[sent] = word_frequencies[word.text.lower()]
            else:
                sentence_scores[sent] += word_frequencies[word.text.lower()]

In [21]:
sentence_scores

{Queridos compatriotas.: 0.25,
 Frente a los graves y reiterados ataques y atentados contra las estaciones y las instalaciones del Metro de Santiago, contra el orden público y la seguridad ciudadana y contra la propiedad tanto público como privada que hemos conocido en los últimos días de la ciudad de Santiago que han afectado gravemente la libre circulación y la seguridad de los habitantes de la ciudad de Santiago y además han alterado gravemente el orden público, y haciendo uso de las facultades que como Presidente de Chile me otorga la Constitución y la Ley he decretado Estado de Emergencia en las provincias de Santiago y Chacabuco y en las comunas de Puente alto y San Bernardo en la Región Metropolitana.: 14.8125,
 Para estos efectos he designado al General de División Javier Iturriaga del Campo como Jefe de la Defensa Nacional de acuerdo a lo establecido en nuestra legislación respecto de Estado de Emergencia.: 0.9375,
 }
 El objetivo de este Estado de Emergencia es muy simple, pe

In [22]:
from heapq import nlargest

In [45]:
select_length = int(len(sentence_tokens)*0.1)
select_length

1

In [46]:
summary = nlargest(select_length, sentence_scores, key = sentence_scores.get)

In [47]:
summary

[Y también hacer un ferviente llamado a todos los hombres y mujeres de buena voluntad en nuestro país, que somos la inmensa mayoría de los chilenos a unirnos férreamente contra la violencia desatada, contra la delincuencia gravísima que hemos conocido en los últimos días, que tanto daño le causaron a nuestro país y especialmente a nuestros sectores más vulnerables y a nuestra clase media
 Estoy convencido que con la unidad de todos los chilenos en un mundo difícil como los tiempos que estamos viviendo, Chile va a poder seguir avanzando, seguir contribuyendo a resolver los problemas, seguir impulsando una mejor calidad de vida y contribuyendo a que todos nuestros compatriotas puedan tener una vida más plena y más feliz.]

In [48]:
final_summary = [word.text for word in summary]

In [49]:
summary = ' '.join(final_summary)

In [50]:
print(text)

Queridos compatriotas. Frente a los graves y reiterados ataques y atentados contra las estaciones y las instalaciones del Metro de Santiago, contra el orden público y la seguridad ciudadana y contra la propiedad tanto público como privada que hemos conocido en los últimos días de la ciudad de Santiago que han afectado gravemente la libre circulación y la seguridad de los habitantes de la ciudad de Santiago y además han alterado gravemente el orden público, y haciendo uso de las facultades que como Presidente de Chile me otorga la Constitución y la Ley he decretado Estado de Emergencia en las provincias de Santiago y Chacabuco y en las comunas de Puente alto y San Bernardo en la Región Metropolitana.
Para estos efectos he designado al General de División Javier Iturriaga del Campo como Jefe de la Defensa Nacional de acuerdo a lo establecido en nuestra legislación respecto de Estado de Emergencia.}
El objetivo de este Estado de Emergencia es muy simple, pero muy profundo. asegurar el ord

In [51]:
print(summary)

Y también hacer un ferviente llamado a todos los hombres y mujeres de buena voluntad en nuestro país, que somos la inmensa mayoría de los chilenos a unirnos férreamente contra la violencia desatada, contra la delincuencia gravísima que hemos conocido en los últimos días, que tanto daño le causaron a nuestro país y especialmente a nuestros sectores más vulnerables y a nuestra clase media
Estoy convencido que con la unidad de todos los chilenos en un mundo difícil como los tiempos que estamos viviendo, Chile va a poder seguir avanzando, seguir contribuyendo a resolver los problemas, seguir impulsando una mejor calidad de vida y contribuyendo a que todos nuestros compatriotas puedan tener una vida más plena y más feliz.



In [52]:
len(texto)

4360

In [53]:
len(resumen)

727