In [3]:
import requests
import time

In [4]:
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
from deep_translator import GoogleTranslator
from pysentimiento import SentimentAnalyzer

Cargamos el texto de la nota de prensa del IPoM septiembre 2020 (transformado de pdf a txt [aquí](https://pdftotext.com/) y con un ajuste manual del espaciado de las frases) y seleccionamos las frases más largas para realizar el análisis de sentimiento.

In [5]:
text_file = open("np02092020.txt", "r", encoding="utf8")
lines = text_file.read().split('\n')

In [6]:
lines.sort(key=len, reverse=True)
nonEnglish_sentences = lines[0:28]

## Traducción Español - Inglés

Se sugiere que el texto sea traducido por un profesional, pero para este ejemplo usaremos la librería [deep-translator](https://github.com/nidhaloff/deep-translator) que disponibiliza la mayoría de los servicios de traducción gratuitos. Para este ejemplo usaremos el de Google Translate.

Ejemplo de uso:

```python
translated = GoogleTranslator(source='es', target='en').translate(text=text)
```

In [7]:
english_sentences = []

for sentence in nonEnglish_sentences:
    try:
        translation = GoogleTranslator(source='es', target='en').translate(sentence)
        english_sentences.append(translation)
        time.sleep(5)
    except:
        pass

In [9]:
len(english_sentences)

28

## Análisis de Sentimiento

Se sugiere usar librerías que puedan trabajar bien con texto traducido desde otro idioma. En particular hemos usado [vaderSentiment](https://github.com/cjhutto/vaderSentiment) con buenos resultados en el pasado. 

Para cada una de las frases se calculará un score compuesto (`compound`) que está normalizado entre -1 (negativo extremo) y +1 (positivo extremo). Es una métrica muy útil si se quiere tener una medida unidimensional del sentimiento de una sentencia dada.

Además puede servir para definir umbrales éstandarizados para clasificar frases como positivas, neutrales o negativas. Umbrales típicos son:

<ul>
<li>positivo: compound score >= 0.05</li>
<li>neutral: (compound score > -0.05) y (compound score < 0.05)</li>
<li>negativo: compound score <= -0.05</li>
</ul>
    
Los scores `pos`, `neu` y `neg` son las proporciones del texto que caen en cada categoría. Son las métricas más útiles si se quiere hacer un análisis multidimensional del sentimiento de una frase dada.

In [11]:
results = []
results2 = []
analyzer = SentimentIntensityAnalyzer()
analyzer2 = SentimentAnalyzer()
for index, sentence in enumerate(english_sentences):
    try:
        vs = analyzer.polarity_scores(sentence)
        results.append([sentence, vs['compound'], vs['neg'], vs['neu'], vs['pos']])
        
        vs2 = analyzer2.predict_probas(nonEnglish_sentences[index])
        s2 = analyzer2.predict(nonEnglish_sentences[index])
        results2.append([nonEnglish_sentences[index], s2, vs2['NEG'], vs2['NEU'], vs2['POS']])
        
        nl = '\n'
        print(f'{nonEnglish_sentences[index]}{nl}{str(vs)}{nl}{s2} {str(vs2)}{nl}')
    except:
        pass
    

Añade que revertir la pérdida de empleos, la caída de ingresos de los hogares, el deterioro del consumo y mantener un flujo de crédito acorde con las necesidades de capital de trabajo e inversión de las empresas, constituyen los mayores desafíos para la recuperación económica y para el aporte de la política pública en este proceso.
{'neg': 0.039, 'neu': 0.822, 'pos': 0.139, 'compound': 0.7003}
NEU {'NEG': 0.43779614567756653, 'NEU': 0.5299418568611145, 'POS': 0.03226196765899658}

Estas tasas de crecimiento son coherentes con un escenario sanitario que permitirá el avance paulatino del desconfinamiento, donde los sectores económicos continuarán adaptando sus operaciones para desarrollar sus actividades y donde el crédito seguirá fluyendo para apoyar el proceso de recuperación.
{'neg': 0.0, 'neu': 0.799, 'pos': 0.201, 'compound': 0.8316}
NEU {'NEG': 0.09120519459247589, 'NEU': 0.7886466979980469, 'POS': 0.12014810740947723}

El Banco Central de Chile publicó hoy el Informe de Política M

La medida subyacente se mantendrá sobre 2,5% en el corto plazo, para converger gradualmente a 3%, también en el 2022. Las expectativas de inflación a dos años siguen en torno a 3%.
{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}
NEU {'NEG': 0.2570507824420929, 'NEU': 0.6416360139846802, 'POS': 0.10131324827671051}

El Consejo se compromete a mantener un elevado impulso monetario por un largo tiempo e incrementarlo si ello es necesario para el logro de los objetivos de control inflacionario. 
{'neg': 0.0, 'neu': 0.925, 'pos': 0.075, 'compound': 0.2732}
NEU {'NEG': 0.26690295338630676, 'NEU': 0.5711770057678223, 'POS': 0.16192007064819336}

Estas últimas serán renovadas o ampliadas si la recuperación de la economía y la convergencia de la inflación a la meta así lo requieren.
{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}
NEU {'NEG': 0.04097830504179001, 'NEU': 0.8698862791061401, 'POS': 0.08913544565439224}

El escenario de proyección del Informe supone que, hacia el 2021 y

In [23]:
most_positive = max(results, key=lambda item: item[1])
most_negative = min(results, key=lambda item: item[1])

La frase más positiva de toda la nota de prensa:

In [24]:
most_positive[0]

'Estas tasas de crecimiento son coherentes con un escenario sanitario que permitirá el avance paulatino del desconfinamiento, donde los sectores económicos continuarán adaptando sus operaciones para desarrollar sus actividades y donde el crédito seguirá fluyendo para apoyar el proceso de recuperación.'

In [27]:
most_positive[1]

0.8316

La frase más negativa de toda la nota de prensa:

In [25]:
most_negative[0]

'Por el lado de la demanda agregada, el consumo y la inversión se han deprimido ante la pérdida de ingresos, las limitaciones a la movilidad y el contacto entre personas y la alta incertidumbre.'

In [28]:
most_negative[1]

-0.8176