# Analisis de Sentimientos con las librerias TextBlob y TextaCy

In [19]:
# Cargamos las librerias necesarias
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import re
import string

In [21]:
# Funciones auxiliares
def limpiar_texto(text):
    '''
        Esta funcion recibe una estrada en str y remueve del mismo
        todos los caracteres que no son palabras
    '''
    text = text.lower()
    text = re.sub('\[.*?¿\]\%', ' ', text)
    text = re.sub('[%s]' % re.escape(string.punctuation), ' ', text)
    text = re.sub('\w*\d\w*', '', text)
    text = re.sub('[‘’“”…«»]', '', text)
    text = re.sub('\n', ' ', text)
    return text

In [2]:
# Vamos a usar dos dataset que difieren en su formato
# Asi que los vamos a normalizar un poco

# Definimos el nombre de las columnas que tendra el dataset
col_nombre = ['Año','Mes', 'Dia','Titular']

In [13]:
# Cargamos los titulares de lanacion
# le ponemos nombre a las columnas y no lo dejamos elegir el titulo automatico
data_ln = pd.read_csv("tit_lanacion.csv", usecols=(0,1,2,4),names=col_nombre, header=None)
# Nos aseguramos que la columna Titular sea del tipo string
data_ln['Titular'] = data_ln['Titular'].astype(str)
data_ln.head()

Unnamed: 0,Año,Mes,Dia,Titular
0,2006,9,10,bajo el signo del terror
1,2006,9,13,apple renovó toda la familia ipod
2,2006,9,14,por las canchas
3,2006,9,15,argentinos en francia
4,2006,9,15,¿un loco suelto en hollywood?


In [14]:
# Cargamos los titulares de perfil
# le ponemos nombre a las columnas y no lo dejamos elegir el titulo automatico
data_pe = pd.read_csv("tit_perfil.csv", usecols=(0,1,2,3),names=col_nombre, header=None)
# Nos aseguramos que la columna Titular sea del tipo string
data_pe['Titular'] = data_pe['Titular'].astype(str)
data_pe.head()

Unnamed: 0,Año,Mes,Dia,Titular
0,2006,9,10,córdoba: alianza delasotista se impone en marc...
1,2006,9,10,el reclutamiento docente cae en picada
2,2006,9,10,"relatos de una obsesión: ""ya no podía entrar a..."
3,2006,9,10,el fuego en la mente de los hombres
4,2006,9,10,será injusticia


## Probamos con TextBlob

In [18]:
# Cargamos las librerias necesarias
import textblob
from textblob import TextBlob

### Extraemos el texto desde los dataset

In [28]:
# Cada columna de un pd es una "serie" que se puede extraer a una lista 
# y que se concatena en un string 
# En txt_ln queda el texto de todos los titulares
txt_ln_list = data_ln["Titular"].tolist()
txt_ln = ' '.join(txt_ln_list)

# Este texto tiene muchos caracteres que no son palabras
# Asi que los vamos a extraer con las funciones ya creadas
txt_ln_limpio = limpiar_texto(txt_ln)

#print(txt_ln)

In [31]:
txt_ln_serie = data_ln.query("Año == 2010")

In [34]:
# Cada columna de un pd es una "serie" que se puede extraer a una lista 
# y que se concatena en un string 
# En txt_pe queda el texto de todos los titulares
txt_pe_list = data_pe.query("Año == 2010")["Titular"].tolist()
txt_pe = ' '.join(txt_pe_list)

# Este texto tiene muchos caracteres que no son palabras
# Asi que los vamos a extraer con las funciones ya creadas
txt_pe_limpio = limpiar_texto(txt_pe)

print(txt_pe_limpio)

peajes bien chévere los placeres mínimos de cada día para estar saludables mateo ramos se postula para ser el primer bebé de  voraz incendio en berazategui el  último gran robo de   fue en un bingo más de  heridos por mal uso de pirotecnia mapa interactivo  cómo será el recorrido del dakar en capital fin de año en buenos aires a través de twitter  reviva la cobertura de perfil com exodo turístico  al menos  vehículos retenidos el papa pidió por la paz y el medio ambiente cristina recibió el  con su familia en el calafate scioli y rabolini rescataron a un hombre del río qué se puede llevar y traer en el auto al salir del país pakistán   muertos por un atentado  las vacaciones de luli fernández y pablo mouche  el verano politico de kirchner  duhalde y scioli más de  mil personas en las calles para seguir el dakar keynesianismo total en la argentina       repartiendo la herencia k  patrulla moral  y luego  la danza  los nuevos villeros  paisaje mal traducido  desde el ciber  ¿y si en vez 

### Hacemos el bag of words

### Asignamos el sentiment a cada titular

### Calculamos y Graficamos los sentimientos segun años

## Probamos con TextaCy

In [6]:
# Importando las librerías que vamos a utilizar
import textacy
from textacy.datasets import Wikipedia
from collections import Counter, defaultdict
import warnings; warnings.simplefilter('ignore')

# graficos incrustados
%matplotlib inline

### Extraemos el texto desde los dataset

### Hacemos el bag of words

### Asignamos el sentiment a cada titular

### Calculamos y Graficamos los sentimientos segun años