# Argentine Election Analysis

## Introduction
In this notebook I analyze a Spanish dataset set up during the [Argentine legislative election](https://en.wikipedia.org/wiki/Argentine_legislative_election,_2017) of 2017. 
This dataset contains the data of 9 facebook bots, crawled over a period of 16 days, following 45 sources.

__Note__: If you haven't done it already, go through the set up in the *README* of [this repo](https://github.com/rugantio/nlp_fbtrex/).

## Dataset
The dataset was prepared by the [__Facebook Tracking Exposed__](https://facebook.tracking.exposed/) project and can be retrieved in a convenient JSON format from the specific GitHub [__repo__](https://github.com/tracking-exposed/experiments-data/tree/master/silver).
There are two separate files that we'll try to breakdown:
* __fbtrex-data-\*.json__ - Contains all impressions relative to single users
* __semantic-entities.json__ - Contains all available metadata regarding posts

The text field of every posts is enclosed in *semantic-entities.json*, while I can use *fbtrex-data-\*.json* to correlate which user has visualized this content, thus providing an easy way to investigate the Facebook filter bubble.
Given a ready working environment, as explained is the *README* of this repo, just go ahead and download the files:

In [None]:
%%bash
#Download Argentine dataset in a data subdir
mkdir data && cd data
wget https://github.com/tracking-exposed/experiments-data/raw/master/silver/fbtrex-data-1.json.zip
wget https://github.com/tracking-exposed/experiments-data/raw/master/silver/semantic-entities.json.zip

__Note__: This commands are supposed to be executed in a bash environment, not in the notebook itself. The operation may fail due to permissions.

Extract the content from the zip archive:

In [None]:
%%bash
#Extract JSON from zipped archives
cd data
unzip fbtrex-data-1.json.zip
unzip semantic-entities.json.zip

__Note__: To try out this notebook I made a shorter version of the JSON, I highly recommend to do the same

## Data preprocessing


Now that we have the dataset in JSON format, we can use the [JSON Python library](https://docs.python.org/3/library/json.html) to decode its content and store it in a Python variable. The variable type depends on the actual content of the provided file, by [default](https://docs.python.org/3/library/json.html#json-to-py-table) a JSON object is decoded to a dict and an arrays to a list. The recommended approach for working with encoded text files, is to use the [codecs Python library](https://docs.python.org/3/library/codecs.html):

In [1]:
import codecs
import json

with codecs.open('data/semantic-entities.json',encoding='utf-8') as data_json:    
    data = json.load(data_json)

To print to stdout the content of the parsed JSON file just use [pprint](https://docs.python.org/3/library/pprint.html), the data pretty printer:

In [2]:
import pprint
pprint.pprint(data)

[{'_id': {'$oid': '59e1ea1fb82b2b0bf84a582f'},
  'annotations': [{'confidence': 0.7119,
                   'end': 235,
                   'id': 3166089,
                   'label': 'Redes sociales',
                   'spot': 'redes sociales',
                   'start': 221,
                   'title': 'Red social',
                   'uri': 'http://es.wikipedia.org/wiki/Red_social'},
                  {'confidence': 0.6495,
                   'end': 347,
                   'id': 1095199,
                   'label': 'Teléfono',
                   'spot': 'teléfono',
                   'start': 339,
                   'title': 'Teléfono',
                   'uri': 'http://es.wikipedia.org/wiki/Tel%C3%A9fono'},
                  {'confidence': 0.8375,
                   'end': 437,
                   'id': 34238,
                   'label': 'Prometio',
                   'spot': 'prometió',
                   'start': 429,
                   'title': 'Prometio',
                   'uri'

                   'end': 2957,
                   'id': 975,
                   'label': 'Educación',
                   'spot': 'educación',
                   'start': 2948,
                   'title': 'Educación',
                   'uri': 'http://es.wikipedia.org/wiki/Educaci%C3%B3n'},
                  {'confidence': 0.6711,
                   'end': 2974,
                   'id': 81863,
                   'label': 'Bonos',
                   'spot': 'Bono',
                   'start': 2970,
                   'title': 'Bono (finanzas)',
                   'uri': 'http://es.wikipedia.org/wiki/Bono_%28finanzas%29'},
                  {'confidence': 0.6807,
                   'end': 3108,
                   'id': 975,
                   'label': 'Educación',
                   'spot': 'educación',
                   'start': 3099,
                   'title': 'Educación',
                   'uri': 'http://es.wikipedia.org/wiki/Educaci%C3%B3n'},
                  {'confidence': 0.684

                   'title': 'Voz (fonología)',
                   'uri': 'http://es.wikipedia.org/wiki/Voz_%28fonolog%C3%ADa%29'},
                  {'confidence': 0.8735,
                   'end': 2130,
                   'id': 6976733,
                   'label': 'Cambiemos',
                   'spot': 'Cambiemos',
                   'start': 2121,
                   'title': 'Cambiemos',
                   'uri': 'http://es.wikipedia.org/wiki/Cambiemos'},
                  {'confidence': 0.8764,
                   'end': 2355,
                   'id': 4818540,
                   'label': 'Frente para la Victoria',
                   'spot': 'Frente para la Victoria',
                   'start': 2332,
                   'title': 'Frente para la Victoria',
                   'uri': 'http://es.wikipedia.org/wiki/Frente_para_la_Victoria'},
                  {'confidence': 0.7297,
                   'end': 2490,
                   'id': 5672892,
                   'label': 'Tenemos que h

                   'title': 'MercadoLibre',
                   'uri': 'http://es.wikipedia.org/wiki/MercadoLibre'},
                  {'confidence': 0.7363,
                   'end': 79,
                   'id': 284037,
                   'label': 'Amazon',
                   'spot': 'Amazon',
                   'start': 73,
                   'title': 'Amazon.com',
                   'uri': 'http://es.wikipedia.org/wiki/Amazon.com'},
                  {'confidence': 0.776,
                   'end': 187,
                   'id': 569326,
                   'label': 'Comercio electrónico',
                   'spot': 'e- commerce',
                   'start': 176,
                   'title': 'Comercio electrónico',
                   'uri': 'http://es.wikipedia.org/wiki/Comercio_electr%C3%B3nico'},
                  {'confidence': 0.8641,
                   'end': 225,
                   'id': 410,
                   'label': 'Brasil',
                   'spot': 'Brasil',
                

                   'spot': 'cabeza',
                   'start': 4061,
                   'title': 'Cabeza',
                   'uri': 'http://es.wikipedia.org/wiki/Cabeza'},
                  {'confidence': 0.7233,
                   'end': 4309,
                   'id': 15162,
                   'label': 'Patata',
                   'spot': 'papá',
                   'start': 4305,
                   'title': 'Solanum tuberosum',
                   'uri': 'http://es.wikipedia.org/wiki/Solanum_tuberosum'},
                  {'confidence': 0.739,
                   'end': 4782,
                   'id': 3823,
                   'label': 'Cáncer',
                   'spot': 'cáncer',
                   'start': 4776,
                   'title': 'Cáncer',
                   'uri': 'http://es.wikipedia.org/wiki/C%C3%A1ncer'}],
  'id': '41f6a77753fa1be38f83ff27cb99ddb4f10c1adc',
  'lang': 'es',
  'langConfidence': 1,
  'original': 'http://www.lanacion.com.ar/2071494-contra-el-cancer-se-luch

                  {'confidence': 0.7066,
                   'end': 3799,
                   'id': 5330,
                   'label': 'Velódromo',
                   'spot': 'Velódromo',
                   'start': 3790,
                   'title': 'Velódromo',
                   'uri': 'http://es.wikipedia.org/wiki/Vel%C3%B3dromo'},
                  {'confidence': 0.8504,
                   'end': 3924,
                   'id': 499,
                   'label': 'Cuba',
                   'spot': 'CUBA',
                   'start': 3920,
                   'title': 'Cuba',
                   'uri': 'http://es.wikipedia.org/wiki/Cuba'},
                  {'confidence': 0.7373,
                   'end': 4057,
                   'id': 1769655,
                   'label': 'Gobierno de la Ciudad de Buenos Aires',
                   'spot': 'GCBA',
                   'start': 4053,
                   'title': 'Gobierno de la Ciudad de Buenos Aires',
                   'uri': 'http://es.wikiped

                   'start': 3311,
                   'title': 'Desempleo',
                   'uri': 'http://es.wikipedia.org/wiki/Desempleo'},
                  {'confidence': 0.7082,
                   'end': 3404,
                   'id': 227194,
                   'label': 'Aeroparque Jorge Newbery',
                   'spot': 'Aeroparque',
                   'start': 3394,
                   'title': 'Aeroparque Jorge Newbery',
                   'uri': 'http://es.wikipedia.org/wiki/Aeroparque_Jorge_Newbery'},
                  {'confidence': 0.9104,
                   'end': 3470,
                   'id': 57221,
                   'label': 'Aerolíneas Argentinas',
                   'spot': 'Aerolíneas Argentinas',
                   'start': 3449,
                   'title': 'Aerolíneas Argentinas',
                   'uri': 'http://es.wikipedia.org/wiki/Aerol%C3%ADneas_Argentinas'},
                  {'confidence': 0.904,
                   'end': 3512,
                   'id':

                   'uri': 'http://es.wikipedia.org/wiki/Inflaci%C3%B3n'},
                  {'confidence': 0.7526,
                   'end': 2814,
                   'id': 8739,
                   'label': 'Buenos Aires',
                   'spot': 'ciudad de Buenos Aires',
                   'start': 2792,
                   'title': 'Buenos Aires',
                   'uri': 'http://es.wikipedia.org/wiki/Buenos_Aires'},
                  {'confidence': 0.8716,
                   'end': 3083,
                   'id': 6099969,
                   'label': 'Guillermo Dietrich',
                   'spot': 'Guillermo Dietrich',
                   'start': 3065,
                   'title': 'Guillermo Dietrich',
                   'uri': 'http://es.wikipedia.org/wiki/Guillermo_Dietrich'}],
  'id': '5c48a9ead12ed045eeb1cedf3e7250623b8d9cda',
  'lang': 'es',
  'langConfidence': 1,
  'original': 'https://www.diariopopular.com.ar/general/aumentan-hoy-20-pasajes-micros-larga-distancia-n324650?utm_

                   'title': 'Cambiemos',
                   'uri': 'http://es.wikipedia.org/wiki/Cambiemos'},
                  {'confidence': 0.902,
                   'end': 2220,
                   'id': 229299,
                   'label': 'Mauricio Macri',
                   'spot': 'Mauricio Macri',
                   'start': 2206,
                   'title': 'Mauricio Macri',
                   'uri': 'http://es.wikipedia.org/wiki/Mauricio_Macri'},
                  {'confidence': 0.7379,
                   'end': 2232,
                   'id': 11250,
                   'label': 'La Pampa',
                   'spot': 'Pampa',
                   'start': 2227,
                   'title': 'Provincia de La Pampa',
                   'uri': 'http://es.wikipedia.org/wiki/Provincia_de_La_Pampa'}],
  'id': 'eed99fea5805fe82e185a0eaf07b6a222ce21664',
  'lang': 'es',
  'langConfidence': 1,
  'original': 'http://tn.com.ar/politica/detuvieron-un-docente-k-que-se-hizo-cargo-de-los-huevazos-

                   'uri': 'http://es.wikipedia.org/wiki/Carl_Christian_Mez'}],
  'id': '3094ce3cbb91d061456d9168bca090234236773a',
  'lang': 'es',
  'langConfidence': 1,
  'original': 'http://www.lapoliticaonline.com/nota/108865-encontraron-una-barril-enterrado-en-la-quinta-del-pata-medina-en-pipinas/',
  'publicationTime': {'$date': '2017-10-10T21:31:17.000Z'},
  'text': "Encontraron una barril enterrado en la quinta del 'Pata' Medina en "
          'Pipinas\n'
          'La Polic�a bonaerense encontr� un barril enterrado en la quinta del '
          "Juan Pablo �Pata' Medina, el ex l�der de la Uocra La Plata detenido "
          'hace dos semanas por asociaci�n il�cita, lavado de dinero y '
          'extorsi�n.\n'
          'El tonel met�lico enterrado en el patio de un predio ubicado en la '
          'localidad de Pipinas fue sacado a la superficie y ahora se espera '
          'la orden judicial para quitar la tapa y verificar el contenido.\n'
          'La quinta queda a 40 kil�

                   'label': 'Facultad de Agronomía',
                   'spot': 'Facultad de Agronomía',
                   'start': 1000,
                   'title': 'Facultad de Agronomía (Universidad de Buenos '
                            'Aires)',
                   'uri': 'http://es.wikipedia.org/wiki/Facultad_de_Agronom%C3%ADa_%28Universidad_de_Buenos_Aires%29'},
                  {'confidence': 0.7189,
                   'end': 1051,
                   'id': 60172,
                   'label': 'Delito',
                   'spot': 'delito',
                   'start': 1045,
                   'title': 'Delito',
                   'uri': 'http://es.wikipedia.org/wiki/Delito'},
                  {'confidence': 0.7298,
                   'end': 1122,
                   'id': 120472,
                   'label': 'Código Penal',
                   'spot': 'Código Penal',
                   'start': 1110,
                   'title': 'Código penal',
                   'uri': 'http://es.w

                  {'confidence': 0.6331,
                   'end': 1987,
                   'id': 3599491,
                   'label': 'Persona',
                   'spot': 'gente',
                   'start': 1982,
                   'title': 'Persona',
                   'uri': 'http://es.wikipedia.org/wiki/Persona'},
                  {'confidence': 0.6655,
                   'end': 1997,
                   'id': 19413,
                   'label': 'Puerto',
                   'spot': 'puerto',
                   'start': 1991,
                   'title': 'Puerto',
                   'uri': 'http://es.wikipedia.org/wiki/Puerto'},
                  {'confidence': 0.7196,
                   'end': 2171,
                   'id': 34526,
                   'label': 'Pizza',
                   'spot': 'pizza',
                   'start': 2166,
                   'title': 'Pizza',
                   'uri': 'http://es.wikipedia.org/wiki/Pizza'},
                  {'confidence': 0.6876,
     

                   'end': 97,
                   'id': 126506,
                   'label': 'Lares',
                   'spot': 'lares',
                   'start': 92,
                   'title': 'Lares (mitología)',
                   'uri': 'http://es.wikipedia.org/wiki/Lares_%28mitolog%C3%ADa%29'},
                  {'confidence': 0.7614,
                   'end': 126,
                   'id': 292794,
                   'label': 'Corte Suprema de Justicia',
                   'spot': 'Corte Suprema de Justicia',
                   'start': 101,
                   'title': 'Corte Suprema de Justicia de la Nación '
                            '(Argentina)',
                   'uri': 'http://es.wikipedia.org/wiki/Corte_Suprema_de_Justicia_de_la_Naci%C3%B3n_%28Argentina%29'},
                  {'confidence': 0.694,
                   'end': 169,
                   'id': 201275,
                   'label': 'Recurso',
                   'spot': 'recurso de queja',
                   'star

                   'uri': 'http://es.wikipedia.org/wiki/F%C3%BAtbol'},
                  {'confidence': 0.7659,
                   'end': 1943,
                   'id': 8739,
                   'label': 'Buenos Aires',
                   'spot': 'Ciudad de Buenos Aires',
                   'start': 1921,
                   'title': 'Buenos Aires',
                   'uri': 'http://es.wikipedia.org/wiki/Buenos_Aires'},
                  {'confidence': 0.8774,
                   'end': 1962,
                   'id': 1338503,
                   'label': 'Gran Buenos Aires',
                   'spot': 'Gran Buenos Aires',
                   'start': 1945,
                   'title': 'Gran Buenos Aires',
                   'uri': 'http://es.wikipedia.org/wiki/Gran_Buenos_Aires'},
                  {'confidence': 0.674,
                   'end': 1973,
                   'id': 46857,
                   'label': 'La Plata',
                   'spot': 'La Plata',
                   'start': 196

                   'uri': 'http://es.wikipedia.org/wiki/Sergio_Massa'}],
  'id': 'c5610b4e8d44aae9bbdb9acd90a5557e733050c6',
  'lang': 'es',
  'langConfidence': 1,
  'original': 'http://www.cronista.com/economiapolitica/Bullrich-aventaja-a-Cristina-con-los-votos-que-se-le-fugan-a-Massa-20171013-0025.html',
  'publicationTime': {'$date': '2017-10-13T13:28:20.000Z'},
  'text': 'Bullrich aventaja a Cristina con los votos que se le fugan a Massa\n'
          'A pocos días de las elecciones, Cambiemos aparece como la propuesta '
          'electoral más apoyada en la provincia de Buenos Aires, por encima '
          'de la lista que encabeza la ex presidenta, Cristina Fernández de '
          'Kirchner, de Unidad Ciudadana.\n'
          'De acuerdo a un sondeo de Opinaia (la consultora que más se '
          'aproximó al veredicto de las primarias), el 42,2% de los '
          'bonaerenses que irán a las urnas el 22 de octubre optará por votar '
          'la lista de senadores del oficiali

                   'spot': 'María Eugenia Vidal',
                   'start': 1257,
                   'title': 'María Eugenia Vidal',
                   'uri': 'http://es.wikipedia.org/wiki/Mar%C3%ADa_Eugenia_Vidal'},
                  {'confidence': 0.8827,
                   'end': 1698,
                   'id': 948268,
                   'label': 'Sergio Massa',
                   'spot': 'Sergio Massa',
                   'start': 1686,
                   'title': 'Sergio Massa',
                   'uri': 'http://es.wikipedia.org/wiki/Sergio_Massa'},
                  {'confidence': 0.8844,
                   'end': 1735,
                   'id': 6976733,
                   'label': 'Cambiemos',
                   'spot': 'Cambiemos',
                   'start': 1726,
                   'title': 'Cambiemos',
                   'uri': 'http://es.wikipedia.org/wiki/Cambiemos'},
                  {'confidence': 0.7712,
                   'end': 1825,
                   'id': 2556,
  

                   'id': 215947,
                   'label': 'Gradualismo',
                   'spot': 'gradualismo',
                   'start': 480,
                   'title': 'Gradualismo',
                   'uri': 'http://es.wikipedia.org/wiki/Gradualismo'},
                  {'confidence': 0.8017,
                   'end': 606,
                   'id': 869585,
                   'label': 'Círculo rojo',
                   'spot': 'círculo rojo',
                   'start': 594,
                   'title': 'Círculo rojo (serie de televisión)',
                   'uri': 'http://es.wikipedia.org/wiki/C%C3%ADrculo_rojo_%28serie_de_televisi%C3%B3n%29'},
                  {'confidence': 0.8017,
                   'end': 645,
                   'id': 869585,
                   'label': 'Círculo rojo',
                   'spot': 'círculo rojo',
                   'start': 633,
                   'title': 'Círculo rojo (serie de televisión)',
                   'uri': 'http://es.wikipedi

                   'id': 46232,
                   'label': 'Déficit presupuestario',
                   'spot': 'déficit fiscal',
                   'start': 2572,
                   'title': 'Déficit presupuestario',
                   'uri': 'http://es.wikipedia.org/wiki/D%C3%A9ficit_presupuestario'},
                  {'confidence': 0.7382,
                   'end': 2697,
                   'id': 46232,
                   'label': 'Déficit presupuestario',
                   'spot': 'déficit fiscal',
                   'start': 2683,
                   'title': 'Déficit presupuestario',
                   'uri': 'http://es.wikipedia.org/wiki/D%C3%A9ficit_presupuestario'},
                  {'confidence': 0.758,
                   'end': 2850,
                   'id': 141650,
                   'label': 'Tasas de interés',
                   'spot': 'tasas de interés',
                   'start': 2834,
                   'title': 'Tasa de interés',
                   'uri': 'http://

                   'spot': 'enfermedad',
                   'start': 1041,
                   'title': 'Enfermedad',
                   'uri': 'http://es.wikipedia.org/wiki/Enfermedad'},
                  {'confidence': 0.6723,
                   'end': 1216,
                   'id': 8840,
                   'label': 'Hipótesis',
                   'spot': 'hipótesis',
                   'start': 1207,
                   'title': 'Hipótesis (método científico)',
                   'uri': 'http://es.wikipedia.org/wiki/Hip%C3%B3tesis_%28m%C3%A9todo_cient%C3%ADfico%29'},
                  {'confidence': 0.6538,
                   'end': 1277,
                   'id': 8166,
                   'label': 'Síntoma',
                   'spot': 'síntomas',
                   'start': 1269,
                   'title': 'Síntoma',
                   'uri': 'http://es.wikipedia.org/wiki/S%C3%ADntoma'}],
  'id': '5a6f25ad3834d983209a31b9006d5ac14219b142',
  'lang': 'es',
  'langConfidence': 1,
  'ori

                   'end': 97,
                   'id': 560006,
                   'label': 'Pueblo',
                   'spot': 'pueblo',
                   'start': 91,
                   'title': 'Pueblo',
                   'uri': 'http://es.wikipedia.org/wiki/Pueblo'},
                  {'confidence': 0.8328,
                   'end': 128,
                   'id': 308084,
                   'label': 'Cristina Fernández de Kirchner',
                   'spot': 'Cristina Kirchner',
                   'start': 111,
                   'title': 'Cristina Fernández de Kirchner',
                   'uri': 'http://es.wikipedia.org/wiki/Cristina_Fern%C3%A1ndez_de_Kirchner'},
                  {'confidence': 0.7862,
                   'end': 163,
                   'id': 1338503,
                   'label': 'Gran Buenos Aires',
                   'spot': 'conurbano bonaerense',
                   'start': 143,
                   'title': 'Gran Buenos Aires',
                   'uri': 'http:/

                   'start': 320,
                   'title': 'Periodista',
                   'uri': 'http://es.wikipedia.org/wiki/Periodista'},
                  {'confidence': 0.6394,
                   'end': 360,
                   'id': 1702,
                   'label': 'Ley',
                   'spot': 'legal',
                   'start': 355,
                   'title': 'Ley',
                   'uri': 'http://es.wikipedia.org/wiki/Ley'},
                  {'confidence': 0.7791,
                   'end': 566,
                   'id': 42610,
                   'label': 'Violencia de género',
                   'spot': 'violencia de género',
                   'start': 547,
                   'title': 'Violencia de género',
                   'uri': 'http://es.wikipedia.org/wiki/Violencia_de_g%C3%A9nero'},
                  {'confidence': 0.8229,
                   'end': 615,
                   'id': 423570,
                   'label': 'Barra brava',
                   'spot': 'B

                   'spot': 'Hotel Hilton',
                   'start': 919,
                   'title': 'Hilton Hotels & Resorts',
                   'uri': 'http://es.wikipedia.org/wiki/Hilton_Hotels_%26_Resorts'},
                  {'confidence': 0.8609,
                   'end': 1136,
                   'id': 1723113,
                   'label': 'Natacha Jaitt',
                   'spot': 'Natacha Jaitt',
                   'start': 1123,
                   'title': 'Natacha Jaitt',
                   'uri': 'http://es.wikipedia.org/wiki/Natacha_Jaitt'},
                  {'confidence': 0.6764,
                   'end': 1260,
                   'id': 151273,
                   'label': 'Intercambio de pareja',
                   'spot': 'swingers',
                   'start': 1252,
                   'title': 'Intercambio de pareja',
                   'uri': 'http://es.wikipedia.org/wiki/Intercambio_de_pareja'},
                  {'confidence': 0.7756,
                   'end': 138

                   'uri': 'http://es.wikipedia.org/wiki/Plata'},
                  {'confidence': 0.6593,
                   'end': 2602,
                   'id': 3599491,
                   'label': 'Persona',
                   'spot': 'gente',
                   'start': 2597,
                   'title': 'Persona',
                   'uri': 'http://es.wikipedia.org/wiki/Persona'},
                  {'confidence': 0.6518,
                   'end': 2617,
                   'id': 72322,
                   'label': 'Miedo',
                   'spot': 'miedo',
                   'start': 2612,
                   'title': 'Miedo',
                   'uri': 'http://es.wikipedia.org/wiki/Miedo'},
                  {'confidence': 0.7042,
                   'end': 2624,
                   'id': 6029955,
                   'label': 'Pan',
                   'spot': 'pan',
                   'start': 2621,
                   'title': 'Pan',
                   'uri': 'http://es.wikipedia.org/wik

                  {'confidence': 0.7718,
                   'end': 687,
                   'id': 73407,
                   'label': 'Capsicum annuum',
                   'spot': 'Pimentón Picante',
                   'start': 671,
                   'title': 'Capsicum annuum',
                   'uri': 'http://es.wikipedia.org/wiki/Capsicum_annuum'},
                  {'confidence': 0.8841,
                   'end': 709,
                   'id': 293441,
                   'label': 'Capsaicina',
                   'spot': 'capsaicina',
                   'start': 699,
                   'title': 'Capsaicina',
                   'uri': 'http://es.wikipedia.org/wiki/Capsaicina'},
                  {'confidence': 0.7145,
                   'end': 746,
                   'id': 45357,
                   'label': 'Analgésico',
                   'spot': 'tratamiento del dolor',
                   'start': 725,
                   'title': 'Analgésico',
                   'uri': 'http://es.wiki

  'url': 'https://www.cronista.com/clase/dixit/Madre-e-hija-crearon-un-imperio-hotelero-en-la-Argentina-20171013-0002.html?utm_term=Autofeed&utm_campaign=Echobox&utm_medium=Social&utm_source=Facebook'},
 {'_id': {'$oid': '59e1ebf7b82b2b0bf84a590c'},
  'annotations': [{'confidence': 0.8932,
                   'end': 2,
                   'id': 15145,
                   'label': 'U2',
                   'spot': 'U2',
                   'start': 0,
                   'title': 'U2',
                   'uri': 'http://es.wikipedia.org/wiki/U2'},
                  {'confidence': 0.6918,
                   'end': 13,
                   'id': 177165,
                   'label': 'Árbol',
                   'spot': 'árbol',
                   'start': 8,
                   'title': 'Árbol (banda)',
                   'uri': 'http://es.wikipedia.org/wiki/%C3%81rbol_%28banda%29'},
                  {'confidence': 0.6161,
                   'end': 57,
                   'id': 2394,
                 

  'original': 'http://bit.ly/2yg3SGb',
  'publicationTime': {'$date': '2017-10-13T23:25:01.000Z'},
  'text': 'Pibe amenazó con "perpetrar una masacre" en escuela de La Plata\n'
          'La justicia de La Plata investiga una presunta amenaza de un alumno '
          'de 16 años que, durante una sesión de terapia privada, le confesó a '
          'su médico\xa0su deseo de\xa0perpetrar una masacre\xa0en un colegio '
          'religioso de la ciudad. Así\xa0informaron voceros policiales sobre '
          'el caso en el que tomó intervención el área de educación de la '
          'provincia de Buenos Aires.\xa0\n'
          'El episodio ocurrió en la escuela Virgen del Pilar\xa0donde el '
          'psicólogo particular de un estudiante de cuarto año alertó a los '
          'directivos sobre las\xa0preocupantes declaraciones del menor '
          'durante una sesión de terapia. Durante el encuentro, el\xa0joven '
          'mostró intenciones\xa0de comprar un arma de fuego para “perpetr

                   'id': 48547,
                   'label': 'Bartolomé Mitre',
                   'spot': 'Bartolomé Mitre',
                   'start': 3081,
                   'title': 'Bartolomé Mitre',
                   'uri': 'http://es.wikipedia.org/wiki/Bartolom%C3%A9_Mitre'},
                  {'confidence': 0.6904,
                   'end': 3153,
                   'id': 58160,
                   'label': 'Juan Bautista Alberdi',
                   'spot': 'Alberdi',
                   'start': 3146,
                   'title': 'Juan Bautista Alberdi',
                   'uri': 'http://es.wikipedia.org/wiki/Juan_Bautista_Alberdi'},
                  {'confidence': 0.6382,
                   'end': 3360,
                   'id': 912,
                   'label': 'Dios',
                   'spot': 'Dios',
                   'start': 3356,
                   'title': 'Dios',
                   'uri': 'http://es.wikipedia.org/wiki/Dios'},
                  {'confidence': 0.713,
  

                   'title': 'Sencillo',
                   'uri': 'http://es.wikipedia.org/wiki/Sencillo'},
                  {'confidence': 0.8151,
                   'end': 920,
                   'id': 2567,
                   'label': 'Saturno',
                   'spot': 'Saturno',
                   'start': 913,
                   'title': 'Saturno (planeta)',
                   'uri': 'http://es.wikipedia.org/wiki/Saturno_%28planeta%29'},
                  {'confidence': 0.7049,
                   'end': 935,
                   'id': 413999,
                   'label': 'Balada',
                   'spot': 'balada',
                   'start': 929,
                   'title': 'Balada',
                   'uri': 'http://es.wikipedia.org/wiki/Balada'},
                  {'confidence': 0.6531,
                   'end': 1032,
                   'id': 978,
                   'label': 'Electrónica',
                   'spot': 'electrónica',
                   'start': 1021,
          

                  {'confidence': 0.8821,
                   'end': 914,
                   'id': 1298912,
                   'label': 'Hugo Moyano',
                   'spot': 'Hugo Moyano',
                   'start': 903,
                   'title': 'Hugo Moyano',
                   'uri': 'http://es.wikipedia.org/wiki/Hugo_Moyano'},
                  {'confidence': 0.7539,
                   'end': 1055,
                   'id': 71081,
                   'label': 'Dalit',
                   'spot': 'intocables',
                   'start': 1045,
                   'title': 'Paria (casta)',
                   'uri': 'http://es.wikipedia.org/wiki/Paria_%28casta%29'},
                  {'confidence': 0.7482,
                   'end': 1117,
                   'id': 562990,
                   'label': 'Avellaneda',
                   'spot': 'Avellaneda',
                   'start': 1107,
                   'title': 'Avellaneda (Buenos Aires)',
                   'uri': 'http://es.wikipe

                   'uri': 'http://es.wikipedia.org/wiki/Polonia'},
                  {'confidence': 0.8703,
                   'end': 751,
                   'id': 684497,
                   'label': 'Silvina Luna',
                   'spot': 'Silvina Luna',
                   'start': 739,
                   'title': 'Silvina Luna',
                   'uri': 'http://es.wikipedia.org/wiki/Silvina_Luna'}],
  'id': 'ffd05b3f7c47704d384381880936823dbad277a0',
  'lang': 'es',
  'langConfidence': 1,
  'original': 'https://www.diarioshow.com/farandula/Con-Francisco-tuvimos-sexo-grupal-20171013-0003.html',
  'publicationTime': {'$date': '2017-10-13T16:03:42.000Z'},
  'text': '"Con Francisco tuvimos sexo grupal"\n'
          'Barby\xa0Silenzi, además de ser una excelente bailarina, no tiene '
          'filtros a la hora de responder cualquier tipo de pregunta. Aunque '
          'esta se relacionen\xa0con la intimidad. En este sentido al ser '
          'consultada sobre si tuvo experiencias 

                   'spot': 'Fernando "Pino" Solanas',
                   'start': 488,
                   'title': 'Pino Solanas',
                   'uri': 'http://es.wikipedia.org/wiki/Pino_Solanas'},
                  {'confidence': 0.72,
                   'end': 537,
                   'id': 3644664,
                   'label': 'Encubridora',
                   'spot': 'encubridora',
                   'start': 526,
                   'title': 'Encubridora',
                   'uri': 'http://es.wikipedia.org/wiki/Encubridora'},
                  {'confidence': 0.7772,
                   'end': 565,
                   'id': 253025,
                   'label': 'Desaparición forzada',
                   'spot': 'desaparición forzada',
                   'start': 545,
                   'title': 'Desaparición forzada',
                   'uri': 'http://es.wikipedia.org/wiki/Desaparici%C3%B3n_forzada'},
                  {'confidence': 0.8111,
                   'end': 636,
           

                   'uri': 'http://es.wikipedia.org/wiki/Televisi%C3%B3n'},
                  {'confidence': 0.6825,
                   'end': 6318,
                   'id': 17963,
                   'label': 'Radio',
                   'spot': 'radio',
                   'start': 6313,
                   'title': 'Radio (medio de comunicación)',
                   'uri': 'http://es.wikipedia.org/wiki/Radio_%28medio_de_comunicaci%C3%B3n%29'},
                  {'confidence': 0.7016,
                   'end': 6564,
                   'id': 3166089,
                   'label': 'Redes sociales',
                   'spot': 'redes sociales',
                   'start': 6550,
                   'title': 'Red social',
                   'uri': 'http://es.wikipedia.org/wiki/Red_social'},
                  {'confidence': 0.718,
                   'end': 6591,
                   'id': 85525,
                   'label': 'Medios de comunicación',
                   'spot': 'medios de comunicación',

                   'uri': 'http://es.wikipedia.org/wiki/Madrid_%28Cundinamarca%29'},
                  {'confidence': 0.862,
                   'end': 651,
                   'id': 280591,
                   'label': 'Villa Carlos Paz',
                   'spot': 'Villa Carlos Paz',
                   'start': 635,
                   'title': 'Villa Carlos Paz',
                   'uri': 'http://es.wikipedia.org/wiki/Villa_Carlos_Paz'},
                  {'confidence': 0.732,
                   'end': 876,
                   'id': 68959,
                   'label': 'Córdoba',
                   'spot': 'capital provincial',
                   'start': 858,
                   'title': 'Córdoba (ciudad de Argentina)',
                   'uri': 'http://es.wikipedia.org/wiki/C%C3%B3rdoba_%28ciudad_de_Argentina%29'},
                  {'confidence': 0.7816,
                   'end': 888,
                   'id': 280781,
                   'label': 'Mendoza',
                   'spot': 'Mend

                   'label': 'Presidente',
                   'spot': 'presidente',
                   'start': 912,
                   'title': 'Presidente',
                   'uri': 'http://es.wikipedia.org/wiki/Presidente'},
                  {'confidence': 0.6742,
                   'end': 928,
                   'id': 229299,
                   'label': 'Mauricio Macri',
                   'spot': 'Macri',
                   'start': 923,
                   'title': 'Mauricio Macri',
                   'uri': 'http://es.wikipedia.org/wiki/Mauricio_Macri'},
                  {'confidence': 0.8964,
                   'end': 987,
                   'id': 5287,
                   'label': 'Amnistía Internacional',
                   'spot': 'Amnistía Internacional',
                   'start': 965,
                   'title': 'Amnistía Internacional',
                   'uri': 'http://es.wikipedia.org/wiki/Amnist%C3%ADa_Internacional'},
                  {'confidence': 0.7059,
       

  'text': 'Después de 33 años, el Suoem tendrá nueva secretaria general\n'
          'Después de 33 años (el plazo se cumplirá el 3 de enero de 2018), el '
          'gremio Suoem tendrá nueva secretaria general. Beatriz Biolatto se '
          'impuso este jueves en las elecciones llevadas a cabo en Córdoba y '
          'sucederá a Rubén Daniele.\n'
          'Según informó el titular de la junta electoral del gremio, Pascual '
          'Nazarala, luego de escrutadas todas las mesas (57 en total), '
          'Biolatto se impuso por 90,4% a 8,7%. El resto fueron votos '
          'impugnados y en blanco.\n'
          'Así, la lista Verde venció a la Fucisa (de la izquierda), que '
          'llevaba como candidata a Susana Rins.\n'
          'La ganadora de las elecciones responde a Daniele y será la '
          'continuidad del polémico dirigente.\xa0\n'
          'Biolatto asumirá recién en 2018, cuando termine el mandato de '
          'Daniele, quien dejará el cargo después de 1

                   'start': 500,
                   'title': 'Santa Rosa (La Pampa)',
                   'uri': 'http://es.wikipedia.org/wiki/Santa_Rosa_%28La_Pampa%29'},
                  {'confidence': 0.6711,
                   'end': 640,
                   'id': 74709,
                   'label': 'Pobreza',
                   'spot': 'pobreza',
                   'start': 633,
                   'title': 'Pobreza',
                   'uri': 'http://es.wikipedia.org/wiki/Pobreza'},
                  {'confidence': 0.6497,
                   'end': 648,
                   'id': 229299,
                   'label': 'Mauricio Macri',
                   'spot': 'Macri',
                   'start': 643,
                   'title': 'Mauricio Macri',
                   'uri': 'http://es.wikipedia.org/wiki/Mauricio_Macri'},
                  {'confidence': 0.7056,
                   'end': 702,
                   'id': 37772,
                   'label': 'Política',
                   'spot'

                   'spot': 'orden de allanamiento',
                   'start': 888,
                   'title': 'Allanamiento',
                   'uri': 'http://es.wikipedia.org/wiki/Allanamiento'},
                  {'confidence': 0.6862,
                   'end': 920,
                   'id': 53032,
                   'label': 'Poder ejecutivo',
                   'spot': 'poder',
                   'start': 915,
                   'title': 'Poder ejecutivo',
                   'uri': 'http://es.wikipedia.org/wiki/Poder_ejecutivo'},
                  {'confidence': 0.708,
                   'end': 1005,
                   'id': 63975,
                   'label': 'Juez',
                   'spot': 'juez',
                   'start': 1001,
                   'title': 'Juez',
                   'uri': 'http://es.wikipedia.org/wiki/Juez'},
                  {'confidence': 0.6925,
                   'end': 1038,
                   'id': 189471,
                   'label': 'Tribunal',
  

                  {'confidence': 0.6206,
                   'end': 867,
                   'id': 1586816,
                   'label': 'Empresa',
                   'spot': 'empresarios',
                   'start': 856,
                   'title': 'Empresa',
                   'uri': 'http://es.wikipedia.org/wiki/Empresa'},
                  {'confidence': 0.7509,
                   'end': 986,
                   'id': 40002,
                   'label': 'Burocracia',
                   'spot': 'burocracia',
                   'start': 976,
                   'title': 'Burocracia',
                   'uri': 'http://es.wikipedia.org/wiki/Burocracia'},
                  {'confidence': 0.7329,
                   'end': 1054,
                   'id': 1122,
                   'label': 'Estado',
                   'spot': 'Estado',
                   'start': 1048,
                   'title': 'Estado',
                   'uri': 'http://es.wikipedia.org/wiki/Estado'},
                  {'confi

                   'end': 247,
                   'id': 1347012,
                   'label': 'ESPN',
                   'spot': 'Espn',
                   'start': 243,
                   'title': 'ESPN (Latinoamérica)',
                   'uri': 'http://es.wikipedia.org/wiki/ESPN_%28Latinoam%C3%A9rica%29'}],
  'id': '71a7dc2c9ed67aceae0311faabc43dae48cf4446',
  'lang': 'es',
  'langConfidence': 1,
  'original': 'http://www.lacapital.com.ar/',
  'publicationTime': {'$date': '2017-10-13T09:01:11.000Z'},
  'text': 'Noticias, actualidad y toda la información de Rosario y la región\n'
          'Recién un rato antes del encuentro que debe afrontar por las '
          'semifinales del Masters 1000 de Shanghai ante Roger Federer, el '
          'tandilense decidirá si juega o no (desde las 9, por Espn).',
  'time': 2,
  'timestamp': {'$date': '2017-10-14T09:00:55.471Z'},
  'url': 'http://www.lacapital.com.ar/'},
 {'_id': {'$oid': '59e1ee6dea65a41f13f9b3bf'},
  'annotations': [],
  'id': '3af

  'time': 2,
  'timestamp': {'$date': '2017-10-14T09:01:22.540Z'},
  'url': 'https://www.minutouno.com/radio-mega'},
 {'_id': {'$oid': '59e1ee88ea65a41f13f9b3c7'},
  'annotations': [{'confidence': 0.7217,
                   'end': 21,
                   'id': 6081753,
                   'label': 'Perro',
                   'spot': 'perro',
                   'start': 16,
                   'title': 'Canis lupus familiaris',
                   'uri': 'http://es.wikipedia.org/wiki/Canis_lupus_familiaris'},
                  {'confidence': 0.7742,
                   'end': 81,
                   'id': 305310,
                   'label': 'Crueldad hacia los animales',
                   'spot': 'maltrato animal',
                   'start': 66,
                   'title': 'Crueldad hacia los animales',
                   'uri': 'http://es.wikipedia.org/wiki/Crueldad_hacia_los_animales'}],
  'id': 'd9064b77e1b37db311ec76441b50973fd82be296',
  'lang': 'es',
  'langConfidence': 1,
  'original

                   'start': 2090,
                   'title': 'Defensor del Pueblo',
                   'uri': 'http://es.wikipedia.org/wiki/Defensor_del_Pueblo'},
                  {'confidence': 0.6633,
                   'end': 2187,
                   'id': 325728,
                   'label': 'Funcionario',
                   'spot': 'funcionario',
                   'start': 2176,
                   'title': 'Funcionario',
                   'uri': 'http://es.wikipedia.org/wiki/Funcionario'},
                  {'confidence': 0.7356,
                   'end': 2208,
                   'id': 54263,
                   'label': 'Abogado',
                   'spot': 'abogado',
                   'start': 2201,
                   'title': 'Abogado',
                   'uri': 'http://es.wikipedia.org/wiki/Abogado'},
                  {'confidence': 0.8756,
                   'end': 2246,
                   'id': 7220717,
                   'label': 'Carlos Rosenkrantz',
                  

                  {'confidence': 0.6559,
                   'end': 80,
                   'id': 4632258,
                   'label': 'María Eugenia Vidal',
                   'spot': 'Vidal',
                   'start': 75,
                   'title': 'María Eugenia Vidal',
                   'uri': 'http://es.wikipedia.org/wiki/Mar%C3%ADa_Eugenia_Vidal'},
                  {'confidence': 0.6803,
                   'end': 103,
                   'id': 308084,
                   'label': 'Cristina Fernández de Kirchner',
                   'spot': 'Cristina',
                   'start': 95,
                   'title': 'Cristina Fernández de Kirchner',
                   'uri': 'http://es.wikipedia.org/wiki/Cristina_Fern%C3%A1ndez_de_Kirchner'},
                  {'confidence': 0.8884,
                   'end': 165,
                   'id': 6990779,
                   'label': 'Esteban Bullrich',
                   'spot': 'Esteban Bullrich',
                   'start': 149,
            

                   'end': 2685,
                   'id': 1122,
                   'label': 'Estado',
                   'spot': 'estado',
                   'start': 2679,
                   'title': 'Estado',
                   'uri': 'http://es.wikipedia.org/wiki/Estado'}],
  'id': 'a50dad0ac3d7fdbaafd5241cb317f05797a52ef5',
  'lang': 'es',
  'langConfidence': 1,
  'original': 'http://www.agenciapacourondo.com.ar/relampagos/cuaderno-relampago-1-l-sombras-terribles-apologia-de-la-negrada',
  'publicationTime': {'$date': '2017-10-12T23:12:56.000Z'},
  'text': 'Cuaderno Relámpago 1 l Sombras Terribles. Apología de la negrada\n'
          'El negro cabeza es lo maldito de un país facho/progre. Grasa o '
          'lumpen, mono o disponible. Por derecha, por izquierda, el negro '
          'cabeza es la lacra irrecuperable de un país blanco. Negro cabeza '
          'vos. El indio devino poblador originario, el gaucho gauchada, el '
          'negro afro, el negro cabeza tiro en la sien (

                   'title': 'Familia',
                   'uri': 'http://es.wikipedia.org/wiki/Familia'}],
  'id': 'f17985918eb748e1e2cdb2941d86c898dfe9de14',
  'lang': 'es',
  'langConfidence': 1,
  'original': 'http://www.ar13.cl/magazine/hermano-de-nicole-moreno-se-refiere-a-su-estado-de-salud',
  'publicationTime': {'$date': '2017-10-09T21:30:00.000Z'},
  'text': 'Hermano de Nicole Moreno se refiere a su estado de salud\n'
          'Nicole Moreno se encuentra ausente del ruido mediático debido a un '
          'colapso mental que la llevó a internarse en la clínica nuevamente. '
          'Moreno inició hace unas semanas una transmisión en vivo en '
          'Instagram en la que discutió con su madre y el panel de Intrusos, '
          'quienes en ese minuto hablaban sobre ella.\xa0\n'
          '“Fue una decisión bien personal y difícil que tomó su familia. Al '
          'parecer era lo mejor que se podía hacer. Ellos (los padres) están '
          'quisquillosos con el tema, p

                   'uri': 'http://es.wikipedia.org/wiki/Casa_Rosada'},
                  {'confidence': 0.6689,
                   'end': 150,
                   'id': 8911,
                   'label': 'Presidente',
                   'spot': 'presidente',
                   'start': 140,
                   'title': 'Presidente de la Nación Argentina',
                   'uri': 'http://es.wikipedia.org/wiki/Presidente_de_la_Naci%C3%B3n_Argentina'},
                  {'confidence': 0.7797,
                   'end': 240,
                   'id': 3166268,
                   'label': 'Mariú',
                   'spot': 'Mariu',
                   'start': 235,
                   'title': 'Mariú',
                   'uri': 'http://es.wikipedia.org/wiki/Mari%C3%BA'},
                  {'confidence': 0.6773,
                   'end': 247,
                   'id': 4632258,
                   'label': 'María Eugenia Vidal',
                   'spot': 'Vidal',
                   'start': 242,
  

It's useful to check if the casting was performed correctly before proceding, the resulting decoded type can be inspected with:

In [3]:
print(type(data))

<class 'list'>


__Note__: If you are using Spyder IDE you can keep track of variable simply looking at the variable explorer window.

So the JSON is now a list. How many entities do we have?

In [4]:
data_len = len(data)
print('There are {} total elements to analyze.'.format(data_len+1))

There are 438 total elements to analyze.


Let's go deeper. We decoded the JSON to a list, but what kind of list is it? What happened to JSON objects?

In [5]:
for i in range(data_len):
    print(type(data[i]))

<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'di

Of course, *data* is not a simple list, it's a nested list of dictionaries! Let's print the *dict_keys*:

In [6]:
for i in range(data_len):
    print(data[i].keys())

dict_keys(['_id', 'id', 'original', 'time', 'annotations', 'lang', 'langConfidence', 'text', 'url', 'timestamp', 'publicationTime'])
dict_keys(['_id', 'id', 'original', 'time', 'annotations', 'lang', 'langConfidence', 'text', 'url', 'timestamp', 'publicationTime'])
dict_keys(['_id', 'id', 'original', 'message', 'code', 'data', 'error', 'timestamp'])
dict_keys(['_id', 'id', 'original', 'message', 'code', 'data', 'error', 'timestamp'])
dict_keys(['_id', 'id', 'original', 'time', 'annotations', 'lang', 'langConfidence', 'text', 'url', 'timestamp', 'publicationTime'])
dict_keys(['_id', 'id', 'original', 'time', 'annotations', 'lang', 'langConfidence', 'text', 'url', 'timestamp', 'publicationTime'])
dict_keys(['_id', 'id', 'original', 'time', 'annotations', 'lang', 'langConfidence', 'text', 'url', 'timestamp', 'publicationTime'])
dict_keys(['_id', 'id', 'original', 'time', 'annotations', 'lang', 'langConfidence', 'text', 'url', 'timestamp', 'publicationTime'])
dict_keys(['_id', 'id', 'origi

This is interesting: in the provided dataset there are some entities that don't have a *text* field. So let's first take only the elements that have a text field and put them in a new non-nested list:

In [7]:
tex = []
for i in range(data_len):
    if 'text' in data[i]:
        tex.append(data[i]['text'])

This is better. We now have an actual working list. Again, how many entities do we have?

In [8]:
tex_len = len(tex)
print('There are actually {} text elements to analyze!'.format(tex_len+1))

There are actually 430 text elements to analyze!


This is good enough for now, later we can make a deeper analysis, associating each *text* key with its *id* key and its *time* key to correlate which user visualizes which entity and when.  

It's good practice to have a new txt file for every step in NLP processing. So let's create a new txt file populated with the *text keys* of the *tex list*, __one per line__. 

Since some of the text values are made of more than one paragraphs, we need to substitute linebreaks (newline character) with a space character. Some caution is needed because some paragraphs have a double linebreak.  

In [9]:
#Swap linebreaks with a space
for i in range(tex_len):
    tex[i] = tex[i].replace('\n\n','\n')
    tex[i] = tex[i].replace('\n',' ')

#Create new txt with text keys (one per line)
with codecs.open('data/text.txt','w',encoding='utf-8') as text:
    for i in range(tex_len):
        text.write('%s\n' % tex[i])

To view the file and check that everything was executed as it should you don't need another editor:

In [10]:
#Print the first 5000 characters
with codecs.open('data/text.txt',encoding='utf-8') as text:    
    print(text.read(5000))

Cerró el comedor cordobés al que Macri le había prometido ayuda Luis Almadaes cordobés ytenía un comedor comunitario y una fundación para ayudar a gente en situación de calle. Desesperado, en mayo le envió un mensaje por redes sociales al presidente Mauricio Macripara que lo ayude a sostener el emprendimiento. El mandatario lo llamó por teléfono días después y el 12 de julio se vieron personalmente en esa provincia. Allí, le prometió ayuda. Pero nunca llegó y por eso no tuvo más alternativa que bajar la persiana. Su fundación "Yo Te Ayudo Amigo del Alma" ayudaba a unas 20 personas en situación de calle para que vendieran golosinas en la peatonal y pudieran capacitarse en un oficio. Almada dijo a La Naciónque debió cerrar la fundación: "Puse mi esfuerzo,cumplí con lo que me comprometí pero solo no puedo. No llamé al Presidente para pedirle alfajores, sino para que nos ayudara con tratamiento de adicciones, con asistentes sociales. Macri me dijo que lo hagamos.Los tiempos de Nación no so

Data preprocessing is over, we now have a txt ready to feed our NLP modules!
## Language processing with Spa

Text mining tasks have become incredibly easy thanks to [spaCy](http://alpha.spacy.io/), a NLP Python module which provides:
* Non-destructive tokenization
* Syntax-driven sentence segmentation
* Pre-trained word vectors
* Part-of-speech tagging
* Named entity recognition
* Labelled dependency parsing
* A built-in visualizer 

...and much more, all with just one function!

SpaCy also provides some already trained [models](https://alpha.spacy.io/models/) which you can use out-of-the-box to process different languages. SpaCy's core is written in pure C (via Cython), it's currently the [fastest](https://alpha.spacy.io/usage/facts-figures) parser available and makes [multithreading](https://explosion.ai/blog/multithreading-with-cython) profitable by virtue of Cython.

Follow the *README* of this repo and install the Spanish language model. Now import the model, open text.txt file and store content in a single string:

In [13]:
%%time 
import spacy

#Initialize SpaCy's pipeline
nlp = spacy.load('es_core_web_sm')

#Open text file and store content in a single str
with codecs.open('data/text.txt',encoding='utf-8') as text:
    full_txt = text.read()

CPU times: user 226 ms, sys: 35.8 ms, total: 261 ms
Wall time: 261 ms


Now that we have a processing pipeline, we can call a *nlp* instance as if it were a function on a string of text. This will produce a [Doc](https://alpha.spacy.io/api/doc) object, a special container that holds all linguistic annotations of the text fed in. The standard way would be to call *nlp(full_txt)*, but I will make use instead of the *.pipe()* method which allows efficient [multi-threading](https://spacy.io/docs/usage/processing-text#multithreading). Note that all processing algorithms are linear-time in the length of the string.

Let's first explore how SpaCy processes a single entity, before diving into the dataset:

In [14]:
%%time
#Snip single line of text
with codecs.open('data/text.txt',encoding='utf-8') as text:
    line_txt = text.readline()

#Standard way of processing text 
doc = nlp(line_txt)

CPU times: user 381 ms, sys: 758 ms, total: 1.14 s
Wall time: 313 ms


In [15]:
print(doc)

Cerró el comedor cordobés al que Macri le había prometido ayuda Luis Almadaes cordobés ytenía un comedor comunitario y una fundación para ayudar a gente en situación de calle. Desesperado, en mayo le envió un mensaje por redes sociales al presidente Mauricio Macripara que lo ayude a sostener el emprendimiento. El mandatario lo llamó por teléfono días después y el 12 de julio se vieron personalmente en esa provincia. Allí, le prometió ayuda. Pero nunca llegó y por eso no tuvo más alternativa que bajar la persiana. Su fundación "Yo Te Ayudo Amigo del Alma" ayudaba a unas 20 personas en situación de calle para que vendieran golosinas en la peatonal y pudieran capacitarse en un oficio. Almada dijo a La Naciónque debió cerrar la fundación: "Puse mi esfuerzo,cumplí con lo que me comprometí pero solo no puedo. No llamé al Presidente para pedirle alfajores, sino para que nos ayudara con tratamiento de adicciones, con asistentes sociales. Macri me dijo que lo hagamos.Los tiempos de Nación no so

Looks exactly the same! But what happened under the hood?

What about __sentence detection__ and __segmentation__?

In [16]:
for num, sent in enumerate(doc.sents):
    print ('Sentence {}:'.format(num + 1),sent,end='\n\n')
    

Sentence 1: Cerró el comedor cordobés al que Macri le había prometido ayuda Luis Almadaes cordobés ytenía un comedor comunitario y una fundación para ayudar a gente en situación de calle.

Sentence 2: Desesperado, en mayo le envió un mensaje por redes sociales al presidente Mauricio Macripara que lo ayude a sostener el emprendimiento. 

Sentence 3: El mandatario lo llamó por teléfono días después y el 12 de julio se vieron personalmente en esa provincia.

Sentence 4: Allí, le prometió ayuda. 

Sentence 5: Pero nunca llegó y por eso no tuvo más alternativa que bajar la persiana.

Sentence 6: Su fundación "Yo Te Ayudo Amigo del Alma" ayudaba a unas 20 personas en situación de calle para que vendieran golosinas en la peatonal y pudieran capacitarse en un oficio.

Sentence 7: Almada dijo a La Naciónque debió cerrar la fundación: "Puse mi esfuerzo,cumplí con lo que me comprometí pero solo no puedo.

Sentence 8: No llamé al Presidente para pedirle alfajores, sino para que nos ayudara con tra

What about __named entity recognition__ (__NER__)?

In [17]:
for num, ent in enumerate(doc.ents):
    print ('Entity {}:'.format(num + 1),ent,'-', ent.label_,end='\n\n')


Entity 1: Macri - PER

Entity 2: Luis Almadaes - PER

Entity 3: Desesperado - LOC

Entity 4: Mauricio Macripara - PER

Entity 5: Allí - PER

Entity 6: Yo Te Ayudo Amigo del Alma - MISC

Entity 7: Almada - LOC

Entity 8: La Naciónque - LOC

Entity 9: Puse - PER

Entity 10: No llamé al Presidente - MISC

Entity 11: Macri me dijo - MISC

Entity 12: Los tiempos de Nación - MISC

Entity 13: Puse - PER

Entity 14: No pedí nada para mí - MISC

Entity 15: Vino el Presidente - PER

Entity 16: Almada - LOC

Entity 17: Provincia - LOC

Entity 18: Municipalidad - LOC

Entity 19: Hace - ORG

Entity 20: Carolina Stanley - PER

Entity 21: Presidente - PER

Entity 22: Ahora - MISC

Entity 23: Almada - LOC

Entity 24: Cómo - MISC

Entity 25: No tengo más plata - MISC

Entity 26: Laburo - MISC

Entity 27: El día de la visita presidencial - MISC

Entity 28: Talleres - ORG

Entity 29: Sin embargo - MISC

Entity 30: Almada - LOC

Entity 31: Estado Nacional - LOC

Entity 32: Ayer - LOC

Entity 33: Ello nos 

What about __part-of-speech__ (__POS__) __tagging__? (We will actually use [Pandas](http://pandas.pydata.org/) to have a clean table visualization)

In [18]:
import pandas as pd

token_text = [token.orth_ for token in doc]
token_pos = [token.pos_ for token in doc]

pd.DataFrame(list(zip(token_text,token_pos)), columns=['token_text', 'part_of_speech'])

Unnamed: 0,token_text,part_of_speech
0,Cerró,VERB
1,el,DET
2,comedor,NOUN
3,cordobés,ADJ
4,al,ADP
5,que,PRON
6,Macri,PROPN
7,le,PRON
8,había,AUX
9,prometido,VERB


What about __text normalization__, like __stemming__, __lemmatization__ and shape analysis?


In [19]:
token_lemma = [token.lemma_ for token in doc]
token_shape = [token.shape_ for token in doc]

pd.DataFrame(list(zip(token_text, token_lemma, token_shape)),columns=['token_text', 'token_lemma', 'token_shape'])

Unnamed: 0,token_text,token_lemma,token_shape
0,Cerró,cerró,Xxxxx
1,el,el,xx
2,comedor,comedor,xxxx
3,cordobés,cordobés,xxxx
4,al,al,xx
5,que,que,xxx
6,Macri,macri,Xxxxx
7,le,le,xx
8,había,había,xxxx
9,prometido,prometido,xxxx


Lemmatization is actually not supported for the Spanish language model. We still have some normalization, as seen from the shape mask applied to every word.

What about __token-level entity__ analysis?

In [20]:
token_entity_type = [token.ent_type_ for token in doc]
token_entity_iob = [token.ent_iob_ for token in doc]

pd.DataFrame(list(zip(token_text, token_entity_type, token_entity_iob)), columns=['token_text', 'entity_type', 'inside_outside_begin'])

Unnamed: 0,token_text,entity_type,inside_outside_begin
0,Cerró,,O
1,el,,O
2,comedor,,O
3,cordobés,,O
4,al,,O
5,que,,O
6,Macri,PER,B
7,le,,O
8,había,,O
9,prometido,,O


What about a variety of other __token-level attributes__, such as the relative frequency of tokens, and whether or not a token matches any of these categories?
- stopword
- punctuation
- whitespace
- number
- url


In [21]:
token_attributes = [(token.orth_,
                     token.prob,
                     token.is_stop,
                     token.is_punct,
                     token.is_space,
                     token.like_num,
                     token.like_url)
                    for token in doc]

df = pd.DataFrame(token_attributes,
                  columns=['text',
                           'log_probability',
                           'stop?',
                           'punctuation?',
                           'whitespace?',
                           'number?',
                           'url?'])

df.loc[:, 'stop?':'url?'] = (df.loc[:, 'stop?':'url?'].applymap(lambda x: u'Yes' if x else u''))
                                               
df



Unnamed: 0,text,log_probability,stop?,punctuation?,whitespace?,number?,url?
0,Cerró,-20.0,,,,,
1,el,-20.0,Yes,,,,
2,comedor,-20.0,,,,,
3,cordobés,-20.0,,,,,
4,al,-20.0,Yes,,,,
5,que,-20.0,Yes,,,,
6,Macri,-20.0,,,,,
7,le,-20.0,Yes,,,,
8,había,-20.0,Yes,,,,
9,prometido,-20.0,,,,,


The relative frequency is not stored in the model, but that's not important since we don't intend to rely on WordNet anyways.

## Phrase Modeling with Gensim
