Code for my blog post about text mining uruguayan Parliamentary sessions 🇺🇾
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
SpanishSentimentLexicons
data
images
packrat
.Rprofile
.gitignore
01-scraping_diputados.R
02_scraping_senadores.R
03-freq-and-common-words.R
04-sentimiento.R
05-tf-idf.R
06-pairwise-count.R
07-ngrams.R
LICENSE
README.md
functions.R
uruguayan_parliamentary_session_diary.Rproj

README.md

Diarios de Sesiones de Diputados y Senadores uruguayas: scraping y text mining

Éste es el código que usé para este artículo de mi blog donde scrapeo los Diarios de Sesiones de Diputados y Senadores de Uruguay desde enero de 2017 hasta marzo de 2018, y de este otro artículo donde analizo el texto de las sesiones

Archivos disponibles en csv (desde enero de 2017 hasta marzo de 2018):

La información a partir de la cual se construyeron los archivos proviene del sitio web del parlamento.

Paquetes destacados:

  • robotstxt de rOpenSci, para ver si la sección del sitio web que quiero navegar permite ser accedida por un robot 🤖;
  • rvest, para explorar la web y descargar los Diarios de Sesiones;
  • pdftools también de rOpenSci, para extraer el contenido de los archivos en formato pdf;
  • tidytext para analizar el texto de una manera tidy.

Lexicon de sentimiento

Utilicé este lexicon de sentimiento en mi análisis. No hay muchas opciones disponibles para el idioma español, y los resultados obtenidos tenían sentido.

No hice un análisis profundo del lexicon, pero tiene evidentes limitaciones:

  • tiene muy pocos términos (476 positivas de 871 en total);
  • la mayoría (si no todos) los adjetivos que considera son masculinos.

Contenido:

  • Scraping.
  • Frecuencia y largo de las sesiones de Diputados y Senadores.

Frecuencia de las sesiones de Diputados y Senadores Largo de las sesiones de Diputados y Senadores

  • Palabras más usadas en las sesiones de ambas Cámaras.
  • Palabras más usadas con sentimiento negativo y positivo, en ambas cámaras.

Palabras más usadas con sentimiento negativo y positivo, en ambas cámaras

  • Análisis de sentimiento por mes y en cada sesión, para ambas Cámaras.

Análisis de sentimiento por mes y en cada sesión, para ambas Cámaras

  • Análisis de temas tratados en ambas cámaras, mediante el cálculo del tf-idf.

Análisis de temas tratados en Diputados

Análisis de temas tratados en Senadores