Skip to content
Curso: "Introducción al análisis y visualización de datos con R para Ciencias Sociales y Humanidades" para el Magíster en Investigación Social y Desarrollo de la Universidad de Concepción
Branch: master
Clone or download

Latest commit

Fetching latest commit…
Cannot retrieve the latest commit at this time.

Files

Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
README.md
r_en_conce.png

README.md

Introducción al análisis y visualización de datos con R para Ciencias Sociales y Humanidades

Curso de verano para el Magíster en Investigación Social y Desarrollo de la Universidad de Concepción, a realizarse entre el 7 y el 11 de enero de 2019. El enlace directo a este repositorio es: http://bit.ly/udec_curso_r

El curso tiene por objetivo introducir a sus participantes en el manejo de R para el procesamiento, análisis y visualización de datos. A partir de las realización de ejercicios prácticos, se espera que los participantes se familiaricen con el uso de esta herramienta y comprendan el potencial que tiene para la investigación en Ciencias Sociales y Humanidades.

Preparación para el curso

Para el curso es necesario que traigan su computador personal. Lo ideal sería que ya tuvieran R y RStudio instalados. A continuación están las indicaciones para hacerlo.

Instalación de R y RStudio

En este curso utilizaremos R a través del IDE RStudio. ¿Qué es un IDE? IDE es el acrónimo de Integrated Development Environment (Entorno de Desarrollo Integrado). Esto quiere decir que RStudio es una aplicación que nos entrega herramientas para hacer más fácil el desarrollo de proyectos usando R.

Para poder instalar R y RStudio, sigue los siguientes pasos:

  • Descarga R desde https://cran.r-project.org/. Debes elegir la opción que corresponda, según tu sistema operativo.
  • Instala R en tu computador, tal como lo haces con cualquier programa.
  • Una vez que R ha quedado correctamente instalado, descarga RStudio desde https://www.rstudio.com/products/rstudio/download/. Elige la primera opción, es decir, "RStudio Desktop Open Source License" (gratuita).
  • Instala RStudio en tu computador, tal como lo haces con cualquier programa.

Si quedó todo bien instalado, cuando abras RStudio deberías ver algo así:

En este curso usaremos la última versión de R y RStudio, así que si tienes instalada una versión previa, puede que algunas cosas se vean un poco distintas.

IMPORTANTE: Si te aparece algún error durante este proceso, lo más probable es que sea por alguna configuración de tu sistema operativo. En ese caso, la mejor manera de buscar una solución es copiar el error que arroja R, pegarlo en tu motor de búsqueda favorito y ver cómo alguien que se enfrentó a eso antes lo resolvió.

Instalación de los paquetes de R que utilizaremos

Cuando instalamos R por primera vez en nuestro computador, lo que estamos instalando es lo que se conoce como "R Base", es decir, los elementos centrales del lenguaje de programación. Una de las ventajas de R es que se trata de un lenguaje extensible: la propia comunidad de usuarios puede desarrollar nuevas posibilidades para utilizarlo. La manera de compartir estos nuevos desarrollos es a través de "paquetes", que incluyen, entre otras cosas, código y datos. Una analogía que se suele utilizar para explicar esto es que R Base es un teléfono celular tal como viene de fábrica y los paquetes las apps que descargamos para que tenga más funcionalidades.

En la primera sesión del curso usaremos tres paquetes: gapminder, babynames y tidyverse. Los dos primeros (gapminder y babynames) son paquetes que incluyen datos que nos servirán para algunos de los ejercicios que realizaremos. tidyverse, por su parte, es un "megapaquete" que incluye otros paquetes en su interior. Todos los paquetes que conforman "el Tidyverse" comparten la misma visión sobre el trabajo con datos y la escritura de código. Quizás ahora eso suene un poco enigmático, pero más adelante explicaremos qué quiere decir.

Para instalarlos,

  1. copia el siguiente código:
install.packages("tidyverse")
install.packages("gapminder")
install.packages("babynames")
  1. pégalo en la consola (Console) de RStudio:

  1. presiona 'enter'. El último paquete es un poco más pesado que el resto, así que, dependiendo de tu conexión, podría tomar alrededor de un minuto en descargarse. El resultado se debería ver parecido a esto:

¿Salió todo bien? ¡Excelente! Ya escribiste tus primeras líneas de código :)

Warnings / Errores

Si no tienes la última versión de R, puede que aparezca un "Warning" durante la instalación, que te avisa que el paquete fue construido bajo otra versión de R. Un "Warning" es distinto a un error: R ejecuta el código que le pides, pero te advierte que no todo puede resultar como esperas. Cuando aparece un error, en cambio, el código no se ejecuta.

En caso de que tengan un Mac

Es posible que a algunas personas que usen sistemas operativos Mac les aparezca un mensaje similar a este cuando abren R/RStudio:

'Durante la inicializaci''on - Warning messages:
1: Setting LC_CTYPE failed, using "C"
2: Setting LC_COLLATE failed, using "C"
3: Setting LC_TIME failed, using "C"
4: Setting LC_MESSAGES failed, using "C"
5: Setting LC_MONETARY failed, using "C"
[R.app GUI 1.70 (7521) x86_64-apple-darwin15.6.0]

WARNING: You''re using a non-UTF8 locale, therefore only ASCII characters will work.
Please read R for Mac OS X FAQ (see Help) section 9 and adjust your system preferences accordingly.'

Esto ocurre porque existe un problema con la codificación de caracteres definida en su computador. Para resolverlo, deben cerrar R/RStudio, abrir el "Terminal" de su computador, pegar el siguiente código: defaults write org.R-project.R force.LANG en_US.UTF-8 y ejecutarlo. Si nunca han ocupado el Terminal, no se preocupen, porque dedicaremos un tiempo al inicio de la primera clase para resolver este tipo de asuntos.

Dudas sobre el proceso de instalación

Si te encuentras con algún problema en las instalación que no sabes cómo resolver, puedes enviarme un correo para que tratemos de buscarle una solución: riva.quiroga arroba uc.cl.

Sesión 1

En esta primera sesión hablaremos acerca de qué es un lenguaje de programación y cuáles son las ventajas que tiene utilizarlo en el marco de la investigación en Ciencias Sociales y Humanidades. Conoceremos cómo se ejecuta el código en R, las herramientas que ofrece RStudio y algunas funciones básicas para el trabajo con datos.

El código que vayamos escribiendo durante la sesión estará disponible en el siguiente enlace.

Recursos adicionales

Sesión 2

En esta sesión revisaremos distintas formas de leer datos hacia R. Usaremos el paquete haven para importar archivos en formatos propios de programas como SPSS y STATA y veremos como leer un archivo que está en internet directamente (es decir, sin guardarlo antes localmente en el computador). Revisaremos funciones para limpiar y ordenar datos, y otras para unir y transformar datasets.

Los paquetes nuevos que instalaremos en esta sesión son:

install.packages("downloader")
install.packages("readxl")

El código de hoy aparecerá en este enlace.

Si no tienen un programa para descomprimir archivos .rar en su computador, pueden descargar los datos para el ejercicio 1 desde acá.

Recursos adicionales

  • Pueden encontrar información adicional sobre el paquete haven en este enlace.

  • ModernDive: Tutorial sobre análisis estadístico en R

Sesión 3

En la primera parte de la sesión de hoy haremos un par de ejercicios breves sobre limpieza y transformación de datos que quedaron pendientes de la sesión de ayer, y luego nos enfocaremos en el análisis de datos textuales.

Para uno de los ejercicios pendientes usaremos los datos que se encuentran en este enlace.

Los paquetes nuevos que instalaremos en esta sesión son:

install.packages("tidytext")
install.packages("quanteda")
install.packages("readtext")
install.packages("syuzhet")

El código de hoy aparecerá en este enlace y los datos que es necesario que descarguen en este otro.

Recursos adicionales

Sesión 4

En la primera parte de la sesión de hoy seguiremos explorando las posibilidades del paquete quanteda para hacer análisis de textos. Luego, nos enfocaremos en estrategias para hacer web scraping, es decir, para extraer información de sitios web.

Los paquetes nuevos que instalaremos en esta sesión son:

install.packages("rvest")
install.packages("janitor")

Recursos adicionales

Sesión 5

Esta última sesión se iniciará a las 17:00 con una actividad abierta sobre cómo se organiza la comunidad de R a través de iniciativas como RLadies y LatinR, entre otras.

Luego, en nuestra última sesión del curso veremos algunos ejemplos adicionales que complementan lo que revisamos a lo largo de esta semana.

  • El código que vayamos escribiendo hoy irá apareciendo en este enlace. El archivo ya tiene algunas líneas del código de ayer que usaremos para empezar hoy (básicamente, reconstruiremos lo que hicimos al final de la clase de una forma mucho más rápida y eficiente).

  • Los datos que usaremos están en esta carpeta

Recursos para seguir profundizando sobre temas que vimos o sobre otros que no eran parte del curso pero que les pueden interesar

Recursos en español

  • Ciencia de Datos para gente sociable. Este tutorial tiene por destinatarios principales personas de Ciencias Sociales. La última parte está enfocada en el trabajo con datos espaciales.
  • The Programming Historian publica tutoriales revisados entre pares que buscan acercar herramientas digitales a personas que vienen de las humanidades. Encontrarán recursos sobre R, Python y entre otros. También hay una versión en inglés del sitio.
  • Próximamente R para Ciencia de Datos. En este enlace pueden ver la traducción en proceso del libro R for Data Science que está realizando la comunidad de R de Latinoamérica. Si quieren saber más del proyecto o les interesa participar en la traducción, revisen este repositorio

Visualización de datos

Durante el curso trabajamos principalmente con el paquete ggplot2. Pueden encontrar la documentación del paquete con la indicación de qué hace cada función en el sitio web del Tidyverse. Otros paquetes que pueden explorar:

Datos espaciales

Paquetes que sirven para hacer análisis de datos especiales:

Machine Learning

Otros recursos

... proximamente...

Evaluación del curso

Aquellas personas interesadas en tener una evaluación del curso tienen la posibilidad de realizar un ejercicio en el que apliquen una o más de las estrategias de análisis revisadas. La idea es que piensen en algún problema que quieran resolver usando R y que generen una posible solución para ese problema.

Algunas ideas:

  • Limpiar y ordenar una base de datos con la que les interesa trabajar en el futuro.
  • Crear una base de datos a partir de la unión de datos provenientes de distintas fuentes.
  • Hacer web scraping de algún sitio web del que quieran obtener datos.
  • Explorar otros datos de la Unión Interparlamentaria y generar alguna visualización.
  • Aplicar alguna de las estrategias de análisis de textos revisadas en el curso, pero con un corpus que sea de su interés.
  • Leer desde internet un archivo .csv hacia R, explorar los datos usando alguna de las funciones que vimos (filter(), group_by, mutate(), summarize(), select(), etc.) y visualizarlos con el paquete ggplot2.
  • Una mezcla de alguno de los ejemplos anteriores.

Si tienen alguna idea en mente y quieren discutirla antes de empezar, pueden enviarme un correo: riva.quiroga arroba uc.cl.

Modalidad de trabajo

El trabajo se puede realizar de forma individual o en parejas.

¿Qué debo entregar?

Si la propuesta no implica la carga de archivos locales (es decir, que estén en el computador de quien ejecuta el código), pueden entregar solo el script. Si lo que quieren hacer implica leer algún archivo desde el computador a R, entonces deben entregar la carpeta con su proyecto comprimida, que incluya el script y los archivos que se utilizarán. La entrega se hace a través del siguiente enlace.

¿Hasta cuándo puedo entregar el ejercicio?

El plazo para entregar el ejercicio es el lunes 21 de enero. Cualquier situación especial, podemos resolverla por correo antes de esa fecha (por ejemplo, si necesitan tener su nota antes o requieren más plazo para poder desarrollar el ejercicio). Es importante que consideren que si entregan después de esa fecha su nota no alcanzará a quedar registrada ahora en enero y tendrán que esperar hasta marzo para que aparezca.

You can’t perform that action at this time.