## Cuaderno de creación de lista negra de usuarios

El código definido a continuación tiene como objetivo analizar las publicaciones de la carpeta [`datos`](/datos/), y crear una lista de usuarios que no deberían ser considerados en el análisis de datos.

Se consideraran para esta lista usuarios que sean autores de: 

* Publicaciones hechas para fomentar el cuidado de la salud mental
    * Si bien se pueden encontrar palabras clave que indiquen tendencias suicidas, no necesariamente reflejan problemas mentales en quien las publica
* Publicaciones repetidas (spam o bots)

Para ejecutar las siguientes instrucciones, se empleará el lenguaje de R.

Será de utilidad en el análisis, además, el paquete `tm`, que permite realizar análisis sobre texto.

In [1]:
# Instalar paquetes necesarios
install.packages(
    c(
        "tm",
        "dplyr"
    ),
    repos = "http://cran.us.r-project.org"
)

also installing the dependencies 'NLP', 'slam'




package 'NLP' successfully unpacked and MD5 sums checked
package 'slam' successfully unpacked and MD5 sums checked
package 'tm' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\Administrador\AppData\Local\Temp\RtmpszvbkV\downloaded_packages


In [4]:
# Se cargan las librerías
library('tm')
library('dplyr')

In [5]:
# Se carga el archivo de texto
datos_ahorcarme <- read.csv("./datos/ahorcarme_complete.csv")
datos_colgarme <- read.csv("./datos/colgarme_complete.csv")

In [6]:
head(datos_ahorcarme)

Unnamed: 0_level_0,User,Content,Date,URL,Coordinates,Place
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
1,nadaespecial__,Con la misma soga puedo ahorcarme o saltar,2014-12-30 22:55:34,https://twitter.com/nadaespecial__/status/550062666434506752,,
2,LooreenaaN,"""@SoyBuenCatre: Debí ahorcarme con el cordón umbilical.""",2014-12-30 22:04:21,https://twitter.com/LooreenaaN/status/550049781054439424,,
3,errorbizarro_,"Estoy harto de ser pobre, asique ayer intente ahorcarme, pero en el intento el techo se me cayó encima, osea que también soy gordo. :(",2014-12-30 21:57:08,https://twitter.com/errorbizarro_/status/550047965302513664,,
4,Straatoo,"Hay un viejo culiao acá que tiene un humor culiao tan ahueonao, que me dan ganas de tirarme ahorcarme de una wea",2014-12-30 21:29:24,https://twitter.com/Straatoo/status/550040983464083457,,
5,yadizrh,@emilioelde yo sería mas original..... Soy capaz de ahorcarme con un fideo cosido si no me contestas guapetón. I love you!!! ^_^,2014-12-30 19:27:45,https://twitter.com/yadizrh/status/550010368035405826,,
6,AlexanndraMn,Tengo el pelo tan largo que podría ahorcarme con él.,2014-12-30 19:23:19,https://twitter.com/AlexanndraMn/status/550009254745083905,,


In [8]:
# Obtenemos del dataframe las que tengan usuarios que aparezcan más de 5 veces

# Ahorcarme
datos_ahorcarme <- datos_ahorcarme %>%
    group_by(User) %>%
    filter(n() > 5)

# Colgarme
datos_colgarme <- datos_colgarme %>%
    group_by(User) %>%
    filter(n() > 5)

In [11]:
# Creamos la lista de los usuarios que aparecen más de 5 veces

# Ahorcarme
usuarios_ahorcarme <- unique(datos_ahorcarme$User)

# Colgarme
usuarios_colgarme <- unique(datos_colgarme$User)

Ahora, podemos revisar manualmente los tweets de los usuarios que colocamos en la lista negra bajo este criterio, para determinar si realmente sus publicaciones son despreciables para el análisis.

In [19]:
# Obtenemos los tweets de estos usuarios, para revisarlos manualmente

# Ahorcarme
tweets_ahorcarme <- datos_ahorcarme %>%
    filter(User %in% usuarios_ahorcarme) %>%
    select(User, Content)

# Colgarme
tweets_colgarme <- datos_colgarme %>%
    filter(User %in% usuarios_colgarme) %>%
    select(User, Content)

# Y sacamos una muestra del 10% de los tweets

# Ahorcarme
obj_muestra_ahorcarme <- sample(1:nrow(tweets_ahorcarme), nrow(tweets_ahorcarme) * 0.1)

# Colgarme
obj_muestra_colgarme <- sample(1:nrow(tweets_colgarme), nrow(tweets_colgarme) * 0.1)

In [22]:
# Guardamos los tweets en un archivo

# Ahorcarme
write.table(
    tweets_ahorcarme[obj_muestra_ahorcarme, ],
    file = "./datos_limpios/tweets_ahorcarme.txt",
    row.names = FALSE,
    col.names = TRUE,
    quote = TRUE,
    sep = ","
)

# Colgarme
write.table(
    tweets_colgarme[obj_muestra_colgarme, ],
    file = "./datos_limpios/tweets_colgarme.txt",
    row.names = FALSE,
    col.names = TRUE,
    quote = TRUE,
    sep = ","
)


In [21]:
# Guardamos a los usuarios en lista negra en un archivo línea por línea:

# Ahorcarme
writeLines(usuarios_ahorcarme, "./datos_limpios/lista_negra_ahorcarme.txt", sep = "\n")

# Colgarme
writeLines(usuarios_colgarme, "./datos_limpios/lista_negra_colgarme.txt", sep = "\n")