# Grado en ciencia de datos - Big Data

# Práctica 2 - Parte II - Ejercicios SparkSQL

En este segundo notebook de la práctica 2 se deberán realizar varios ejercicios haciendo uso de los DataFrames de Spark. 

No es necesario entregar todos los ejercicios, incluyo todos para quien tenga ganas y tiempo.

Ten en cuenta que una vez tengas en marcha Spark, podrás visualizar la evolución de cada trabajo de Spark en  <http://localhost:4040>

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .master("local[*]") \
    .appName("Ejemplo pySparkSQL") \
    .config("spark.sql.warehouse.dir", "file:///D:/tmp/spark-warehouse") \
    .getOrCreate()

sc = spark.sparkContext

Otros imports necesarios:

In [None]:
%matplotlib inline 
import numpy as np
import matplotlib.pyplot as plt
from test_helper import Test
from pyspark.sql import functions as F
from pyspark.sql import Row

## Ejercicio 1. Contar palabras

Crear una función MapReduce en Spark llamada `cuentaPalabras(filePath)` que cuente cuántas veces aparece cada palabra en un documento o conjunto de documentos de entrada. Utiliza DataFrames.

**Entrada:** Documento o documentos

**Salida:** (Palabra, Número de apariciones)

Pasos a seguir:
1. Leer el fichero. Cada línea es un elemento del DataFrame (columna value).
2. Dividir las líneas en palabras.
3. Filtrar palabras vacías.
4. Contar las occurrencias de cada palabra.
5. Devolver al driver las 10 palabras más repetidas


In [None]:
def cuentaPalabras(filePath):
    ### Rellenar

El programa debe ser capaz de pasar los siguientes tests

In [None]:
top10Quijote = cuentaPalabras("./datos/pg2000.txt")
print(top10Quijote)
Test.assertEquals(top10Quijote, [(u'que', 19429), (u'de', 17988), (u'y', 15894), (u'la', 10200), 
                          (u'a', 9575), (u'el', 7957), (u'en', 7898), (u'no', 5611), 
                          (u'se', 4690), (u'los', 4680)],
                  'Resultado incorrecto')

### Parte 2 - Mejorando la cuenta de palabras
Utiliza la función `eliminarPuntuacion(text)` para contar todas las palabras igual independientemente de las mayúsculas, los signos de puntuación etc. Utilizar DataFrames.

Pasos a seguir:
1. Leer el fichero. Cada línea es un elemento del DataFrame (columna value).
2. Eliminar los signos de puntuación.
2. Dividir las líneas en palabras.
3. Filtrar palabras vacías.
4. Contar las occurrencias de cada palabra.
5. Devolver al driver las 10 palabras más repetidas

In [None]:
from pyspark.sql.functions import regexp_replace, trim, col, lower
def eliminaSignosPuntuacion(column):
    """Elimina los signos de puntuación, pasa las palabras a minúsculas y elimina los espacios de más antes y después
    Args:
        column (Column): Una columna con una frase

    Returns:
        Column: Una columna llamada frase con la frase original limpia
    """
    return lower(trim(regexp_replace(column, r'[^0-9a-zA-ZñÑáéíóúÁÉÍÓÚ ]+', ''))).alias('frase')

fraseDF = spark.createDataFrame([(u'Hola!, Qué tal?',),
                                         (u' Sin barras_bajas!',),
                                         (u' *      Elimina puntación y espacios  * ,',)], ['frase'])
fraseDF.show(truncate=False)
(fraseDF
       .select(eliminaSignosPuntuacion(col('frase')))
       .show(truncate=False))

In [None]:
def cuentaPalabras(filePath):
    ### Rellenar

In [None]:
top10Quijote = cuentaPalabras("./datos/pg2000.txt")
Test.assertEquals(top10Quijote, [(u'que', 20626), (u'de', 18217), (u'y', 18188), (u'la', 10363), (u'a', 9880),
                                 (u'en', 8241), (u'el', 8210), (u'no', 6345), (u'los', 4748), (u'se', 4690)],
                  'Resultado incorrecto')

## Ejercicio 2. Histograma de repeticiones

Obtener un histograma del número de repeticiones de las palabras, es decir, cuántas palabras se repiten X veces:
* 1 vez – 3 palabras
* 2 veces – 10 palabras
* 3 veces – 20 palabras
* ...

Para ello crea una función MapReduce en Spark llamada `histogramaRepeticiones(filePath)`. Esta función NO debe hacerr uso de la función `cuentaPalabras(filePath)` del programa anterior aunque compartirá parte de su código. Todo debe realizarse mediante DafaFrames salvo el `collect()` final que devolverá una lista. La lista debe de estar ordenada por el número de veces. Continúa utilizando la función `eliminarPuntuacion(text)` para contar igual todas las palabras.

**Entrada:** Documento o documentos

**Salida:** (X veces, Número de palabras)


In [None]:
def histogramaRepeticiones(filePath):
    ### Rellenar

El programa debe ser capaz de pasar los siguientes tests

In [None]:
histQuijote = histogramaRepeticiones("./datos/pg2000.txt")
Test.assertEquals(histQuijote[:10], [(1, 11583), (2, 3664), (3, 1860), (4, 1147), (5, 780), (6, 552), 
                                     (7, 422), (8, 334), (9, 261), (10, 227)],
                  'Resultado incorrecto')

Podemos realizar un gráficos a partir de los datos con matplotlib

In [None]:
### Rellenar

## Ejercicio 3. Análisis sobre los tweets de las elecciones de EEUU de 2012

En lo que resta de práctica vamos a hacer uso del dataset disponible en la siguiente URL <https://datahub.io/dataset/twitter-2012-presidential-election>.

Este dataset contiene millones de tweets recogidos durante la campaña electoral de 2012 cuando se enfrentaban Romney (republicano) frente a Obama (demócrata). Se ha llegado a decir que una de las cosas que hizo ganar a Obama fue el uso del Big Data y el análisis de las redes sociales. De manera similar, nosotros vamos a trabajar con estos tweets para ver de lo que es capaz SparkSQL, desde la carga de datos a su análisis.

En nuestro caso, debido al tamaño del dataset utilizaremos solo la primera parte (400MB comprimidas y 3GB descomprimida). 

En primer lugar, leemos el dataset (en formato JSON) y lo cacheamos, para no tener que leerlo continuamente de disco.

In [None]:
datosJSON = ### Rellenar

#### ¿Cuántos tweets tenemos disponibles para analizar?

In [None]:
nTweets = ### Rellenar

In [None]:
Test.assertEquals(nTweets, 1000000, "El cálculo del número de tweets es incorrecto")

### Imprime el esquema del DataFrame y la primera fila para ver qué tipo de datos tenemos

In [None]:
### Rellenar

In [None]:
### Rellenar

### Filtrado de campos
Como puedes observar, tenemos una gran cantidad de campos correspondientes a cada tweet. Sin embargo, no todos son interesantes o no nos van a ser últiles para trabajar en esta práctica. Por ello, será más sencillo si solo nos quedamos con los campos que van a ser útiles.

### Crea un nuevo DataFrame, denominado `df`, que contenga solo los datos correspondientes a las siguientes columnas
* id
* user.name
* user.followers_count
* text
* retweet_count
* place.country
* entities.user_mentions
* entities.hashtags
* created_at

In [None]:
df = ### Rellenar

In [None]:
Test.assertEquals(df.columns, ['id', 'name', 'followers_count', 'text', 'retweet_count',
                               'country', 'user_mentions', 'hashtags', 'created_at'],
                 'Columnas seleccionadas incorrectas')

## Ejercicios básicos

### 1. Obtener la media de la longitud de los tweets por usuario ordenado de mayor a menor. ¿Quién es el usuario con mayor media de longitud? - considera solo aquellos que hayan publicado más de 100 tweets

Pasos a seguir:
1. Utiliza un select para obtener junto con cada nombre de usuario la longitud del tweet (usar función `length`)
2. Agrupar por nombre y obtener la media de la longitud y el conteo
3. Filtrar por conteo
5. Ordenar por media de la longitud
6. Obtener el nombre del primer usuario

In [None]:
## Devolver solo el nombre para pasar el test
usuario = ### Rellenar

In [None]:
Test.assertEquals(usuario, u'Cypress Gang', 'Usuario incorrecto')

### 2. Obtener el número de tweets por país para los tweets que tienen el país establecido


In [None]:
# Si en alguna ejecución no pasa el test porque cambia las posiciones de Spain e Indonesia está bien
tweetsPorPaisDF = ### Rellenar

In [None]:
Test.assertEquals(tweetsPorPaisDF.take(10), [(u'United States', 5240), (u'Brasil', 1212), (u'United Kingdom', 386), (u'Germany', 223), 
                                             (u'Indonesia', 188), (u'Spain', 188), (u'Mexico', 174), (u'Italy', 150), (u'Canada', 121), 
                                             (u'France', 94)], 'Tweets por país incorrectos')

### 3. Obtener el listado de los usuarios más mencionados
A tener en cuenta:
* Las menciones a otros usuarios aparecen en el campo `user_mentions` que es un array. La forma de desempaquetar el array es mediante la función explode. Una vez aplicada, se puede realizar otro select para quedarnos solo con el nombre del usuario `name`.

In [None]:
mencionUsuariosDF = ### Rellenar

In [None]:
Test.assertEquals(mencionUsuariosDF.take(10), [(u'Barack Obama', 13895), (u'Nicki Minaj', 9744), (u'YouTube', 5127), 
                                               (u'Mitt Romney', 4069), (u'Bill Maher', 3908), (u'ShareThis', 3876), 
                                               (u'2Chainz (Tity Boi)', 3862), (u'Most Funniest Man', 3059), 
                                               (u'PublicPolicyPolling', 2776), (u'Top Tweets \u2655', 2097)],
                  'Tweets por país incorrectos')

## Hashtags más populares

Vamos a realizar un análisis de los hashtags más populares

#### Imprime el esquema del DataFrame actual (`df`)

In [None]:
### Rellenar

#### Vamos a estudiar cuáles han sido los hashtags más populares
Para ello, vamos a seguir los siguientes pasos:
1. Los hashtags vienen dados por un array. La función `explode` nos permite desempaquetar el array y convertir cada el elemento del array en una fila. Denominaremos a esta columna 'tags'
2. Puedes observar (printSchema) como cada elemento de la columna tags está formado por el índice y el texto. Solo nos interesa el texto y además vamos a convertirlo a minúsculas (función `lower`). La columna resultante se llamará 'tag'.
3. Ya tenemos un DataFrame con todas las tags que han aparecido en los tweets que tenemos disponibles. Solo nos queda contar cuántas veces aparece cada tag (piensa como combinar `groupBy` con `count`).
4. Por último, nos gustaría obtener el DataFrame ordenado de mayor a menor número de veces que ha sido usado un tag. 
5. Cachea el DataFrame obtenido ya que lo usaremos un par de veces y nos evitaremos volver a calcularlo

In [None]:
top10tags = ### Rellenar

### Rellenar

In [None]:
Test.assertEquals(top10tags.take(10), [(u'obama', 30643), (u'usa', 30405), 
                              (u'tcot', 19116), (u'p2', 8608), 
                              (u'romney', 6171), (u'news', 4785), 
                              (u'gop', 4600), (u'obama2012', 4179), 
                              (u'teaparty', 4057), (u'somalia', 3636)],
                 'Tags obtenidas incorrectas')

Test.assertEquals(top10tags.is_cached, True, 'DataFrame no cacheado')

Los resultados obtenidos son curiosos, Obama es el hashtag más utilizado, seguido de cerca por USA, sin embargo, Romney, el candidato republicano aparece en muchos menos hashtags. ¿Tienen los republicanos menos presencia en twitter?

Aunque la respuesta aparentemente podría ser sí, es interesante ver que aparecen otros hashtags como 'tcot', ¿a qué se refiere? El próximo artículo nos da la respuesta: <http://www.ibtimes.com/what-does-tcot-mean-about-tcot-hashtag-top-conservatives-use-twitter-1109812>

En definitiva, los republicanos no se centraban tanto en el candidato, pero igualmente tenían presencia en twitter.

#### Hashtags y menciones a usuarios
Vamos a ver qué hashtags aparecen más veces junto con la mención a un mismo usuario. Esta vez nos olvidamos de pasarlo a mínusculas (no usar `lower`).

Queremos obtener un DataFrame en el que tengamos, el nombre del usuario mencionado, el texto de la hashtag y el conteo de cuántas veces ha aparecido conjuntamente. El DataFrame debe estar ordenado por conteo.

Recuerda que tanto los hashtags, como las menciones a usuarios están almacenadas en arrays que deben desempaquetarse. Para ello ten en cuenta que no puedes usar dos veces la función `explode` en el mismo select, y que por tanto debe de hacerse por separado.

In [None]:
userHashtagDF = ### Rellenar

In [None]:
### Si no pasa este test es posible que sea porque las siguientes líneas aparecen cambiadas:
#|     RCTV_CONTIGO|    ChávezCADUCÓ| 1233|
#|     RCTV_CONTIGO|   ChavezGranCob| 1175|
# Si solo es eso, está OK
Test.assertEquals(userHashtagDF.take(10), [(u'#TeamFollowBack', u'TeamFollowBack',  1487), (u'#TeamFollowBack', u'BillionDollarArt',  1458), 
                                           (u'#TeamFollowBack', u'USA',  1436), (u'#TeamFollowBack', u'NYC',  1372), 
                                           (u'RCTV_CONTIGO', u'Ch\xe1vezCADUC\xd3',  1231), (u'RCTV_CONTIGO', u'ChavezGranCob',  1173), 
                                           (u'CNN Breaking News', u'Obama',  834), (u'CNN Breaking News', u'Romney',  829), 
                                           (u'CNN Breaking News', u'CNNelections',  819), (u'Son of a Fratter', u'USA',  697)], 
                  'DataFrame de usuarios mencionados y hashtags incorrecto')

#### Presencia en los tweets de cada uno de los candidatos
En el apartado anterior sobre los hashtags solo nos hemos fijado en los hashtags, pero no hemos prestado atención al texto del mensaje. En el siguiente ejercicio vamos a tratar de ver en cuántos tweets estaba presente cada partido/candidato. Aunque debemos tener en cuenta que la mayor presencia no tiene porqué ser siempre buena (esto requeriría de un análisis mucho más profundo).

Para simplificar la tarea asumiremos que las palabras relacionadas con Obama/demócratas son: obama y democrat; y las relacionadas Romney/republicanos son: romney, republican y tcot.

Nuestro primer objetivo es crear un DataFrame en el que dispongamos de una columna que indique si menciona a Obama/demócratas  y otra si menciona a Romney/republicanos.

Para llevar a cabo esta tarea, vamos a seguir los siguientes pasos.
1. Crea un nuevo DataFrame a partir de `df`. A este DataFrame le vamos a añadir una nueva columna, llamada 'democrat', que nos indicará si en dicho tweet se ha mencionado alguna de las palabras correspondientes a los demócratas (obama, democrat). Si se ha mencionado alguna de ellas la columna tendrá el valor 'Democrat' y en otro caso el valor '-'. Para ello, haz uso de `withColumn` y las funciones `when/otherwise`. Considera siempre el texto en mínusculas (`lower`) para encontrar las coincidencias con `like`.
2. Al DataFrame que hemos generado en el pimer punto, vamos a añadir otra columna igual pero para el caso de las menciones de los republicanos, la nueva columna se llamará 'Republican'.
3. Obtener un DataFrame que nos indique qué porcentaje de los tweets mencionan algo que tienen que ver con los demócratas y en qué porcentaje no se les menciona. Columnas: democrat, porcentaje. El DataFrame se llamará democratDF. Para el cálculo del porcentaje, debemos utilizar el conteo total de tweets (nTweets).
4. Obtener un DataFrame que nos indique qué porcentaje de los tweets mencionan algo que tienen que ver con los republicanos y en qué porcentaje no se les menciona. Columnas: republican, porcentaje. El DataFrame se llamará republicanDF.
5. Por último, vamos a obtener un resumen más completo en el DataFrame partyDF. Para ello, vamos a añadir una nueva columna al DataFrame con democrat y republican que incluya la combinación de las dos columnas (`concat`). Posteriormente, obtendremos el porcentaje de tweets que corresponden a cada combinación. Así podemos analizar qué porcentaje de tweets mencionan solo a demócratas, solo a republicanos, a los dos a la vez o a ninguno.

**Nota: Todos los DataFrames deben estar ordenados de mayor a menor porcentaje**

In [None]:
columnaDemocratDF = ### Rellenar

columnaRepublicanDemocratDF = ### Rellenar

columnaRepublicanDemocratCombinadaDF = ### Rellenar

democratDF = ### Rellenar

republicanDF = ### Rellenar

dfParty = ### Rellenar

# Mostrar dataframes
### Rellenar

In [None]:
round_fun = lambda res: list(map(lambda k_v: (k_v[0], np.round(k_v[1], 4)), res))
Test.assertEquals(round_fun(democratDF.collect()), [(u'Democrat', 53.2483), (u'-', 46.7517)], 
                  'DataFrame de democratDF incorrecto')
Test.assertEquals(round_fun(republicanDF.collect()), [(u'-', 83.3746), (u'Republican', 16.6254)], 
                  'DataFrame de republicanDF incorrecto')
Test.assertEquals(round_fun(dfParty.collect()), [(u'--', 45.0071), (u'-Democrat', 38.3675), 
                                      (u'RepublicanDemocrat', 14.8808), (u'Republican-', 1.7446)], 
                  'DataFrame de dfParty incorrecto')

De nuevo el resultado deja ver que los demócratas tienen más presencia. Quizás sea porque los republicanos únicamente se dedicaban a criticarlos o porque realmente los demócratas se movieron mucho más en las redes sociales

# Explorar más el dataset de tweets y nuevas conclusiones

* Cuantificar el odio, contando el número de insultos (fuck, idiot, stupid, retard, moron, nutjob...) y calcular porcentajes para saber a qué partido iban más dirigidos

Obtener un datafreme con el porcentaje de insultos a cada partido por cada país.

1. La idea es combianar los ejercicios anteriores, seleccionar los tweets por país filtrando los nulos.
2. Añadir una columna democrat: si en el Tweet aparece obama o democrat -> Democrat, sino -. El texto está en minúsculas.
3. Añadir una columna republican: si en el Tweet aparece romney, republican o tcot -> Republican, sino -. El texto está en minúsculas.
4. Añadir una columna insult: si en el Tweet aparece fuck, idiot, stupid, retard, moron o nutjob -> Yes, sino No. El texto está en minúsculas.
5. Nos quedamos solo con los tweets en los que haya insultos, insult == YES.
6. Concatenar las columnas democrat y republican, obteniendo las combinaciones. Agrupar por país y esta última columna creada, obteniendo el porcentaje de insultos.

In [None]:
#Nos quedamos con los datos que queremos, filtramos paises nulos 
df2 = ### Rellenar

#Añadidos columna democrat.
columnaDemocratDF = ### Rellenar

#Añadidos columna republican.
columnaRepublicanDemocratDF = ### Rellenar

#Añadidos columna insult.
columnainsultDF = ### Rellenar

#Seleccionamos las columnas que nos interesan e insult == YES.
insultYesDF = ### Rellenar

#Concatenamos las columnas de partido, agrupamos país y la concatenada ordenada por país el porcentaje de insultos.
dfLast = ### Rellenar

#Mostramos el último dataframe.
### Rellenar

Escribir las conclusiones

# Utiliza tu imaginación para explorar más el dataset de tweets y sacar nuevas conclusiones

Para ello, describe el enunciado de la tarea que vas a realizar y luego resuélvelo. Para escribir el enunciado utiliza celdas de tipo "Markdown".

Por ejemplo, puede tratar de...
* Contar número de tweets por día, tweets por día y partido...
* Estudiar los usuarios que más seguidos tienen
* Estudiar si existe una correlación entre el número de retweets y los followers

In [1]:
### Enunciado

In [2]:
### Código

In [None]:
### Conclusiones