# Proyecto: Agrupación `groupBy()` y función aggregate `.agg()`

Veremos cómo cambiar el tipo de dato de una clumna de un dataframe:

`.withColumn('col_name',col('col_name').cast('string_o_integer_etc'))` <-- Cambia el tipo de dato de la colmuna 'col_name' al tipo especificado en '.cast()'

`.groupBy( 'col_1_name', 'col_2_name',..., 'col_n_name' ).count()` <-- Agrupa un Data Frame con respecto a las columnas cuyos nombres se indican, posteriormente se agrega la columna 'count' que indica el conteo de los valores agrupados.

**Notemos que la función `.groupBy()` viene seguida de una acción, por ejemplo, `.count()`, que muestra un conteo de registros.**

**Si queremos agregar más de una función a datos agrupados con `.groupBy()` usamos la función `.agg()`**

`.agg( func_1('col_1_name') ,..., func_n('col_j_name') )` <-- La función aggregate permite aplicar un conjunto de funciones a columnas agrupadas con 'groupBy'

In [1]:
# libreria para crear punto de conexión:
from pyspark import SparkContext

# Cargamos libreria para crear Data Frames:
from pyspark.sql import SQLContext

#from pyspark.sql import SparkSession

# Cargamos librerias para crear el schema del DataFrame
from pyspark.sql.types import StructType, StructField

# Cargamos los tipos de datos que usaremos para crear las columnas de los dataframes:
from pyspark.sql.types import  IntegerType, StringType, FloatType

#from pyspark.sql.types import Row

# Importamos functions especiales, entre ellas la función 'col'
from pyspark.sql.functions import *


In [2]:
# Creamos el punto de conexió a Spark (que se ejecutará en mi máquina 'local'):
spark = SparkContext(master='local', appName='manipulando_DataFrames')

In [3]:
# Creamos el contexto para SQL:
sqlContext = SQLContext(spark)



In [4]:
# Visualizamos el contenido de la carpeta 'Data' 
!ls ./Data/

deporte.csv	 deportistaError.csv  modelo_relacional.jpg
deportista2.csv  evento.csv	      paises.csv
deportista.csv	 juegos.csv	      resultados.csv


In [5]:
# Ruta en donde se encuentran los datos con los que trabajaremos:
path = './Data/'

In [6]:
# Creamos función para eliminar encabezados en RDDs:
def eliminaEncabezado(indice , interador):
    return iter( list(interador)[1:] )

In [7]:
# Número de registros a visualizar:
N=5

## Creación de un DataFrame con los datos del archivo *paises.csv*

In [8]:
# Exploramos archivo.cvs para verificar si trae encabezado:

!head -n 5 Data/paises.csv

id,equipo,sigla
1,30. Februar,AUT
2,A North American Team,MEX
3,Acipactli,MEX
4,Acturus,ARG


In [9]:
# Guardamos archivo.csv en un DataFrame:

# Creamos un Schema para el DataFrame, es decir, 
# Asignamos nombre a las columnas, especificamos su tipo de dato y especificamos si el campo puede ser nulo
paisesSchema = StructType([
    StructField('id',IntegerType(),False),
    StructField('equipo',StringType(),False),
    StructField('sigla',StringType(),False) 
])

# Creamos el DataFrame:
paisesDF = sqlContext.read.schema(paisesSchema).option('header', 'true').csv(path+'paises.csv')

# La información de RDDs se muestra con '.take()'
# La información de DataFrames se muestra con '.show()'
paisesDF.show(N)

+---+--------------------+-----+
| id|              equipo|sigla|
+---+--------------------+-----+
|  1|         30. Februar|  AUT|
|  2|A North American ...|  MEX|
|  3|           Acipactli|  MEX|
|  4|             Acturus|  ARG|
|  5|         Afghanistan|  AFG|
+---+--------------------+-----+
only showing top 5 rows



## Creación de un DataFrame con los datos del archivo *deporte.csv*

In [10]:
# Exploramos archivo.cvs para verificar si trae encabezado:

!head -n 5 Data/deporte.csv

deporte_id,deporte
1,Basketball
2,Judo
3,Football
4,Tug-Of-War


In [11]:
# Guardamos archivo.csv en un DataFrame:

# Creamos un Schema para el DataFrame, es decir, 
# Asignamos nombre a las columnas, especificamos su tipo de dato y especificamos si el campo puede ser nulo
deportesSchema = StructType([
    StructField('deporte_id',IntegerType(),False),
    StructField('deporte',StringType(),False) 
])

# Creamos el DataFrame:
deportesDF = sqlContext.read.schema(deportesSchema).option('header', 'true').csv(path+'deporte.csv')

# La información de RDDs se muestra con '.take()'
# La información de DataFrames se muestra con '.show()'
deportesDF.show(N)

+----------+-------------+
|deporte_id|      deporte|
+----------+-------------+
|         1|   Basketball|
|         2|         Judo|
|         3|     Football|
|         4|   Tug-Of-War|
|         5|Speed Skating|
+----------+-------------+
only showing top 5 rows



## Creación de un DataFrame con los datos del archivo *evento.csv*

In [12]:
# Exploramos archivo.cvs para verificar si trae encabezado:

!head -n 5 Data/evento.csv

evento_id,evento,deporte_id
1,Basketball Men's Basketball,1
2,Judo Men's Extra-Lightweight,2
3,Football Men's Football,3
4,Tug-Of-War Men's Tug-Of-War,4


In [13]:
# Guardamos archivo.csv en un DataFrame:

# Creamos un Schema para el DataFrame, es decir, 
# Asignamos nombre a las columnas, especificamos su tipo de dato y especificamos si el campo puede ser nulo
eventoSchema = StructType([
    StructField('evento_id',IntegerType(),False),
    StructField('nombre',StringType(),False),
    StructField('deporte_id',IntegerType(),False) 
])

# Creamos el DataFrame:
deportesOlimpicosDF = sqlContext.read.schema(eventoSchema).option('header', 'true').csv(path+'evento.csv')

# La información de RDDs se muestra con '.take()'
# La información de DataFrames se muestra con '.show()'
deportesOlimpicosDF.show(N)

+---------+--------------------+----------+
|evento_id|              nombre|deporte_id|
+---------+--------------------+----------+
|        1|Basketball Men's ...|         1|
|        2|Judo Men's Extra-...|         2|
|        3|Football Men's Fo...|         3|
|        4|Tug-Of-War Men's ...|         4|
|        5|Speed Skating Wom...|         5|
+---------+--------------------+----------+
only showing top 5 rows



## Creación de un DataFrame con los datos del archivo *resultados.csv*

In [14]:
# Exploramos archivo.cvs para verificar si trae encabezado:

!head -n 5 Data/resultados.csv

resultado_id,medalla,deportista_id,juego_id,evento_id
1,NA,1,39,1
2,NA,2,49,2
3,NA,3,7,3
4,Gold,4,2,4


In [15]:
# Guardamos archivo.csv en un DataFrame:

# Creamos un Schema para el DataFrame, es decir, 
# Asignamos nombre a las columnas, especificamos su tipo de dato y especificamos si el campo puede ser nulo
resultadoSchema = StructType([
    StructField('resultado_id',IntegerType(),False),
    StructField('medalla',StringType(),False),
    StructField('deportista_id',IntegerType(),False),
    StructField('juego_id',IntegerType(),False),
    StructField('evento_id',IntegerType(),False)
])

# Creamos el DataFrame:
resultadoDF = sqlContext.read.schema(resultadoSchema).option('header', 'true').csv(path+'resultados.csv')

# La información de RDDs se muestra con '.take()'
# La información de DataFrames se muestra con '.show()'
resultadoDF.show(N)

+------------+-------+-------------+--------+---------+
|resultado_id|medalla|deportista_id|juego_id|evento_id|
+------------+-------+-------------+--------+---------+
|           1|     NA|            1|      39|        1|
|           2|     NA|            2|      49|        2|
|           3|     NA|            3|       7|        3|
|           4|   Gold|            4|       2|        4|
|           5|     NA|            5|      36|        5|
+------------+-------+-------------+--------+---------+
only showing top 5 rows



## Creación de un DataFrame con los datos del archivo *juegos.csv*

In [16]:
# Exploramos archivo.cvs para verificar si trae encabezado:

!head -n 5 Data/juegos.csv

,nombre_juego,annio,temporada,ciudad
1,1896 Verano,1896,Verano,Athina
2,1900 Verano,1900,Verano,Paris
3,1904 Verano,1904,Verano,St. Louis
4,1906 Verano,1906,Verano,Athina


In [17]:
# Guardamos archivo.csv en un DataFrame:

# Creamos un Schema para el DataFrame, es decir, 
# Asignamos nombre a las columnas, especificamos su tipo de dato y especificamos si el campo puede ser nulo
juegoSchema = StructType([
    StructField('juego_id',IntegerType(),False),
    StructField('nombre_juego',StringType(),False),
    StructField('anio',IntegerType(),False),
    StructField('temporada',StringType(),False),
    StructField('ciudad',StringType(),False)
])

# Creamos el DataFrame:
juegoDF = sqlContext.read.schema(juegoSchema).option('header', 'true').csv(path+'juegos.csv')

# La información de RDDs se muestra con '.take()'
# La información de DataFrames se muestra con '.show()'
juegoDF.show(N)

+--------+------------+----+---------+---------+
|juego_id|nombre_juego|anio|temporada|   ciudad|
+--------+------------+----+---------+---------+
|       1| 1896 Verano|1896|   Verano|   Athina|
|       2| 1900 Verano|1900|   Verano|    Paris|
|       3| 1904 Verano|1904|   Verano|St. Louis|
|       4| 1906 Verano|1906|   Verano|   Athina|
|       5| 1908 Verano|1908|   Verano|   London|
+--------+------------+----+---------+---------+
only showing top 5 rows



In [18]:
# Eliminamos la una columna del Data Frame:
juegoDF = juegoDF.drop('nombre_juego')

juegoDF.show(N)

+--------+----+---------+---------+
|juego_id|anio|temporada|   ciudad|
+--------+----+---------+---------+
|       1|1896|   Verano|   Athina|
|       2|1900|   Verano|    Paris|
|       3|1904|   Verano|St. Louis|
|       4|1906|   Verano|   Athina|
|       5|1908|   Verano|   London|
+--------+----+---------+---------+
only showing top 5 rows



## Creación de un DataFrame con los datos de los archivos *deportista.csv* y *deportista2.csv*

In [19]:
# Exploramos archivo.cvs para verificar si trae encabezado:

!head -n 5 Data/deportista.csv

deportista_id,nombre,genero,edad,altura,peso,equipo_id
1,A Dijiang,1,24,180,80,199
2,A Lamusi,1,23,170,60,199
3,Gunnar Nielsen Aaby,1,24,0,0,273
4,Edgar Lindenau Aabye,1,34,0,0,278


In [20]:
# Exploramos archivo.cvs para verificar si trae encabezado:

!head -n 5 Data/deportista2.csv

67787,Lee BongJu,1,27,167,56,970
67788,Lee BuTi,1,23,164,54,203
67789,Anthony N. Buddy Lee,1,34,172,62,1096
67790,Alfred A. Butch Lee Porter,1,19,186,80,825
67791,Lee ByeongGu,1,22,175,68,970


Notemos que el archivo 'deportista.csv' tiene encabezado y 'deportista2.csv' no tiene

El archivo 'deportista2.csv' es continuación de 'deportista.csv'

Para hacer un sólo Data Frame, haremos lo siguiente: 

1. Tranformamos los archivos.csv a RDDs

2. Eliminamos el encabezado del archivo 'deportista.csv'

3. Unimos los RDDs 'deportista' y 'deportista2

4. Ya que tenemos un sólo RDD lo pasamos a un Data Frame

In [21]:
# Guardamos archivos.csv en RDDs:
# .map(lambda l : l.split(',')) <-- Le asigan formato al contenido de archivos .csv

deportistaOlimpicoRDD = spark.textFile(path+'deportista.csv').map(lambda l : l.split(','))

deportistaOlimpicoRDD2 = spark.textFile(path+'deportista2.csv').map(lambda l : l.split(','))

In [22]:
# Vemos los primeros N registros del RDD:
deportistaOlimpicoRDD.take(N)

[['deportista_id', 'nombre', 'genero', 'edad', 'altura', 'peso', 'equipo_id'],
 ['1', 'A Dijiang', '1', '24', '180', '80', '199'],
 ['2', 'A Lamusi', '1', '23', '170', '60', '199'],
 ['3', 'Gunnar Nielsen Aaby', '1', '24', '0', '0', '273'],
 ['4', 'Edgar Lindenau Aabye', '1', '34', '0', '0', '278']]

In [23]:
# Eliminamos encabezado al primer RDD :
deportistaOlimpicoRDD = deportistaOlimpicoRDD.mapPartitionsWithIndex(eliminaEncabezado)

# Vemos los primeros N registros del RDD:
deportistaOlimpicoRDD.take(N)

[['1', 'A Dijiang', '1', '24', '180', '80', '199'],
 ['2', 'A Lamusi', '1', '23', '170', '60', '199'],
 ['3', 'Gunnar Nielsen Aaby', '1', '24', '0', '0', '273'],
 ['4', 'Edgar Lindenau Aabye', '1', '34', '0', '0', '278'],
 ['5', 'Christine Jacoba Aaftink', '2', '21', '185', '82', '705']]

In [24]:
# Vemos los primeros N registros del segundo RDD:
deportistaOlimpicoRDD2.take(N)

[['67787', 'Lee BongJu', '1', '27', '167', '56', '970'],
 ['67788', 'Lee BuTi', '1', '23', '164', '54', '203'],
 ['67789', 'Anthony N. Buddy Lee', '1', '34', '172', '62', '1096'],
 ['67790', 'Alfred A. Butch Lee Porter', '1', '19', '186', '80', '825'],
 ['67791', 'Lee ByeongGu', '1', '22', '175', '68', '970']]

In [25]:
# Unimos los 2 RDDs: deportistaOlimpicoRDD y deportistaOlimpicoRDD2
deportistaOlimpicoRDD = deportistaOlimpicoRDD.union( deportistaOlimpicoRDD2 )

In [26]:
# Creación de un Data Frame a partir de un RDD:

# Corregimos los tipos de dato en cada columna del RDD: 
deportistaOlimpicoRDD = \
    deportistaOlimpicoRDD.map(lambda x: ( int(x[0]), x[1],  int(x[2]), int(x[3]), int(x[4]), float(x[5]), int(x[6])  ) )


# A continuación creamos el schema, es decir, la estructura (columnas) del Data Frame donde pondremos los datos del RDD:
schema = StructType([
    StructField('deportista_id', IntegerType(), False ),
    StructField('nombre', StringType(), False ),
    StructField('genero', IntegerType(), False ),
    StructField('edad', IntegerType(), False ),
    StructField('altura', IntegerType(), False ),
    StructField('peso', FloatType(), False ),
    StructField('equipo_id', IntegerType(), False )
    ])

# StructField <-- instrucción para crear una columna, se debe especificar el tipo de dato que almacenará
# En caso de que el campo pueda ser nulo ponemos 'True' de lo contrario ponemos 'False'


# Creamos el DataFrame a partir del RDD:
deportistaOlimpicoDF = sqlContext.createDataFrame(deportistaOlimpicoRDD, schema)


# La información de RDDs se muestra con '.take()'
# La información de DataFrames se muestra con '.show()'
deportistaOlimpicoDF.show(N)

+-------------+--------------------+------+----+------+----+---------+
|deportista_id|              nombre|genero|edad|altura|peso|equipo_id|
+-------------+--------------------+------+----+------+----+---------+
|            1|           A Dijiang|     1|  24|   180|80.0|      199|
|            2|            A Lamusi|     1|  23|   170|60.0|      199|
|            3| Gunnar Nielsen Aaby|     1|  24|     0| 0.0|      273|
|            4|Edgar Lindenau Aabye|     1|  34|     0| 0.0|      278|
|            5|Christine Jacoba ...|     2|  21|   185|82.0|      705|
+-------------+--------------------+------+----+------+----+---------+
only showing top 5 rows



In [27]:
# Vemos los primeros N registros ordenadas de forma ascendente 
# con respecto a los valores de la columna 'edadAlJugar'

deportistaOlimpicoDF.sort('edad').show(N)

+-------------+--------------------+------+----+------+----+---------+
|deportista_id|              nombre|genero|edad|altura|peso|equipo_id|
+-------------+--------------------+------+----+------+----+---------+
|          133|           Franz Abb|     1|   0|     0| 0.0|      399|
|          167|Ould Lamine Abdallah|     1|   0|     0| 0.0|      362|
|           66|     Mohamed Abakkar|     1|   0|   156|48.0|     1003|
|          163|     Ismail Abdallah|     1|   0|     0| 0.0|     1095|
|          139|George Ioannis Abbot|     1|   0|     0| 0.0|     1043|
+-------------+--------------------+------+----+------+----+---------+
only showing top 5 rows



In [28]:
# Nos quedamos con registros donde los valores de la columna 'edad' sean distintos de cero
deportistaOlimpicoDF = deportistaOlimpicoDF.filter( (deportistaOlimpicoDF['edad'] !=0) )

In [29]:
# Mostramos los primeros registros ordenados con respecto a los valores de la columna 'edad'
deportistaOlimpicoDF.sort('edad').show(N)

+-------------+--------------------+------+----+------+----+---------+
|deportista_id|              nombre|genero|edad|altura|peso|equipo_id|
+-------------+--------------------+------+----+------+----+---------+
|        71691|  Dimitrios Loundras|     1|  10|     0| 0.0|      333|
|        52070|        Etsuko Inada|     2|  11|     0| 0.0|      514|
|        40129|    Luigina Giavotti|     2|  11|     0| 0.0|      507|
|        37333|Carlos Bienvenido...|     1|  11|     0| 0.0|      982|
|        47618|Sonja Henie Toppi...|     2|  11|   155|45.0|      742|
+-------------+--------------------+------+----+------+----+---------+
only showing top 5 rows



## Join entre 6 DataFrames

In [30]:
medallistaXAnio = deportistaOlimpicoDF.join(
        resultadoDF, 
        deportistaOlimpicoDF['deportista_id'] == resultadoDF['deportista_id'], 
        'left'
    ).join(
        juegoDF, 
        juegoDF['juego_id'] == resultadoDF['juego_id'], 
        'left'
    ).join(
        paisesDF, 
        deportistaOlimpicoDF['equipo_id'] == paisesDF['id'], 
        'left' 
    ).join(
        deportesOlimpicosDF, 
        deportesOlimpicosDF['evento_id'] == resultadoDF['evento_id'], 
        'left' 
    ).join(
        deportesDF, 
        deportesOlimpicosDF['deporte_id'] == deportesDF['deporte_id'], 
        'left' 
    ).select( #<-- seleccionamos y renombramos algunas columnas
        'sigla',
        'anio',
        'medalla',
        deportesOlimpicosDF['nombre'].alias('Nombre subdisciplina'),
        deportesDF['deporte'].alias('Nombre disciplina'),
        deportistaOlimpicoDF['nombre']    
    )

medallistaXAnio.show()

+-----+----+-------+--------------------+--------------------+--------------------+
|sigla|anio|medalla|Nombre subdisciplina|   Nombre disciplina|              nombre|
+-----+----+-------+--------------------+--------------------+--------------------+
|  CHN|1992|     NA|Basketball Men's ...|          Basketball|           A Dijiang|
|  CHN|2012|     NA|Judo Men's Extra-...|                Judo|            A Lamusi|
|  DEN|1920|     NA|Football Men's Fo...|            Football| Gunnar Nielsen Aaby|
|  SWE|1900|   Gold|Tug-Of-War Men's ...|          Tug-Of-War|Edgar Lindenau Aabye|
|  NED|1994|     NA|Speed Skating Wom...|       Speed Skating|Christine Jacoba ...|
|  NED|1994|     NA|Speed Skating Wom...|       Speed Skating|Christine Jacoba ...|
|  NED|1992|     NA|Speed Skating Wom...|       Speed Skating|Christine Jacoba ...|
|  NED|1992|     NA|Speed Skating Wom...|       Speed Skating|Christine Jacoba ...|
|  NED|1988|     NA|Speed Skating Wom...|       Speed Skating|Christine Jaco

## Agrupación con `.groupBy()`

In [31]:
# Filtramos los datos quedándonos con los deportistas que sí tienen medallas: 
medallistaXAnio.filter( medallistaXAnio['medalla'] != 'NA'  )\
    .groupBy('sigla','anio','Nombre subdisciplina')\
    .count()\
    .sort('anio')\
    .show()

+-----+----+--------------------+-----+
|sigla|anio|Nombre subdisciplina|count|
+-----+----+--------------------+-----+
|  GRE|1896|Athletics Men's 8...|    1|
|  AUS|1896|Athletics Men's 1...|    1|
|  GBR|1896|Tennis Men's Singles|    1|
|  USA|1896|Athletics Men's 1...|    2|
|  AUT|1896|Swimming Men's 10...|    1|
|  AUS|1896|Tennis Men's Doubles|    1|
|  HUN|1896|Athletics Men's M...|    1|
|  GBR|1896|Weightlifting Men...|    1|
|  HUN|1896|Swimming Men's 10...|    1|
|  USA|1896|Athletics Men's 1...|    1|
|  GER|1896|Athletics Men's 1...|    1|
|  GRE|1896|Tennis Men's Singles|    2|
|  GER|1896|Cycling Men's Roa...|    1|
|  GBR|1896|Athletics Men's 4...|    1|
|  FRA|1896|Fencing Men's Foi...|    2|
|  GRE|1896|Tennis Men's Doubles|    2|
|  GER|1896|Gymnastics Men's ...|    9|
|  GBR|1896|Cycling Men's 12-...|    1|
|  GER|1896|Gymnastics Men's ...|    1|
|  USA|1896|Athletics Men's 1...|    1|
+-----+----+--------------------+-----+
only showing top 20 rows



In [32]:
# Guardamos el Data Frame agrupado:
medallistaXAnio2 = medallistaXAnio.filter( medallistaXAnio['medalla'] != 'NA'  )\
    .groupBy('sigla','anio','Nombre subdisciplina')\
    .count()\
    .sort('anio')

In [33]:
#Visualizamos el Schema:
medallistaXAnio2.printSchema()

root
 |-- sigla: string (nullable = true)
 |-- anio: integer (nullable = true)
 |-- Nombre subdisciplina: string (nullable = true)
 |-- count: long (nullable = false)



In [34]:
# Ejemplo de cómo tranfomramos el tipo de dato de la columna

# La siguiente línea transforma la columna 'anio' al tipo 'string' y guarda los cambios en el Data Frame
# medallistaXAnio2 = medallistaXAnio2.withColumn('anio',col('anio').cast('string'))

## Aplicación de funciones a columnas agrupadas con `.groupBy()`

In [35]:
# Usamos la función '.agg()' que nos permite aplicar distintas funciones a columnas agrupadas con 'groupBy'
medallistaXAnio2.groupBy('sigla','anio').agg( # <-- función 'aggregate'
    sum('count').alias('Total de medallas'), #  <-- aplicamos 'sum()' a la columna 'count' y renombramos
    avg('count').alias('Medallas promedio') ).show() #  <-- aplicamos 'avg()' (average) a la columna 'count' y renombramos

+-----+----+-----------------+------------------+
|sigla|anio|Total de medallas| Medallas promedio|
+-----+----+-----------------+------------------+
|  USA|2012|              248|2.7252747252747254|
|  FRA|2006|               15|1.6666666666666667|
|  BLR|2000|               15|               1.5|
|  FIN|1988|               38|               3.8|
|  KOR|2010|               18|               1.5|
|  VEN|2012|                1|               1.0|
|  FRA|1948|               77|2.3333333333333335|
|  GBR|2000|               55|1.9642857142857142|
|  QAT|2012|                2|               1.0|
|  JPN|1932|               28|2.3333333333333335|
|  FRG|1994|                6|               1.0|
|  KOR|1972|                1|               1.0|
|  NED|1972|               15|1.3636363636363635|
|  GER|1932|               57|              2.28|
|  NZL|1988|               24|1.8461538461538463|
|  AUS|1972|               20|1.1764705882352942|
|  BAH|2008|                7|               3.5|


In [36]:
# Cerramos sesión para liberar memoria:
spark.stop()