In [4]:
# Importando las librerias para el ejercicio.
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import IntegerType, StringType, FloatType
from pyspark.sql.types import Row
from pyspark.sql import SQLContext
from pyspark import SparkContext
from pyspark.sql.functions import *

In [5]:
# Creando el contexto que funciona como punto de conexion para todo spark.
spark = SparkContext(master="local", appName="DataFrames")
sqlContext = SQLContext(spark)

# Creando una variable que guarde la ruta de los archivos de datos.
path = "/home/jovyan/work/files/"

In [6]:
# Consultando la ruta para ubicar los archivos.
!ls /home/jovyan/work/files

auto-mpg.data		deportista2.csv      juegos.csv
auto-mpg.data-original	deportista.csv	     modelo_relacional.jpg
auto-mpg.names		deportistaError.csv  paises.csv
data.csv		evento.csv	     resultados.csv
deporte.csv		imports-85.data      synthetic_control.data


In [8]:
# Creando Schema para los campos del RDD.
Schema_juegosRDD = StructType([
    StructField("juego_id", IntegerType(),False),
    StructField("nombre_juego", StringType(),False),
    StructField("anio", IntegerType(),False),
    StructField("temporada", StringType(),False),
    StructField("ciudad", StringType(),False)
])


# Indicando lectura para cargar el archivo.
juegoDF = sqlContext.read.schema(Schema_juegosRDD).option("header","true").csv(path + "juegos.csv")

# Visualizando el dataframe con show().
juegoDF.show(4)

+--------+------------+----+---------+---------+
|juego_id|nombre_juego|anio|temporada|   ciudad|
+--------+------------+----+---------+---------+
|       1| 1896 Verano|1896|   Verano|   Athina|
|       2| 1900 Verano|1900|   Verano|    Paris|
|       3| 1904 Verano|1904|   Verano|St. Louis|
|       4| 1906 Verano|1906|   Verano|   Athina|
+--------+------------+----+---------+---------+
only showing top 4 rows



In [9]:
# Creando DataFrames de archivos .data
autoDataRDD = spark.textFile(path+"auto-mpg.data").map(lambda l : l.replace("\\s",""))
imports85RDD = spark.textFile(path+"imports-85.data").map(lambda l : l.replace("\\s",""))
synthetic_controlRDD = spark.textFile(path+"synthetic_control.data").map(lambda l : l.replace("\\s",""))

In [11]:
#Consultando el schema de un Dataframe.
juegoDF.printSchema()

root
 |-- juego_id: integer (nullable = true)
 |-- nombre_juego: string (nullable = true)
 |-- anio: integer (nullable = true)
 |-- temporada: string (nullable = true)
 |-- ciudad: string (nullable = true)



In [13]:
# Creando funcion para eliminar encabezados
def eliminaEncabezado(indice, iterador):
    return iter(list(iterador)[1:])

In [14]:
# Creando el Dataframes a partir de los RDD correspondiente al archivo deportista.csv.
deportistaOlimpicoRDD = spark.textFile(path+"deportista.csv").map(lambda l : l.split(","))

# Pasando El RDD a la funcion creada para eliminar el encabezado.
deportistaOlimpicoRDD = deportistaOlimpicoRDD.mapPartitionsWithIndex(eliminaEncabezado)

# Transformando los valores del RDD.
deportistaOlimpicoRDD = deportistaOlimpicoRDD.map(lambda l : (
int(l[0]),
l[1],
int(l[2]),
int(l[3]),
int(l[4]),
float(l[5]),
int(l[6])
))

# Creando el Schema para los campos del RDD
schemadeportistaOlimpicoRDD = StructType([
    StructField("deportista_id",IntegerType(),False),
    StructField("nombre",StringType(),False),
    StructField("genero",IntegerType(),False),
    StructField("edad",IntegerType(),False),
    StructField("altura",IntegerType(),False),
    StructField("peso",FloatType(),False),
    StructField("equipo_id",IntegerType(),False)
])

# Visualizando la transformación del Dataframe deportistaDF.
deportistaDF = sqlContext.createDataFrame(deportistaOlimpicoRDD,schemadeportistaOlimpicoRDD)

In [15]:
# Creando el Dataframes a partir de los RDD correspondiente al archivo data.csv
dataRDD = spark.textFile(path+"data.csv").map(lambda l : l.split(","))

# Pasando El RDD a la funcion creada para eliminar el encabezado.
dataRDD = dataRDD.mapPartitionsWithIndex(eliminaEncabezado)

# Transformando los valores del RDD.
dataRDD = dataRDD.map(lambda l : (
l[0],
l[1],
int(l[2])
))

# Creando Schema para los campos del RDD.
schemadataRDD = StructType([
    StructField("Estado",StringType(),False),
    StructField("color",StringType(),False),
    StructField("contador",IntegerType(),False)
])

# Visualizando la transformación del Dataframe.
dataDF = sqlContext.createDataFrame(dataRDD,schemadataRDD)

In [16]:
# Creando el Dataframes a partir de los RDD correspondiente al archivo deporte.csv
deporteRDD = spark.textFile(path+"deporte.csv").map(lambda l : l.split(","))

# Pasando El RDD a la funcion creada para eliminar el encabezado.
deporteRDD = deporteRDD.mapPartitionsWithIndex(eliminaEncabezado)

# Transformando los valores del RDD.
deporteRDD = deporteRDD.map(lambda l : (
int(l[0]),
l[1]
))

# Creando Schema para los campos del RDD.
schema_deporteRDD = StructType([
    StructField("deporte_ID",IntegerType(),False),
    StructField("deporte",StringType(),False)
])

# Visualizando la transformación del Dataframe.
deporteDF = sqlContext.createDataFrame(deporteRDD,schema_deporteRDD)

In [17]:
# Creando el Dataframes a partir de los RDD correspondiente al archivo deportista2.csv
deportista2RDD = spark.textFile(path+"deportista2.csv").map(lambda l : l.split(","))

# Pasando El RDD a la funcion creada para eliminar el encabezado.
deportista2RDD = deportista2RDD.mapPartitionsWithIndex(eliminaEncabezado)

# Transformando los valores del RDD.
deportista2RDD = deportista2RDD.map(lambda l : (
int(l[0]),
l[1],
int(l[2]),
int(l[3]),
int(l[4]),
float(l[5]),
int(l[6])
))

# Creando Schema para los campos del RDD.
schema_deportista2RDD = StructType([
    StructField("deportista_id",IntegerType(),False),
    StructField("nombre",StringType(),False),
    StructField("genero",IntegerType(),False),
    StructField("edad",IntegerType(),False),
    StructField("altura",IntegerType(),False),
    StructField("peso",FloatType(),False),
    StructField("equipo_id",IntegerType(),False)
])

# Visualizando la transformación del Dataframe.
deportista2RDD = sqlContext.createDataFrame(deportista2RDD,schema_deportista2RDD)

In [18]:
# Creando el Dataframes a partir de los RDD correspondiente al archivo evento.csv
eventoRDD = spark.textFile(path+"evento.csv").map(lambda l : l.split(","))

# Pasando El RDD a la funcion creada para eliminar el encabezado.
eventoRDD = eventoRDD.mapPartitionsWithIndex(eliminaEncabezado)

# Transformando los valores del RDD.
eventoRDD = eventoRDD.map(lambda l : (
int(l[0]),
l[1],
l[2]
))

# Creando Schema para los campos del RDD.
schema_eventoRDD = StructType([
    StructField("id_evento",IntegerType(),False),
    StructField("tipo_evento",StringType(),False),
    StructField("id_deporte",StringType(),False)
])
# Visualizando la transformación del Dataframe.
eventoRDD = sqlContext.createDataFrame(eventoRDD,schema_eventoRDD)

In [19]:
# Creando el Dataframes a partir de los RDD correspondiente al archivo juegos.csv
juegosRDD = spark.textFile(path+"juegos.csv").map(lambda l : l.split(","))

# Pasando El RDD a la funcion creada para eliminar el encabezado
juegosRDD = juegosRDD.mapPartitionsWithIndex(eliminaEncabezado)

# Transformando los valores del RDD.
juegosRDD = juegosRDD.map(lambda l : (
int(l[0]),
l[1],
int(l[2]),
l[3],
l[4]
))

# Creando Schema para los campos del RDD.
Schema_juegosRDD = StructType([
    StructField("juego_id", IntegerType(),False),
    StructField("nombre_juego", StringType(),False),
    StructField("anio", IntegerType(),False),
    StructField("temporada", StringType(),False),
    StructField("ciudad", StringType(),False)
])

# Visualizando la transformación del Dataframe.
juegosRDD = sqlContext.createDataFrame(juegosRDD,Schema_juegosRDD)

In [20]:
# Creando el Dataframes a partir de los RDD correspondiente al archivo paises.csv
paisesRDD = spark.textFile(path+"paises.csv").map(lambda l : l.split(","))

# Pasando El RDD a la funcion creada para eliminar el encabezado
paisesRDD = paisesRDD.mapPartitionsWithIndex(eliminaEncabezado)

# Transformando los valores del RDD.
paisesRDD = paisesRDD.map(lambda l : (
int(l[0]),
l[1],
l[2]
))

# Creando Schema para los campos del RDD.
Schema_paisesRDD = StructType([
    StructField("pais_id", IntegerType(),False),
    StructField("nombre_equipo", StringType(),False),
    StructField("sigla_equipo", StringType(),False)
])

# Visualizando la transformación del Dataframe.
paisesRDD = sqlContext.createDataFrame(paisesRDD,Schema_paisesRDD)

In [21]:
# Creando el Dataframes a partir de los RDD correspondiente al archivo resultados.csv
resultadosRDD = spark.textFile(path+"resultados.csv").map(lambda l : l.split(","))

# Pasando El RDD a la funcion creada para eliminar el encabezado
resultadosRDD = resultadosRDD.mapPartitionsWithIndex(eliminaEncabezado)

# Transformando los valores del RDD.
resultadosRDD = resultadosRDD.map(lambda l : (
int(l[0]),
l[1],
int(l[2]),
int(l[3]),
int(l[4])
))

# Creando Schema para los campos del RDD.
schema_resultadosRDD = StructType([
    StructField("resultado_id",IntegerType(),False),
    StructField("medalla",StringType(),False),
    StructField("deportista_id",IntegerType(),False),
    StructField("juego_id",IntegerType(),False),
    StructField("evento_id",IntegerType(),False)
])

# Visualizando la transformación del Dataframe.
resultadosRDD = sqlContext.createDataFrame(resultadosRDD,schema_resultadosRDD)

In [22]:
# La funcion printschema() permite visualizar el esquema que tiene el DF.
resultadosRDD.printSchema()

root
 |-- resultado_id: integer (nullable = false)
 |-- medalla: string (nullable = false)
 |-- deportista_id: integer (nullable = false)
 |-- juego_id: integer (nullable = false)
 |-- evento_id: integer (nullable = false)



In [23]:
# La funcion withColumnRenamed("","").drop("") permite borrar o renombrar columnas.
resultadosRDD = resultadosRDD.withColumnRenamed("medalla", "medallota")
resultadosRDD.printSchema()

root
 |-- resultado_id: integer (nullable = false)
 |-- medallota: string (nullable = false)
 |-- deportista_id: integer (nullable = false)
 |-- juego_id: integer (nullable = false)
 |-- evento_id: integer (nullable = false)



In [24]:
# Generando consultas con funcion select
deportistaDF = deportistaDF.select("deportista_id", "nombre", col("edad").alias("edadAlJugar"),"equipo_id")
deportistaDF.show(5)

+-------------+--------------------+-----------+---------+
|deportista_id|              nombre|edadAlJugar|equipo_id|
+-------------+--------------------+-----------+---------+
|            1|           A Dijiang|         24|      199|
|            2|            A Lamusi|         23|      199|
|            3| Gunnar Nielsen Aaby|         24|      273|
|            4|Edgar Lindenau Aabye|         34|      278|
|            5|Christine Jacoba ...|         21|      705|
+-------------+--------------------+-----------+---------+
only showing top 5 rows



In [25]:
# Generando consultas con funcion filter
deportistaDF = deportistaDF.filter(deportistaDF.edadAlJugar != 0)
deportistaDF.show(5)

+-------------+--------------------+-----------+---------+
|deportista_id|              nombre|edadAlJugar|equipo_id|
+-------------+--------------------+-----------+---------+
|            1|           A Dijiang|         24|      199|
|            2|            A Lamusi|         23|      199|
|            3| Gunnar Nielsen Aaby|         24|      273|
|            4|Edgar Lindenau Aabye|         34|      278|
|            5|Christine Jacoba ...|         21|      705|
+-------------+--------------------+-----------+---------+
only showing top 5 rows



In [276]:
# Consultando el deportista mas joven de los juegos olimpicos
deportistaDF.sort("edadAlJugar").show()

+-------------+--------------------+-----------+---------+
|deportista_id|              nombre|edadAlJugar|equipo_id|
+-------------+--------------------+-----------+---------+
|        52070|        Etsuko Inada|         11|      514|
|        22411|Magdalena Cecilia...|         11|      413|
|        40129|    Luigina Giavotti|         11|      507|
|        47618|Sonja Henie Toppi...|         11|      742|
|        37333|Carlos Bienvenido...|         11|      982|
|        51268|      Beatrice Hutiu|         11|      861|
|         5291|Marcia Arriaga La...|         12|      656|
|        24191| Philippe Cuelenaere|         12|       96|
|        42835|   Werner Grieshofer|         12|       71|
|        25877|Olga Lucia de Ang...|         12|      225|
|        31203|Patricia Anne Pat...|         12|      967|
|        43528|Antoinette Joyce ...|         12|      172|
|        46578|        Diana Hatler|         12|      825|
|        48728|      Margery Hinton|         12|      41

In [None]:
# Creando consultas usando Join
deportistaOlimpicoRDD join(resultadosRDD)