# Proyecto: Creación de Data Frames Spark a partir de archivos .csv 

En la presente práctica veremos cómo:

* Crear Data Frames a partir archivos .csv

Algunas funciones que veremos son:

`.show(N)` Muestra los primeros N registros de un Data Frame (análogo al `.take(N)` para RDDs)

In [1]:
# libreria para crear punto de conexión:
from pyspark import SparkContext

# Cargamos libreria para crear Data Frames:
from pyspark.sql import SQLContext

#from pyspark.sql import SparkSession

# Cargamos librerias para crear el schema del DataFrame
from pyspark.sql.types import StructType, StructField

# Cargamos los tipos de datos que usaremos para crear las columnas de los dataframes:
from pyspark.sql.types import  IntegerType, StringType, FloatType

#from pyspark.sql.types import Row

In [2]:
# Creamos el punto de conexió a Spark (que se ejecutará en mi máquina 'local'):
spark = SparkContext(master='local', appName='DataFrames')

In [3]:
# Creamos el contexto para SQL:
sqlContext = SQLContext(spark)



In [4]:
!ls Data/

deporte.csv	 deportistaError.csv  modelo_relacional.jpg
deportista2.csv  evento.csv	      paises.csv
deportista.csv	 juegos.csv	      resultados.csv


In [5]:
# Vemos las primeras 5 líneas del archivo 'juegos.csv'

!head -n 5 Data/juegos.csv

# Veremos que el archivo ya tiene un encabezado

,nombre_juego,annio,temporada,ciudad
1,1896 Verano,1896,Verano,Athina
2,1900 Verano,1900,Verano,Paris
3,1904 Verano,1904,Verano,St. Louis
4,1906 Verano,1906,Verano,Athina


In [6]:
# Creamos la ruta de acceso a los archivos:
path = './Data/'

In [7]:
# Antes de cargar un archivo, creamos un esquema, es decir,
# creamos la estructura de la trabla en donde vamos a cargar la infomración:
juegoSchema = StructType([
    StructField( 'juego_id', IntegerType(), False ),
    StructField( 'anio_estacion', StringType(), False ),
    StructField( 'anio', IntegerType(), False ),
    StructField('temporada', StringType(), False ),
    StructField('ciudad', StringType(), False )
    ])

# StructField <-- instrucción para crear una columna, se debe especificar el tipo de dato que almacenará
# En caso de que el campo pueda ser nulo ponemos 'True' de lo contrario ponemos 'False'

# Una vez creado el schema, cargamos la información:
juegoDF = sqlContext.read.schema(juegoSchema).option('header',True).csv( path+'juegos.csv' )

# .option('header',True)    <-- indica que el archvio que vamos a cargar ya tiene un encabezado 
# .csv( path+'juegos.csv' ) <-- instrucción que carga el archivo '.csv'

In [8]:
# Aplicamos la acción '.show()' para poder ver el contenido de los primeros N registros:
N=10

# La información de DataFrames se muestra con '.show()'
# La información de RDDs se muestra con '.take()'
juegoDF.show(N)

+--------+-------------+----+---------+------------+
|juego_id|anio_estacion|anio|temporada|      ciudad|
+--------+-------------+----+---------+------------+
|       1|  1896 Verano|1896|   Verano|      Athina|
|       2|  1900 Verano|1900|   Verano|       Paris|
|       3|  1904 Verano|1904|   Verano|   St. Louis|
|       4|  1906 Verano|1906|   Verano|      Athina|
|       5|  1908 Verano|1908|   Verano|      London|
|       6|  1912 Verano|1912|   Verano|   Stockholm|
|       7|  1920 Verano|1920|   Verano|   Antwerpen|
|       8|1924 Invierno|1924| Invierno|    Chamonix|
|       9|  1924 Verano|1924|   Verano|       Paris|
|      10|1928 Invierno|1928| Invierno|Sankt Moritz|
+--------+-------------+----+---------+------------+
only showing top 10 rows



In [9]:
# Ejecutamos la interfaz gráfica de spark dando click en el link:
spark

In [10]:
# Cerramos sesión para liberar memoria:
spark.stop()