# Dataframes con PySpark

En este notebook aprenderemos cómo crear DataFrames a partir de colecciones de Python y de ficheros externos.

Comenzamos importando las librerías necesarias y creando una sesión de Spark:

In [1]:
from pyspark.sql import SparkSession

# Crear sesión de Spark
spark = SparkSession.builder.appName("Analisis Deportivo con Spark").getOrCreate()

Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
25/10/15 14:31:38 WARN Utils: Your hostname, maes, resolves to a loopback address: 127.0.1.1; using 10.0.68.169 instead (on interface wlp0s20f3)
25/10/15 14:31:38 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/10/15 14:31:39 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/10/15 14:31:39 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


### Ejemplo 3

Vamos a crear un Dataframe a partir de una colección de Python. 

In [2]:
# Datos simulados: equipo, goles, posesión, pases
data = [("EquipoA", 2, 55.0, 480), ("EquipoB", 1, 45.0, 390)]

# Crear DataFrame a partir de la lista indicando las columnas
df = spark.createDataFrame(data, ["equipo", "goles", "posesion", "pases"])

# Mostrar el DataFrame
df.show()

                                                                                

+-------+-----+--------+-----+
| equipo|goles|posesion|pases|
+-------+-----+--------+-----+
|EquipoA|    2|    55.0|  480|
|EquipoB|    1|    45.0|  390|
+-------+-----+--------+-----+



### Ejemplo 4

En este ejemplo vamos a crear un Dataframe a partir de un fichero CSV con datos de jugadores de fútbol. El fichero no tiene cabecera, por lo que debemos definir el esquema de los datos.

In [None]:
# Montamos la carpeta (nos pedirá permisos)
from google.colab import drive
drive.mount('/content/drive')
# Crea un atajo llamado 'workspace' en la carpeta /content (dará un pequeño error si ya existe)
!ln -s "/content/drive/MyDrive/Colab Notebooks" "/content/workspace" >/dev/null 2>&1
# Ya podemos acceder a los ficheros, por ejemplo:
ruta_fichero = "/content/workspace/data/wordcount_data.txt"

In [3]:
from pyspark.sql.types import StructType, StructField, StringType, DoubleType, IntegerType

# Definir el esquema manualmente
schema = StructType([
    StructField("Jugador", StringType(), True),
    StructField("Equipo", StringType(), True),
    StructField("Velocidad", DoubleType(), True),
    StructField("Goles", IntegerType(), True),
    StructField("Pases", IntegerType(), True)
])

# Leer el archivo CSV con el esquema
df = spark.read.csv("data/jugadores.csv", header=False, schema=schema)

# Mostrar el contenido
df.show()

# Mostrar el esquema inferido
df.printSchema()

+--------+-------+---------+-----+-----+
| Jugador| Equipo|Velocidad|Goles|Pases|
+--------+-------+---------+-----+-----+
|Jugador1|EquipoA|     28.5|    2|  480|
|Jugador2|EquipoA|     30.2|    1|  510|
|Jugador3|EquipoB|     26.7|    0|  390|
+--------+-------+---------+-----+-----+

root
 |-- Jugador: string (nullable = true)
 |-- Equipo: string (nullable = true)
 |-- Velocidad: double (nullable = true)
 |-- Goles: integer (nullable = true)
 |-- Pases: integer (nullable = true)



Finalmente, podemos cerrar la sesión de Spark cuando ya no la necesitemos. Si lo hacemos, habrá que ejecutar todo el notebook de nuevo para volver a crearla.

In [4]:
spark.stop()