# Introducción a Pyspark

1. Conociendo Pyspark

2. Manipulando datos

3. Comenzando con tuberías de aprendizaje automático

4. Modelo, ajuste y selección

### Conociendo Pyspark

Aprenderá cómo Spark administra los datos y cómo puede leer y escribir tablas desde Python.

### ¿Qué es Spark, de todos modos?

Spark es una plataforma para la computación en clúster. Spark le permite distribuir datos y cálculos en grupos con múltiples nodos (piense en cada nodo como una computadora separada). Dividir sus datos hace que sea más fácil trabajar con conjuntos de datos muy grandes porque cada nodo solo funciona con una pequeña cantidad de datos.

Como cada nodo trabaja en su propio subconjunto de datos totales, también realiza una parte de los cálculos totales requeridos, de modo que tanto el procesamiento de datos como el cómputo se realizan en paralelo sobre los nodos en el clúster. Es un hecho que el cómputo paralelo puede hacer que ciertos tipos de tareas de programación sean mucho más rápidos.

Sin embargo, con mayor potencia de cómputo viene una mayor complejidad.

Decidir si Spark es o no la mejor solución para su problema requiere algo de experiencia, pero puede considerar preguntas como:

¿Mis datos son demasiado grandes para trabajar en una sola máquina?
¿Pueden mis cálculos ser paralelizados fácilmente?

### Usando Spark en Python

El primer paso para usar Spark es conectarse a un clúster.

En la práctica, el clúster estará alojado en una máquina remota que está conectada a todos los demás nodos. Habrá una computadora, llamada la maestra, que logra dividir los datos y los cálculos. El maestro está conectado al resto de las computadoras en el clúster, que se denominan trabajador . El maestro envía a los trabajadores datos y cálculos para ejecutar, y ellos envían sus resultados al maestro.

Crear la conexión es tan simple como crear una instancia de la SparkContextclase. El constructor de la clase toma algunos argumentos opcionales que le permiten especificar los atributos del clúster al que se está conectando.

Se puede crear un objeto que contenga todos estos atributos con el SparkConf() constructor. ¡Eche un vistazo a la documentación para todos los detalles!


http://spark.apache.org/docs/2.1.0/api/python/pyspark.html

### ¿Como nos conectamos a un clúster Spark desde PySpark?

Instancia SparkContext clase.

Punto de entrada principal para la funcionalidad Spark. Un SparkContext representa la conexión a un clúster de Spark, y puede usarse para crear RDD y emitir variables en ese clúster.


In [None]:
#Comandos utiles

SparkContext.version #Versión Spark

### Usando DataFrames

La estructura central de datos de Spark es el conjunto de datos distribuidos resilientes (RDD). Este es un objeto de bajo nivel que le permite a Spark hacer su magia al dividir los datos en múltiples nodos en el clúster. Sin embargo, es difícil trabajar con los RDD directamente, por lo que en este curso utilizará la abstracción Spark DataFrame construida sobre los RDD.

Spark DataFrame fue diseñado para comportarse de manera muy similar a una tabla SQL (una tabla con variables en las columnas y observaciones en las filas). No solo son más fáciles de entender, los DataFrames también están más optimizados para operaciones complicadas que los RDD.

Cuando comienza a modificar y combinar columnas y filas de datos, hay muchas formas de llegar al mismo resultado, pero algunas a menudo tardan mucho más que otras. Cuando se utilizan RDD, depende del científico de datos encontrar la manera correcta de optimizar la consulta, ¡pero la implementación de DataFrame tiene incorporada gran parte de esta optimización!

Para comenzar a trabajar con Spark DataFrames, primero debe crear un SparkSession objeto a partir de su SparkContext. Puede pensar en el SparkContext como su conexión al clúster y SparkSession como su interfaz con esa conexión.

In [None]:
from pyspark.sql import SparkSession # Importación SparkSession

my_spark = SparkSession.builder.getOrCreate() #Creando SparkSession

print(my_spark)

In [None]:
spark.catalog.listTables() #Ver lista de tablas disponibles

In [None]:
#Consulta SQL
query = "FROM flights SELECT * LIMIT 10"

spark.sql(query) 

In [None]:
base.toPandas() #Convirtiendo los datos Spark en dataframes

In [None]:
#El createDataFrame() método toma un pandas DataFrame y devuelve un Spark DataFrame.

pd_temp = pd.DataFrame(np.random.random(10)) #creamos un dataframe normal

spark_temp = spark.createDataFrame(pd_temp) # necesitamos crear un SparkDataFrame con la sesión de spark

#La salida de este método se almacena localmente, no en el SparkSession catálogo.

#Esto significa que puede usar todos los métodos de Spark DataFrame en él, pero no puede acceder a los datos en otros contextos.

#Por ejemplo, una consulta SQL (usando el .sql() método) que hace referencia a su DataFrame arrojará un error.

#Para acceder a los datos de esta manera, debe guardarlos como una tabla temporal.

#Puede hacerlo utilizando el $.createTempView()$ método Spark DataFrame, que toma como único argumento el nombre de la tabla temporal que desea registrar.

#Este método registra el DataFrame como una tabla en el catálogo, pero como esta tabla es temporal, solo se puede acceder desde el específico SparkSession utilizado para crear el Spark DataFrame.

print(spark.catalog.listTables()) #Lista de tablas

#También está el método createOrReplaceTempView(). 

#Esto crea de forma segura una nueva tabla temporal si no había nada antes, o actualiza una tabla existente si ya había una definida.

spark_temp.createOrReplaceTempView("temp") # Agregagamos el SparkDataFrame al catalogo

print(spark.catalog.listTables())

#Utilizará este método para evitar tener problemas con tablas duplicadas.

### Dejando caer al intermediario

Ahora ya sabe cómo poner los datos en Spark a través de pandas, pero probablemente se esté preguntando ¿por qué tratar pandas? ¿No sería más fácil leer un archivo de texto directamente en Spark? ¡Por supuesto que sí!

Afortunadamente, $SparkSession$ tiene un $.read$ atributo que tiene varios métodos para leer diferentes fuentes de datos en Spark DataFrames.

¡Con estos puede crear un DataFrame a partir de un archivo .csv al igual que con pandasDataFrames normal!

In [None]:
file_path = "/usr/local/share/datasets/airports.csv"

airports = spark.read.csv(file_path, header=True) #carga de datos recordando que spark es una SparkSession

airports.show()

# Manipulando datos

### Creando columnas


In [None]:
#Para sobrescribir una columna existente, simplemente pase el nombre de la columna como primer argumento.

#ejemplo 1
df = df.withColumn("newCol", df.oldCol + 1)

#ejemplo 2
flights = spark.table("flights") # Creacion del dataframe catalogo

flights = flights.withColumn("duration_hrs", flights.air_time/60) # agregando una nueva columna, duration_hrs

### Creando Columnas

.withColumn("nueva_columna", nueva_columna)

.withColumn("nueva_columna", condicion_booleana)

.withColumnRenamed("vieja", "nueva") #Cambia el nombre de la columna


### Filtrando columnas

In [None]:
flights.filter("air_time > 120").show()

flights.filter(flights.air_time > 120).show()

.filter("condicion como en un WHERE")

.filter(condicion booleana) 

.filter("conficion uno").filter("condicion dos") #Se pueden ir anidando


### Seleccion de columnas

In [None]:
.select("columna_a") #Solo seleccion

.select(base.columna_1, base.columna_2)

#Pasando un filtro como parametro

filtro = (base.columna0 / base.columna1).alias("nueva_columna")

.select("columna0", filtro) #pasamos el filtro

#como expresion sql podemos colocar el filtro

.selectExpr("columna0", "columna0 / columna1 as nueva_columna") 

### Agregaciones

In [None]:
#Conteo de una columna

.groupBy("columna").count().show() 

#seleccionando la columna de una agrupacion

.groupBy().min("columna").show() 

#filtrando, agrupando y tomando el minimo

.filter(columna.a == 'A').groupBy().min("columna").show()


#doble filtro, agrupando y tomando el promedio de la columna

.filter(columna.a == 'A').filter(columna.b > 10).groupBy().avg("columna").show()

#Igual que en groupby podemos agregar funciones

.groupBy().agg(F.stddev("columna")).show() 


#creadno nueva columna y agrupando

.withColumn("columna", columna_n + 1 ).groupBy().sum("columna_j")

### Uniones

In [None]:
#Uniones

tabla_A.join(tabla_B, on = "llave", how = "leftouter")


# Machine Learning

En el núcleo del pyspark.ml módulo están las clases Transformer y Estimator.

Casi todas las demás clases del módulo se comportan de manera similar a estas dos clases básicas.

Transformer las clases tienen un .transform() método que toma un DataFrame y devuelve un nuevo DataFrame; generalmente el original con una nueva columna adjunta. 

Por ejemplo, puede usar la clase Bucketizer para crear contenedores discretos a partir de una entidad continua o la clase PCA para reducir la dimensionalidad de su conjunto de datos mediante el análisis de componentes principales.

Estimator todas las clases implementan un .fit() método.

Estos métodos también toman un DataFrame, pero en lugar de devolver otro DataFrame, devuelven un objeto modelo. 

Esto puede ser algo así como StringIndexerModel para incluir datos categóricos guardados como cadenas en sus modelos, o RandomForestModel que utiliza el algoritmo de bosque aleatorio para clasificación o regresión.

 - Tranformer: clases tienen método .transform() toma un DataFrame y devuelve nuevo Data Frame.

 - Estimator: clases tienen método .fit() toma un DataFrame y devuelve un objeto modelo.
 
 - Tipos de datos númericos

In [None]:
#devuelve un nuevo dataframe
.transform() 

#Objeto modelo
.fit() 

#Tipos de datos para los algoritmos en Spark deben ser númericos.
dataframe = dataframe.withColumn("col", dataframe.columna.cast("tipo-numerico")) #cambio de tipo de datos

### ¿Texto a valores númericos?

PySpark tiene funciones para manejar esto en pyspark.ml.features.

Primero codificamos la característica categórica StringIndexer. Asigna a cada cadena un número y luego volvemos en formato de columna.

Segundo codificamos esta columna númerica como un vector OneHotEncoder.

Tercer ensamblar todo en un vector con todas las variables númericas que usaremos.

Teniendo como resultado final una columna codificada de las características.

In [None]:
# Primero StringIndexer, inputCol nombre de la columna que deseamos indexar y outpuCol nombre de la nueva columna.

#Paso 1

carr_indexer = StringIndexer(inputCol="carrier", outputCol="carrier_index") # Create a StringIndexer

dest_indexer = StringIndexer(inputCol="dest",outputCol="dest_index") # Create a StringIndexer

#Paso 2

carr_encoder = OneHotEncoder(inputCol="carrier_index", outputCol="carrier_fact") # Create a OneHotEncoder

dest_encoder = OneHotEncoder(inputCol="dest_index", outputCol="dest_fact") # Create a OneHotEncoder

#Pas 3 

vec_assembler = VectorAssembler(inputCols=["month","air_time","carrier_fact","dest_fact","plane_age"], outputCol="features") # Ensamblador de un vector


### Finalmente se esta listo para crear un Pipeline

Pipeline es una clase en el pyspark.ml módulo que combina toda la Estimators y Transformers que ya ha creado.

Esto le permite reutilizar el mismo proceso de modelado una y otra vez envolviéndolo en un objeto simple.

In [None]:
from pyspark.ml import Pipeline

# Pipeline
flights_pipe = Pipeline(stages = [dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler])

### Datos Test vs Train

Después de limpiar sus datos y prepararlos para el modelado, uno de los pasos más importantes es dividir los datos en un conjunto de prueba y un conjunto de trenes.

Después de eso, ¡no toque los datos de su prueba hasta que crea que tiene un buen modelo!

A medida que construye modelos y forma hipótesis, puede probarlos en sus datos de entrenamiento para tener una idea de su rendimiento.

### Transformando los datos

In [None]:
piped_data = flights_pipe.fit(model_data).transform(model_data)

### Dividir antes de modelar

In [None]:
training, test = piped_data.randomSplit([.6, .4])

# Modelo de ajuste y selección

Una ves limpios los datos y con la estrectura adecuada para correr modelos con Spark, veamos como ajustar un modelo con PySpark.

In [None]:
# Import LogisticRegression
from pyspark.ml.classification import LogisticRegression

# Create a LogisticRegression Estimator
lr = LogisticRegression()

### Validación cruzada

Ajustará su modelo de regresión logística mediante un procedimiento llamado validación cruzada k-fold. 

Este es un método para estimar el rendimiento del modelo en datos no vistos (como su testDataFrame).

Funciona dividiendo los datos de entrenamiento en algunas particiones diferentes.

El número exacto depende de usted. Una vez que los datos se dividen, una de las particiones se reserva y el modelo se ajusta a los demás.

Luego, el error se mide contra la partición retenida.

Esto se repite para cada una de las particiones, de modo que cada bloque de datos se mantiene y se usa como un conjunto de prueba exactamente una vez.

Luego se promedia el error en cada una de las particiones. Esto se denomina error de validación cruzada del modelo y es una buena estimación del error real en los datos retenidos.

¡Utilizará la validación cruzada para elegir los hiperparámetros creando una cuadrícula de los posibles pares de valores para los dos hiperparámetros elasticNetParam y regParam, y utilizando el error de validación cruzada para comparar todos los diferentes modelos para que pueda elegir el mejor!

La validación cruzada nos permite medir el error de validación en el conjunto de pruebas.

### Crear el evaluador

Lo primero que necesita al realizar la validación cruzada para la selección del modelo es una forma de comparar diferentes modelos.

Afortunadamente, el pyspark.ml.evaluation submódulo tiene clases para evaluar diferentes tipos de modelos.

Su modelo es un modelo de clasificación binaria, por lo que utilizará el BinaryClassificationEvaluator del pyspark.ml.evaluation módulo.

Este evaluador calcula el área bajo el ROC.

Esta es una métrica que combina los dos tipos de errores que puede hacer un clasificador binario (falsos positivos y falsos negativos) en un número simple.


In [None]:
# Importación del submodulo
import pyspark.ml.evaluation as evals

# Creación de BinaryClassificationEvaluator
evaluator = evals.BinaryClassificationEvaluator(metricName="areaUnderROC")

### Hacer una cuadrícula

A continuación, debe crear una cuadrícula de valores para buscar cuando busque los hiperparámetros óptimos.

El submódulo pyspark.ml.tuningin cluye una clase llamada ParamGridBuilder que hace exactamente eso (¡tal vez estás comenzando a notar un patrón aquí; PySpark tiene un submódulo para casi todo!).

Deberá usar los métodos .addGrid() y .build() para crear una cuadrícula que pueda usar para la validación cruzada.

El .addGrid() método toma un parámetro de modelo (un atributo del modelo Estimator, lr, que creó hace unos ejercicios) y una lista de valores que desea probar.

El .build() método no toma argumentos, solo devuelve la cuadrícula que usará más adelante.

In [None]:
# Importación del submodulo
import pyspark.ml.tuning as tune

# Cuadrícula de valores
grid = tune.ParamGridBuilder()

# Agregamos hiperparametros
grid = grid.addGrid(lr.regParam, np.arange(0, .1, .01))
grid = grid.addGrid(lr.elasticNetParam, [0, 1])

# Cuadricula para usar valores
grid = grid.build()

### Hacer el validador

Con lo anterior definido, lr (modelo), grid (cuadricula con hiperparametros) y evaluator (evaluador del modelo en este caso curva ROC)

El submódulo pyspark.ml.tuning también tiene una clase llamada CrossValidator para realizar validación cruzada.

Esto Estimator toma el modelador que desea ajustar, la cuadrícula de hiperparámetros que creó y el evaluador que desea usar para comparar sus modelos.

Creará al CrossValidator pasarle la regresión logística Estimator lr, el parámetro grid y el evaluator que se creó.

In [None]:
# Creación del Crossvalidator

cv = tune.CrossValidator(estimator=lr,
                         estimatorParamMaps=grid,
                         evaluator=evaluator
                         )

### Ajustar el modelo (s)

¡Finalmente está listo para adaptarse a los modelos y seleccionar el mejor!

Desafortunadamente, la validación cruzada es un procedimiento computacionalmente intensivo.

Ajustar todos los modelos llevaría demasiado tiempo, para hacer esto localmente, usaría el código:

In [None]:
# pasando los datos de entrenamiento a la validación cruzada
models = cv.fit(training)

# extracción del mejor modelo
best_lr = models.bestModel

Recuerde, se llaman los datos de entrenamiento training y los está utilizando lr para ajustar un modelo de regresión logística.

La validación cruzada seleccionó los valores de los parámetros regParam=0 y elasticNetParam=0 como los mejores.

Estos son los valores predeterminados, por lo que no necesita hacer nada más lrantes de ajustar el modelo.

In [None]:
# llamar lr.fit()
best_lr = lr.fit(training)

# imprime el mejor best_lr
print(best_lr)

Una métrica común para los algoritmos de clasificación binaria, llamada AUC , o área bajo la curva.

En este caso, la curva es el ROC, o la curva de operación del receptor.

¡Todo lo que necesita saber es que para nuestros propósitos, cuanto más cerca esté el AUC de uno (1), mejor será el modelo!

Si ha creado un modelo de clasificación binaria perfecto, ¿cuál sería el AUC? 1

### Evaluación del modelo

In [None]:
# usando el modelo con los datos test
test_results = best_lr.transform(test)

# evaluando
print(evaluator.evaluate(test_results))